プログラム
以下、プログラムです。 その他、マイニングをはじめとする列挙・組合せのプログラムは宇野毅明と有村博紀による公開プログラム(コード)にてダウンロードできます。 どれも世界最高速レベル、通常のアルゴリズムに比べてときには100万倍以上高速です。
- SIMSET
- データ研磨を用いたグラフクラスタリングアルゴリズムです。ネットワークの中から、濃い部分を見つけ、クラスタとして出力します。コミュニティや似たものの集まりを見つけるのに使います。多様性の高いデータから、多くの細かいクラスタを見つけるのに適しており、データ集合型のデータベースであれば、似ているものを見つけて自動的にクラスタリングしてくれます。
- SIMSTR
- 文字列データベースから、似ている文字列がどことどこにあるか、調べて、よく現れる文字列(正確に現れずとも、似たものが現れていれば良い)を見つけ出します。今までの方法では10文字くらいのパターンしか見つけられないところ、500文字以上の長さのパターンを見つけることもできます。
- LCM
- 頻出集合マイニング(パターンマイニング)です。お客さんに頻繁に一緒に買われる品物の集合、購買、移動、故障などが起きる前に起こるイベントの組合せなど、そのままでは見えにくい組合せを網羅的に見つけてくれます。
- MACE
- 極大クリーク列挙です。グラフからコミュニティを見つけたり、特徴を共有するクラスタを見つけたりするときに使います。
- SSPC
- 集合型のデータの比較をします。各項目が、お客が買った商品の集合、発言している遺伝子の集合、普通とは違う値を示している計器の集合、のように、ものや属性の集合になっているデータから、どの項目とどの項目が似ているかを調べ、似ている項目の組をすべて調べ、全体像を明らかにします。
事例
- えひめ結婚支援センター(愛媛県少子化対策事業)
- お見合いマッチングサイト「愛結び」の中の、「ビッグデータのおすすめ」機能に、データ研磨アルゴリズムが使われています。 お見合い受け率を、13%から29%に大きく向上させることに成功しています。
- D.A.Consortium Inc.
- データ研磨アルゴリズムを用いた、ターゲッティング最適化手法が、連結子会社の株式会社プラットフォーム・ワンにて利用されています(ニュースリリース)。 ターゲッティングの効率が最大10倍良くなっています。