プログラム

以下、プログラムです(配布元: Program Codes of Takeaki Uno and Hiroki Arimura)。 どれも世界最高速レベル、通常のアルゴリズムに比べてときには100万倍以上高速です。

SIMSET
データ研磨を用いたグラフクラスタリングアルゴリズムです。ネットワークの中から、濃い部分を見つけ、クラスタとして出力します。コミュニティや似たものの集まりを見つけるのに使います。多様性の高いデータから、多くの細かいクラスタを見つけるのに適しており、データ集合型のデータベースであれば、似ているものを見つけて自動的にクラスタリングしてくれます。
SIMSTR
文字列データベースから、似ている文字列がどことどこにあるか、調べて、よく現れる文字列(正確に現れずとも、似たものが現れていれば良い)を見つけ出します。今までの方法では10文字くらいのパターンしか見つけられないところ、500文字以上の長さのパターンを見つけることもできます。
LCM
頻出集合マイニング(パターンマイニング)です。お客さんに頻繁に一緒に買われる品物の集合、購買、移動、故障などが起きる前に起こるイベントの組合せなど、そのままでは見えにくい組合せを網羅的に見つけてくれます。
MACE
極大クリーク列挙です。グラフからコミュニティを見つけたり、特徴を共有するクラスタを見つけたりするときに使います。
SSPC
集合型のデータの比較をします。各項目が、お客が買った商品の集合、発言している遺伝子の集合、普通とは違う値を示している計器の集合、のように、ものや属性の集合になっているデータから、どの項目とどの項目が似ているかを調べ、似ている項目の組をすべて調べ、全体像を明らかにします。