CREST データ粒子化による高速高精度な次世代マイニング技術の創出

粒子化データの利用場面

このようにデータ研磨で得られるグループ分けなどの粒子データは、どのような場所で使えるのでしょうか？基本的に、粒子化が狙っているものは、大量のデータの抽象度をちょっと上げること。グループ分けで言えば、データを男女に分ける、5,6個に分ける、といった全体的なものではなく、もっと少人数が集まってできるグループを見つけ出すのが目的です。こういった分析は、いったいどういうところで使うべきか、どういう困ったことがあるときに役に立つのか、ということを解説します。

最初に、データ研磨を使うべきデータについて。まずは多様性が高いことでしょう。身長や体重のように、分布が正規分布にしっかりはまり、身長低い人高い人がどれくらいいるのか、体重が増えるのはどういう理由か、ある程度わかりやすいようなデータには、こういうことをしてもあまり意味がありません。逆に、人間の好みや行動などのように、ある種のパターンはあるが、みんなそのパターンに完全に乗ってるわけではない、というようなデータが向いています。宇宙観測のデータでも、星一つについてのデータは、ある程度どうしてそうなるのか予測がつくのですが、大量の星のデータを見るときには、やはりきれいに分布せず、ムラのようなものがあり、それが多様性を生んでいます。このように、いろいろなものがある、たくさんのグループに分かれそう、あちことに、規模は小さいが異なるパターンがありそう、というようなデータに対して、粒子化データは威力を発揮します。

粒子の直接的な使い方としては、「直接見てみる」というものがあります。100万人のデータはとても見ることができませんが、粒子化して数百の単位までまとめ上げれば、ある程度の細かさにも目を配りつつ、全体的な状況が把握できるようになります。また、個別の粒子自体も、世の中にどのような個性があるのかを知るには、役に立ちます。個人のデータ、個体のデータを見ると、その個人個体だけが持つものが目立ってしまい、ある程度の一般性を持つ個性、趣味とか、ライフスタイルとか、が見えてきません。粒子にすると、「ミステリーが好き」「朝ご飯は和食系」といった、適切な抽象度を伴って個性を理解することができます。データ分析の結果をそのまま何かのシステムに入れて使うのではなく、インスピレーションを得たい、理解したい、というときに、粒子データはむいています。マーケッティングで、顧客の理解をして、新しい市場開拓をしたい、新しい商品を考えたい、病気の原因が何か、あたりをつけたい、仮説を作りたい、といった、人間の創造性、つまりアイディアを出す助けとして使う場合には、高い効果を発揮するでしょう。

粒子を使うと、原因の理解もしやすくなります。何かの商品を買った人々をグループに分け、それぞれを粒子と思って見てみれば、なんでその商品を買うに至ったかがわかりやすくなります。また、普通の人々と一緒にグループ分けすると、同じような人たちの中で、その商品を買った人と買ってない人に別れるわけで、その違いがどこにあるかを見れば、商品を買うことになったトリガーのような原因がわかるでしょう。また、グループを、商品を買った人の割合で並べれば、良く買ってくれるのはどういう人で、そうでない人はどういう人かもわかってきます。このようにして、粒子の単位で原因を調べると面白いことがわかってきます。

機械学習などの解析アルゴリズムは、時に計算のコストが大きく、属性がたくさんあるとまともに計算できないことが良くあります。典型例として、オンラインショッピングのサイトなど、大量の商品を扱うところで、顧客の購買履歴の分析をしたい、というようなときがあげられます。ある商品に興味を持ちそうな人を探したい、こういう嗜好を持っている人を見つけたい、と思っても、商品が多すぎて、どれをどう組み合わせたらうまく予測できるのか、計算しきれないのです。特にオンラインショップなどの場合、100万人のうち10人程度しか買ってない商品、というものが大量にあるわけで、そのような商品だけでは「この商品を買った人はきっとこれに興味がある」という予測が立てられたとしても、あまりにもこのルールに当てはまる人が少なく、役に立たないのです。このような場合には、商品の組合せを使って粒子データを作り、それらを機会学習用の属性として使うのが良いです。粒子の数はもとの商品数よりはるかに小さくなりますし、一つ一つの粒子が関連する人の数も大きくなり、よって、計算コストが小さくなり、予測の精度も上がることが期待されます。また、ルールが得られたときに、粒子化されたときに理解しやすくなります。個別の商品がいくつも集まったルールで記述されると、なにがなんだかわかりませんが、少数の粒子の組合せであれば、理解もやさしくなるのです。

ある程度共通性のあるものが知りたい、個人個人だけが持つ個性は知りたくない、という状況を、もう少し深く考えると、人間は得てしてデータからある程度の一般性を持つものだけがほしいのだな、ということがわかります。逆に考えると、個性が強すぎる、例外のようなデータは、こういう分析をする際にはいらない、ということになります。これはデータをすべて保存しなければいけない、と思われがちなビッグデータの扱いに、新しい扱い方を提示できるでしょう。つまり粒子化してある程度抽象化したデータを保存しておけば、データ解析にはそれで事足りる、と考えられると思います。また、個性が消えるということは、同時にプライバシデータがなくなるということなので、その意味でも使いやすくなっていると思います。個人のデータを保存するのは、個性が見たいため。でも個人のデータをそのまま保存したのでは、将来的にプライバシデータ漏洩の危険がある。粒子化してデータを保存すれば、一般性を持つ必要な個性は保存しつつ、個人のプライバシに関わるような部分はデータからなくなるわけです。このように考えれば、大変な思いをしてプライバシデータを管理しなくても、マーケッティングなどの深い解析にも使えるような、個性がちゃんと見えてかつプライバシの心配がないデータを得ることができるのです。