粒子化データの利用事例
データ研磨によって得られるクラスタなどの粒子は、様々なところで使えます。以下、その例を紹介しましょう。
新聞記事
新聞記事は、それぞれの記事が、ある程度焦点のあった一つの内容について書かれていることが多いです。その内容は、ある事件についてだったり、政治のトピックだったり、社会問題だったりするわけですが、それらを「トピック」とよびます。世の中で何が起こっているのか、時代がどう変わっていくのか調べるには、記事自体を一つ一つ読むよりも、トピックを眺めた方が早くざっくりと理解できます。新聞記事は2つ以上のトピックを含む記事がそんなに多くない、ということもあり、異なるトピックについて書かれた記事はあまり似ていないことが多いと考えられるので、トピックを見つけ出すことはある程度簡単なように思えるのですが、実際には今までのクラスタリングアルゴリズムではうまくいかないことが多いものです。
新聞記事を比べる際には、記事を、記事に含まれる単語に分解して、その単語が似ているかどうかを調べる、という方法が一般的です。片方の記事が「経済、日本、今年、貿易、黒字」で、もう片方の記事が「日本、貿易、収支、経済、展望」だったら、共通する単語が3つもあるので似ている、という感じです(このように単語に分解したものをバッグオブワーズといいます)。このようにして作った記事データをデータ研磨にかけてみると、きれいにグループ分けができて、トピックが出てきます。女子ゴルフの記事、企業の業績予測、山での遭難、株式市場の報告、などなど、上手にまとまったものが出てきます。他の方法だと、すごく大きくて、いろいろな記事がはいったごった煮のようなグループができたり、2つの記事だけがくっついた、小さなグループが大量にできたり、株式市場の記事がいくつにも分割されてしまったりと、いいものができないのですが、データ研磨を使うと非常に良くトピックが見つかります。データ研磨の威力が見えるいい例になっています。
サイト分類
インターネット上には様々なサイトがあります。インターネット黎明期は、サイト分類というものがされており、Yahoo!などのポータルサイトが各社独自に行った索引付けを頼りに目的のサイトを探したものです。現在は、検索エンジンを使うことが多くなり、分類は廃れましたが、それでも面白いサイト、現在の流行などを把握したいときには有効です。
サイトを分類する際には、そのサイトの内容を頼りに分類することが多いでしょう。しかし、個人のブログなどは、そのブログを運営している会社のサイトとして、一つのサイトに分類されてしまうことも多いですが、ときに深い内容を擁していたり、何か定常的に情報を提供していたり、とまったく違うもので、かつ無視できないほど重要度が高いことがあります。これらを、サイトの様子から判断するのはなかなか難しいものです。トップページはアニメーションだけになっていて中身について中身が書かれていなかったり、同じ商品を紹介するサイトでも、書いていることが全然違うこともあります。サイトに書かれた文章でサイトを比較するには、そのサイトの内容を理解する必要があり、それは現在の技術では手が届かないほど難しいことなのです。
サイトが似た意味を持っているかどうかを知る方法の一つに、共通して訪れる人がいるかどうか、を見る方法があります。例えば面白いパズルについて書かれているサイトが二つあれば、その両方を見ている人がそれなりに多くいる可能性は高いでしょう。完全にわかるとは言いませんが、両方をともに見たことある人がたくさんいるなら、その2つのサイトは似た意味を持っている可能性があると思っていいでしょう。偶然、両方見た人がたくさんいる、ということもあり得ますが、似ているサイトを集めてグループを作れば、偶然にてしまったサイトが入り込んでくることはなくなります。
似ているサイトを調べた後、データ研磨を使ってグループ分けしてみたところ、興味深いグループがいくつも見つかりました。例えば、地震雲とおぼしき雲の写真を投稿するサイトがあって、そのサイトは、地震情報のサイト、地理情報サイト(日本列島のこの部分が年間5cmこの方向に動いた、といった情報がのっているさいと)と一緒のグループになっていました。確かに、地震を調べるという意味で共通するものがあります。サーフィン情報と、海洋天気予報、サーフィングッズのオンライン販売、というグループもありました。言葉上の意味は違いますが、何の興味に関連するか、という意味では似ています。オークションサイトとオンラインバンク、北欧の家具の輸入販売の会社がいくつか、ゲームとその攻略サイト、ポイントがもらえるアンケートサイトと化粧品、といったグループもありました。インターネットのサイトを、人の興味を軸に分類するとこうなるのだ、ということが見え隠れしていて、非常に面白い結果になりました。
インターネット広告
デジタル・アドバタイジング・コンソーシアム株式会社(DAC)は、インターネットに特化したデジタル広告ビジネスを統合的に展開している会社です。マーケティングにおけるデータ活用が本格化する昨今、DACは早期からデータへの取り組みにも力を入れており、効果的なマーケティングコミュニケーションを実現しています。
インターネット広告では、広告のクリック率、つまり表示した広告のうち、どれくらいの割合でクリックされるか、が大変重要な効果指標のひとつです。もちろん、広告を出せば出すほど料金がかかるので、興味のある人に見てもらうようにしなければコスト効率が悪くなってしまいます。インターネット広告はテレビの広告と違い、どのような人に対して広告を見せるか選べる出稿方法もあるので、なるべく表示した広告に興味を持ちそうな人に見せたいわけです。これは、ユーザにとっても重要で、興味の無い広告よりも、興味のあるものが多く出てくる方がうれしいでしょう。
ユーザの興味を知るには、個人情報を入手するのがひとつの手段として挙げられます。しかしコストの問題やプライバシーの問題をクリアしなくてはなりません。そこでDACでは、どの広告をクリックしたのか、どのWebサイトにアクセスしたのか、というデータ化された行動からユーザの興味を知る取り組みを行っています。
ここで課題となるのが、世の中のWebサイトの多様性です。さまざまなWebサイトが無数にあるので、似たものをグループ化しておくことで、ユーザの興味をより精確に知ることができるようになります。それではどうグループ化すればよいでしょうか。
どのようなWebサイトを見たか、頻度はどれくらいか、滞在時間はどれくらいか、ある程度の共通点を持つ二人が訪問するWebサイトは、ある種の共通性を持つと考えていいでしょう。これがグループ化の方針です。ただし、規模の大きい通販サイトやインターネットポータルサイトなどは、多くの人が見ており偶然共通することも多いのであまり参考にならないですし、病気について解説しているサイトや税金の計算方法などの情報を解説しているWebサイトも、用事があるから見たのであって、興味とは関係ないかもしれません。何を判断基準に同じグループとすればいいのか決めるのは難しいのです。
データ研磨によって、Webサイトをグループ化して粒子を作ることでこれが解決できます。2つのWebサイトに同じ興味を持つ人の訪問数が多ければ類似しているとしてこれらをグループ化します。たまたま、一般的な内容で、偶発的に共通するユーザが多い2つのWebサイトが類似していると判断されても、意味のないものとして排除されます。結果、複数のWebサイトがひとつのグループとして得られます。これを元にして、広告のターゲティングを行うことで各ユーザに、より適切にその人の興味にあった広告を配信できるようになり、最大でクリック率が10倍にも上がりました。
婚活
愛媛県の法人会に所属するえひめ結婚支援センターが運営する婚活支援サービス「愛結び」では、データ研磨アルゴリズムを使って、いいお相手の推薦を行っています。婚活サイトなどで結婚相手を探すとき、私たちはどうしても相手に対して条件付けをしながら探してしまいます。最初は条件が少なくても、検索にヒットする人が何百人もいると途方に暮れてしまい、ちょうどいい人数になるまで条件を付け加えてしまうものです。そうすると、必然的に美人・高収入・高学歴など高スペックな人ばかりが残ることになり、激烈な競争にさらされるため、いいお相手はなかなか見つかりません。かといって、条件をはずした大量の人の中からピンとくる相手を見つけるというのも大変な作業です。ほんとは、性格が合う、価値観が合う人を見つけたいのですが、そういう検索はまだまだ難しいというが現状です。
そこで、愛結びのデータを使って、なんとか人間性に近いアプローチができないかと考えました。ヒントとなったのは、人の好み。好みが似ている人は、価値観や性格も似ているだろう、と考えました。例えば、ある人がAさんのことを気に入ったとします。不幸にもAさんとはご縁がなかったとしても、もしAさんと好みが似ている、つまり人間性が似ているであろう人、Bさん、がいるなら、Bさんと会ってみるのは良いだろうと思われます。また、自分と好みが似ているCさんがいるとして、Bさんがその人に(お見合いを申し込むなどして)興味があるなら、自分にも興味がある可能性が高いと考えられます。このようにして、自分と似た人が好きな人、あるいは自分が好きな人と似た人を、この人はどうですか、とサイトが自分に推薦するようにすれば、上手に相手を選べるだろうと考えました。
好みが似ているかどうかを判断するには、気になった相手を登録しておける「お気に入り」の機能で登録している人、そのリストが似ているかどうか、あるいはお見合いを申し込んだ人のリストが似ているかどうか、で判断することにしました。例えば、Aさんのお気に入りのリストが(W、X、Y、Z)で、Bさんのお気に入りが(Q、R、S)さんだとすると、両者のお気に入りは全然共通するものがないので、これは似ていない、と判断します。Bさんが(Q、W、Z)のようになっていれば、共通している人が2人いるので、これは似ていると考えます。正確には二人のリストに含まれる人、5人の中で2人共通している、ということで、類似度は2÷5=0.4と考えます(Jaccard係数と言います)。
この類似性に基づいてデータ研磨で、好みが似ている人のグループを作り、グループの中から人をある程度ばらつきがでるように推薦するシステムを作り、愛結びの中に組み込みました。結果、通常ならばお見合いを申し込んだときに、お受けしてもらえて、お見合いが成立する割合(お受け率)が13%であるところ、この推薦を使った場合は29%に上昇するという、劇的な効果がありました。
婚活は、すぐに相手が見つかれば良いのですが、そうでない場合、あまり検索条件に頼ってはいけないようです。人間性が合う人を見つけたいけれどもうまく見つけられない、そういったところにも粒子化したデータが活用できるのです。
腸内細菌
人間の腸の中には、非常に多種の最近が生息しており、ある種の生物相を作っています。これを、腸内細菌叢(ちょうないさいきんそう)と呼びます。腸内細菌叢には非常に高い多様性があり、個人個人で大きく違うといっても過言ではありません。しかし、面白いことに、体質や疾病、生活習慣と、腸内細菌の有様は関連していると言われており、腸内細菌を見ることで、病気のリスクや、体質改善のための効果的な取り組み方を推測したり、と多くの可能性があります。従来の、血液検査などでは判断できない事柄にアプローチできるため、健康増進や医学的に大きく期待されている分野です。
腸内細菌と体質は、「ある種の細菌がいれば、何かがおこる」といった単純なものではないようです。いくつかの菌の組み合わさって、体の症状に効いてくるようです。ですので、原因となる菌を特定していくことは難しく、あまりはっきりとした原因となるような菌は見つからないようです。また、たとえば下痢をしやすい、という症状にしても、ストレス、生活の乱れ、などいろいろな原因が考えられ、それぞれ異なる菌が影響していると思われます。こうなると、一つの菌の量の増減となにかしらの体質や症状との関係を捉えるのは難しくなります。
腸内細菌の様相が生活習慣や体質と関係し、かつ多様性があるのであれば、そこにはきっとある種の典型的なパターンがあるでしょう。そこで、株式会社サイキンソーでは、腸内細菌の調査をしたユーザさんのデータを、データ研磨で調べてみることにしました。人々の腸内細菌の中で量が多い菌、つまりがんばって活動している「特徴菌」を調べ、同じような特徴菌を持つ人を似ているとみなしてグループ分けしてみます。その結果、非常にはっきりとした情報が見えてきました。腹痛が起きやすい人、下痢になりやすい人、生理不順の人、体質体調がいろいろありますが、それらの症状を持つ人がいくつかの特徴菌パターンを持つグループに分かれ、それぞれのグループが、偏食の人が多かったり、ストレスを抱える人が多かったりと、生活習慣や体調と大きな相関を持っていることがわかりました。
このような解析結果を使えば、体質改善をするために、何に気をつければいいか、適切に、効果的に助言できるようになるかもしれません。また、今後、もう少しデータが増えれば、それぞれ、偏食のグループなどが、どのような偏食なのか、典型的なパターンを持たずマイナーなパターンを持つ人などがわかってくると思います。体質改善のために取り組むべきことも、腸内細菌から細かく効果的なアプローチが考えられる時代が来るかもしれません。将来が大変楽しみな分野です。