ビッグデータの未来

世の中、いろいろな技術や言葉が現れ、ブームになっては、消えていきます。実際には消えているわけではなく、世の注目が他のものに言ったり、今までの技術が違う言葉でよばれるようになったりしているのですが。「IT化」という言葉がずいぶん前にブームになり、今ではあまり聞かなくなりましたが、飲食店や事業所では当たり前のようにコンピュータが使われるようになり、会計や事務を電子的にやることは当たり前になりました。これによって、データそろうようになったり、商売の仕方が変わったりと、その後の世界も大きく変わりました。わざわざIT化という言葉でよばれないくらい、コンピュータシステムの導入は普通のことになりました。

さて、ビッグデータの場合はどうでしょう?10年後、20年後に、ビッグデータを取り巻く環境はどのように変わり、技術はどのように進化するでしょうか。私たちの暮らしはどのように変わるでしょうか。全てを総合的に見通すことは難しいですが、わかる部分、大事な部分を個別項目ごとに予測してみたいと思います。

ディープラーニング(深層学習)

ディープラーニングは、簡単に言えば、70年代のニューラルネットを複雑に階層化したものです。画像や音声など、1次元、2次元の構造を持ったデータの認識問題に強いのが特徴で、大量のデータを必要とします。今後様々な事柄が、ディープラーニングによって認識、学習できるようになり、人間の知的活動の多くがコンピュータによって代替えされるだろうと言われています。果たしてこのような未来は来るのでしょうか。 それを考えるためには、まずディープラーニングの特性を知る必要があるでしょう。ディープラーニングのキーとなる考え方は「抽象化」です。ざっくり言えば、ものが写真であれば、4つの画素を一つにまとめ、またそれを1つにまとめ、という形で階層的なネットワークを作ります。このネットワーク、画像をだんだんぼかして抽象化していることに相当します。そのネットワークのどの部分をどれくらい見ると、上手にものが認識できるかを、大量の画像から学習するのがディープラーニングです。なので、データをどう抽象化するか、がわからないと、精度の高いディープラーニングは作れません。画像の場合、音声の場合は、ある画素やある音は、隣の音と関係が深く、周辺の音や画素が集まって何か意味を持つものになっていると、簡単に推測できるので、階層ネットワークが作りやすいのですが、他のものではそう簡単にはいきません。例えば、どの会社の業績が日本経済に影響を与えているのか、という問題では、どの会社が関係しているか、仮説を立ててネットワークを作らなければいけません。業種ごとにまとめればいいように思いますが、企業活動は業種だけに関わるとは思えませんし、やり手の社長がいるところ、のような形だと、とても企業の活動からは見えるものではありません。全てのつながりを含めると、ネットワークは巨大になります。このネットワークを最適に解くためには、超超大量なデータが必要になります。ディープラーニングでは、100万枚程度の画像が必要と言う話もありますので、きっと何兆、その何億倍ものデータが必要でしょう。残念ながらそんなに大量のデータは、そもそも存在しませんし、そんなに企業はいろいろな活動をしているわけではありません。このアプローチは不可能でしょう。 まとめると、ディープラーニングは、1次元、2次元的なデータを中心に開発が進むが、そこそこのところで限界が来るものと思われます。

プライバシー(個人情報保護)

ビッグデータの利用で、最もセンシティブな話題は、プライバシーでしょう。ここには、人々の意識、技術、政策、ビジネスなど、多くの要因が絡みます。1つ1つひもといていきましょう。

人々の意識

現在、日本ではプライバシーの意識はますます高くなっています。ヨーロッパでもその傾向は強いようです。逆にアメリカでは、あまり気にしない人々も多く、Webに自宅の場所をあげている人も多数いるようです。何が正しいというものはありません。感覚、議論がどうなるかという話と思います。たとえば、プライバシーデータがお金で売れるようになったら、好んでデータを提供する人が現れるかもしれません。

技術

人々が活動している以上、その活動の多くは他人から観測されます。顔認識が進化すると、Webで見られる写真すべてを検索して、Aという人物がどこに写り込んでいるかを調べることも可能になるでしょう。ゲノム情報だって、床屋で髪の毛を拾えばすべて手に入ります。こういった意味では、個人の情報を完全に守るセキュリティレベルを確保することは無理ともいえます。社会として、この問題をどの程度重要にとらえるか、というような議論が重要性を増していくでしょう。

政策

意外ですが、個人情報保護は国の利益に大きく関わります。たとえば病院から出る病気のデータは、新薬開発のための貴重な宝物です。これは誰のものか、と考えたときに、国のものである、という考え方も存在します。もちろん、自国の企業が強いビジネスにおいても同じでしょう。つまり、個人情報をどう守り、何を使ってよいかとするのは、国益に大きく影響するのです。世界的なルールを作ることは、各国の利益を大きく変えることになるため、国レベルでの交渉が行われる、そんなものになるのです。

ビジネス

商売の観点からすると、個人情報はあまり重要ではなくなるかもしれません。というのは、個人個人を直接ターゲットにするような商売は好まれなくなるかもしれません。なんかの病気になったとたんに治療薬の広告がばんばん出てくる世界は、あまり好まれないでしょう。このような、「完璧に個人に対応した商売」は気持ち悪がられますが、「自分の特性をうっすらと理解した商売」であれば、それなりに気が利いているな、と感じるでしょう。企業側も、個人個人にカスタマイズするより、ある種の特徴を持った人に同じことをするほうが効率は高いです。つまり、完璧な個人のデータではなく「みんなに共通な特徴」という、ちょっとぼけた統計データのほうが、企業としても使いでがあるわけです。これなら、厳密には、個人情報ではありませんね。病気のデータにしても、研究の際には、個人の完璧なデータがほしいわけではなく、その病気にかかった人に共通する特徴、がほしいだけなのです。なので、ビジネスにしても研究にしても、個人のデータをいじくり回す時代は終わりを告げるかもしれません。

センサの進化

センサは今後もどんどん進化していきます。半導体技術の進化に伴い、温度計やコンパスといったアナログのセンサまで、デジタルチップの上に乗るようになりました。今後もこの流れは続き、1チップで多様な大量のデータを取得できるものが登場するでしょう。価格が下がれば、ほとんどのものに万能センサが付く時代が来ると思います。今、多くの工業製品に、なんらかのコンピュータが乗っているのと似ていますね。 そこから発生する大量のデータは、その巨大さ故にためることさえできません。水の流れのように、簡単な解析をされ、珍しいもの、特徴的なものだけを残して、どんどん捨てられていくでしょう。そのときに利用されるビッグデータは、社会や生活の深い部分まで密接に関わる使い方をされるでしょう。

解析手法の進化

現在のデータ解析手法で、データの大まかな部分についてはだいたいのことがわかります。一人一人のデータを検索することはできますので、あと欠けているところは、中規模なもの、つまり多様性です。100万人の中から、同じような行動パターンの人の群れを見つけ出す、といったことです。1つ1つのグループは小さめ、100人とかで、「あそこにいた」「○○時に動き始めた」などわかりやすい理由ではくっつかないが、その共通性は高い、という人たちです。 こういった解析ができるようになると、データが一回り小さくなり、共通性だけを見ればよくなるので、意味解釈が簡単になります。因果関係や理由も推測しやすくなり、データを表示する可視化もやりやすくなります。今、データサイエンティストが悩んでいることがずいぶんと解消される、「データをわかりやすくできる」時代が来ると思います。(当プロジェクトでは、この技術を開発しようとがんばっています。多様性が作る塊を見つけ、それを可視化したり機械学習に使ったりして、データ解析の精度とわかりやすさをあげるのが目標です)

ビッグデータで働く人

データサイエンティストの不足が叫ばれています。データを解析し、意味を見いだし価値につなげる人材が不足している、ということです。根本的に困ったことのように語られていますが、私は大きく2つのポイントがあると思っています。 1つは、あるデータ(金融データ、ゲノムデータなど)には強いが、他のデータには弱い人ばかりであること。データをいじっていれば、なんとなくこうなりそうだ、こういうアプローチがいいだろう、ということがわかってきます。しかし、それが金融の世界がわかっているから、というような理由であれば、他のデータへの対応は難しくなります。そのデータの分野をしっかり理解しないといけませんので。一方で、「どのデータにもある程度共通の性質」というのもありまして、たとえば薄いか密か、ばらばらか集まってるか、多様性や類似性はあるか、というような点なのですが、こういう点からデータを見る人は、どんなデータでもある程度の見通しを立てられます。こういった、いわばデータジェネラリストがいない、というのが、今の問題の一つだと思います。 2つめは、データ解析に定石がないこと。まだ、手法自体が発展途上なので、どのようなデータに、どのような場合に、どういう風に使うのか、万能性が高くてよい方法が確立していないのです。以上2つは、ときが解決する問題と思います。10年後には、データをぽんと入れればぽんととりあえずの結果がでる、きっとそんなよい状況になっているでしょう。 そうなると重要になるのは、解析結果をいかに価値につなげていくか。つまり役立たせるか、ということです。ここは、技術力だけでなく、視野の広さ、知識の豊富さに加え、発想力が重要になります。ビジネスモデルを作れる人、いい研究課題を見つけられる人、と言ってもいいでしょう。隠れてはいますが、私はこれが一番の問題だと思っています。ビッグデータは様々な要因を含むため、1つのデータから100の価値が生まれると言います。しかし、実際には100もの価値が出た例などほぼありません。現在でも、けっこういい解析ができる人がたくさんいるにも関わらず、です。つまり、解析の難しさ、データサイエンティストの不足が問題なのではなく、価値につなげる人がいないのが、本当の問題なのだと思います。 価値は、人の心が決めるもの、つまり主観(気持ち、こだわり、趣味などの考え方)が必要です。主観の強さを考えると、日本は、大衆文化がとても深く、企業においても現場の人がそれぞれの主観を高めつつオペレーションを行い、人々の力、現場の力がとても強い、つまり主観の力が大きいのです。しっかり地面に足をつけた活動をしていけば、この現場力がビッグデータの利用を高みにあげていく日がきっと来ると思っています。

解析結果発信の時代(データ解析2.0)

さて、データ解析が簡単になり、だれでも手に入れられるオープンデータがたくさんある世の中になったら、何がおこるでしょう? だれでも簡単にビッグデータが解析できますので、きっといろんな人、ビジネスや研究だけでなく、趣味として行う人も、それぞれの視点から切り込んで、様々なデータを解析する時代がくるでしょう。 ブログが生まれたとき、人々は情報発信を始めました。写真が投稿できるようになると、様々な写真を投稿するようになりました。今では、絵や音楽の作品、小説、意見、プログラム、日記、ほんとに様々なものを発信しています。データ解析の結果も、確実に発信されるでしょう。それは多くの人の目に触れるはずです。世界に様々な影響があるでしょう。 影響は、議論の形が変わる、評価の仕方が変わる、世論の形成が変わる、ものの見方が増える、など多岐にわたるでしょうが、原因はただ1つ、根拠ができるから、です。政治の公約が嘘っぽく見えてしまうのなら、掲示板での議論が水掛け論になるなら、それは根拠がないからです。データ解析は、一面だけではありますが、そこに根拠を与えます。また、今まで見えなかったものを見せてくれます。あの政策は良かったのか悪かったのか、次の政策は何をすべきか、落とし穴はどこにありそうか、見落としているところはないか、そういったことを、市民が発信するデータ解析の結果が明らかにしていく時代が来るでしょう。議論からは誹謗中傷が消え、根拠のない独断の発言は減ります。成熟した議論ができ、より良いものを作り出せる時代になるでしょう。 現在でも、スポーツの分野は、比較的この状況に近いと思います。サッカーや野球では、ボールポゼッション率や打率など、様々なデータを提供し、スポーツについて語る人は、そのデータに基づいて発言をしています。データから面白い事実を見つけ出して、新しい視点を広めている人もいます。こういった世界では、じゃれあいでなければ、変なことを言う人はいませんし、そういう意見が受け入れられることもありません。早く、このような時代が来てほしいものだと思います。