「コーパスの構築・利用と個人情報保護」についての
オンライン公開研究会を実施しました
2023年2月17日(月)に、「コーパスの構築・利用と個人情報保護」についてのオンライン公開研究会が行われました。
前半では筑波技術大学の菊地浩平氏「人文学研究での個人情報保護対応の経験から」、国立国語研究所の小磯花絵氏「『日本語日常会話コーパス』構築・公開の経験から」の2つの話題提供がありました。
後半では東京大学の宍戸常寿氏、KDDI総合研究所の加藤尚徳氏も交えてディスカッションを行い、フロアからもさまざまな意見が出されました。
【ダウンロード】
菊地浩平氏の発表資料
小磯花絵氏の発表資料
「人文学研究での個人情報保護対応の経験から」 菊地浩平(筑波技術大学)
「言語相互行為における手話と身振りを対象とした身体記号学」でのコーパス構築と公開に向けて、個人情報保護とどのように向き合い対応するかということが現在課題となっていると菊地氏は語りました。そして過去の個人情報保護に関わった経験から問題点を整理し、今後の課題についても述べました。
菊地氏が所属するのは当該研究領域のデータ統合班にあたり、他の研究を担当する3グループと共同で、マルチモーダル記号論や身体記号学といったものも含めながらコーパスの構築を目指しています。菊地氏によれば、コーパスの構築と利用は「集める」「作る」「公開・利用する」という3つのフェーズに大きく分かれ、各フェーズで個人情報保護が関わりますが、特に重要となるのは「集める」「公開・利用する」のフェーズであるとのことです。
このコーパスには音声会話・手話会話が含まれ、収集するデータはコミュニケーションの場面が対象です。手話の場合は手の動きだけではなく、口の開きや目の開き、眉の上げ下げなどの表情も分析のための重要なデータとなります。それらの膨大な映像や音声情報を整理し、アノテーションを付与してコーパスを構築し公開することを目指すということでした。
よって、個人情報保護の目的で研究協力者の顔にぼかしを入れる等の画像処理を施すと、必要な言語情報が失われる可能性がある。音声処理にしても個人名等の情報を匿名化すると、その個人名の母音やアクセント情報などが損なわれてしまうので(「たかはし」を「さとう」にする等)、対応として個人名の母音を活かしたまま匿名化をする例もある(「たかはし」を「さかざき」にする等)。一概に個人情報を消せば問題がなくなるというわけではなく、匿名化をしづらいデータを集めていると問題点を挙げました。また、当該研究の場合、映っているものすべての情報が研究の対象となるので、ローデータを損なう処理は避けたいという研究者側からの要請もあると語りました。
このように匿名化をしづらいデータを集めて構築したコーパスを公開・利用するにあたり重要になるのは、研究協力者と個人情報の取り扱いに関してどのような内容で合意に達するかになります。過去の小規模なプロジェクトでは、データの保管方法、誰が何の目的で使用するか、どのような使い方か、使用期間、対応が必要な際の解決手段や連絡先などの項目を提示し、合意内容が検討されてきたそうです。
しかし、今回は大規模なプロジェクトであることや、構築するコーパスの特性などにより以下の新たな懸念点等が挙げられました。
●個人や小規模チーム単位での研究の場合だと、研究活動全体を把握しやすいので個人情報に対する考え方や扱い方の意思統一がしやすくなる。さらに人数が少ないことでデータへのアクセスをコントロールすることも難しくはなくセキュリティ面もリスクが低い。一方でデータへ不特定多数がアクセスする場合どのような事態が起こるのか想定が出来ていない。しかもこの研究(学術変革領域B)のように期限付きの場合ではどうなるのか。
●個人情報も含むデータを適切に扱っているかどうかを研究者の独断で決められない場合、ディシプリンか、法律か、あるいはその両方を根拠として判断すべきなのか。
● 法律上は個人情報の利用目的の変更は合理的な範囲で認められているが、誰が合理性を判断するのか。
● 各組織の倫理審査委員会で個人情報保護対応について判断が分かれる場合や、運営の方法が異なる場合、どこで何をどう集約すればよいのか。する必要があるのか。
今回のような大規模なプロジェクトの場合、小規模プロジェクトをすすめるときとは違う視点を持ち意識を変えていくことが必要であるが、どのように変えていくべきかという悩みがあると菊地氏は語り、この話題提供を締めくくりました。
「『日本語日常会話コーパス』構築・公開の経験から」 小磯花絵(国立国語研究所)
小磯花絵氏は『日本語日常会話コーパス』の構築と公開に関わってきた経験から、個人情報保護に関する考え方、基準、そして対策に関して実例をもとに話題提供を行い、情報共有の重要性についても語りました。
『日本語日常会話コーパス』には調査協力者40名を中心に日常生活の多様な場面、多様な場所による会話と映像が200時間収録されています。このコーパス作成にあたって、映像データの収録・公開に伴う倫理的・法的問題について検討するため1年半の準備プロジェクトが必要だったと言います。準備プロジェクトでは、調査協力者のプライバシー権、肖像権、個人情報保護法に関する問題がとりあげられました。
肖像権侵害について研究者が判断することは非常に難しいので、小磯氏らは法律家の助言や判例などから判断の基準や方法に関して検討をすすめました。そして判断をするための目安として、被撮影者の社会的地位、被撮影者の活動内容、撮影場所、撮影目的、撮影の態様、撮影の必要性という6つの要件があると小磯氏は述べました。これらの要件を総合的に見ることで肖像権侵害にあたるかどうか判断し、対応してきたとのことです。
個人情報保護法には3つの義務「利用目的の特定・通知」「安全管理措置義務」「第三者提供の制限」があります。これらを遵守する上での具体的な対応例として、説明文書・同意書・オプトアウトの書類に加え、それらに記載されている内容をわかりやすく説明したチラシも一緒に調査協力者に渡したことや、同意書作成時に注意すべき点について話しました(「…などの個人情報」と書かず対象を明示する、データの提供先の情報や、どのようなデータを提供するのか、ローデータにどのような加工をするか、しないか等も明記する)。
また、同意書の範囲外の個人情報で本人が公開を希望しない箇所以外はそのまま公開していいのかという問題に関し、まずどのような性質のデータなのかを理解した上で慎重に扱うべきだと述べました。そして、ヒアリングを行い意志の確認をしたことや、公開を望まない場合の処理方法等、慎重に対応した事例も挙げられました。
コーパスの公開にあたり、音声データ・映像データ・ローデータの公開について契約を交わすことが重要であり、禁止事項等も明確に記載しておくことや、契約書の他に利用ガイドラインなども作成し配布することが望ましいと述べました。
小磯氏は、それぞれ関連する法律や権利に基づいて適切に対応することや、同意書の文言作成を慎重に行うこと、同意を取得する際に適切な方法をとることやオプトアウトの機会を設けることの重要性を強調しました。そして、今までのやり方をまとめて公開・共有していくことも大切であり、この研究会はそのような活動の一環と考えていると述べ、発表を終えました。
ディスカッション
その後、早稲田大学の牧野遼作氏を進行役に、話題提供者の菊地氏と小磯氏に加え、東京大学の宍戸常寿氏が『オープンサイエンスのためのデータ管理基盤ハンドブック』にかかる検討会座長代理として、KDDI総合研究所の加藤尚徳氏も同検討会事務局として参加し、議論をすすめました。
宍戸氏と加藤氏は話題提供を受けて、個人情報保護、肖像権、プライバシー保護の観点から人文系の研究者が適切な配慮をしつつ進めている印象を持ったと述べました。研究協力者からの理解や信頼を得て研究をすすめるというプロセスがシームレスにつながっており、様々な場面で他の研究にも応用できるようにするとよいのではないかと宍戸氏は語りました。加藤氏もまた協力者との関係性を悪くしないための工夫が随所に見られたと述べました。
宍戸氏と加藤氏は国立情報学研究所による、『オープンサイエンスのためのデータ管理基盤ハンドブック』の作成に関わっており、研究者が抱える研究遂行上の課題等を吸い上げ、今後ハンドブックの改良に役立てていきたいとのことでした。そこで、ハンドブックの更新にあたり、データ利用について「もう少し攻めた研究利用」をしてもよいのではないかと加藤氏が述べました。小磯氏は大変共感が持てる意見であり、権利や法律の遵守はもちろん重要だが、それによって学問が妨げられることや、研究者が怯えてしまうことがないよう、勉強をしていくことが必要であると述べました。
フロアからは、一部の国で実施されている手話を記録し、表示はアバターにするという方法はどうかとの意見がありました。それに対して菊地氏は、アバターなどを作るための元になるデータを集めている段階にあり、現在の状況では難しいと述べました。宍戸氏は協力者の顔や身体を使用せずデータを公開することで肖像権の問題はクリアできる。ただし、身体あるいは動きの特徴量を抽出しデータ化することで特定の個人を識別できるデータ、すなわち個人情報であるとみなされる可能性があり、安全管理措置や個人データの第三者提供規制など対応を求められることになると語りました。
菊地氏は姿勢推定などを使い身体の動きを含めて似たようなデータをさがすことをしたいがその場合はどうかと質問をし、宍戸氏はその程度であれば個人情報にはならないが、全身を使っていると個人が識別される可能性が高くなると回答しました。そして先に加藤氏や小磯氏が話したように研究目的であればリスクを十分に理解し適切な対応をしていくことが必要であると述べました。さらに、加藤氏が特徴量を抽出するにしても目的や利用法により区別して議論する必要がでてくると、顔認証システムやEUでの議論を例に挙げ説明をしました。
菊地氏はこれらの話をうけ、当該研究領域のように期限付きのプロジェクトであっても継続して情報を公開でき、安心して利用ができるプラットフォームを作っていく必要があると語りました。宍戸氏はこのようなデータを安全に提供し、共有や利用ができる場所を様々な研究分野で、もしくは複数の分野を横断するような形で作っていかないとせっかく作られたコーパスが活きてこないと述べました。
ほか、フロアから、個人情報に関わるデータを収集し公開する際に、研究者側が個人情報保護法などを気にするあまり協力者との関係に悪影響を及ぼすケースがあるというコメントがあり、そういった状況を避けながら同意を取る方法について質問が出ました。重要なのは、何が起きるだろうかということをある程度理解した上で同意をとらないと、法的に説明不十分であったとみなされ、説明義務違反で責任を問われることになりかねない。小磯氏が発表で述べたようにチラシや動画等のツールを駆使して説明をし、同意を取ることが重要であると宍戸氏は述べました。ここでは説明の重要性と協力者との関係を良好に維持することの難しさが共有されました。
以上のように、今後の研究と個人情報保護をどのように両立させていくかについて、様々な角度から議論された大変有意義な研究会でした。