イベント / EVENT

平成30年度 第5回 Q&A

第5回 2018年11月20日(火)

リアルデータの「共同利用」
-あなたの情報が学術研究に!?でも大丈夫-

講演当日に頂いたご質問への回答(全48件)

※回答が可能な質問のみ掲載しています。

大量データはどのように保存されているか。 例)クラウド上?自身でストレージを用意?

センターが管理するIDR専用のサーバに保存しています。

個人データを削除する場合など、大量データからどのように検索して、どのように処理しているのか。 例)全文検索エンジン(ORACLE)など

データセットの整備は原則として提供企業が行っており,その手法の詳細は開示されていません。

映像データベースはなぜ提供終了となったのでしょうか?需要はかなりあると思いますが。

「映像処理評価用映像データベース」については,ここ数年の新規利用申請の状況や既存利用者からの利用報告に基づき,データ提供元の担当者と協議して決定しました。

P16、17 データや研究成果がオープンになるのに、企業はデータのクリーニングをしなくて平気なのか?(情報がもれてしまうのでは?)

IDRから提供しているデータセットは,インターネットを通じた一般公開を含めて,何らかの形で第三者提供されている情報に由来します。共同利用にあたっては,この第三者提供よりも厳しい利用条件を課していますので,さらなるクリーニングが必要になることはありません。

IDRで取り扱う「リアルデータ」の信頼は確認しているのか?例えば、複数の異なるデータセットの集まりであり、同一のトピックに、矛盾するデータが記述されていることがある場合、どういう対処をするのか?

IDRでは現実のデータをできる限りそのままの形で研究者に提供することを基本方針としています。矛盾や偏りのあるデータが現に存在するのであれば,それら自体やそれらの処理手法も研究対象になり得ますので,データに手を加えることはしていません。IDRとしては,各データに関する知見を集積し研究者に提供することで,データの適切な取り扱い方法が共有されることを期待しています。

多変量解析を行う場合、データの選択には注意が必要だが、そのような配慮なしにデータを取り扱うことに問題はないか?

前の質問にて回答

利用できるデータの総容量はどの程度になるのでしょうか?

配布している圧縮済のファイルの総容量は3TBほどです。

P24 色の濃さの違いはなんですか?

各都道府県における提供先の機関数が多いほど濃くしています。

海外の研究者にはデータ提供していますか?する予定はありますか?

データ提供企業の意向によりますが,ヤフーデータセットと楽天データセットについては正式に海外にも提供しており,その他のいくつかのデータセットについても準備を進めています。

外国の研究機関へデータを提供していますか?

前の質問にて回答

今後データを提供してもらえそうな・もらいたい 企業・サービスはどんなものがありますか?

提供側との兼ね合いもあり具体的にお示しすることはできませんが,これまでとは性質の違うデータについてもいくつか相談をいただいていますので,ご期待いただきたいと思います。

今後データとして追加する予定のデータはどういうものがありますか? 例)音声:コールセンターの音声など  映像:ドライブレーダー画像など

前の質問にて回答

研究者の利用目的は学術研究目的に限る、というような規定はあるのですか? 政治的/商業的利用は禁じているのですか?

IDRから提供するすべてのデータセットは,覚書や利用規約の規定により,利用目的を研究に限定しています。

海外の研究者はどのようにデータを入手しているのか、各国でのデータ管理と研究者への提供事情について回答ください。

データの入手については,研究者は特に制約は受けませんので,国内外では違いはないと考えられます。一方,データの提供については国によって事情が異なるようです。以下は経験的に知り得た範囲での印象であることをご了解ください。欧米では主題ごとのコンソーシアムが共同利用的なデータ提供を行っている例がいくつかあり,特に欧州で活発ですが,IDRのように主題を限定しないものは見当たりません。一方,米国では大手IT企業などが共同利用的なデータ提供を直接している事例がありますが,日本では見当たりません。近年では,コンペティションサイトを活用してデータ提供を行う事例が欧米の企業を中心に増えているようです。 法規制については専門的知識がないのでお答えできませんが,経験的には,米国では企業が直接データを提供する傾向が強く,欧州ではコンソーシアムや公的性格を有する連携機関がデータを提供する傾向が強いという印象を持っています。

「共同利用」の海外状況は?特に、欧州と米国の考え方や法規制などの相違について

前の質問にて回答

今、研究目的として興味があるデータセットがあれば教えてください。

IDRとしては,分野やタイプを限定せず,あらゆるリアルなデータに興味があります。

自分の情報がどこで、どのように使われているのかを知る権利、自分の情報を削除する権利について、IDRはどのように対処するか教えてほしい。

IDRから提供しているデータからは個人を特定できませんので,IDRが個人に直接対応することはできません。このため,削除する権利に関しては,第一義的にはデータ提供者である企業等に対応していただき,企業等からの要請があれば,利用ルールに基づいて,データセット利用者に削除や差替等を実施していただくことになります。一方,知る権利に関しては,請求内容に応じて,データ利用者や提供企業との契約及び法令に基づき対応をすることになります。

個人の情報の削除要求があった場合、どのように対応するのですか

前の質問にて回答

データ提供先について、データの利用期間を定めているのでしょうか。また、利用終了後のデータ削除について、どのように担保しているのでしょうか。特に研究者の転・退職や学生の卒業に伴い、管理者不在やデータ行方不明にならないための措置をどのように行っているのでしょうか。

データセットの提供にあたっては,原則としてデータ提供先の研究機関との間で利用契約を締結しまが,その中で研究代表者名や利用者の範囲,利用ルール,利用期間や利用終了時の取扱などを定めています。利用者からは年1回,利用状況とともに,研究代表者の異動や研究グループメンバーなどを報告してもらうことで,データの管理者や所在を確認しています。万が一,報告の提出がない場合は利用を終了させ,利用契約に基づいてデータの削除と削除証明書の提出をしていただきます。その際,研究代表者本人と連絡が取れない場合は,所属機関に対処していただきます。

個人情報保護のための匿名化はどの程度行われているのか?

データセットが由来するサービス等の規約類に準拠して削除または匿名化を行っています。規約類が不十分な場合は,IDRから規約類の改定を企業に提案し,改訂後の規約類に基づいて取得され適切に処理されたデータのみを受け入れるようにしています。

データ提供の前に研究目的内容の審査はあるのか?

利用者,あるいは利用申請書に記載された利用目的や利用方法が,データ提供者との契約で定めた条件に適合しているかどうかを審査しています。

IDRの運営費用はどこから出ているのか?

IDRの運営は国立情報学研究所の予算で,また,データの整備は提供企業の負担で行われています。研究者への提供は無償で行っています。

IDRの運営費用は誰が負担しているのか?企業のデータ提供費用、大学の利用費用は?データクレンジング費用は?

前の質問にて回答

「日本の著作権は研究に寛容」とありましたが、これは「著作権」を「研究」に利用することを想定しておらず、明記されていないのか、きちんと「研究利用」という記述があるのか・・・どちらなのか気になりましたので教えてください。

著作権法において「研究」が明記されているわけではありませんが,「情報解析のための複製」が著作権の制限として規定されており,情報学におけるかなり広範囲な研究が行えるようになっています。また,「著作権法の一部を改正する法律(平成30年法律第30号)」の第30条の4により,平成31年1月1日からは,さらに広範に「著作物に表現された思想又は感情の享受を目的としない利用」が認められるようになります。詳しくは http://www.bunka.go.jp/seisaku/chosakuken/hokaisei/h30_hokaisei/ などをご参照ください。

IDRにはたくさんのデータがあるみたいですが、今までIDRに対するサイバー攻撃などはあったのでしょうか?また、サイバー対策は行っているでしょうか?

IDRのデータ提供用サーバは,一般のWebサーバ等と同様,日常的にサイバー攻撃を受けています。詳細は開示できませんが,IDRのデータ提供用サーバは,ネットワーク的にも物理的・地理的にも日常的に使うPC等から分離し,十分なセキュリティ対策を行っています。

IDRをエコシステムとして考えると、データを提供する側(民間企業)へのインセンティブが必要と思います。どんなデータからどのような研究成果が出るかは千差万別なので、期待メリットの定式化は難しいと思うのですが、具体的にはどのように活動されているのでしょうか?事例ベースの紹介になりますでしょうか?

ご指摘の通り,現時点では,分析の基盤となるデータが未整備のため,事例ベースとならざるを得ません。目下,研究成果の収集・蓄積や共有のためのシステム環境整備を進めていますので,将来的にデータ提供の効果や貢献の指標化,ホットな研究テーマや研究者の可視化などが可能となると期待しています。

特許の登録、利用との関係はどうなっているのか?

データセットを利用して取得した研究成果は,データセットそのものの権利を除き,研究者に帰属することとします。従って,研究者による特許の登録には制限がありません。ただし,特許の利用については提供企業によって考え方が異なり,条件を設定している場合があります。

P27の成果、とは論文数の事。特許等の知財の成果も生じていると推察します。ところがP17 に「成果の情報がオープン」とあります。P22にて研究者と契約を結ぶ際に、成果物についての権利保有や、秘密保持契約は、どのように締結しているのでしょうか?

前の質問にて回答

IDR運営に関してデータ主体の信頼を担保する為には何をしているのか?(監査等)リクルートや住宅情報から職場や自宅等個人のプライベート情報を特定する危険性はないのですか?

自由記述の投稿文を含むデータの場合,そのような危険性がないことを保証することは不可能ですが,提供企業は法令や各社のプライバシーポリシーなどに則って適切にデータを処理しています。情報内容が明確なデータ項目(たとえば住宅情報の所在地など)については,データ主体が特定できないように情報の粒度を大きくするなどの処理を行っています。また,これらが法令や研究倫理に照らして妥当であるかどうかについて,NIIの研究倫理審査委員会にて審査を受けています。

AIの学習データとしては使われているのですか?

画像解析,自然言語処理,利用者行動など様々な応用においてAIに用いられています。

真に価値あるデータなら、必ずハッカーやサイバー攻撃の対象になり、また悪意を持つ者のスキルも加速度的に向上しいています。これに対して絶対大丈夫と断言できますか?

絶対ということはあり得ないと認識し,リスクを減らすよう努力しています。

個人情報保護法では、匿名加工情報を提供する場合、公表義務が提供側に課せられているが、IDRにデータを提供する企業が公表しているかも確認しているのでしょうか。

現在,IDRから提供しているデータはいずれも匿名加工情報ではありません。データ提供は,企業等が個人情報の取得時に本人から同意を得た提供先および利用目的の範囲でのみ行っています。

IDRのデータは、個人情報保護法の規定する匿名加工情報に当たるのか?

前の質問にて回答

GDPRや個人情報保護法への対応はどのようにするのか。

対応は多岐にわたりますが,基本方針としては,提供企業が個人情報を取得する際に,研究目的でIDRを通じて研究者に提供することを含む条件を明示し,同意を得ていることが確認できたデータのみを提供することとしています。

IDRに提供するデータの加工・整形はどこが行うのでしょうか。提供元の企業等でしょうか。

原則として提供企業において行っていただいています。

データを提供する企業のメリットは何でしょうか。

スライド16,17に記載したとおりですが,端的には,社会・学術貢献の可視化,学生などの関心誘引,業務上の課題解決や新技術の発掘,産学連携先の開拓などを,比較的低コストで行えることです。

提供しているリアルデータについて、医療に関するデータはありますか?もしなければ、今後提供される可能性はあるのでしょうか?

医療に関するデータは扱っていませんし,予定もありません。

つい先日、新聞で「情報銀行」の記事がありましたが、IDRの取組みとの相違は何になりますか?公共や商用、データ加工・保護の方法など教えてください。

情報銀行は,個人からの預託を受けて複数事業者の個人情報を集約・管理し,個人が指定した提供先や利用目的などの条件に基づき第三者提供する仕組みと理解しています。一方,IDRは,企業が特定のサービスや事業において取得したデータ(一部に個人情報を含む場合がある)を,その取得時に得た本人の同意の範囲内で第三者提供するものです。なお,情報銀行についての「公共や商用、データ加工・保護の方法など」についてはお答えするだけの知見を有しておりません。

情報銀行との連携は検討されないでしょうか。

将来的な可能性は否定しませんが,現状では検討を行えるだけの情報を得ていません。

なぜ今回提示されたサイト情報を選定したのでしょうか。サイトごとにクレンジングしているのでしょうか。

現在データを提供いただいている企業は,企業側からコンタクトしてこられた中で,利用規約やデータの処理に問題がないことが確認できたところです。

電気工学の先生がなぜこの分野に携わっているのでしょうか。

大学院の所属は電気工学専攻でしたが,その後も含め研究テーマは一貫して情報学です。

情報銀行が普及して、個人が自分のリアルデータのコントロール権を意識するようになると、研究のためにも自由にリアルデータが収集できなくなるおそれはないでしょうか?

そのような恐れがないとは言い切れませんので,成果を社会に発信して理解を得ることが重要だと考えています。

人間が関係しないデータは必要ですか?機械の稼働ログなど

情報学分野の研究者には入手が難しい貴重なデータですので,案件があれば前向きに取り組みたいと考えています。

リアルデータ→定義はあるのですか?定義の共通認識は持てるか?

今回の市民講座では,企業が実際のサービスにおいて取得し第三者に公開または提供しているデータをリアルデータとして取り上げました。定義についての共通認識というのは難しいと思いますが,現実の理解や現実への応用につながる研究には欠かせないリソースであるとの共通理解は可能であると考えています。

P52 幸いなことにユーザーに不安を与えるような問題はこれまで起きていません→これを決めるのはユーザーであり、研究者やIDRではないと考えます。

ご指摘ありがとうございます。今回は,私自身が一ユーザとして不安を感じるかという視点で評価を行いましたが,その点の説明が不足していたように思います。

P34 勝手に自分のデータが集約されるのはいや という点に強く同感します。

ご意見ありがとうございます。私自身も同様で,やむを得ない場合以外は可能な限り足跡を残さないように気をつけています。

そもそもP2-3のサービス利用者が今回ようなリアルデータ利用にどれだけ自覚的なのでしょうか。圧倒的にリテラシーの差があると考えます。

ご意見ありがとうございます。そのようなユーザも多いと思われますので,データ仕様や利用ルールはサービス利用規約などの規定よりも安全側に倒した運用を行っています。

調査に使用されるということそのものがデータをゆがませる可能性がある。特にこれが個人を特定しなくても、規制の必要性の根拠とされる場合は、ありうる。その行動が違法活動に関わる場合など

ご意見ありがとうございます。そのような「ゆがみ」が現実なのであれば,それを究明することもまた取り組むべき研究となりうると考えています。

shimin 2018-qa_5 page3452

注目コンテンツ / SPECIAL