イベント / EVENT

平成25年度 第5回 Q&A

第5回 2013年10月17日(木)

社会基盤としてのオープンデータ~ みんなで作ろう、使おう、オープンデータ ~
武田 英明 (国立情報学研究所 情報学プリンシプル研究系 教授)

講演当日に頂いたご質問への回答(全38件)

※回答が可能な質問のみ掲載しています。

本日の資料(PowerPoint)は、オープンデータですか?

データではありませんが、発表資料(PowerPoint)はCCライセンスで公開します。
http://www.slideshare.net/takeda/open-lectureopendata02o

この市民講座のデータはオープンデータにはしないのですか?

データではありませんが、発表資料(PowerPoint)はCCライセンスで公開します。
http://www.slideshare.net/takeda/open-lectureopendata02o

ライセンスの話が出たが、多くの種類があり過ぎて難しい。国際的にもっと整理する動きはないのでしょうか?

今日はお話ししませんでしたが、データに関わるライセンスとしてはODbLといったものもあります。Creative Commonsではデータに関するラインセスを統合して次期のライセンスを作るようです。

データのopen化と情報公開に係る規制に関係する犯罪との制約等 問題点。

オープンデータを使った犯罪というのはいまのところ聞いたことがありません。ただ今後そういうケースはありえるでしょう。オープンデータではありませんが、米国ではtwitterのtweetを読んでこの家族が旅行にいっていることを知って泥棒にはいるというケースがあったそうです。ウキリークスの例はオープンデータの考え方を極端にしたアブユースといえるでしょう。

LODのメンテナンス、継続性(アクセス可能性)を保証するための方策や考え方、ガイドライン等があれば教えていただきたい。

LODのメンテナンスは難しい課題です。実際公開されているSPARQL Endpointのうち利用可能なものは実際には25%ぐらいしかないという報告もあります。ここはまだ研究途上です。

文書のWebが普及したようにDATAのWebが普及するためにキーとなるのは何でしょうか?

いわゆるキラーデータ、キラーアプリはないと思います。メジャーなサービスがLODに対応することにより徐々にLODが裏側のデファクトになっていき、知らない間に皆さんが使っているという状況になるではないかと考えています。

オープンデータそしてLODの発展、理想形と特定秘密保護法の制定への動きに問題は無いですか?

LODの対象はまずはすでに何らかの方法で公開されているデータを対象にしています。これらのデータだけでも膨大かつ有用です。公開の機微と問われるデータはとりあえず考える必要はないと考えています。

データが最新か(鮮度)を見分ける方法を教えてください。

データカタログサイトで更新情報があればそこが手がかりとなります。また、データセットにもメタデータとしてデータ作成年月日を書くことができるので、このデータがあることを確かめることがよいでしょう。

オープンデータとオープンガバメントの共通点と相違点を教えてください。

オープンガバメント施策の3つの柱としては、透明性、参加、協同だといわれています。オープンデータはこの中の透明性に関わります。またオープンデータは必ずしも政府のだすデータだけを対象にするわけではありません。

オープンデータを使って作成した資料の著作権は、どの段階(加工程度)で発生しますか?

著作権に関する事項は法律家でないので断定的なことを申し上げられませんが、著作権はそもそも
「思想又は感情を創作的に表現したものであって、文芸、学術、美術又は音楽の範囲に属するもの」
と定義されています。加工についても同じです。著作権についてはこのあたりに平易に書いてあるのでご参照ください。
http://web-tan.forum.impressrd.jp/e/2012/12/20/14156/page%3D0,3

オープンデータの不用意な、または悪意による修正からどのように守ることができますか?

「データを守る」というのは難しいです。そうではなくて、正しいデータを示すことにより、どのデータが正しいかを示すということが重要です。このためには元データを永続的にアクセス可能にすることが必要です。

文書や発言(たとえば議事録、講演録)の一文・ひとつの「発言」を使用したりするのはどうなのか?また、発表データのごく一部を使用するのは、どうなのか?たとえばマスコミが報道するには、その形態しかないと思われる。しかし、著者や発言者が、「取扱い方が自分の意図と異なる。」と意義を申し立てることが非常に多い。保護法下ではさらに使用抑制されるであろう。

質問12番目の回答をご参照ください。

あるオープンデータが再利用・再発付された際のオリジナリティの保持(データの値、内容が改変されていないこと)は、どの様に保証されているのでしょうか?場合によっては、CC-BYのデータが作者のクレジット付きで、オリジナルとは異なった内容で流通されることもあるのではないでしょうか?(例:東電の計画停電の予定やエリアのデータがオリジナルと違って、誤ったデータとして流通してしまうリスク)

質問12番目の回答をご参照ください。

最新のデータが簡単に利用できるようになると、今まで気づかなかった物も見えてきたりする期待があります。一方で、簡単にアクセスできるデータは改ざんされていたりするセキュリティ上の懸念が生じます。どこにアクセスすれば安全なデータを入手できることが保証されるのでしょうか。

質問12番目の回答をご参照ください。

『クラウド時代のセキュリティ』 と『オープンデータ』のつながりについてお教えください。

セキュリティとオープンデータは基本的に関係し合わないでしょう。前の質問にあったように、「データを守る」というのはオープンデータでは原則的にできません。

オープンデータが間違っていた場合の指摘するフィードバックの流れや訂正した事を利用している人達、サイトなどへアナウンスする、もしくは、それを利用者が察知する仕組みはすでにありますか?

大変重要なポイントですが、今のところ特定の技術・方法はありません。現在はオープンデータの公開者が利用者を知ること(どこで自分が公開したデータを使っているか)自体が難しいです。

必要以上のコストということは有料もありですか? 原材料ということは、どこかで付加価値がついて有料化 可ですか?

実費的な費用を分担することは否定しません。が、分担の方法が難しいです。個別にというよりはコミュニティや社会全体で負担するというが現実的ではないかと思います。

議会局のホームページのデータを利用して議員の成績表を作りたいと思っている(例えば質問回数など)のですが、そもそも議会局はデータを出したがりません。(政務活動費のPDF化など)このような問題をどう思われますか?

法律的に担保されていないと義務として要求するのは難しいですね。これは議員・議会に働きかけて、彼らを変えていくしかないと思います。

鯖江は、東京と比較して若い人が少ないと思うが、アプリを使いこなしている人は、どれだけいるのでしょうか。アプリを使ったことで、利益が得られた市民講座、あるいは、データを公開したことで具体的なメリットを鯖江市が得られたのかどうかについて、全く情報がないので、教えてもらいたい。

短期的な効用となるとなかなか難しいです。鯖江市のオープンデータの狙いなどについては、以下の記事が参考になると思います。
http://engineer.typemag.jp/article/opendata-sabae

オープンデータをすすめる上で、公開する人の負荷に合うインセンティブがひつようと思います。政府公共以外ではなかなかそのようなインセンティブは働かないと思いますが、何かインセンティブとしてアイディアはありますか?

インセンティブは重要な問題です。全体的な傾向としては、将来はデータをオープンにしないと信用されない(データはクローズドよりオープンが信頼できる)とようになると考えています。
短期的には、フリーミアムはある種のインセンティブでしょう。フリーミアムとは、あるところまでは無料だけどそこから先は有料だよ、というサービス等のビジネスモデルです。このときデータ提供型サービスであれば、その部分はオープンデータになるわけです。

オープンデータを活用する側にも目ききが必要かと思います。目ききの育成、またそのような人の意見をPRするようなことは必要でないでしょうか。

これもいい指摘です。データの目利き、データキュレーターは養成は必要ですし、将来の社会の重要な役割を果たすと思います。

オープンデータを使って発生した損害や事故の責任については、どのように考えればいいでしょうか。

法律問題ですので断定的なお答えはできませんが、一般的にはオープンデータの公開によって責任を負わされる状況は考えづらいと思います。オープンソースソフトウエアの利用と同じです。

現在LODでデータを公開しているシステムでは、どのようなアプリケーションを使用されていますか?

RDFを公開するのは jena, sesameなどが多く使われます。RDF StoreとしてはVirtusoやOWLIMが有名です。

公開するデータセットについて、利用しやすくするために、他と揃えた方がよい様式等はありますか?

データのスキーマはなるべく共有した方がいいです。よく使われるスキーマとしては Dublin Coreや foafといったものがあります。

DB Pedia, オープンストリートマップ等、インターネットで不特定多数の有識者が編集する記事は、どの程度信頼できるものですか?

信頼の度合いといのは難しいですね。Wikipediaについては現在の社会の認知度が一つの指標となるでしょう。古い記事になりますが、
「Wikipediaの情報はブリタニカと同じくらい正確」--Nature誌が調査結果を公表 http://japan.cnet.com/news/media/20093147/
という記事があります。ご参照ください。

LinkedDataで利用するSPARQLエンドポイントはLODでどのくらい普及していますか?

紹介したLOD Cloudでは427個のSPARQL Endpointが登録されていているようです。そのSPARQL Endpointが実際利用可能かのかの調査結果もあります。
SPARQL Web-Querying Infrastructure:Ready for Action? (英語論文) http://www.deri.ie/sites/default/files/publications/paperiswc.pdf

配布された先生のプロフィールで「ノルウェー工科大学」とあるのが、目をひきました。ノルウェーはオープンデータ当の先進地なのでしょうか?

残念ながら関係ありません。ノルウェー工科大学にいたのはずいぶんと昔でそのころは別の研究をしていました。ノルウェーはいいところです。

現在話題になっている「機密情報保護法(?)」案 との対応はどうなっていくのでしょうか?本来、公開すべきなのに、自身が不利になる内容のデータ、情報を最も隠したがり、場合によっては上記の法律を駆使して内密にするのは、政府・役所・大企業等だと思いますが・・。

私見ですが、あまり関係しないと考えています。現在にすでになんらかの方法で公開されているあるいは使われているデータが当面の対象です。それでも多種多様、大量のデータがあります。機密などの機微に関わるデータの公開に関わらないでもできることが沢山あります。

社内の論文データをRDF形式で、公開することを検討しています。ただ、せっかくRDFで公開してもユーザが望む形式でなかったら利用が進まないのではと心配です。
・RDF形式で公開する際には、どういった利用が考えられるのか、という点をかなりしっかり考える必要があるのでしょうか?
・あるいはそういった利用ケースをそれほど考えなくてよい、ということがRDFの利点なのでしょうか?

論文そのものは人間が読むという目的ではRDF化するメリットは少ないです。ただし、論文に含まれるデータをRDF化して機械可読にすることは研究成果の検証や再利用といった面で価値があります。データ論文などにおいては重要です。

オープンデータ化、LOD化が進むと、データは処理しやすくなるが、それを分析して、新しい視点や気づきを得て、新しいサービスを生み出すことはできますか?その力の育成方法がありますか?

王道はないでしょう。でもマッシュアップ・アプリケーションを沢山作っていくことでみえてくることを期待しています。また別質問で答えましたが、データの目利き、データキュレーターを養成するはデータの利用の促進においては重要です。

政府が出すデータはすでにバイアスやフィルターがかかっている可能性が高いので、生データを公開してほしいが、その可能性はありますか?

それは国民、市民からの働きかけによるでしょう。G8でオープンデータ憲章が採択されています。日本の政府もそこにかかれているように「基本はオープン(オープンバイデフォールト)を推進してくれると信じています。

オープンデータ(もしくはLOD)の公開は、現時点では人力ですが、将来的には、自動的にセンサなどから行われるようになるのでしょうか?その場合、データが爆発してリンクが破たんする可能性は考えられますか?

それはあり得ます。ただ、そうなったらそれに適した新しい技術が作られるでしょう。

オープンデータを使って作ったデータを商用に使ったりする場合、そのデータについてもオープンライセンスや機械可読フォーマットにする必要はありますか?

CC-BY-SAのライセンスの場合、同じライセンスを継承する必要があります。同じフォーマットでないといけないかというのは面白い質問ですが、CC-BY-NDでない限りフォーマットを変えても問題ないでしょう。

オープンデータに呼応して、例えば業種別、行政サービス別のオントロジーを統一して、クラウド上に標準Apiとして公開するような動きはありますか?

統計データに関しては国際的に共通の語彙を整備しています。国内では鉄道などの交通データを共通に提供しようという動きがあります。また、今年から情報処理推進機構では共通語彙を整備するというプロジェクトを始めました。データをクラウドにおくかとかはあまり本質的はないでしょう。むしろどこにどんなデータがあるかというカタログを整備することが重要です。

オープンデータ+Personal データの活用基盤を作ったとき、 OPT-IN、 OPT-OUT いずれの方が、現在の市民の理解力(IT リテラシー、プライバシー)にマッチしているとお考えでしょうか?

興味深い質問です。原則としてはopt-inであるべきですが、目的とデータの種類によるでしょう。

オープンデータがすすむと、ランキングや比較サイトができて、どの自治体に住むのが一番得か、わかってしまうと思います。価格 com やAmazonのように・・・。そうなった時、損する自治体も出てくると思う(人口流出 → 税収減)のですが、それでもオープンにさせるための正または負のインセンティブはどのように持たせればよいと考えていらっしゃいますか?
また、そのような情報へのディジタル デバイド発生への対策について教えて下さい。

その通りで、短期的には現状より不利益をえる関係者もあるでしょう。しかし、共有されるべきデータができていないのは不自然であり、デジタル時代においてはいずれは共有される状況になるので、そういった"既得権益"を永遠に守ることはできないので、結果は同じでしょう。現在の自治体の状況はまさにopt-inで、参加したい自治体のみが参加しています。多分、そのうち参加しない方が不利益になるという状況ができるでしょう。デジタル世代にとってはアマゾンにない本は存在しないと同然となっているの同じで、オープンデータがない自治体は考慮の対象にならない、といった状況もありえるでしょう。

行政、第三セクタなどが、どのようなデータを収集しているのかや、またどのように収集したのかが明らかでないことによる弊害が生じるのではないだろうか。オリジナルデータが偏ったものであるとき、それを分析したことによる問題があるのではないだろうか。つまり、データがどのような状態を表わしているかをどのように検証されていくか、行政と市民との問題課題意識が必要となるのかと考えます。公開されていないデータを見出すことができるようになるのかと考えます。しかし、情報公開および個人情報との関係について、どのように考えていますでしょうか。

オープンデータで公開されれば、第3者が検証することも可能になります。もしデータがバイアスが掛かったものであれば他のデータとの比較でそのバイアスがわかることもあるでしょう。隠れたデータも他のオープンデータをつないでいくうちに存在に気づくかもしれません。制限をつけないで公開するというは、そういうことも含めて自由につかっていいということです。
今はオープンデータは個人情報に直接関わる必要はないと考えています。そういう機微に関わるデータ以外にもオープンデータにすべきデータは沢山あります。

shimin 2013-qa_5 page2527

注目コンテンツ / SPECIAL