国立情報学研究所(所長:坂内正夫(さかうち まさお)以下、NII)と国立国語研究所(所長:影山太郎(かげやま たろう)以下、国語研)およびヤフー株式会社(代表取締役:井上雅博(いのうえ まさひろ)以下、ヤフー)は、「Yahoo!ブログ」のデータの一部を日本語コーパスとして公開、そしてWeb上の利用者発信情報(以下、CGM (Consumer Generated Media:消費者生成メディア))を対象とした情報検索、情報分析、情報活用などの研究および現代日本語のコーパス言語学的研究促進のためのガイドラインを発表しました。 ウェブの普及にともない、増大を続けるブログなどのCGMの研究利用は、現代日本語の研究や、情報爆発から新しい価値を汲み出すために研究データとして注目される一方、個人情報保護の観点から研究利用に関する困難さが指摘されています。特に、ブログは個人の意見や個人の特定に結びつく可能性のある表現が多く含まれるため,その適切な取り扱いに関するガイドラインの重要性が増しています。 NIIと国語研及びヤフーは、平成20年度よりNIIの東倉洋一副所長を中心に、研究利用に関するガイドラインの研究グループを発足し、WEB上の大規模CGMであるヤフー株式会社「Yahoo!ブログ」を事例として、コンテンツ生成者であるユーザが安心できるデータ利用に関するガイドラインについて研究して参りました。 ガイドラインに沿って作成したデータの一部(500万語)を国語研から一般向けに日本語コーパスとして公開を開始いたします。 NIIからは、研究者向けのデータとして提供を開始いたします。 ブログは、誰でも自由に情報発信を行うことができ、論説から独り言までを含む、世の中を反映する鏡のようなものです。ブログが社会に及ぼす影響も日々増大し、言語学、国語教育、日本語教育、辞書編集、自然言語処理、さらにはブログの実態把握や意見分析、話題分析を通じたマーケティングや世論調査などへの利用の可能性も広がっています。 NIIの東倉洋一 副所長を中心としたNII、国語研、ヤフー株式会社および東京大学大学院情報理工学系研究科(以下、東大情報理工)などの研究者グループの共同研究の成果は、ブログを研究に利用するためのガイドラインとしてまとめたことです。本ガイドラインは、今回の国語研及びNIIからのブログデータの公開と同時にNIIより公開を開始いたします。今回のガイドラインが発表されたことにより、コンテンツ生成者であるユーザおよびデータを利用する研究者が、安心して提供・利用できる環境を整えられます。 なお、今後の展開として、NIIでは、ヤフーより提供された「Yahoo!ブログ」の全データ公開のための共同研究プロジェクトを発足し、今回作成したガイドラインに沿ってデータを処理した上で、研究者向けデータとして、H22年度公開に向けて活動をします。
|