イベント / EVENT

平成21年度 第8回 Q&A

第8回 2010年2月17日(水)

膨大な文書の処理技術
--テキストの山を斬って見えてくるものは?--

高須 淳宏(国立情報学研究所 コンテンツ科学研究系 教授/主幹)

講演当日に頂いたご質問への回答(全50件)

※回答が可能な質問のみ掲載しています。

・画像検索とテキストマイニングの関連や違い、
・ビジネスや産業界でのテキストマイニングを応用した最新事例について教えてください。

一般に、画像もテキストも計算機で扱いやすいようなデータに変換して処理することになります。テキストは単語の集合として扱われることが多いのですが、画像の場合は別のデータに変換されます。画像検索では問い合わせに用いられた画像やテキストに類似した画像をデータベースから取り出されますが、テキストマイニングでは、データベース中に頻繁に現れるパターンや類似データのクラスタなどが抽出されます。現在テキストマイニングはかなり広い意味で使われることが多く、ブログなどを対象としたトレンド分析ツールや電子メールのスパムフィルタなどもテキストマイニングの一種と考えられます。

今回、テキストに関するお話ですが、音声、画像に関するマイニングも重要だと思われます。テキストマイニングとの技術的な共通点、音声、画像ならではの課題について教えてください。

音声や画像では音声信号や画像ビットマップから内容にかかわる特徴を抽出する必要があるため、テキストマイニングで使われる単語による特徴と比べ、その抽出が難しくなります。マイニングの目的にもよりますが、特徴抽出後は画像、音声、テキストともに類似の技術を適用することができます。

(1)テキストマイニングや潜在トピックの抽出において、正しい情報の検出確率や誤った情報を検出する確率を表す指標はあるのですか?(信号処理だと、検出確率と誤警報確率(Fake Alarm Rate)のようなもの)
(2)上記のような検出確率を調整するパラメータ(Threshold)はあるのですか?

テキストマイニングでは、さまざまな情報を抽出することを目的としており、その情報の正しさも問題によって異なります。多くの場合は人間がその正しさを評価する必要があります。問題にもよりますが、情報検索と同じようにrecallやprecisionを用いて抽出の精度を測ることがよく行われます。

テキスト処理を考えると主題や内容が同じか似ているかは判断できると思いますが、主張の方向が同じか?全く逆の方向の主張か?ということを判断できるのですか?

主張の方向性を判断することは大変難しい問題です。類似した問題として、たとえば、評判分析においてレビューが肯定的か否定的かを文章から判断するといった研究がおこなわれていますが、高い精度で判断を行うためには、さらなる研究が必要と考えています。

多文書要約の手順について教えてください。(パソコン上実際に扱う場合)
1.手書き文書をスキャンする
2.ソフトを開く(ソフト名:  )・・・

文書要約にはさまざまな方法があります。ご紹介した方法は、重複部分文字列検出に基づいた重複箇所の抽出と重要文の選択を行っています。文書要約については、たとえば、以下のような解説書もでていますので、参考にしていただければと思います。奥村、難波著「知の科学 テキスト自動要約」、オーム社、ISBN 4-274-20042-6

文書要約への応用事例で、形態素解析→重要度→要約となっていましたが、このマッチングエンジンの応用として文書の分類は可能でしょうか?
例:ブログ記事全体を分類

形態素解析によって語を抽出するプロセスは同じですが、重要度については分類というタスクに効果的な語をみつけることになります。この処理はテキスト分類ツールが行うことになります。

ニュース記事におけるトピックトラッキングについて、ニュース記事は、時事通信社がニュース記事を作成し各新聞社がそこから記事内容を抽出して記事を出しています。
各新聞社の記事を集めてまとめて要約文書ができるとしても意味が薄いのではないでしょうか?

ご紹介しました多文書要約は、各記事の内容で他の記事にはない新たな情報(e.g., 各新聞社で追加した情報など)を抽出することを目的のひとつにしています。さまざまな記事から重複を省きつつ情報を集めることができると考えています。

言語表現はデータと比べてファジーであり特定しにくいと思います。そのファジーな表現についてコンピュータはどこまで解析できているものなのでしょうか?

ご指摘のとおり言語表現には曖昧なところがあり、その曖昧性を解消することがテキストを処理する上で重要になります。同義語や類義語の辞書を用いたり、紹介しました潜在トピックを用いる方法など、さまざまな研究がされています。

(1)この技術を使って、Webから小説をつくれますか?
(2)Googleもこの技術を使っていますか?

紹介した技術は要約の対象となる複数の文書に含まれる文を組み合わせるもので、小説の執筆のように高度に知的な活動を自動化することを目的としたものではありません。また、この技術は私たちの研究室で考案したものですので、Googleで使っているものとは異なるものと思います。

統計処理用のツールや辞書作成、カテゴリを反映させるとすぐ結果が見れるツールなどが出回ると、楽しいのではと思うのですが、あまりそういった文化が広まらないのはなぜですか?

統計処理ツールや辞書はいくつか利用可能なものがあると思います。また、最近は研究者も積極的にソフトウェアを公開するようになっており、研究者の間では成果を共有するになっています。それらのツールを簡単に組み合わせる環境が整備されていないのがひとつの原因でしょうか。

インターネット上の掲示板やチャットから反社会的行為(テロ、殺人etc.)を事例に察知する技術は確立していますか?(ある程度の精度で)

テキスト分類技術などを使って候補となるテキストを抽出することが考えられますが、精度の問題は残ると思います。

形態素解析文章の文法も含まれていますか?
文法をコンピュータに理解させているのでしょうか?

文法を用いるものとして構文解析ソフトウェア(parser)があります。

ソフト分野の進歩は日進月歩で素晴らしいです。ただハードウェアも同様に進歩が目覚しいのですが、特に記憶装置容量が巨大化するにしたがって、破損した場合の損失が大問題です。現存RAIDなどのbackup法もありますが、システムに見合う信頼性は十分でないこともあるように思われます。ハードウェア面の信頼性についてどのようにお考えでしょうか?

ハードウェアの信頼性は大変重要な問題と考えています。ご指摘のraidディスク装置に加えてネットワーク上で情報を分散管理するソフトウェア技術の研究も進められています。システムの可用性を高める技術の研究は着実に進められていると思います。

潜在トピックの技術はWikipediaの語彙リンクと同じ仕組み、または応用ですか?

Wikipediaのリンクは基本的に執筆者がつけていると理解しています。紹介しました潜在トピックの抽出技術は文書が述べているトピックを自動的に抽出することを目的としていますので、両者は目的も方法も異なったものと考えられます。

Googleの検索エンジンの特徴について教えてください。
今回の内容との関連などを中心に。

Googleなどの検索エンジンは、ページ間のリンク情報を効果的に利用しています。今回は、リンク情報を用いない技術を中心に紹介しました。

文字列マッチングをする際、単語間の区切り(特に平仮名が多い文)、同じ単語でも漢字、平仮名で書かれている場合に、どのように区別できるのでしょうか?

ご紹介した文字列マッチングは文字レベルで比較しますので、平仮名で表記されたものと漢字で表記されたものは別のものとして扱っています。

文字列マッチングにかかる時間(計算量)は入力ビットに対して、どれくらいのオーダーでおさえられるのでしょうか。

ご紹介したシステムでは、入力テキストの各接尾辞に対して接尾辞配列の検索をしています。接尾辞配列の検索には二分探索が行われますので、データベースに含まれるテキストの長さをnとして、O(log(n))の計算を行っています。

SPLOGの判定は用語の共起頻度を調べるほうが精度が向上するのではないでしょうか?
用語空間がスパースになるような気がします。

紹介した手法は、splogにはコピーコンテンツが多く含まれているため不自然に長いコピー文字列を検出することでsplogを見つけようとするものです。用語の共起頻度をどのように使うかにもよると思いますが、共起頻度に基づいた手法では、情報検索やテキスト分類と同じように内容の類似したsplogではないテキストも抽出される可能性が高いように思います。

多文書要約で作った文書(学生レポート)のコピーの割合を見た場合、単純なコピーで作った文書に比べて、コピー率はどうなりますか?
多文書要約で作成された文書がネット上にあふれてくると、その文書か、また多文書要約にかけられたりして、要約や重要度に偏りが出てきたりはしないでしょうか?

ご紹介した学生レポートについては、多文書要約技術を用いて作成したものがありませんので数値的な比較はおこなっておりません。学生レポートの中には稀ですが、ほとんどすべての記述がコピーされているケースがある一方で、部分的なものに留まっているものもあり、一概に比較はできないようです。また、自動生成された文書がWeb上に増えるとご指摘のような現象が起こる可能性があり、自動生成文書に対処を検討する必要がでてくるかもしれません。

Wikipediaからのコピー問題
機械的なコピー/フレーズの分析では、学生が正規の手続きで"引用"した場合もコピーと見なしてしまうのではないでしょうか?
300人のレポート×4.3GBのWikipedia
比較にどの程度の処理時間が必要なのでしょうか。

ご指摘のとおりです。ご紹介したものでは、引用符などの処理をしておりませんので、コピーとみなされます。実用的な観点からは、システムはコピーされている可能性が高い部分の抽出やコピー率の高そうなレポートを教員に知らせ、コピーかどうかの判断は教員が行うことを想定しています。また、処理時間に関してですが、まず、Wikipediaの記事については、事前にインデクスを作成します。次に各レポートについて"コピー文字列"を検出する処理は、デモでお見せしたように数秒程度です。

Wikipediaからのコピーの解析の箇所(スライド11、12)において、
コピー割合(スライド11)は60文字以上の共通文
フレーズ割合(スライド12)は30文字以上の共通文
としていますが、この文字数(60文字、30文字)とした根拠をご説明ください。

さまざまな文字列長で共通部分文字列抽出を行い、今回用いたデータセットで特徴的なケースを紹介したものです。

先輩にWikipediaは「間違っているという前提で使うべし」といわれましたが、その自己批判、修正能力にはどれくらい期待できるものでしょうか?

Wikipediaに限らず、情報の信頼性は大変重要な問題です。WikipediaはWeb上の情報の中では比較的信頼性の高い情報と思いますし、信頼性を高めるための努力が続けられています。一方、利用者の観点からは、間違っている可能性があることを前提にクリティカルな情報を探している場合は、他のソースにもあたってみることが必要かと思います。

Wikipediaなどからコピーしている割合を調べることができるツールで、フリーで利用できるものがあったらご紹介ください。

ご紹介したものは、接尾辞配列(suffix array)という技術を使用しました。ツールはPowerPointの資料に記載されていますので、ご参考になさってください。

「潜在トピック」に関する入門書を紹介してください。

潜在トピックは比較的新しいテーマで私の知る限りではまだ入門書は出版されていないと思います。電子情報通信学会等の学会誌に解説記事がでています。

ニュース記事からのトレンドマップ抽出(デモ)」において、長期的にトレンドマップを作成されていることがわかりました。話題の継続期間、もりあがり状況がよくわかりました。そこで、
・新しい話題(トレンドの始まり)のキーワードはどのように拾い出しているのでしょうか。
・人が手作業で設定しているのでしょうか。
・スライド7ページにあるような方式で自動的に切り出しているのでしょうか。

紹介しましたトレンドマップの抽出には、潜在トピック抽出技術を使っています。この方法では、テキストストリーム中に含まれるトピック数を指定すると、各トピックごとに代表的なキーワードを自動的に抽出します。

一般市民が理解し、活用できる内容だと思い参加しました。私の参加目的は、テキストマイニング技術と類似テキストを効率よく検出する技術を、仕事やプライベートで活かすことでした。
本日の講演内容を、どう活用できると思われますか。

テキストマイニング技術はテキストを分析するためのさまざまなツール群として使用することになると思います。統計パッケージのようなイメージです。統計処理も同じですが、どのような解析をしたいのか、どのような情報を抽出したいのかによって使い方が決まると思います。

shimin 2009-qa_8 page2587

注目コンテンツ / SPECIAL