イベント / EVENT

平成19年度 第7回 Q&A

第7回 2008年1月16日(水)

社会を探るデータマイニング
--データの山から新たな発見!--

市瀬 龍太郎(国立情報学研究所 情報学プリンシプル研究系 准教授)

講演当日に頂いたご質問への回答(全16件)

※回答が可能な質問のみ掲載しています。

データとは何ですか.

大辞林によると,「コンピュータの処理対象となる事実.状態・条件などを表す数値・文字・記号.」です.

マイニングとは何ですか.

英語で,鉱山から採掘することを意味します.鉱山から金を掘り出すように,データの山から有用な知識を掘り出すという意味で,データマイニングという言葉が使われています

データマイニングの研究はいつから始まったのですか

データから有用な知識を探す研究は古くから行われています.しかし,計算機を使ったデータマイニングの研究が本格的に行われるようになったのは,80年代の終り頃からです.90年代半ばになると,データマイニングの国際会議が開かれるなど,研究が盛んになっています.

データ分析とデータマイニングの違いは何ですか.クロス集計とデータマイニングの違いは何ですか.

厳密な定義はありませんが,一般的には,データの頻度を取るなど,データ全体の傾向を主に人間が介在して分析することをデータ分析と呼びます.クロス集計は,データ分析の一手法と言えるでしょう.一方,多量のデータから,主に機械的な手法を使って,知識を発見することをデータマイニングと呼びます.データマイニングでは,意志決定に使える知識の発見に焦点が当たっているため,データ全体の傾向を発見するのみならず,一部のデータのみに見られる特殊な傾向などを発見することにも使われます.しかし,両方ともデータを分析しているという点では共通しているため,広義の意味では,データマイニングはデータ分析の一手法とも,とらえられます.

相関分析と相関規則の違いはなんですか.

相関分析が主に連続的な変数(売上高と気温の関係など)を対象として,相関を分析するのに対して,相関規則は主に離散的な変数(牛乳が売れたか否かとパンが売れたか否かの関係など)を対象として,相関を発見します.

データマイニングの処理過程において,変換とは,どのようなことを行うのですか.

この過程では,特徴的なパターンの発見がうまくできるように,データの変換作業を行います.具体的には,多量の事例がある時に,それらの事例から代表的な事例だけを取り出して,事例数を少なくすることや 関係の深そうな属性だけを取り出して,属性の数を少なくするなどの作業をすることで,発見する知識の精度を向上させます.

収集したデータの信頼性に関して,データマイニングは対応できますか.

データマイニングでは,与えられたデータに基づき知識の発見を行うため,データの信頼性に関しては,収集過程において別の方法で担保する必要があります.しかし,データマイニングを行った結果,得られた知識に不自然な点が見られるなどの理由により,データの信頼性を議論できる場合もあります.

相関規則を探す時に,X⇒Yなのか、Y⇒Xなのかという判別も、計算機によって可能ですか.相関規則の前提部と結論部はどのように求めるのですか.

多く出現する品物の組合せを取り出した後に,それらの品物を前提部と結論部に分けて,前提部が成り立つ時に高い割合で結論部が成立する規則を捜し出します.この時点では,品物の数が絞られているため,多く出現する品物の組合せを取り出す作業に比べて,簡単な計算により,相関規則を求めることができます.

不規則な時系列データのグラフから,クラスを識別するのに有効な特徴がある部分を抽出する方法の処理過程を教えて下さい.

まず,グラフ上で,観測した時系列データのそれぞれの点に,分類クラスのラベルを付けます.その時,グラフ上で,異なるクラスのラベルがついた点が密集している部分は,クラスの判別に有効ではありませんが,同じクラスのラベルがついた点が密集している部分は,クラスの判別に有効になります.そこで,点の密集度を表すために,ある関数を定義し,密度の高い場所を高い値や低い値を取るようにします.その関数値の高低を違う色によって表示させると,識別に有効な観測値の部分を視覚的に表示することが可能となります.

環境問題に対するデータマイニングの事例はありますか.

地球環境の動向は,さまざまな観測データとして集められています.そのようなデータの中から,環境変化の動向に関する知識を発見する試みなどが行われています.

情報検索の際に利用されるメタデータの構成に,データマイニング技術は利用されていますか.

人工衛星に積まれている機器からは,様々なデータが送られてきます.そのような中から,積まれている機器の異常や故障に関する知識をいち早く発見することで,人工衛星全体が使用メタデータの作成には,人手が多くかかります.そのため,データマイニング技術を応用して,メタデータを自動的に作成する技術の開発などが行われています.

人工衛星からのテレメトリデータでは,どのような知識の発見が行えますか.

人工衛星に積まれている機器からは,様々なデータが送られてきます.そのような中から,積まれている機器の異常や故障に関する知識をいち早く発見することで,人工衛星全体が使用不能になるのを防いだりすることができます.

正常のデータのみから分類基準を作り,異常を検出するような手法はありますか.

実世界のデータを対象にした場合には,人工衛星の異常検知をする場合のように,異常なデータが正常なデータに比べ,得られにくい場合があります.そのような場合に対応できるように,正常なデータのみから異常を判定できるような手法も研究されています.

病気の人を健康と判断するのと,健康の人を病気と判断するのでは,前者の方が致命的です.決定木を使った判断の時に,このような場合に対応できますか.

市民講座では,お話はしませんでしたが,このような状況を考慮しながら,決定木を作成する手法は,コストを考慮する決定木の作成手法として,研究されています.判断の間違え方によって,異なるコストが発生すると考え,そのコストを低くするような決定木を作ります.

データマイニング用のソフトには,どのようなものがありますか.どこで購入できますか.また,価格は,どれくらいですか.

オープンソースソフトウェアとして,WEKAというソフトウェアが配布されています.詳しくは,下記を御覧下さい.
http://www.cs.waikato.ac.nz/ml/
また,商用のデータマイニング用ソフトとして,SAS,SPSS,数理システムなどの会社から,各種製品が販売されています.購入方法や価格については,各社にお問い合わせ下さい.

参考になる文献を教えてください.

下記の本が入門書として,よくまとまっています.
「データマイニングの基礎,元田浩,津本周作,山口高平,沼尾正行著,オーム社,(2006)」
その他にも,様々な本が出版されていますので,本屋などで探してみて下さい.

shimin 2007-qa_7 page2603

注目コンテンツ / SPECIAL