イベント / EVENT

平成25年度 第8回 Q&A

第8回 2014年2月26日(水)

ソーシャルメディアからの社会予測~ ネットに映る実社会とは? ~
松尾 豊 (国立情報学研究所 客員准教授(研究開発連携))

講演当日に頂いたご質問への回答(全21件)

※回答が可能な質問のみ掲載しています。

予測モデルの精度を上げるために用いるデータについて質問です。ネット上にあるデータ(リアルタイム)を使う / 実社会データ(過去ログ)を使うの使い分けや、どのデータを使うか(直接的に、直観的には無関係(ビールとおむつでしたか?)であっても もしかしたら・・・と)先生がビビッと洞察を得るのは何がきっかけになっていますか?

分析したい対象をよく調べていってはじめて、このデータを使えばよいのではということを思いつきますね。また洞察を得るにも、対象のことをよく知ることがとても重要だと思います。

「予測」を公表する事によって、別の影響を社会に与えるところ迄 更に「予測」するのでしょうか?
(例)①選挙に関して、事前に予測を「公表」する事によって、投票率に大きく影響を与える可能性がある。それも含めた予測なのでしょうか?(作戦として、場合によっては、あえて偏った情報や誤報(かもしれない予測)を広める事もありうる。
(例)②また、「公職選挙」に関して言えば、その影響の「善悪」も問われると思うのだが、それについては、どうお考えでしょうか?

はい、影響はあり得ると思います。法律でも、人気投票の公開についての定めがあります。したがって、その情報の公開については十分注意する必要があると思います。

選挙の予測が外れた場合の要因としては、どんなことがあげられますか?(世代によって利用状況に差があると思いますが)
また、ネットの利用が認められた後では、予測方法を変える必要があるかと思いますが、いかがでしょうか?

ネットならではの拡散しやすい話題の影響、また世代や地域によるネットの利用状況の差は要因として考えられると思います。時期や環境によって、予測方法は変えていく必要があると思います。

都知事選の解析は、いかがでしたでしょうか。

都知事選は分析していません。

ブログから選挙結果ですが、"氏名"を入力して、ヒットしたブログの件数ですか?プログラムによる数え上げですか?

ヒットしたブログの件数を、プログラムで取得しています。

社会調査を行う上では、サンプルの偏りを極力なくすことが前提となると思うのですが、今日のお話しは、「インターネットを使う人」「Blogを書いている人」「Twitter利用者」のデータが基になっており、若い人や流行に敏感な人など、偏りが大きいように感じます。10年後くらいなら、スマホの普及率も上がるし、みんながインターネットを使うようになるかもしれませんが、今はまだネットの中と現実にはズレがあるのではないでしょうか?(特にBlogやTwitterのデータで)統計上何かコントロールしているのでしょうか?

サンプルが母集団を適切に表しているかという偏りは、測定方法により必ずあると思います。ネットの場合も、対象によっては、母集団をよく表すこともありますし、そうでないこともあり、偏りを補正する方法は重要だと思います。

個人情報の公開、セキュリティに関して心配がありませんか?

公開情報を使っている限りにおいては心配は少ないと思いますが、それを個人情報と結びつけて分析するときなどには注意が必要だと思います。

各種経済指標は、調査結果の情報であるのに対して、クラウド情報の分析から正確な予測が可能になると思いますが、どうでしょうか?

はい、可能になると思います。

BigDataの分析は、Twitterなどを用いて行うことから、現状の把握には適していると思われるが、それはあくまでも流行の後追いや、これを増強するという位置付けに留まると考えられる。(このこと自体はものすごく大切なことだと思います。) これを全く新しい流行を生み出すことに用いることはできないのでしょうか?あまり向いていないのでしょうか。

データ分析をマーケティングに活用するというのも十分あり得ることだと思います。

ネット上での猫の画像は、全体の中でどのくらいの割合なのでしょうか?Deep Learnig を分かり易く説明して下さり、ありがとうございます。

分かりませんが、割合は低いと思います。

入出力としてDeep Learnigが学習した結果というのは、猫の画像としたものなのでしょうか?それで猫として認識したのでしょうか?

入力したのはあらゆる画像です。それで猫を認識したということです。

脳は可逆、可塑性がありますが、電子計算機で、表現できるのでしょうか?

はい、できると思います。

「いいね」の分析で、やらせがある場合にも、分析結果として正当なものになるのでしょうか?

その割合が多くなると、誤差が大きくなると思います。

ネガティブな情報、ツイート、荒らしなどにフィルタリングする手法は?またネガティブな情報の多さもトレンドと相関があるのでしょうか?

一般的なスパムへの対策と似ていますが、さまざまな対抗手段を取る必要があります。ネガティブな情報も、対象によっては相関があります。

人間の予測手法と、コンピュータ的手法のそれぞれの長所と欠点は?

人間の予測方法の長所は、大局観を捉えるのがうまいこと、コンピュータの予測方法は、スピードが早く、大量のデータも扱えることです。それぞれ逆が欠点です。

遷移グラフがおもしろかったと思いましたが、応用は?

いろいろな商品、サービスの分析に活用できると思います。

ある事柄に情報社会相関研究系があると判断するのに、データ数としてどの程度の母数が必要でしょうか?

少なくとも数百、多ければ多いほど良いです。

従来からある市場調査と比較しての利点は何でしょうか?

想定していない事象が見つかることだと思います。

レジュメNo.21「経済産業省との取り組み」の「ひいては『消費者として優れている』日本の国民性を競争力にできないか」という箇所を詳しくご説明して頂きたいです。

日本人は消費者としてきめ細やかであり、それにあわせて商品やサービスもさまざまなカテゴリがあります。これを輸出したい国にあわせて調整できないかということです。

小説や漫画の登場人物(キャラクター)の相関マップはつくれませんか?(・・・そしてそれを、実在の人物に紐付けできませんか?)

はい、作れると思います。

画像寄りになっていた研究室が10年ぶりに顔を出したら、言語一色になっていました。
①NN研究したがる学生の素性は、どのように生成されるのでしょう?それもまた社会を映すネットワークでしょうか?
②会社のNNは人工知能、という認識の改めさせかた。
③DLは機械学習? NN? 人工知能? それぞれの包含関係は?

①時代とともに学生の研究テーマへの人気は移り変わると思います。②難しいご質問ですね。③DLは機械学習です。NNでもあります。人工知能の領域で研究されています。

shimin 2013-qa_8 page2532

注目コンテンツ / SPECIAL