研究シーズ2021情報基礎科学

データの多様性を解析し
SNS上の集団行動を推し量る

宇野 毅明情報学プリンシプル研究系 教授

研究分野データマイニング/自然言語解析/ソーシャルネットワーク分析

SNSでの意図せざる炎上やデマ拡散のような集団行動は、従来のキーワード検索などでは解析が困難です。そこで、マイクロクラスタリングという技術を使い、トピック・語彙・コミュニティの多様性解析に取り組んでいます。

研究背景・目的

ツイッターなどのソーシャルメディアでは、参加者が強い意識を持たずとも、集団行動として炎上や中傷、デマ拡散などを引き起こしてしまうことがあります。コンピュータでは、文章の意味理解が難しいため、特定キーワードの検出などで分析が行われていますが、集団行動の様相を推し量ることは未だ困難です。コロナ禍でのトイレットペーパー買い占めのように、デマを打ち消す情報があふれているのに買い占めが起こるなど、キーワードや意味を調べても集団行動は理解できないこともあります。この研究シードは、コミュニティや投稿の傾向を構造的に分析することで、意味理解とは異なる側面からSNS上の集団行動を推し量る技術です。例えば、語彙の多様性から感情的かどうか、トピックの多様性からデマ拡散的かどうかを推測することができます(図1)。

21_uno_image1.png

図1)あるトピックに関するツイート数とクラスタ数の推移

研究内容

マイクロクラスタリングという、細かくて密度の高いクラスタを網羅的に見つける技術を使って、細かいトピックを網羅的に見つけ、それらの数を数えることでデータの多様性を量ります(図2)。投稿からはトピックの多様性、単語からは語彙の多様性、ユーザ情報からはコミュニティの多様性を推し量ることができます。いいね数、リツイート率、バーストの速度などと組み合わせて、多種の現象の片鱗を検知します。従来のクラスタリングはおおまかな分類用に設計されており、多様性解析には効果的ではありません。マイクロクラスタリングは、特許情報や名寄せ、新聞記事、買い物データなどにも適用でき、従来は効果的に行えなかったコミュニティの時系列分析などにも利用できます。

21_uno_image2.png

図2)語彙やトピックの多様性からデータを解析する

産業応用の可能性

例えば、自社製品の評判について、良い悪いだけではなく、多様性の観点から評判を分析し、ユーザの多様性や利用場面の多様性などを推し量ることができます。また、安定的なクラスタや多様性尺度を用いることで、評判やコミュニティ、トピックの多様性などの時系列の推移を安定的に見ることができます。ヤフコメや5チャンネルなどの掲示板の投稿データであれば、トピックごとに、感情的であるか、情報ソースが多様か、知識や体験を話していそうか、ということをある程度ざっくりとした尺度として俯瞰することができます。問い合わせや業務報告のデータをクラスタリングして、トピックを全体的に俯瞰することもできます。

関連リンク

宇野 毅明 - 情報学プリンシプル研究系 - 研究者紹介

Recommend

さらにみる