ニュース / News

ニュースリリース

webコンテンツのアクセス数を予測する技術を開発/行動リズムや外部ソーシャルメディアの効果など取り入れ、精度を向上

大学共同利用機関法人 情報・システム研究機構 国立情報学研究所(NII、所長:喜連川 優、東京都千代田区)情報学プリンシプル研究系 助教・小林 亮太(こばやし・りょうた)は、webコンテンツへのアクセス数を高い精度で予測する手法を国際共同研究で開発しました。この研究成果は4月6日、オーストラリア・パースで開催されているwebに関する国際的なトップ会議「第26回International World Wide Web Conference(WWW2017)」で発表されました。

web上では膨大な量のコンテンツが生まれています。1分ごとに、YouTubeには合計で300時間以上にのぼる動画が投稿され、Twitterでは30万以上のツイートが行われています。しかし、この中で人々に注目されるwebコンテンツはほんの一部です。webコンテンツ(webサイト、Tweetなど)が公開後にどれだけ人々の興味を引くかを予測できるようになれば、マーケティングや魅力的なコンテンツ開発を効率的に行うことが可能になります。このため、webコンテンツが公開された後にどれだけの注目を集めるかを予測することは、データマイニング分野における重要な課題の一つです。

本共同研究で開発したのは、特定の期間(今後12時間、48時間、96時間など)にwebコンテンツがどれだけアクセスされるかを予測する技術です。この技術によって、人間の1日の行動リズムや外部要因を取り入れたアクセス数の将来予測が初めて可能になりwebコンテンツへのアクセスを定量的(数量的)、かつ、高精度に予測できる可能性を示しました。

【今回開発した技術の特徴】

webコンテンツへの将来アクセスを予測する標準的な方法として、サポートベクターマシン(SVM)などの機械学習を適用することが考えられます。この方法は、人気が出そうかどうかは予測できますが、アクセス数そのものを予測することはできませんでした。また、アクセス数を予測するための強化ポアソン過程モデル(RPP)も提案されていますが、人間の行動リズムや外部要因が考慮されていないために高い予測精度を実現することは困難でした。

本共同研究で開発したのは、webコンテンツのアクセス数そのものを、特定の期間(今後12時間、48時間、96時間など)について予測する技術です。小林助教がナミュール大学(ベルギー)のRenaud Lambiotte教授と開発した数理モデルを拡張することで、睡眠や仕事などの1日の行動リズム、外部のソーシャルメディアによる宣伝効果といった外部要因を取り入れることが可能な時系列モデルを新たに提案しました。そして、適切なモデルパラメータを学習して予測を行う技術を開発しました。

この手法の有効性を調べるため、本共同研究では、インターネットの代表的な署名サイトである「Petition.com」(http://www.thepetitionsite.com)の署名の履歴データとトピックについての関連ツイートを収集しました。そして、特定のトピックについて、これまでの履歴データと関連ツイートデータから今後の署名数を予測するという評価実験を行いました。その結果、既存手法では全体の変動の50%程度しか予測できない一方、本提案手法では70%程度が予測可能になることを確認しました(図参照)。

今回の共同研究によって、人間の行動リズム、ソーシャルメディアによる宣伝効果といった外的要因を取り込んで分析する手法が初めて実現され、これによってwebコンテンツへのアクセスをより高い精度で予測することの可能性が示されました。

Multidimensional Time-Series

〈図〉「Petition.com」の署名数を予測した結果。既存手法(SVM、RPP)に比べて予測精度が大幅に向上した

本研究は「JST ACT-I 情報と未来」の研究の一環としてJST、ACT-Iの支援を受け、ローザンヌ工科大学(スイス)のJulia Proskurnia氏とKarl Aberer教授、マックスプランク研究所(ドイツ)のPrzemyslaw A. Grabowicz博士、Eurecat(スペイン)のCarlos Castillo博士、フリブール大学(スイス)のPhilippe Cudre-Mauroux教授と共同で取り組んだものです。

ニュースリリース

1775

注目コンテンツ / SPECIAL