イベント / EVENT

平成20年度 第4回 Q&A

第4回 2008年9月10日(水)

データ社会とウェブ
--膨大なデータから見えてくるウェブ社会の姿とは?--

大山 敬三(国立情報学研究所 コンテンツ科学研究系 教授)

講演当日に頂いたご質問への回答(全14件)

※回答が可能な質問のみ掲載しています。

「サーバーログ」とは何ですか?「検索ログ」とは?

「サーバログ」とはウェブユーザがウェブページを閲覧したときに、閲覧先のウェブサーバに残るログのことで、閲覧時刻、閲覧者のIPアドレス、ブラウザ種別、閲覧ページのURL、参照元ページのURLなどが記録されます。「検索ログ」とはウェブサーチエンジンで検索及び検索結果の表示をしたときに、サーチエンジンに残るログのことで、検索及び表示時刻、検索者のIPアドレス、検索語、表示ページのURL、クッキー(サーチエンジンから受け入れを許可している場合)、ユーザID(ユーザ登録してログインしている場合)などが記録されます。

スライド3:ウェブ外空間で、提供者と利用者の役割が分離と言われた意味が良く分かりませんでした。対比するウェブ空間の方は納得できましたが・・・。

従来のメディアでは、情報提供にはコストや手間がかかるため、情報提供者となるのは明確な目的を持った一部の人に限られる、というような意味だとお考えください。

検索上位語に普段よく使われるサイト名が出てくるのは、「お気に入り」に普段よく使うサイトを登録せず、都度 検索して出すUserが多いからでは?と私は思っているのですが、先生はどうみていますか?

その通りだと思います。ただし、単に面倒だから登録しないという場合だけでなく、図書館やインターネットカフェのように登録自体ができないPCからの利用というのもそれなりに多いのではないかと想像しています。

Google™などは、予測変換機能があるため、自分が調べたいことと近似していることばを選ぶ(クリックする)ことが増えてきているが、その誤差はとっているのでしょうか?(頻度の高いものにひっぱられて微妙に違うページをみていたり、スライド21の「jr北海道」のように正式名称と違う語を検索することで、一覧のランク順は変わるので、分析も変わると思うのですが)

残念ながら、現在利用可能なデータだけからは分析は不可能です。さらに分析の精度を高めるためには、利用者個々の挙動を把握するための調査が必要だと考えています。

1) 検索のタイプ(スライド9)について:「情報収集型検索」と「ナビゲーション方検索」はどのようにして判別したのでしょうか?
2) カテゴリの分布について:検索後によっては、どのカテゴリかわからない(複数カテゴリに含まれる)ものもあると思いますが、この分類は、そのような語をどうしているのでしょうか。検索結果で、どのリンクがクリックされたかまで、追いかけているのでしょうか?
3) Google™ツールバーでは、検索語を途中まで入力すると検索語候補が出てくるが、この時の「途中まで」の語を今回のデータの検索語としてカウントする事はないか?

1) これまでに、ウェブ検索システム評価用テストコレクションを作成してきましたが、その中で学生や主婦の方々にお願いしてできるだけ自然な検索課題の作成をしていただきました。その経験に基づき、私の判断で分類したものです。
2) 複数カテゴリに属するものは複数のカテゴリ付けをしていますが、今回はその中でも最も近いカテゴリとして集計しました。なお、クリックしたリンクの情報は現在は利用できません。
3) 今回分析に使ったのはYahoo!の検索語データですが、検索語補完機能を使ったとしてもサーチエンジンには補完後の検索語が入力されるはずですので、そのようなことはないと思われます。

今回は、キーワード検索中心のお話でしたが、自然言語による検索は、今後一般的になりますか。現在、どういった研究が進んでいますか。

以前から、将来は自然言語による検索が一般的になる、といわれてきましたが、現実は逆に、検索語はより短くなってきているようです。少なくとも現在のように検索語をキーボードや携帯電話のボタンで入力しているうちはこの状況は変わらないと考えています。ただし、音声入力になれば状況は変わるかもしれません。研究については、文章を検索条件に使うものは古くからありますが、最近は(特にウェブ検索では)短い検索語に対していかに有効な結果を返すかという方向に中心が移っているようです。

殆ど無限に近い(新規なURLを含めて)データを万遍に効率よく、検索エンジン用に情報を収集提供する方法を、もう少し詳しくご教示ください。

ウェブページの収集は「ロボット」あるいは「クローラ」と呼ばれるソフトウェアが行っています。多数の計算機を使って、地域やドメイン名(インターネット上の組織の名称)ごとに分担させていると思われます。一般的には各クローラがサイトのトップページから順次リンクを辿って収集しますが、コンテンツの更新頻度やサイトの重要度によって収集の頻度や並列度を調整しているようです。

クッキーを使うと、会社のパソコンからウェブを利用した場合の個人の検索ログと、同一人が自宅のパソコンから利用した時の検索ログを、 Google™は同一人であると認識できるのでしょうか?出来るとしたら、個人が自分の情報をGoogle™から防衛するためにどんな手段があるのでしょうか。

個人IDでログインしない限り、クッキーからでは認識できません。

Google™などで、ヒットしたホームページを出力する順は、どんなアルゴニズムですか?

様々な手法の組合せによるものと思われますが、具体的な手法が公開されることはありません。典型的な情報検索モデル(ベクトル空間モデル、確率モデル、言語モデルなど)、リンク解析に基づく手法(ページランクなど)、検索ログに基づく手法などが使用されていると推測されます。

どうして1秒以下の時間で100万件もヒットできるのでしょうか?

一般論ですが、まずウェブデータを多数(数百程度?)に分けて複数の計算機で並列にインデクスを作成させます。検索を受け付けた計算機はそれらに検索を実行させ、結果を取りまとめてユーザに返します。これにより短い応答時間を確保します。さらに、このひとまとまりをセットとして、多数のセットを用意することにより大量の検索要求を裁きます。もちろん、数だけでなく効率的な処理手法も重要ですが、詳細は公開されていません。

Webユーザーの検索行動を分析すると、分析した人は、どんなメリットがあるのか?を教えてください。
(例)
・Webユーザのかくれたニーズを発見することが出来る。
・どんなユーザが多くサイトを訪ねてくるか?を把握することで、自分のページの
「お得意様」が分かる。
・SEO対策に活かせる
などが思い浮かびますが、他にもありましたら、コメントをお願いします。

立場により異なりますが、マーケティングという観点からは例に挙げられたようなことだろうと思います。一方、サーチエンジンの観点からは、ユーザのニーズに適した検索結果の提供やユーザに合わせた広告の表示などが挙げられると思います。

Web検索は、将来的にユーザにとってどのようなものであればいいと考えられますか?よく"欲しいものが手に入る"といわれますが、それに尽きるのでしょうか?それともより良き情報の利用形態(現在は過渡期と考える)というものが考えられるのでしょうか?

ユーザは多様化していますので、ウェブ検索も多様化に対応する必要があると考えています。しかし、その基本的な要素としては、情報の信頼性や安全性などの重要性が増してきています。また、情報の多面性への「気づき」の機会を提供するというのも重要な要素でしょう。利用者の属性や背景に応じてこれらの要素を組み合わせて提供することがウェブ検索の進む道の一つだと考えています。

今の検索エンジンでの利用者が感じている使いにくさ、不満点が見えてくるようなデータ、分析はありますか。
・日本語特有の傾向はありますか。日本語に向いた検索エンジンは、どのような点が必要になるかの分析はありますか?

残念ながら、分析に使用可能なデータがありません。

情報爆発時代でもあり、多くの人々は有名なジャーナリストや政府のもっともらしい情報にとりこまれてしまいがちですが、それがリアルのものではなかったり、また必ずしも信用できないという反論が流布されたりで、一般の素人は判断できなくなる事が多いこの世の中。どのようにして情報を正しくとりこめるのでしょう。これをテーマに論じて下さい。
例: 9.11 テロの原因。・・・ベンジャミンさんは、この他にもいろいろ取り上げていますね。九条の会(憲法)に関係するさまざまな議論。

重要な課題であると認識しており、ウェブの分析という観点から取り組みを始めたところですが、残念ながら現在のところまだ答が見いだせていません。

shimin 2008-qa_4 page2593

注目コンテンツ / SPECIAL