情報研シリーズ


 
からくりインターネット

情報研シリーズ13(丸善ライブラリー)

からくりインターネット
アレクサンドリア図書館から次世代ウェブ技術まで


相澤 彰子 (国立情報学研究所 コンテンツ科学研究系 教授)
内山 清子 (国立情報学研究所 特任研究員)
池谷 瑠絵 (サイエンスコミュニケーター)

定価 760円(税別)
ISBN:978-4-621-05379-9


著者からのメッセージ

鼎談風景

みんながインターネットを使う時代だからこそ。

これだけ身近になったのに、意外と知られていない、インターネットのしくみ。そこで国立情報学研究所の相澤彰子教授と内山清子研究員に、日頃の研究の中から見えてくる、インターネットのさまざまな技術やその活用のコツを教えてもらおう、と本書はスタートしました。本はどのようにして作られていったのか、著者よりご紹介いたします。
(構成・文/池谷瑠絵)

「ことば」を対象とした2つのアプローチ。

池谷瑠絵
池谷瑠絵(サイエンスコピーライター)
池谷
さて本日は、改めて著者3人が集まり、この『からくりインターネット』という新しい本について、ご紹介していきたいと思います。私は著者の一人ですが、今日は進行役で参加させていただきます。では、さっそく先生方が日頃どんなご研究をされているのか、簡単にご紹介していきたいと思います。まずはNIIコンテンツ科学研究系 相澤彰子教授、お願いいたします。
相澤
はい。ウェブやデータベースなどの中には、さまざまなデータがありますが、私はそのうち「ことば」というデータに注目し、これを対象として数理的な方法によって情報処理を行う「テキスト処理」が専門です。
池谷
はい。そしてもう一人が、相澤教授とご一緒に研究されている、NII特任研究員の内山清子氏です。ご専門をお教えください。
内山
私の専門は「自然言語処理」という分野で、具体的にはことばの“かかり”と“連続性”に興味を持っています。なぜならそこに意味が潜んでいるだろうと考えるからです。これをどう取りだして、コンピュータで扱えるようにするかというのが、私の研究課題です。
相澤
私たちの研究の対象は、どちらも「ことば」なのですが、アプローチはちょっと違っています。
内山
そうですね。ひとことで言えば理系と文系の違い、といったことかもしれません。データの見方や考え方の点で、時には正反対と思えることもあるんです。
池谷
ふむむ。お二人は同じく「ことば」を対象としていながら、相澤教授は数理的に厳密な方法で迫り、一方内山研究員は「意味」をどうコンピュータに教えるか? を探求されている。この点では、お互い対照的ともいえるアプローチで研究されているわけですね。

時間をかけて作った本

相澤彰子教授
相澤彰子
国立情報学研究所教授、博士(工学)
池谷
私のような一般ユーザが、ふだんインターネットでどのように情報を探しているかというと、たとえばヤフーのような検索サイトへ行って、実際にはキーワードという「ことば」を使って検索しています。そこでお二人のご専門である「ことば」を通してインターネットを眺めていったら、みなさんに役立つガイドが作れるのではないか──このように考えて、本づくりがスタートしたのが、昨年の早春頃だったと思います。
相澤
ひとつには、自分の研究を一般の人にどう紹介したらいいか、というのは、私にはやはり難しい問題なんですね。しかし池谷さんにそのような提案をもらい、それなら取り組めるのではないか、と思いました。
池谷
それから毎月1回ぐらいミーティングの日を決めて、お話をうかがったり、新しいデータを探していただいたりしました。とても時間をかけて出来上がった本ではないかと思います。
相澤
本を作っていくプロセスも、おもしろかったです。まとめてもらった草稿を読んで、一節一節にこんなふうに説明するのかという、“眼からうろこ”なところがたくさんありました。
池谷
お話をうかがっているときはうまく理解できるのですが、文章にしてみると、とても難しくて自分も読者だったら決してわからないに違いない、ということがよくあるのです。理由のひとつはやはり、お話の前提となっている知識や理解の分量が、やたらと多い(笑)……ということだと思います。
相澤
うん、そういったことも含めて、やっぱり研究者って別の言葉でしゃべってるんだな(笑)……と、このたびは改めて感じました。

なぜアレクサンドリア図書館なのか?

池谷
それと、この本には、もう一つの目的というか、チャレンジがあったと思うんです。それは、歴史にコンピュータや電子的なネットワークが登場するずっと以前から、人間が行ってきた「テキストを読む」という活動、そして文字が担ってきた人類の知識とその蓄積、そしてそれらを代表する辞書や本というものは本質的に何なのか? それは今後どのように変化していくのか? といった問題です。
相澤
その通りだと思います。
池谷
相澤教授はすでに2005年にNII市民講座で講演され、また本書制作中の2009年には軽井沢土曜懇話会でも一般向けのご講演をされました。これらの機会に拝聴すると、ことばや、人間の知識についての関心や疑問が、もともと相澤先生ご自身のパースペクティブの中にあったということがわかります。そこで私は、この関心を本の中へ採り入れることによって、より深くインターネットを理解することへつなげたい、と思いました。そして、その象徴的な題材が、アレクサンドリア図書館でした。
相澤
そうでしたね。アレクサンドリア図書館の歴史をひもといてみると、まさにGoogle Booksなど今のインターネットの状況をたどっているかのようで、とても共通点が多かった。たいへん興味深く感じました。
池谷
実はウェブ以前からあったんだ! とか、アレクサンドリア図書館がルーツだったんだ! とか、読者のみなさんが本書を読み進まれるうちに、いろいろ発見があるのではないか、と期待しています。


インターネットはどこから来て、どこへ行くのか。

アレクサンドリア図書館が、インターネットの過去を透視する題材だとすれば、インターネットはこれからどう変わっていくのか、その未来にも目を向けてみましょう。すると、本が出来上がった今改めて、著者たちが感じていること、もう一度押さえておきたい点などへと、話が進みました。

「どんぐり集め」は人間の本性?

相澤彰子教授
池谷
先生方にお聞きしたいのですが、今改めて、インターネットに関する最大のトピックといえば、何でしょうか?
相澤
おそらく共通の認識として、信頼性の問題があります。匿名性、現実との乖離などと一体の問題として、強く意識されている、大きな問題であると言えるでしょう。
内山
インターネットの最近の話題といえば、本書では採り上げませんでしたが、「twitter(ツイッター)」が流行っていますね。使っている人の様子を見ていると、ケータイメールと同じような感覚で、速効性がある。しかもメールよりも、コミュニケーションがぐんと広がっているようです。
相澤
でも「twitter」をやるためには、相当な時間を割かなければなりませんよね? 効率とか節約とかいうこととはちょっと違う。……インターネットを 見ていると、人間っていうのはポイントを集めるのが好きなんだな〜ということを感じます。いろいろなところを回って1つ、2つと拾ってくる……。
池谷
「どんぐり集め」ですね。すなわち「どんぐり説」!(笑)
相澤
そうそう、それ!(笑)もしかすると、どんぐり集めが人間の本性なのではないか、と思われなくもないわけです。というのも、私たちはパソコンやケータイなどでインターネットを使う時に、自分の行動履歴(ログ)をネット内に落としながら使っています。インターネットというのは、このようなログをとっていないと価値がなくなってしまう世界なんです。では、利用者からログをもらうための対価は何だろう、と考えるとポイントは元手がかからない。インターネット上で忽然と現れたかに見える情報の価値は、実は人の、ポイントを集める習性を利用して安価に作り出されていると思われるのです。このようなポイントというものが、やっぱりインターネットを最終的には支えるんじゃないかと。
内山
そう考えると、ポイント集めで成り立っている面白いサイトが、いくつか思い浮かびますね。

コンピュータ翻訳の現在・過去・未来

内山清子
内山清子
国立情報学研究所特任研究員、博士(学術)
池谷
ところで『からくりインターネット』では、インターネット上で無料で使える辞書やアーカイブなどもいろいろとご紹介しています。このなかで、日本では期待の大きいツールであるコンピュータ翻訳を、内山研究員に採り上げていただきました。そこで、これについても少しお聞きしたいと思います。内山研究員、ところで、そもそもなぜこの研究に取り組もうと思われたのですか?
内山
実は私自身が、すごく英語が苦手だったんです。それで早くいいコンピュータ翻訳ができたらいいな、というのがきっかけで、自然言語処理の道へ進むようになりました。
相澤
それは! 今まで知りませんでした!(笑)
内山
でも……実はそうなんです。(笑)単語を入力すれば、コンピュータが辞書を引いたりして、すぐに英語にしてくれるのかなと。ところがどんなにデータを溜めても、文脈というものを把握しなければ正しい翻訳ができない。そこで、あることばとあることばが文の中に同時にでてくる「共起関係」をみていくと、ある程度規則的なパターンがあることがわかってきます。こういう場合にはこう訳せばいいというわけで、ある程度意味が捉えられるわけですね。
池谷
よく考えてみれば人間だって、知らない単語に遭遇したら、いろんな用例を見て「ああ、こういうふうに使うのか」と理解したりしていますよね?
内山
ええ。その時やはり人間も、用例によって何らかのパターンを得ているのではないかと思うんです。するとたとえばそのパターンを抽出してくれば、私たちが翻訳システムを構築する時に使いやすいデータを作れるのではないか、というように考えることができます。
池谷
ふむふむ。すると本書の中では、コンピュータ翻訳の歩みにこれまでどんな試みがあって、現在どんなツールが揃ってきているのか……といったことが、紹介されているわけですね?
内山
はい。

読者のみなさんへのメッセージ

本の写真
池谷
というわけで、約1年かけて作ってまいりました『からくりインターネット』。書店で見かけたら、ぜひお手にとってご覧ください。なお次ページでは、本書に掲載の「役に立つウェブサイト一覧」をウェブ上に再録しております。本書と併せて、どうぞご活用ください。では最後に、読者のみなさまに、先生方からひとことずつメッセージをお願いいたします。
相澤
ぜひ読んでください。私たち著者自身も、執筆を通じてたくさん勉強した本なので、読んで楽しんでいただければうれしく思います。そして、これをきっかけに、私たちもますます、ここにあるテーマから広がるさまざまな問題を考えていきたいと思っています。
内山
できあがってみて改めて、身近に使われているインターネットが、ことばにかかわる技術を使っているということを紹介している点で、おもしろく読んでいただけるのではないか、と思いました。より多くの方に、興味を持っていただけるとうれしいです。
池谷
本日はありがとうございました。

鼎談風景

(2010年2月)

『からくりインターネット』リンク集

『からくりインターネット』の巻末に掲載されているリンク集です。
本リスト及びその他の関連情報は、池谷氏のブログ「科学と広告のブログ」に掲載いたします。

*このリンク集は、平成22年に作成したものです。その後サイトの移動などでリンク切れになっているものもありますのでご了承ください。

インターネット統計、歴史

検索と情報爆発

コーパス、辞書資産、翻訳支援、その他

図書館、デジタルアーカイブ

次世代ウェブと参加型サイト

お問合せ先

国立情報学研究所 総務部 企画課 広報チーム
〒101-8430 東京都千代田区一ツ橋2-1-2
E-mail: kouhou(a)nii.ac.jp 
※(a)の部分を@に置き換えて送信してください。