イベント / EVENT
平成22年度 第1回 Q&A
第1回 2010年6月3日(木)
人間の翻訳と機械の翻訳は何が違うのか?
多言語世界の扉を開く翻訳技術
影浦 峡(東京大学 教授)
講演当日に頂いたご質問への回答(全18件)
※回答が可能な質問のみ掲載しています。
英語がこれだけ普及すると英語がX文Y訳のHUBになる可能性が高くなるのでしょうか?
a. 日⇔カタルーニャ
b. 日⇔英⇔カタルーニャ
a<b ? a>b ?
そうですね。あまりきちんとした予測はできませんが、現在でも「重訳」はあり、X語 → 英語 → 日本語、などのように英語がハブになっていることが多いようです。
日本語と構造の違う言語との間で、長い文章を、意味の通じる言葉に機械翻訳できるようになる可能性はあるのでしょうか。
安易な予想はできませんが、最近では、機械翻訳プロセスの中で前処理や後処理も(再び)注目を集めているので、少なくとも現在よりは得意になる可能性は大いにあると思います。
人間同士、および人間対機械のコミュニケーションにおいて、相手が予測不可能な存在であるとうことは、どれくらい重要でしょうか?
「人間と機械が協力する」度合い(どれくらい協力関係が向上したかなど)はどのように計測できるのでしょうか?
まったく専門的な答えではありませんが、人間同士の場合には、相手が予測できるところが8割から9割、予測できないところが残り、くらいのバランスがよいかなと思います。機械については、普通の言語でのコミュニケーションを想定するならば、まずはできるだけ予測可能性を高めるところが一ステップかなと思います。協力する度合いの計測は、実験室レベルではできないと思います。むしろ社会的な広まりから評価するしかないと思います。
話者のいなくなってしまった言語について、文献が大量に残っている場合、機械翻訳はどの程度まで可能でしょうか?
文法の復元レベルに留まるのでしょうか?
技術的には、これは文献の量と、そのうちどのくらい訳されていて、対訳のあるものがどのくらいの量かによります。文法の復元レベルにとどまるかどうかは、翻訳されたものを目標言語側がどう扱うかに依存して変わるので一概には言えません。歯切れの悪い答えですみません。
新しいテクストが成り立つために必要な固有テキスト群のサイズの最小値があれば教えてください。
理解が間違っているかもしれませんが、コミュニケーションが発生するためにどれだけの共通事項が必要になるのかというご質問です。
未来に向けて言えば、なじんでいくのに必要な時間の長さの目安があれば。
最小値は確定できないと思いますが、例えば現代日本の「大人」の場合は、義務教育で接する程度のテキスト群・言語表現群、ということになるかと思います。未来に向けてなじんでいくのに必要な時間の長さは、あえて言うと、数年でしょうか。これは、むしろ単にゆっくりコミュニケーションをつなげていくというプロセスを強引に時間の長さの感覚で表現したものですから、状況や相手などによっても違ってくるでしょう。
テクノロジーの発達により、「オーダーメイド」の翻訳システムが構築されれば、その本人の「話の文脈/歴史」から機会側が類推して翻訳(とりあえず「第一波」として)するということは可能では・・・?こうした「技術」の有効性について、どうお考えか?その最先端の研究水準はどの程度?
active adaptive learningなどが関連してくると思います。技術的にはそうした方向はどんどん出てくると思います。ただ、「オーダーメイド」にするために機械が学習するときに使うデータ量がネックになっているのではないでしょうか。
ロシア語⇔英語の翻訳ソフトを使っています。10年近く古いものです。ニュース等は意味が取れる程度に訳してくれるのですが、小説等については、意味が通る部分も多いのですが、全く意味の通らない訳になる部分が多いのです。小説等の機械翻訳も、ソフトの改良とともにニュース等の翻訳と同程度のものになっていくのか(もしかしたら現在はそうなっているのかもしれませんが!!)それともなんらかの限界があると考えられるのか。ご意見をお聞かせください。
機械翻訳の場合は、文脈、文間のつながりを取ることが苦手です。ですから、ニュースのように一応情報について予測がつく場合は、多少、流れがわからなくても読み手が推測することができますが、小説などではそれができにくいことはあると思います。仮に小説を予測を裏切って文脈が流れるものの代表とすると、今のところ、ニュースの翻訳と同程度になるのは難しいと思います。
社会的、歴史的文脈が知識として言葉で蓄積されているならば、その巨大なデータベースを用いて、即時即応的な部分は目をつむるとして「良い」翻訳ができるようになると(いつの日か)お考えでしょうか。
「良い」というのがどのくらいか、によりますが、今よりもはるかに良いものはできると思っています。
ドイツ語、フランス語etc.
名詞に性がありますが、例えば「猫」はオスかメスは訳せますか?
すみません。文法的な「性」と対象の性別とは違うので、ご質問にどうお答えしてよいかわかりません。意味の問題として考えますと、his brother(単数)を「兄」と訳すか「弟」と訳すかは実は人間にとっても問題です。中国語の場合には、叔母などは母方か父方かなどさらに細かい区別があるので、やはり問題です。
翻訳メカニズムと音声認識メカニズムの関連性は?
アルゴリズムとして共通のものが使われていたりしますが、骨子はだいぶ違います。言語の場合は扱う基本単位(単語と考えましょう)の数がものすごく多いのですが、音声の場合はバリエーションがあるとはいえ扱う基本単位(音素)はかなり限定されるので、そこが技術的に大きな違いとなります。
世界共通語としての英語の地位は高まる一方ですが、異文化環境で育った人々の間では、お互いに英語を使っていても翻訳が必要となりましょう。翻訳の行為には、異言語間から同一言語間にも拡大する必要が生じませんか?
同一言語間でも翻訳という概念は成り立つと思います。ヤコブソンという言語学者は、「言語内翻訳」、「言語間翻訳」、「記号間翻訳」という3つのタイプを区別しています。同一言語間の翻訳がとりわけ一部のグループは母語話者で、別のグループはそれを第2言語で学んだという状況では、その言語間の変換の際に方向性が生まれ、その技術支援を定義するという形で研究が進んでいる。英文校正支援システム、自動英文チェックシステムなど。
現在、双方向的な同一言語内の変換、翻訳イメージで定義されたシステムはないが、技術的には可能である。
長文では×だが、短文は上手い結果。
ということは長文を複数の短文に分割する、というのが実用性に大きく効きそうだがそのような取り組みはあるか?
はい。あります。まず、前処理として元言語の表現をやさしくしてから機械翻訳にかけるという研究が色々なされています。また、執筆段階から制限された言葉で書こうという提案もあります。 英語と日本語の場合、英語は形容詞と名詞の関係では、修飾部分は前からかかるので、日本語と同じ形です。修飾節の場合は、日本語は前からだが、英語ではwhichなどで、後ろからかかる。その形をまず英語の側で組み替えて、基本的な単位をうまく取り出す研究はある。
構造の大きく違う言語については、まず構造を近づけるような処理を前処理としてして、それから対応するものを簡単にとることがある。
1 機械翻訳に未来はあるのでしょうか?
2 機械翻訳も対象者ごとに訳し分けはできそうですが、いかがでしょうか?(大人向け、子供向け?)
3 コミュニケーションに翻訳は有効と思われますが、コミュニケーションができることが翻訳に求められるのでしょうか?
1 使い方次第ですが、現在も未来もあると思います。
2 技術的にはそれに類するシステムはすでにある。機械翻訳は誰に対しても同じ言葉を話すということではあるが、言葉の表現のレベルでは、ある程度人によって変えることは可能だと思う。
3 私達は話をしていて、「この人分かってないな」と思ったら別の言い方をするが、そのように機械も自己調整ができるようにするというような問題は、現在の翻訳技術とは少し違ったところで考える必要がある。
コンテキストを情報として機械翻訳に処理させることはできないのか?
それともそれを規則/確率的に表現すると「コンテキスト」ではなくなるのか?
文脈情報とか、談話構造の一貫性を自動的に扱う研究はありますが、「コンテキスト」について最初の問題は、実際のところ「コンテキスト」とはどのようなものなのかがわかっていないことにあると思います。今のところ、「こうすればコンテキストを扱えるだろう」と思ってやってみると、何だか「コンテキスト」はその手から逃れてしまうというような感じではないでしょうか。
欧米の言語というのは、似たような構造の文章がつくれるという印象があります。やはり、
①欧米の言語⇔欧米の言語
②欧米の言語⇔日本語
という翻訳をする場合、①より②の方が難しいのでしょうか?また、構造的に日本語と似ている言語はありますか?
ポルトガル語⇔スペイン語、スペイン語⇔英語は機械翻訳でもかなり可能。日本語⇔英語など構造上大きく違うのはきわめて難しい。日本語⇔韓国語は構造が似ているので、精度の良い機械翻訳が可能。
日本語学習者向けの「普通の日本語→やさしいにほんご」翻訳に関わっています。上記の翻訳を機械でできますか?あったら、とても楽になります。作っていただけたら嬉しいです。
『新型インフルエンザについてのお知らせ』の訳と『ヘンゼルとグレーテル』の訳では、とんでもなくちがいます。
ある程度、機械による手助けはできると思う。人間が言語間の翻訳をするとき、機械による手助けを得るのと似ていて、言い換えの例を大量に集めて参照できるようにすれば、効率的におこなえる可能性があると思われる。
機械翻訳が(ほぼ)完全に機能するようになったとき、私たちは英語を勉強しなくてよくなりますか?(義務教育として、勉強する必要はなくなるのでは?文化は日本語に表現されたものですることができますし・・・)
まず、教育制度と個人の選択とを分けて考えましょう。教育制度としては、わかりません。機械翻訳とは関係なく、もっと色々義務教育段階から選べればよいな、とは思いますが。個人としては、これまでも特に英語を勉強しない人はいるので、それほど変わらないのではないでしょうか。個人の問題は人によって異なると思いますが、機械ではなく「自分がいつでも通訳を雇える立場だったら」と考えたときに、自分としてはどうするだろう、と想像すると自分の立場はわかりやすいと思います。私自身は、それでもいくつかの言葉は学習したい、と思うと思います。
「人間を馬鹿にしたシステム」という言い回しが、どういう意味かわかりにくいです。わかりやすく説明すると、どのような意味ですか?
例えば、日本語を話せる人が日本でお店に行って食べ物を注文しようとしたら、相手が絵入りのメニューを指差して日本語は話さずに注文を受けようとしたりしたら馬鹿にされたように感じるかと思います(英語が話せるのに、英国で相手がそれを聞かずにメニューの指差しでやりとりしようとしたときを想定してもよいでしょう)。そんなイメージのシステムです。語弊があるかもしれませんが、私自身は、マウスを中心としたGUIのコンピュータというのは人間を馬鹿にしたシステムだけれど、巧妙にそれが当たり前であるかのように見せているのでその点がわかりにくくなっているものだと思っています。
「情報学最前線」 平成28年度 特別会 Q&A 平成28年度 第6回 Q&A 平成28年度 第5回 Q&A 平成28年度 第4回 Q&A 平成28年度 第3回 Q&A 平成28年度 第2回 Q&A 平成28年度 第1回 Q&A 平成27年度
「情報学最前線」 平成27年度 第6回 Q&A 平成27年度 第4回 Q&A 平成27年度 第3回 Q&A 平成27年度 第2回 Q&A 平成27年度 第1回 Q&A 平成26年度
「未来を紡ぐ情報学」 平成26年度 第8回 Q&A 平成26年度 第7回 Q&A 平成26年度 第6回 Q&A 平成26年度 第5回 Q&A 平成26年度 第4回 Q&A 平成26年度 第2回 Q&A 平成26年度 第1回 Q&A 平成25年度
「未来を紡ぐ情報学」 平成25年度 第8回 Q&A 平成25年度 第7回 Q&A 平成25年度 第6回 Q&A 平成25年度 第5回 Q&A 平成25年度 第4回 Q&A 平成25年度 第3回 Q&A 平成25年度 第2回 Q&A 平成25年度 第1回 Q&A 平成24年度
「人と社会をつなぐ情報学」 平成24年度 第8回 Q&A 平成24年度 第7回 Q&A 平成24年度 第3回 Q&A 平成24年度 第1回 Q&A 平成23年度 平成23年度 第8回 Q&A 平成23年度 第7回 Q&A 平成23年度 第6回 Q&A 平成23年度 第5回 Q&A 平成23年度 第4回 Q&A 平成23年度 第3回 Q&A 平成23年度 第2回 Q&A 平成23年度 第1回 Q&A 平成22年度 平成22年度 第8回 Q&A 平成22年度 第7回 Q&A 平成22年度 第6回 Q&A 平成22年度 第5回 Q&A 平成22年度 第4回 Q&A 平成22年度 第3回 Q&A 平成22年度 第2回 Q&A 平成22年度 第1回 Q&A 平成21年度 平成21年度 第8回 Q&A 平成21年度 第7回 Q&A 平成21年度 第6回 Q&A 平成21年度 第5回 Q&A 平成21年度 第4回 Q&A 平成21年度 第3回 Q&A 平成21年度 第2回 Q&A 平成21年度 第1回 Q&A 平成20年度 平成20年度 第8回 Q&A 平成20年度 第7回 Q&A 平成20年度 第6回 Q&A 平成20年度 第5回 Q&A 平成20年度 第4回 Q&A 平成20年度 第3回 Q&A 平成20年度 第2回 Q&A 平成20年度 第1回 Q&A 平成19年度 平成19年度 第8回 Q&A 平成19年度 第7回 Q&A 平成19年度 第5回 Q&A 平成19年度 第2回 Q&A 平成19年度 第1回 Q&A 平成18年度 平成18年度 第8回 Q&A 平成18年度 第7回 Q&A 平成18年度 第5回 Q&A 平成18年度 第3回 Q&A 平成17年度 平成16年度 平成15年度 市民講座アーカイブ
注目コンテンツ / SPECIAL
2024年度 要覧 SINETStream 事例紹介:トレーラー型動物施設 [徳島大学 バイオイノベーション研究所] ウェブサイト「軽井沢土曜懇話会アーカイブス」を公開 情報研シリーズ これからの「ソフトウェアづくり」との向き合い方 学術研究プラットフォーム紹介動画 教育機関DXシンポ 高等教育機関におけるセキュリティポリシー 情報・システム研究機構におけるLGBTQを尊重する基本理念 オープンサイエンスのためのデータ管理基盤ハンドブック 教育機関DXシンポ
アーカイブス コンピュータサイエンスパーク