言語学とビッグデータ

 ウェブには、たくさんの無料翻訳サービスが存在しています。その代表である「グーグル翻訳」は、64種類にも及ぶ言語同士で、単語や文あるいはウェブページごと翻訳をすることができます。

 このグーグル翻訳には「統計的機械翻訳」と呼ばれる技術が使われているのです。 従来は、翻訳に必要な文法規則や変換規則を人手で作成して、これらの規則に基づく翻訳を実現する「ルールベース翻訳」と呼ばれる方式が一般的でした。 ルールに適合すれば、高い精度で翻訳が可能である反面、ルールがない場合には、うまく翻訳できない問題があります。 さらに、現在では、これらの規則が非常に複雑になっており、規則間の矛盾を起こさないようにルール修正することは非常にコストと時間のかかる作業になっています。

 近年、ルールは作成せずに、翻訳対象となる言語対の文を対訳データとして自動学習させることで、確率的な翻訳のモデルを構築し、統計的に翻訳を実現する統計的機械翻訳が急速に技術発展しています。 その代表例として、google翻訳があるのです。 対訳データさえあれば、容易にさまざまな言語に対応することができます。そのため、google翻訳では64種類にも及ぶ言語同士で翻訳することができているのです。

 また、学習用の対訳データは一般的に、数10万〜数100万程度のペアが必要と言われています。 そして、それ以上のデータがあれば、さらなる精度向上が見込めます。ただし、一度にそれだけの量の対訳データを収集することは、非常にコストがかかります。 対訳データの収集では、クラウドソーシングとして不特定多数の人が過去の翻訳の過程で作成した対訳を収集し、活用するなどの手法も検討されています。これにより機械翻訳のためにかかるコストはさらに少なくなるでしょう。このように、近年のビッグデータの恩恵は機械翻訳技術にも及んでいるのです。