When you use Google Translate just as a translator, it might claim a little bit more important role. As it hides the possibility to illuminate “The Origin of Language and Humankind”, the biggest mystery of human history
I’d like you to allow the banal way of saying, but if we got on a time machine to trace the language being spoken by us to its source, can we reach “Linguistic Mitochondrial Eve” sometime ? Or, Language is inherent and inevitable trait of humankind so that it had occurred simultaneously in multiple races to be mixed and changed with the interaction of the races, and to converge gradually on the current languages ?
Actually, in that point, I don’t have so much interest. My linguistic concern is the general theory explaining the mechanism of how languages converge discontinuously and are distributed with keeping diversity. On the other hand, now humankind has obtained more effective tool than ever to investigate the origin of language. It’s Google Translate, ”Google Neural Machine Translation (GNMT)”.
GNMT is the method that has dramatically improved the accuracy of Google Translation with machine learning. Engineers of Google have established the technology “Zero-Shot Translation”, making it possible for machine translation to learn without conventional round robin. They firstly let the AI learn the correlations between specific language “A” and multiple languages “BC”, and afterwards translate between B and C directly by syllogism, just like currency exchange rate are crossed in USD conventionally in Foreign Exchange Market. They are declaring that this technology not only can diminish the “significant computational cost” for knowledge base development but also can increase the translation accuracy.( Zero-Shot Translation with Google’s Multilingual Neural Machine Translation System 2016(*i))
Their paper gives English as an example of above “A”, but they are presuming that some kind of “Interlingua” different from any other actual languages is uniquely constructed in the GNMT’s neural network to enable GNMT to do “Zero Shot Translation”. This can be interpreted as a “Common Language” for humankind in a meaning. Of course, the data of neural network of machine learning is basically blackbox for human, so it’s impossible to set the “interlingua” up as a new-generation-Esperanto. (Robots might be chatting in the language each other though.) On the other hand, the “Interlingua” in GNMT could be used as a basis to measure “Semantic distance” between each languages I think.
As all of you know, the search for “Mitochondrial Eve”(*ii) has been achieved by measuring the displacement of the type of Mitochondrial DNA being inherited only in female line, and plotting them on genealogical tree. In the same way, when we would refer to the GNMT neural network data and measure the “distance” from each nation’s languages to the Interlingua to systemize the results, it would have a possibility to clarify how human language had branched and evolved.
Additionally, the problem of “Mitochondrial Eve” or a similar research-method “Y-chromosome Adam” exists in the fact that these focus on the tiny portion of DNA sequence and only on the properties unique in female line or male line so that these can’t necessarily specify the birth place of humankind, but if the evolutional process of Language(not depending on female/male line) was clarified, it could be a clue to explore where Homo sapiens was born and how expanded to around the world. As Language is so called “Meme” being certainly inherited from parent to child like DNA. Of course, in order to do more effective research, we may have to choose sample languages for GNMT more carefully. It should involve minority’s language, Latin and Shakespeare English as well.
Google Translate, with following its enormous volume of routine job as a translator, might have already been filled with the seeds of the truth of humankind origin in its wavering neural network sea.
Note:(*i)Zero-Shot Translation with Google’s Multilingual Neural Machine Translation System 2016 https://ai.googleblog.com/2016/11/zero-shot-translation-with-googles.html
(*ii)“Mitochondrial Eve”(Wikipedia) https://en.wikipedia.org/wiki/Mitochondrial_Eve
グーグル翻訳を単なる言語翻訳機としてのみ使うのは、少しだけ役不足かも知れない。人類史上最大の謎である「言語及び人類の起源」を解明する可能性を秘めているのだから。
ベタな言い回しはお許し頂くとして、タイムマシンに乗って、我々が話している言語の起源を遡れば、いつかは「言語学上のミトコンドリアイブ」に辿りつくのであろうか?或いは、言語は人類の本源的、必然的な特性であり、それは同時多発的に複数の人種内で生まれ、それら異なる言語が、人種間の交流によって混合し、徐々に現在の各言語に変化、収斂して行ったのだろうか?
実は、その点に関して、私自身は大した興味を持っていない。私の言語学的な関心は、生物種同様、各言語が不連続に収斂しながら多様性を保持して分布する事の一般理論としてのメカニズムである。一方で、今や人類は、言語の起源に迫るかつて無い有効なツールを手に入れている。グーグル翻訳「Google Neural Machine Translation (GNMT)」である。
GNMTは、機械学習によってグーグル翻訳の精度を飛躍的に向上させた手法である。グーグルの技術者達は、各言語間の翻訳学習を、従来のn:nの総当たり戦ではなく、丁度外為市場において通貨間相場が慣例上米ドルを介して裁定されるように、特定の言語Aと、複数の言語BCの相関性を各々学習させ、三段論法的にBC間の直接翻訳を可能とする技術「ゼロショット翻訳」を確立した。これにより彼らは、ナレッジベース開発の為の「多大なコンピュータコスト」を削減できるのみならず、翻訳精度を向上させる事ができると主張している。(*1) Zero-Shot Translation with Google’s Multilingual Neural Machine Translation System 2016
彼らの論文が挙げている例は、上記Aとして英語を登場させているが、GNMTのニューラルネットワーク内には、現実のどの言語とも異なるある種の「中間言語」が独自に構築され、GNMTはそれを用いてゼロショット翻訳を可能としていると彼らは見ている。即ちこれは、ある意味人類の「汎用言語」と捉える事が可能である。無論、機械学習のニューラルネットワークデータ、は基本的に人間から見ればブラックボックスであり、上記「汎用言語」を新時代のエスペラント語に祭り上げる事は不可能である(AI同士の世間話には使われているかも知れないが)。一方で、GNMT内の中間言語は、各言語間の「意味論的な距離」を測る基準として使えるかも知れないと私は考えている。
衆知の通り、ミトコンドリアイブ(*2)の探索は、女系のみに継承されるミトコンドリアDNAの型の変異量を計測し、系統樹にプロットする事によって実現されたものである。同様に、GNMTのニューラルネットワークデータを参照し、各民族の言語と仲介言語間の「距離」を計測し、それを系統化すれば、人類の言語がどこでどう分岐し、進化したのかを明らかにできる可能性がある。
加えて、ミトコンドリアイブや、類似の探索法である「Y染色体アダム」の問題点は、それらがDNA配列のごく一部のみに、且つ女系、男系の特性のみに着目しているが為に、必ずしも人類発祥の地を一意に特定出来ない事であるが、男系女系を問わない特性を有する言語に関して、進化の過程が明らかになれば、現生人類がどこで生まれどう世界中へ広がったのか、解明の手掛かりになるかも知れない。言語は、DNA同様、親から子へ確実に「遺伝」するもの、即ちミームだから。無論、実効性のある研究の為には、GNMTのサンプル言語を更に慎重に選ぶ必要があるであろう。少数民族言語や古代ローマ語、シェークスピア英語等も含まれるべきである。
グーグル翻訳は、日々淡々と膨大な翻訳業をこなす傍ら、既にそのたゆたうニューラルネットワークの海に、人類起源の真実の種を湛えているのかも知れない。
註:(*1)Zero-Shot Translation with Google’s Multilingual Neural Machine Translation System 2016 https://ai.googleblog.com/2016/11/zero-shot-translation-with-googles.html
(*2)“ミトコンドリア イブ”(ウィキペディア) https://ja.wikipedia.org/wiki/ミトコンドリア・イブ