因此需要調整圖片特征,盡可能把圖片和文字的吻合度拉到最高,用多張圖片交叉說明一個詞匯,類似于ai學習的過程,但為了溝通的便捷性,又不能讓每個字詞對應的圖片太多,否則會嚴重拉長語言學習翻譯的時間。
第二代星際語言翻譯器,意識到外星生命可能并沒有眼睛,壓根看不見屏幕,因此增加了多種可見光之外的信息傳達方式,整個翻譯器的體積也急劇上升,從一塊小屏幕,變成了冰箱大小。
但失去了圖片,信息表述變得更加困難,神童們到這個版本開始研究,生命感知世界的方式總共可以有多少種?并嘗試理解不同感官在腦海中形成的世界是什么樣子,再進一步推導可能的語言形式。
研究結果比較樂觀,大部分生物大概率會有視覺,因為光是感知世界最及時的媒介,用其他方式感知世界,在各類場景下往往會丟失大量信息,繼而在生存進化中落入下風,很難成為星際文明。
第三代星際語言翻譯器,添加了更多“達成共識”的初次接觸信息。
譬如加入了中性氫原子的躍遷圖像,氫原子在可觀測宇宙中隨處可見,無論在哪個星球誕生的文明都會熟悉氫原子,而躍遷長度21.106厘米以及躍遷時間0.704納秒是固定的,就可以在長度單位和時間單位上取得一致。
各類物理化學知識都被加入初次接觸信息中,畢竟整個世界是物理化學的世界,只要在物理化學層面達成一致,就可以一點點描述萬事萬物,雖然可能非常麻煩,但至少可以把翻譯誤解降到最低。
第四代星際語言翻譯器,引入了更多信息論的成果。
譬如著名的齊普夫定律,也叫省力法則,拿足夠長的一大段人類文字,將其中的高頻字詞統計出來,大概率會出現高頻詞次數和次序排序的反比關系,也就是說第二高頻詞出現的次數會是第一高頻詞的二分之一,第三高頻詞出現的次數會是第一高頻詞的三分之一,往后四分之一、五分之一等等。
最初齊普夫定律是從人類文本里總結出來的,但后來生物學家們發現,海豚座頭鯨之類可以互相交流的生物,聲音變化分布竟然也符合齊普夫定律。
此外這一版本的翻譯器嘗試額外引入了多種人類語言模型,用來應對不同信息熵的外星文明語言。
信息熵也叫香農熵,由信息論祖師爺香農提出了最初公式,歷經一個多世紀的學術研究,結合馬爾科夫鏈等理論,被反復升級優化。
簡單來說,符號種類數量越小,信息熵越低,符號種類數量越大,信息熵越大。
信息熵越低的語言,文字理解學習起來更容易,但相同長度的文本能表達的信息量也越少,可以理解為更費口舌更費筆墨但不費腦子,溝通效率更低。
例如英文的一階信息熵大約是4比特,漢字一階信息熵大約是9.6比特,不同文本樣本和不同建模得出的計算值會略有誤差,但差距之大顯而易見。
實際生活中最直觀的例子,就是同樣內容的文本,例如產品說明書或者聯合國文件,就會出現漢字篇幅更短的情況。
第五代星際語言翻譯器,在之前幾代升級的模塊上進行全面加強和改錯。
傳遞信號的模塊換上了最頂尖的,精度強度都上了一個臺階,造價上了十個臺階,好在這種和外星人溝通的東西也不用考慮量產成本,價格完全無所謂。