智能語音拼寫軟件肯定需要一個大的詞匯庫。
那樣的詞匯庫,并不是單單指文字的詞匯庫,更重要的每一個字在各地的普通話中可能出現的地方口音。
比如普通話大部分中國人會說,但是真正說得標準的人并不占優。特別沒有幾個人能真正將所有漢字都會讀,更不會要說是說得標準。另外有很多字是多音字,語音拼寫又必須兼顧效率和準確。
所以一個龐大的詞匯庫是肯定很需要的。而這個數據庫因為涉及到音軌數據,數據量也比文字要大得多。
那最好是利用一個云計算技術進行解決。將全國所有人針對各個詞組的口音和錯誤方式都收集起來。甚至是可以用方言進行創作。
所以這個智能語音拼寫軟件,唐浩澤真心不是很很急。其實也急不來。
不過該做的,也應當提前做起來。
他提議說:“我們可以邀請用戶錄制我們指定的文章音軌文件。參與的人,可以在網站上給予一定的獎勵。”
向子榮聽他這話,也明白他話里所指。他皺眉說:“如果通過那樣收集數據模板。我們的工作量會很大。”
“反正我們也不急于求成。收集到足夠的數據后,在綜合分析并且建立模板。”
向子榮想了想,說:“好,我回去讓人選擇幾篇合適的文章先試一下。”
“的文章,可以選擇一些名篇。不需要他們用朗讀的方式。而是用說話的方式。流暢就好。”唐洪澤想一下,建議說。“比如說用魯迅先生的文章。還有一些古文,比如《愛蓮說》、《長歌行》等等中學課本上的文言文或者長詩。”
向子榮一聽,笑著說:“這個主意不錯。”
中學語文課本收錄的魯迅先生的文章和文言文,有不少是要背誦的。文言文就不用說了,那與現在的語言習慣有很大的不同,朗讀和背誦并不容易。而魯迅先生的文章讀起來都會覺得有些拗口,背誦起來肯定不好受。
所以在中學時代有一句名言:一怕周樹人,二怕文言文。
有那樣的文字的數據,應當可以建立不少的模板。
兩人又就這個問題談了一會,向子榮才離開了。
沒幾天,圈子網集團又制造出一個大新聞。
《是圈子網還是是瘋子網?》