9月底的時候,徐勇果然來鵬城了。
陳義哲帶著徐勇參觀了cdss項目目前的情況。
長達一年多的時間里,徐勇陸陸續續發來了大量的醫院臨床數據,而cdss項目組多達30個人的技術人員就一直在做標準化數據的工作。
目前夏夢已經在陳義哲的方案設計下,初步開發了支持闌尾炎,肝結核,胃結核等幾項特殊疾病的cdss。
“怪不得搜夏引擎的技術讓百度技術團隊驚為天人,看來夏夢互聯網內部是人才濟濟啊。”徐勇感嘆道。
“呵呵,百度的技術也不差,你看google都被百度擋在國門外,現在google也只能曲線入華。”陳義哲笑道。
徐勇搖了搖頭,說道,“說句真心話,百度和google還是有一定的差距的。只是在國內市場,百度占了天時地利,這其實是‘百度更懂中文’地一個集中體現。就簡單地說分詞,百度當年做分詞,先從一個人工編輯號地字典開始,用這個字典跑一些網頁,觀察里面地badcase。”
“可能是分詞過細,或者是中文人名沒分出來,然后就嘗試根據中文語法規律加入規則或添加詞表解決這些badcase,如此往復,直到有滿意的結果。上線應用,發現有新的badcase就再研究加規則,當然也有自動流程發現和確認如“人艱不拆”之類的新詞!”
“徐哥,想不到你這個醫藥出身的也懂得這其中的技術!”陳義哲笑道。
“都在這一行干了五年了,沒吃過豬肉,也見過豬跑。”徐勇自嘲道,緊接著他繼續道,“Google和百度最大的區別,就是google更加強調技術,它做分詞則是把問題看成一個概率問題:如果頁中哪些字經常一起出現,那麼它們很有可能就是一個詞。看哪些詞后面會跟的地得,的地得后面有常跟哪些詞,語法結構也就出來了。”
“解題思路就是把所有抓到的頁往MapReduce裡一丟,參數算出來就好了。評估分詞質量的方法也很簡單,就拿新模型放到網頁檢索的模型裡,做個實驗看質量有沒提升就行。這套方法結果之好,基本把中文分詞做成了一個沒有多少懸念的簡單問題!”
“其實這也是Google不懂中文的問題,因為它不需要中文語言專家的參與!同時這也就是Google做實時翻譯的思路。”陳義哲接著道,“不過這種方法雖然簡單,看似沒有什么秘密可言,可是首先,Google得先有這么多的網頁數據,還得有大機群,有分布計算框架,還有可復用的模型……這點套在cdss其實也一樣,cdss也需要大數據,計算的模型,看似簡單,但是其實復雜無比!”
“這是必然的,畢竟醫學上的知識太復雜了,做cdss項目往往需要考慮非常多的患者因素,如癥狀、體征、實驗室檢查數據、家族史、基因、流行病學資料、現有的醫學文獻等等。同時新發表的臨床研究數以萬計,質量參差不齊,這些大量的數據導致了即使cdss開發出來,最終維護上仍會存在巨大困難。”
“目前較為成功的臨床決策支持系統往往局限于某個領域,覆蓋范圍有限。比如,1971年上線使用的Leeds腹痛診斷系統,其診斷的正確率高達90%以上,而醫生的診斷正確率在80%以下,但這套系統僅僅也只能用于診斷腹痛。由此可見,cdss項目的研發路遙遙而修遠兮!”徐勇不由嘆道。
“徐哥,目前大多數的臨床決策支持系統,通常會包括三個組成部分:知識庫,推理機和人機交流接口。知識庫儲存著大量的編譯信息,通常采用IF-THEN規則進行存儲和管理。”
“例如,關于藥物的相互作用,規則可以寫成“IF服用了藥物X,AND服用了藥物Y,THEN顯示警告信息”。高級用戶也可以根據自身需要在另外的編輯界面中自定義知識庫里的規則,比如對新藥進行實時更新等。推理機則根據知識庫里的規則對患者的資料進行自動整合、分析。人機交流接口則是將分析結果反饋給用戶或者作為系統輸入。”
陳義哲看了徐勇一眼,繼續道,“這種采用知識庫的臨床決策支持系統確實會出現臨床數據復雜化,更新維護困難上的問題。不過我已經準備在著基礎上,采用人工智能的形式!”
“人工智能?”徐勇驚訝道,雖說人工智能提出了將近40年,各國也投入大量資金研究,可是目前并沒有大的突破,而且據他聽聞,Google已經在前兩年開始進入了這一領域。
陳義哲點了點頭,“通過機器學習從已有的經驗中自動攫取規則,讓cdss系統不僅僅成為數據的輸入者,也要讓它成為數據的采集者。”
“夏夢這邊的AI是基于那種構建方法?”徐勇好奇地問道。
“主要是基于人工神經網絡和遺傳算法的結合!”陳義哲答道,其實確切地說,若是最終確定把cdss推出市面,那其ai終端必然是大白,唯有如此,才能保證數據及時地被大白吸收,而診斷也不會輕易的有白癡問題的出現!