現在假設我們通過ca獲得了一組特征向量{\athbf{v}1,\athbf{v}2,\dots,\athbf{v}k},這是數據的主要變化方向。
接下來就能將數據投影到ca提取的主要特征向量上,并保留前k個主要成分,以減少數據的維度。
壓縮后的數據可以表示為\athbf{y}\athbf{y}1,\athbf{y}2,\dots,\athbf{y}k,其中\athbf{y}i\athbf{x}\athbf{v}i表示數據在第i個主成分上的投影。
同理,當需要解壓縮的時候,利用壓縮后的數據\athbf{y}和ca提取的主要特征向量{\athbf{v}1,\athbf{v}2,\dots,\athbf{v}k}來重構原始數據。
重構的數據結構就是\hat{\athbf{x}}\su{i1}{k}\athbf{y}i\athbf{v}it。”
喬澤手書的速度很快,剛剛講解完,也完成了包含著數據表示、分析和重構三個步驟的重要公式,然后將手中的稿紙遞給了對面的馬明旭。
既然懂壓縮,又了解過超螺旋代數,那應該就能看懂這個簡單的例子。
當然這就是個最簡單的理論過程,豆豆在使用的時候,還需要考慮數據預處理、參數選擇等問題,以確保算法的有效性和性能。不過這些都是細枝末節的東西,在喬澤看來,只要弄懂了理論,剩下的都是小事情,無非就是要花費些時間。
甚至完全都能交給人工智能解決。
豆豆都能完美的使用這套數據庫,未來升級后的人工智能就更沒問題了。
馬旭明深深的看了眼喬澤,這才接過他遞來的稿紙,隨后便被稿紙上三個公式所吸引。
感觸有很多,比如腦子有些不夠用了。
來之前大家的確是專門研究過超螺旋代數跟超越幾何學,但時間還是太短了。
光看這些公式還真有些反應不過來。
想開口再深問,突然又感覺不太好意思,只能默默的將公式記在腦海之后,然后抬頭看了眼正歪著頭瞅著稿紙的劉杰春,干脆的把喬澤這張手稿遞了過去。
本以為這家伙會一看一個不吱聲,誰想到劉杰春竟然恍然大悟的說了句“哦,原來是這樣啊”
馬旭明剛想開口問問老友他看出些什么了,誰想到劉杰春將手稿遞給身邊的周良時,順帶著扭頭沖他眨了眨眼。馬旭明秒懂,然后在心里冷笑了兩聲,也懶得開口拆臺了。
畢竟大家一起來的,算是一個整體,沒必要在兩個年輕人面前鬧笑話。
只是這部份手稿在四個人手中轉了一圈之后,一時間幾個人又不知道說些什么了,于是目光落到了馬旭明身上。
看他做什么
馬旭明深吸了口氣,然后問道“嗯,這個這個算法,能做到無損壓縮”
“高維特征碼的還原為什么不能無損”喬澤疑惑的反問道。
“嗯,我的意思是,無損壓縮算法嘛,這個極限壓縮效率總是會受到信息熵的限制,你這個算法極限壓縮效率大概能達到多少”
“通過公式可以算出來,極限壓縮效率能做到與高維信息熵相當,如果你是說跟現有的壓縮算法比的話,效率能提升兩到三倍,未來如果能更進一步的話,甚至可能做到網絡傳輸比卡車運輸要快。
當然就目前的情況而言,還得根據具體數據類型來分析。因為這涉及到不同類型數據對應的高維信息熵的不同。比如圖片的壓縮效率要比文本更高,視頻要比圖片更高。缺點是壓縮跟解壓時需要更高的算力支持。”喬澤只能詳細的解答道。
“嗯,我大概理解了”馬旭明看了眼劉杰春,表示他沒問題了。
其實來之前,他是想好好跟喬澤探討一下關于壓縮算法的未來的。
但在了解了喬澤的討論方式后,他決定得到明天再來聊這些。