換個說法就是,娜芙的學習進步速度太恐怖了,每一次對抗對“她”來說都是學習。
羅晟通過這五場與人類玩家對抗的比賽中也看到了娜芙暴露出來的一個缺陷,就是除了特定的分兵戰術,“她”并不能形成靈活的兵力分配。
在輸掉的第四局對抗中,一名高水平的人類玩家對娜芙的基地不停的多線騷擾,而“她”一旦回防對方就立刻跑路,等“她”的兵出門展開進攻的時候又轉回來繼續騷擾。
這場對抗,面對人類玩家的靈活出兵策略,娜芙只能被動應戰,無法形成對人類玩家的有效進攻,也導致了最后滾雪球效應起來了。
最終落敗。
第五局對抗結束之后,羅晟讓娜芙停止了匹配對手,然后對其重新進行了一次大幅的升級優化。
他覺得這樣的學習效率仍然顯得太慢。
娜芙的智能體采用的是深度學習算法,羅晟對其進行了一次精心升級之后,包括了神經網絡、通過強化學習的自我對弈,多智能體學習、模仿學習等算法或技術。
其中所謂的自我對弈,簡單說就是自我學習,通過不斷的試錯找到讓自己勝率最大的游戲方式。
而通過自我對弈和強化學習,構成了開放端學習算法的基本范式,學習人的策略,并確保娜芙的智能體在整個游戲過程中不斷探索這些策略,從而讓“她”獲得更大的升級與進步。
此外,由于星際爭霸這款游戲具有巨大的動作空間,會讓許多先前強化學習方法變得無效。
羅晟因此還為娜芙開發了一種全新的算法進行非策略強化學習,使得“她”能從舊有的歷史決策的游戲中有效的更新決策。
而羅晟的終極目的可不是讓娜芙成為一個“IMBA”的星際爭霸AI玩家,而是以此為起點,讓“她”能夠勝任復雜多變的其它應用場景。
如果“她”只是在星際爭霸的比賽中成為超級高手,換個場景,例如在圍棋、語言或其它領域就不行了,那依然是個純粹的人工智障,和真正的人工智能有著巨大的差距。
……
時間一分一秒的流逝,羅晟貓在他的辦公室不知不覺就耗費了三個多小時,為娜芙完成了第二次的優化升級才下班,時間已經不早了。
羅晟在離開辦公室之前,又把娜芙放進了暴雪星際戰網的天梯中,讓“她”與人類玩家不停的對抗。
搞定這一切就沒有在管了,下午還要去蔚藍海岸公司處理一些工作,還有一場會議什么。
而被放養的娜芙就在做一件事情,不斷與人類玩家對戰。
娜芙的背后支撐“她”的幾乎是整個蘇城數據中心,消耗的是算力資源,是電費。
事實上如果沒有錢,是不可能養得起一個人工智能的,就更別說是開發階段了。
如果是像IBM公司這樣的人工智能研發機構,制約其發展的可能是開發者本身,但見證過人工智能的羅晟,對于開發而言反而是最輕松的。
但仍然有問題制約著他。
那就是硬件,娜芙的成長被現在的硬件水平限制了,如果有更好的硬件基礎,會迎來一次質的飛躍。
深度網絡需要高端GPU在大量數據的合理時間內進行訓練,這些硬件非常昂貴,當然在羅晟這里沒有貴這個說法。
可問題是現在沒有符合他要求的硬件,有錢都沒得買,今后只能自己起爐灶搞硬件了,
如果沒有先進硬件基礎來訓練深層網絡以實現高性能是不可行的。
不僅僅要使用高端GPU,還需要快速的CPU、存儲以及快速和超大容量的RAM。
……
隨著時間的推移,娜芙通過不斷的對戰,勝率從“她”賽事生涯第一局開始的慘不忍睹,逐漸出現了反轉,勝率正在快速的提高。
在操作層面,娜芙毫無疑問是世界第一,沒有人類玩家能夠在這個層面與“她”抗衡,哪怕是被限制了APM和EPM。