DeepSeek五大影響解析 高階晶片受重擊,但輝達和台廠仍能受惠?
DeepSeek打破美國巨頭壟斷AI能力的現況,被稱為「東方神祕力量」。這項顛覆性的技術應用,加速邊緣AI的實現,對台灣造成衝擊的同時,也將誕生哪些新機會?
https://www.cw.com.tw/article/5133932
今年農曆年間,被稱為「來自東方的神祕力量」的中國大型語言模型DeepSeek,在全球科技圈掀起滔天巨浪。
其開源模型DeepSeek-R1,以極低的訓練成本,打造出可與OpenAI媲美的模型。以美國為首、大成本投入AI的發展途徑,難道就被中國一夕彎道超車?對AI資源投入有限的台灣,到底是好是壞?
對此,前Google董事總經理簡立峰傳神形容,
DeepSeek可說是「小米加步槍,打破美國AI七雄的護城河。」未來,企業能用更低成本,訓練出與ChatGPT、Gemini相當的AI模型,改變美國主導的AI七雄壟斷格局。
這是因為,
DeepSeek透過整合並優化現有技術,將大模型蒸餾為低成本、小參數的小模型。其採用的麻省理工學院(MIT)許可協議開源架構,更支持所有人免費商用、任意修改和衍生開發。
也就是說,未來,手上沒有大模型的人不一定就是輸家,人們將有更多機會參與AI的創新。
因為DeepSeek的小模型,讓AI運算與開發成本下降,將有利於更多新創企業投入AI應用,創造出各種應用的可能性,最終推動AI技術導入邊緣裝置。
「開源模型正在超越專有模型(非開放模型),」Meta首席科學家楊立昆(Yann Lecun)為此作了註解。甚至,Open AI的CEO奧特曼(Sam Altman)都坦承,Open AI的開源策略可能站到了歷史錯誤的一方。
這項技術同樣能為台灣帶來新的啟發。
過去,台灣曾推動包括TAIDE、TAME等大型語言模型計劃,卻無法推出具足夠影響力的繁體中文模型。DeepSeek的模式或許可以成為一種解方,透過新的技術突破,站在巨人肩膀上,打造出台灣的繁體中文模型。
簡立峰直言,DeepSeek在AI領域已經造成「核彈級別」的影響。以下為專訪精華整理:
影響1:「小米加步槍」打破美國護城河
DeepSeek在AI領域,絕對是核彈級別的影響,它用「小米加步槍」(指簡陋的裝備),打中了洋槍洋砲。過去美國以資本堆積的AI產業,現在護城河大幅下降。
實際上,DeepSeek並沒有首創技術,這支團隊最頂尖的能力,在於整合並優化現有的各種技術,達到讓模型「變小但變聰明」的效果。
影響2:大模型「蒸餾」成小模型
DeepSeek的創新來自於專家混合模型(MoE,Mixture of Experts)、推理能力(Reasoning)和知識蒸餾(Distillation)等技術的整合。其核心策略是讓AI學會根據問題推理,而非單純記憶答案,如同「教AI釣魚(推理),而非給AI一堆魚(資料)。」
當用戶提問時,AI會先推理判斷,再決定向哪個專家模型請教。這就是MoE技術,也就是將不同領域的知識分派給專門的「專家模型」,例如數學、物理等,避免單一模型處理所有問題。
傳統MoE需要大量計算資源來維持多個專家模型的運作,但DeepSeek通過知識蒸餾技術,壓縮了大型模型。
具體的做法,就是先大量使用如ChatGPT的大模型,讓小模型學習大模型的解題思路,接著透過模仿大模型就能準確回答問題。
過去,傳統AI若每次回應都進行推理,計算時間會大幅增加,並不可行。然而,DeepSeek的模型小,使即時推理成為可能,在有限資源下顯著提升AI的表現能力。
影響3:中國偷襲珍珠港,激起美國加速創新
由此可見,DeepSeek的成功,是站在現有的大語言模型的肩膀上。
奧特曼過去就表示,ChatGPT的大多數流量,都來自特定國家有計劃地使用。然而,蒸餾的技術並不容易,他們沒有預料到中國竟然成功優化技術,將整個模型「蒸餾」走了。
這類似當年被日本偷襲了珍珠港的情形,過去擁有雄厚AI護城河的七雄受到了打擊,但這並不意味著美國輸了。
因為,
DeepSeek的開源模式,意味著其他科技公司很快就可以依循類似邏輯,再推出自己的模型產品。並且,雖然中國擁有高度的人才生態系,但美國擁有的是完整的商模跟產業結構。
影響4:邊緣AI興起,接力驅動晶片需求
舉例來說,開源且降低計算成本的AI模型,將有利於「邊緣AI」興起。
七雄當中的蘋果,就因為擁有多個能發展邊緣AI的行動裝置,反而股價大漲。
而對輝達來說,儘管在雲端的高階晶片毛利會下降,但未來有更多AI應用,使用者端GPU的量可能會增加。
DeepSeek對台灣的影響,可謂好壞參半。
短期而言,因為市場不再大量依賴高階晶片和伺服器,對於幾乎壟斷高階市場的台灣來說可謂不小的打擊。然而長期來說,邊緣AI趁勢興起,也讓AI PC、手機甚至資通訊等多數產業,能被AI雨露均霑。
影響5:「蒸餾」降低台灣AI發展門檻
不過,蒸餾技術是包括台灣在內的「窮人的武器」,本來由美國幾家公司獨佔的AI資源被打破,任何國家、中小企業,都有機會可以參與其中。
舉例來說,台灣也曾推動包括TAIDE、TAME等大型語言模型計劃。然而,政府計劃一來無法如企業般長期經營,二來受限於人才、投入資金和資料不足,繁體中文的大型語言模型始終難以發揮足夠的影響力。
如果按照DeepSeek的模式,透過蒸餾現有的大模型,再添加繁體中文的資料,或許就能透過較低的成本,解決繁體中文資料量不足的問題。這就像是請來了一個語言專家,他不需具備各種語言的知識,只要針對中文的部份,使用繁體中文問題進一步訓練,即可得到一個繁體中文的專家。
不過,「蒸餾」這一舉動是否合法合理,仍有待討論。
其實,世界整體的進步,仍然需要像七雄用雄厚資本打造的基礎大模型來推動。因為如果大家都只會使用蒸餾技術藉由模型,AI模型將停滯在當前的水準。甚至,AI的終極目標——如人類般思考的通用型AI(AGI),也會因此延後。
然而,基礎模型有賴於高額投資。如果辛苦打造的基礎模型,能被他人輕易用蒸餾方式就整碗端走,接下來,還有誰願意推動基礎模型?這也將是未來世界要共同面臨的挑戰。