瀏覽單個文章
野口隆史
Elite Member
 
野口隆史的大頭照
 

加入日期: Mar 2001
您的住址: Rivia
文章: 7,005
引用:
作者sn245763
這塊領域不是我的強項,沒有料就不瞎掰了
只是看到這幾天新聞一直炒作,加上輝達和台積電ADR盤前都已經先跌5%以上,
不確定這是市場短暫情緒反應,還是DeepSeek已經成為殺手級存在,
如果是,那對輝達和台積電的基本面可能有重大影響,原本想PO股票討論串,
但覺得這塊領域太專業,最後還是決定PO在這個討論串,
想聽聽板上專業人士看法。

股票的事我幫不了你,一來怕害了你
二來我本身也沒甚麼值得分享的經驗

大語言模型目前 DeepSeek R1 確實是最強也是最便宜
用更低的成本訓練出最強大模型
但那不是說他們技術有多好,底蘊有多強
純粹就是他們發展得比較晚,更懂得去應用現有的新技術而已

大語言模型光去年,每兩到三個月龍頭都會換人
只是今天輪到 DeepSeek 而已
去年大部分時間霸榜的分別是 Meta LLama 3.1 405B, nVidia LLama Nemotron 70B, Qwen 2.5
我自己很多專案都開始改用 DeepSeek V3 開發
少數不宜暴露到網路上的東西,使用 Qwen2.5-coder 32B,跟 DeepSeek-R1-Distill-Qwen-32B

目前大語言模型很像 25 年前的遊戲顯卡那樣高速發展
每隔幾個月,就有新技術,研發門檻也一直慢慢有感降低
隔代低參數模型幹爆上代多參數模型超過兩倍是很常見的事情
__________________
Folding@home with GPGPU集中討論串

Unix Review: ArchLinuxSabayonOpenSolaris 2008.5Ubuntu 8.10
AVs Review: GDTCAntiVir SSESSKIS 09NIS 09Norton 360 V3

I Always Get What I Want.
舊 2025-01-27, 01:50 PM #344
回應時引用此文章
野口隆史離線中