PCDVD數位科技討論區 - 瀏覽單個文章 - DeepSeek崛起、輝達結束獨霸時代！

AI 資料荒！馬斯克表示去年 AI 訓練已耗盡現實世界所有資料

網路資料的有限性：
儘管網際網路上的資料量龐大，但相對於 AI 模型日益增長的胃口而言，仍是有限的。

資料品質的問題：
許多網上資料內容有雜訊、偏見或不一致性，這些問題會影響模型的訓練效果。

資料隱私的限制：
隨著隱私保護意識的增強，獲取和使用資料的限制越來越多，這也阻礙了 AI 模型的訓練。

合成資料：AI 發展的新曙光
面對資料的瓶頸，Sutskever 和馬斯克都將目光投向了合成資料（synthetic data）。合成資料是指由 AI 自行生成、模擬真實世界的資料。相較於現實世界資料，合成資料具有以下優勢：

數量不受限：可以根據需要生成任意大量的資料。
品質可控：可以精確控制資料的分布和特徵。
隱私保護：可以避免使用真實用戶的個人資料。

馬斯克認為，補充現實世界資料的唯一方法就是合成資料，
由 AI 自行生成用於訓練的資料，透過合成資料，AI 將能夠為自己打分，並展開自我學習的過程。

事實上，許多科技巨頭已經開始使用合成資料來訓練 AI 模型，
微軟、Meta、OpenAI 及 Anthropic 等企業已經在其 AI 模型訓練中廣泛應用合成資料。

科技市場研究機構 Gartner 估計，2024 年 AI 及分析項目使用的資料中，約 60% 是合成資料。

例如，微軟在 1 月 8 日開源的 AI 模型「Phi-4」
就是透過合成資料結合現實世界資料進行訓練的，
Google 的「Gemma」模型也採用了類似的做法。

Anthropic 使用部分合成資料開發了表現最佳的系統之一「Claude 3.5 Sonnet」，
而 Meta 則運用 AI 生成資料來微調其最新推出的 Llama 系列模型。

......................................................................
美國AI看得更遠
這也是人類創新進步的主因
打算無中生有.去創造新東西

後發的
就是只能靠前面廠商的.丟下不要的資訊與技術

加減騙吃騙喝.狠撈一票走人