PCDVD數位科技討論區

PCDVD數位科技討論區 (https://www.pcdvd.com.tw/index.php)
-   七嘴八舌異言堂 (https://www.pcdvd.com.tw/forumdisplay.php?f=12)
-   -   繁體中文專家模型開源專案,AI在國語使用上會更加精進嗎!? (https://www.pcdvd.com.tw/showthread.php?t=1208859)

polor 2024-07-01 02:23 PM

繁體中文專家模型開源專案,AI在國語使用上會更加精進嗎!?
 
2024-07-01 在地化的繁中AI語言模型TAME發表 精準解釋買東西「很盤」

多家企業今日共同發表繁體中文AI大型語言模型「Project TAME」,
該模型藉由企業所提供電子業、石化業、醫療、法律等各專業領域資料,進行5000億字的預訓練,
發展出在地化特色,可以精準解釋「很盤」等繁中語境下的特定用法,
甚至在國考、升高中大學的題目上,能拿到的分數也遠高於GPT-4o、Gemini等其他語言模型。

今日舉行成果發表的「繁體中文專家模型開源專案TAiwan Mixture of Experts」(Project TAME)是由多家企業聯合發起,
與台大資工系副教授陳縕儂合作,NVIDIA提供技術支持,總共預訓練5000億個字。
Project TAME是基於Llama 3 8B、70B的版本,訓練框架為NVIDIA NeMo Megatron,
推論框架為NVIDIA TensorRT-LLM,演算法及算力的支持則來自NVIDIA Taipei-1的DGX H100。


polor 2024-08-22 12:30 AM

2024-08-16 採聯發科 TMMLU 框架開發,iKala 繁中驗證集獲權威學術會議肯定

AI 公司 iKala 近期推出的繁體中文驗證集「TMMLU+」正式被 AI 語言模型學術會議
COLM(Conference on Language Modeling)接受,在眾多論文審查過程中,獲得前 10% 的高分。

iKala 內部 AI 團隊以聯發科所推出的框架 TMMLU 為基礎,透過社群媒體資料深入擴展,
涵蓋更多台灣在地用語和人文背景,讓新開發的繁體中文驗證集 TMMLU+ 更貼近繁體中文的詞語情境和表達方式,
加上開源形式,可協助台灣企業開發繁體中文模型時,使用 TMMLU+ 做為模型驗證的工具,貼近在地需求。


polor 2025-01-29 04:39 PM

2024-07-02 AI浪潮來襲 中研院院士:應發展繁中語言模型

孔祥重說,生成式AI已成商業模式技術應用的新藍海,政府除需透過制定政策,
讓民間AI研發團隊能以公平、公開且安全的方式來運用政府資料,
也需特別留意AI技術發展過程中可能產生的資安風險,這些都有助於提升AI技術的信任度。

「擁數據者得天下。」孔祥重指出,如何有效管理數據是政府首當其衝的挑戰,
而AI發展始終離不開人性,如何讓AI模型在人類指導下學習、適應在地化的文化,
是台灣因應AI科技地緣政治潛在風險的重要方向。

孔祥重表示,百工百業領域都應探索生成式AI帶來的潛在產業優勢,但同時也要了解隨之而來的挑戰,最主要在兩方面,
一是如何讓AI智慧運算更節省能源消耗,二是如何控制AI模型對齊。

孔祥重也說,AI要與人類建立強而有力的關係,需要將AI技術與人類偏好及社會價值觀保持一致性。

polor 2025-01-29 05:58 PM

2023-10-12 中研院繁中大型語言模型稱「國籍為中國」,中研院長:研究員求快心切

廖俊智表示,中研院在這起事件中體認到繁體中文的語言詞彙是非常重要的,需要大家一起來做。
中研院學者也參與了國科會的可信任生城市AI對話引擎(TAIDE)計畫,要開發台版的繁體中文詞彙資料庫。

至於未來的風險控管,中研院已規劃成立「生成式AI風險研究小組」,預計深入了解AI對社會的衝擊,
提供研究人員相關指引,避免類似事件再度發生。
立委范雲呼籲,中研院應加強人文社會與自然科學的對話與合作,才能避免類似爭議再現,
他強調,AI發展是數位國力的展現,台灣AI研究必須從起跑點就走在正確的方向。


ethan3330 2025-01-29 07:28 PM

把新注音加入AI智慧選字
最簡單的37個注音符號都沒辦法
還想 訓練5000億個字

被砍預算 只是剛剛好

:jolin: :jolin: :jolin:

蠻荒 2025-01-30 12:38 PM

引用:
作者ethan3330
把新注音加入AI智慧選字
最簡單的37個注音符號都沒辦法


這有何難的嗎??

不過、我大概能猜到是怎麼回事了,大概不想花大錢請專家、只想花大錢請磚家.......


所有的時間均為GMT +8。 現在的時間是05:22 AM.

vBulletin Version 3.0.1
powered_by_vbulletin 2025。