作者CCY0927 (茹絮梦)
看板TW-language
标题[资料] SARC-Taigi-LLM 台语大语言模型与训练程式专案正式释出
时间Sat Apr 11 15:51:32 2026
https://i.urusai.cc/2xK8S.jpg
【SARC-Taigi-LLM 台语大语言模型与训练程式专案正式释出】
我们很高兴宣布,基於 IMA’s Taiwan Tongues Taigi Datasets 所建置的台语大语言模
型与完整专案,现已正式公开。本次同步释出 SARC-Taigi-LLM 12B 与 27B 两个 Gemma
3 模型版本及训练程式,後续亦将持续推进 Gemma 4 模型的训练与开发。
SARC-Taigi-LLM 由 台湾资讯经理人学会(IMA-Taiwan) 与 国立阳明交通大学人工智慧
语音研发中心(SARC) 共同推动,聚焦於展示如何运用 IMA’s Taiwan Tongues Taigi
Datasets,结合 Google Gemma 3 模型与多阶段训练流程,实作出台语大语言模型。尽管
目前这个模型仍有许多不足之处,我们仍期盼能藉此抛砖引玉,邀请更多人共同推动台语
AI 技术的发展与生活化应用。
本次公开内容包括(下载或是试玩连结请见第一则留言):
‧ SARC-Taigi-LLM 模型
‧ 台语大语言模型线上展示系统
‧ GitHub 台语大语言模型训练专案
这些成果得以完成,特别要感谢 十七位台湾文学作家 慷慨捐献 超过 600 万字 的台文
文字语料,提供极为珍贵的台语书写典范资源。这不仅是一次模型释出,更是台语语言资
源、文化内容与 AI 技术共同累积的重要成果。
更重要的是,我们希望这不只是单一模型成果的展示,而是一个 可延伸、可重现 的台语
LLM 实作范例,让更多研究者、开发者与教育工作者能在此基础上持续扩充、重新实作
与验证,进一步推动台语 AI、本土语言科技与语言文化保存。
展望未来,SARC-Taigi-LLM 可望应用於:
‧ 台语问答与对话系统
‧ 台语词汇、语意与文化知识查询(例如,连结 张凯为 的【台语水管 - 从乡土剧学台
语】,台语水管 连结请见第4则留言)
‧ 台语教学、教材辅助与数位内容生成
‧ 台语自然语言理解与推理研究
在此,也再次向所有慷慨捐献台文语料的作家们,致上最诚挚的感谢与敬意。
https://www.facebook.com/share/p/1AYRbeAiMQ/
-----
本次公开内容包括:
‧ SARC-Taigi-LLM 模型
‧ 台语大型语言模型线上展示系统
‧ GitHub 台语大语言模型训练专案
相关网址如下:
IMA’s Taiwan Tongues Taigi Dataset(Taigi Dataset)
https://huggingface.co/IMA-Taiwan
台语大型语言模型线上展示网站(Demonstration Site)
https://llm.ivoice.tw:64441/
Hugging Face(Models)
https://huggingface.co/Speech-AI-Research-Center
GitHub(Project Repository)
https://github.com/Speech-AI-Research-Center
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 111.255.110.252 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/TW-language/M.1775893896.A.872.html