作者CCY0927 (茹絮梦)
看板TW-language
标题[新闻] 全球四成语言濒危 新版「台湾客语语料库」全球规模最大
时间Sat Nov 22 20:33:03 2025
https://i.urusai.cc/3JaRz.webp
https://hakkanews.tw/2025/11/21/243622/
全球四成语言濒危 新版「台湾客语语料库」全球规模最大
2025年11月21日
【蔡依璇/新竹报导】当前全球化与语言同质化加剧,世界上六千多种语言中,有四成被
列为濒危语言,台湾的客语、闽南语及南岛语,都面临语言转移与传承断层,如何运用科
技储存并再现语言,成母语复振的核心课题。政治大学英国语文学系博士後研究员叶秋杏
今天(21日)在一项客家国际研讨会上指出,「台湾客语语料库计画」将於明年推出2.0
版,届时将成全球规模最大的客语语料库。
全球客家研究联盟(Consortium of Global Hakka Studies, GHAS)国际学术研讨会昨、
今两天,在阳明交通大学客家学院举行。在推动少数语言保存上,建置语料库与校园母语
教学,是两个重要的讨论方向。
叶秋杏在会中分享台湾首个国家级客语语料库的建置历程,及未来在人工智慧及教育推广
上的可能性。联合大学文化创意与数位行销学系教授张陈基说,台湾在全球客语语言研究
具关键地位,公开与标准化语料库,有助提升研究尺度与国际能见度。联合大学客家语言
与传播研究所副教授兼所长范瑞玲,则聚焦苗栗地区国中客语教学,探讨《国家语言发展
法》施行後,国中客语课程的实际成效与挑战。
语料库是复振起点 除了保存更要能用
「如何运用科技储存并再现语言,成为语言复振的核心课题。」叶秋杏说,客家委员会从
2017年委托政大启动「台湾客语语料库计画」,打造首座国家级客语语料库,1.0版於
2022年推出,语料涵盖四县、海陆、大埔、饶平、诏安、南四县共六腔跨地区语料,时间
跨度自1990年代至今,来源包括出版品、政府文宣、访谈、电视节目、纪录录音等。
https://i.urusai.cc/rQkIh.webp
叶秋杏分享台湾首个国家级客语语料库的建置历程,以及未来在人工智慧及教育推广上的
可能性。蔡依璇摄
叶秋杏表示,所有资料都经合法授权、两次以上校订与母语审查,目前语料库收录超过
600万字书面语与40万字口语语料,预计明年(2026年)推出2.0版後,总字数将突破千万
,成为全球规模最大的客语语料库。
「语料库的使命是让语言被看见、被使用,成为活的语言,而不是只停留在保存。」叶秋
杏说,少数语言的语料库,不能停留在典藏,更要进一步成为语言学研究与人工智慧开发
的基础,「我们希望语料可以被机器读懂、可被运算使用,才能真正提高语言活力。」
叶秋杏以纽西兰毛利语、爱尔兰语与日本爱努语等案例,比较国际语言复振策略。「国际
经验显示,语料库往往是语言复振的重要起点,能同时支撑学术研究、教材编纂、科技工
具开发与文化再生。」叶秋杏说,毛利语与爱尔兰语,都已建立大型语料库;爱努语从民
间文学运动开始,最终促使政府投入文化复兴政策。
叶秋杏认为,语料库不应只是静态资料库,而是语言科技的基础建设。透过自然语言处理
技术,未来可发展语音辨识、翻译系统、语料搜寻工具、语言教学平台与AI对话应用,使
客语在更多场景中自然使用。
https://i.urusai.cc/v5FHQ.webp
大学生参加全球客家研究联盟国际学术研讨会。蔡依璇摄
盼大型客语语言模型进驻校园
张陈基则以使用者角度,分享语料库应用观察。他指出,目前语料库取得,受限於申请程
序与着作权授权规范,影响研究者取得完整资料的效率。他举例,若能释出可下载的原始
资料清单、分词词库或完整的断词词库,将更有利於语言分析与自然语言处理,类似华文
领域常见的「结巴分词工具」,可让客语文字处理在学术与科技应用上更具发展空间。
https://i.urusai.cc/C93ft.webp
张陈基从使用者角度分享客语语料库应用观察。蔡依璇摄
张陈基也表示,现有客语语料约一千多万字,对AI模型训练仍偏不足,未来可透过大模型
微调( fine-tuning)、资料扩充(reg)或跨来源(cross-sourcing)方式补强,并探
索自动审查与即时更新机制,使新世代研究者更便捷取得语料并持续应用。
张陈基说,台湾在全球客语语言研究具关键地位,透过语料库公开与标准化,有助提升研
究尺度与国际能见度。现阶段跨腔调、跨来源的客语资料系统化整合,是极具意义的成果
,未来「大型客语语言模型」若能逐步完善,也可在国中、小语文教学中实际辅助,更有
助提升听说读写等面向。
客语课程挑战多 「三明治教学法」助提升
随着社会结构变迁与语言态度影响,客语使用领域逐渐萎缩,叶秋杏表示,不仅口语交流
减少,书面产出也愈来愈稀少。范瑞玲以苗栗为例说,「苗栗县客家人口比例高达62.5%
,理应是客家文化与语言传承的重点地区,但20岁以下的年轻人中,近一半(47.5%)不
太会说客语。」
https://i.urusai.cc/imk7O.webp
范瑞玲研究苗栗的国中客语教学,探讨《国家语言发展法》施行後,客语课程的实际成效
与挑战。蔡依璇摄
《国家语言发展法》公布後,国中及高中正式纳入客语课程。但范瑞玲指出,许多学生在
客语演讲等竞赛中表现优异,日常生活使用客语的能力仍相当有限,显示教学与实务应用
间,仍存在落差。
在教学策略上,除了要说故事吸引学生兴趣外,范瑞玲介绍「三明治教学法」,透过「客
语—华语—客语」模式循环,引导学生逐步理解语意、强化输出能力,减少学生因陌生词
汇而失去信心的情况。
https://i.urusai.cc/yfUhJ.webp
2025全球客家研究联盟国际学术研讨会在阳明交大举行,现场参与者认真笔记。蔡依璇摄
https://i.urusai.cc/Eu0Mh.webp
2025全球客家研究联盟国际学术研讨会在阳明交大举行。蔡依璇摄
范瑞玲研究发现,学生的性别与年级,对学习客语影响不大,但「父亲族群别」则有显着
影响;若父亲是是客家人,学生不仅在客语能力表现较佳,对课程与教师教学,通常也会
给予较高评价。
在学习状况上,范瑞玲说,读写能力是普遍弱项。「客语字与华语字差异大,学生常因字
形陌生而不易表达,字汇输出仍需更完善教材支援。」另外,教师端也面临时数有限、学
生程度差异大、专业资源不足等挑战。
https://i.urusai.cc/gxpzb.webp
全球客家研究联盟国际学术研讨会今天在阳明交大举办。蔡依璇摄
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 111.255.125.229 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/TW-language/M.1763814795.A.CBE.html
※ 编辑: CCY0927 (111.255.125.229 台湾), 11/22/2025 20:39:35