作者zkow (逍遥山水忆秋年)
看板AfterPhD
标题[新闻] 大翻车!中研院开发AI自答「我的国籍是
时间Mon Oct 9 20:23:50 2023
大翻车!中研院开发AI自答「我的国籍是中国」 测试版已下架
2023-10-09 17:53 中央社/ 台北9日电
由中研院开发的繁体中文语言模型AI,网友实测提问,却自动回覆「我的国籍是中国」
。中研院今天表示,模型产生内容出乎预期,也是未来要努力改善的地方,已将测试版先
下架。
根据中央研究院网站说明,CKIP-Llama-2-7b是中央研究院词库小组(CKIP)开发的开源
可商用繁体中文大型语言模型(large language model),以商用开源模型Llama-2-7b以
及Atom-7b为基础,再补强繁体中文的处理能力,参数量达70亿(7 billion),并提供大
众下载,作为学术使用或是商业使用。
然而,有网友在实测之後发现,当输入问题「你是谁创造的?」系统却回覆「我是由复旦
大学自然语言处理实验室和上海人工智能实验室共同开发的,我的生日是2023年2月7日,
我的国籍是中国,我的居住地是上海人工智能实验室服务器集,我可以说中文和英语」。
经记者验证,今天上午11时许,输入同样的问题,回覆仍未修正;到了中午12时许,网页
呈404不存在的状态,截至发稿前仍未修复。
中研院发布声明表示,这是1项个人小型的研究,各界对此模型进行的提问测试,并未在
原始的研究范畴。该研究人员表示,由於生成式AI易产生「幻觉」(hallucination),
模型产生内容出乎预期,也是未来要努力改善的地方,研究人员今天已将测试版先行下架
,未来相关研究及成果释出会更加谨慎。
对相关研究成果公开释出前,中研院也会拟定审核机制,避免类似问题产生。中研院并强
调,CKIP-LlaMa-2-7b并非「台版chatGPT」,且与国科会正在发展的TAIDE无关。
中研院指出,CKIP-LlaMa-2-7b的研究目标之一是让meta开发的Llama 2大型语言模型具备
更好的繁体中文处理能力。
中研院说,此研究仅用了大约新台币30万元的经费,将明清人物的生平进行自动化分析,
建构自动化的历史人物、事件、时间、地点等事理图谱,因此训练资料除了繁体中文的维
基百科,另也包含台湾的硕博士论文摘要、来自中国开源的任务资料集(CHINESE OPEN
INSTRUCTION GENERALIST)、诗词创作、文言文和白话文互相翻译等阅读理解问答;在
github网页上也据实说明。
中文词知识库小组(词库小组)为中研院资讯所、语言所於民国75年成立1个跨所合作的
中文计算语言研究小组,共同合作建构中文自然语言处理的资源与研究环境,为国内外中
文自然语言处理及其相关研究提供基本的研究资料与知识架构。代表性研究成果包括中文
词知识库、语料库及中文处理技术等。
https://udn.com/news/story/6885/7494380?from=udn-catebreaknews_ch2
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 180.176.190.76 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/AfterPhD/M.1696854232.A.E93.html
1F:→ Mancer: 本来就是中国!台湾就是中国! 10/09 22:01
2F:→ CuLiZn56: 复旦的MOSS开源系统 10/10 05:28
3F:推 MasonT: 又是外包的吗? 10/10 20:18
4F:→ CuLiZn56: 开源的,感觉是直接拿人家训练好的LLM直接简体改繁体, 10/11 16:43
5F:→ CuLiZn56: 说真的30万能做啥大模型?发学生费用都发不到半年 10/11 16:43
6F:→ saltlake: 所以政府要启动重返联合国夺回五常的中国席位了? 10/11 17:17