作者sxy67230 (charlesgg)
看板Tech_Job
标题Re: [新闻] AI圈爆大丑闻!研究揭Meta、Google、Open
时间Fri May 2 17:48:01 2025
※ 引述 《zaiter》 之铭言:
: 评测网本来就要赚钱 这也很正常
: AI圈爆大丑闻!研究揭Meta、Google、OpenAI在Chatbot Arena上「作弊」
: 钜亨网编译庄闵棻 综合报导2025-05-01 21:12
: AI圈爆大丑闻,研究揭Meta、Google、OpenAI在Chatbot Arena上「作弊」。(图:Shutt
: erstock)
: 来自人工智慧(AI)实验室 Cohere、史丹佛大学、麻省理工学院(MIT)与知名 AI 研究
: 机构 AI2 的最新研究指出,知名 AI 测试平台《Chatbot Arena》疑似对 Meta(META-US)
: 、OpenAI、Google (GOOGL-US) 与亚马逊 (AMZN-US) 等大型科技公司提供不对等的测试
: 机会,藉此提升其排行榜成绩,影响评测公信力。
呃,新闻讲得不知所云,ChatBot Arena是一个动态的竞技场,一般是评测人员上去上面事
前不会知道待测的是哪一个配对的模型,AB模型是在比较以後评测人员选定後才会跳出被选
择的是哪一个模型。
他一开始是基於Bradley-Terry Model的统计假设,两两竞技比赛人员历史上只有少数或是
没有对弈过,然後我们要知道谁才是选秀状元的假设。
理论上BT Model是历史悠久蛮公平也有信度的统计方法论,但前提是出赛取样率要公平。这
篇论文是CohereAI(加拿大新创)跟史丹佛联名发表的,指出来的是当前一堆大公司洗一大
堆复制体然後霸占榜单导致取样不公平,所以就打破BT模型的假设,然後他们也有实验证明
了主流模型在ChatBot Arena取样到的机会异常高。
直白一点就是如果NBA喇叭詹有钱到可以无限复制自己疯狂出赛八成的队伍,然後再取最好
的那个复制体对外宣传自己是MVP,这样就会有不公平竞技疑虑,那NBA自己本身的信度就会
下降。
不过论文也只是提出一个假设跟实验,实际上有没有不公平竞技也只有评测公司自己知道而
已。论文也没提到拿评测公司资料训练这件事情,所以这件事情还是有待定论的。
差不多4酱
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 49.218.91.43 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Tech_Job/M.1746179283.A.B43.html
1F:推 marra : 推推!123.192.201.218 05/02 18:00
2F:→ DrTech : Chatbot Arena最大的bug就是,每个 42.72.178.215 05/02 18:19
3F:→ DrTech : 人都靠"自我感觉"决定哪个答案好。 42.72.178.215 05/02 18:19
4F:→ DrTech : 与智慧或正确无关。 42.72.178.215 05/02 18:19
5F:→ chang1248w : kimoji决定那个比较好的没啥问题啊 42.72.88.148 05/02 23:02
6F:推 vzQBf : 没想到充满网军的ptt还有这种好文 114.45.152.239 05/03 02:26