DataScience 板


LINE

由专业人士标记的数据集, 他们当初深怕样本之间差异性太大, (不知为何?) 刻意挑选了类似的母样本. 结果, 导致他们在母样本上标记出的图片数据集, 样本个体之间差异性太小. 随便拿一个模型学习, 不进行data augumentation, test accuracy都能轻松超过95% 进行data augumentation後, 有些模型可达到99% 指导教授也同意我的结论, 觉得这样只是训练出一个在单一条件下独断的分类器, 不能写什麽研究论述. 想要求专业人士多找些不类似的母样本, 请他们标记. 他们觉得好累好烦, 标记好花时间, 拼命拒绝, 反问应该有什麽方法能解决这个问题? 我原先提出Few-Shot,Zero-Shot,GAN类,...的模型概念, 建议先尝试看看输出结果会如何. 後来在报告後, 虽然这些专家没提出什麽进一步的想法. 但我突然发现不对, test accuracy还是会回到原来的问题, 样本个体之间差异性太小. 怎麽验证都会有好的结果. 想请问有什麽方法可以解决这个本质上的问题? --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.200.51.13 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1653236464.A.B9A.html
1F:推 ctr1: 自己标记最实在 05/23 00:30
2F:→ chang1248w: semi supervise learning,卢专家每个母体标注一些就 05/23 03:29
3F:→ chang1248w: 好 05/23 03:29
4F:→ chang1248w: 或者你可以试着建模母体间的差异,把多语言翻译模型 05/23 03:31
5F:→ chang1248w: 的概念斜杠过来(这只是在干话 05/23 03:31
6F:→ yoyololicon: 没救 05/23 12:57
7F:推 wuyiulin: 你是用什麽资料集?为什麽会有这个现象 05/23 21:06
8F:→ chang1248w: 你弄不弄得到没有标记的数据? 05/24 00:10
9F:→ chang1248w: 去看一下semi supervise learning 怎麽和你的任务连 05/24 02:20
10F:→ chang1248w: 结,现在大部分的领域都有办法做了 05/24 02:20
11F:→ chang1248w: 不过要找一下paper就是 05/24 02:21
12F:→ chang1248w: 这一块发展的用意就是克服标注昂贵的问题 05/24 02:23
13F:→ chang1248w: 至於标注分布狭隘得另外克服 05/24 02:26
14F:推 ej0cl6: 也可以看看self-supervised pre-training 05/24 12:06
15F:→ ej0cl6: 拿得到没标记但是大量的data试试看semi-supervised或是sel 05/24 12:08
16F:→ ej0cl6: f-supervised都有机会变好 05/24 12:08
17F:推 ILYY: self-supervised learning和自己标 05/24 15:23
18F:→ ILYY: 然後请专家再检查标完的结果 他们可能比较愿意 05/24 15:24
19F:→ chang1248w: 感觉他的任务可能是分割类型的,那他的资料量应该没 05/24 19:40
20F:→ chang1248w: 办法跑自监督 05/24 19:40
21F:推 goldflower: 但你拿来judge的若都是那个test set你搞这堆有意义吗 05/25 02:02
22F:→ goldflower: 你至少要拿更符合母体的test set才能去评断你做的事情 05/25 02:03
23F:→ goldflower: 有没有用 05/25 02:03
24F:→ ruthertw: 指叫不准我自己标,就算模型标,那些专家也推说很忙,不看. 05/26 00:58
25F:→ wuyiulin: 遇到这种神人教授,只能说你加油啊。 05/26 04:22
26F:→ wuyiulin: 这样出来的结果感觉就不能发,我这边看过的论文都是用 05/26 04:24
27F:→ wuyiulin: 严谨的资料集去跑的 05/26 04:24
28F:推 wuyiulin: 这样发出去很容易被 challenge 资料集在乱做吧www 05/26 04:28
29F:→ ruthertw: 目前用比较大的dimension切samples,改成比较小Dimension 05/26 08:28
30F:→ ruthertw: 来切,总数量可以达至少2倍以上.我不指望指叫的误人子弟! 05/26 08:31
31F:→ yoyololicon: 你现在这些操作都做在test data上?不行吧 05/26 08:53
32F:→ yoyololicon: 不如拿没标记的raw data跑些unsupervised 的tasks, 05/26 08:54
33F:→ yoyololicon: 至少有东西可以秀 05/26 08:54
34F:→ yoyololicon: 标记很麻烦的话也一定程度代表用unsupervised 比较 05/26 08:56
35F:→ yoyololicon: 合适 05/26 08:56
36F:→ ruthertw: 这几天重新手动调整采样比例分配,现阶段不使用乱数分配. 05/26 08:56
37F:→ ruthertw: 也按照比例分割母体里面的samples,希望能有好的结果... 05/26 13:25
38F:→ ruthertw: 用UNet训练300个epochs,[email protected]=0.2,结果颇烂,怎麽办? 05/31 20:01
39F:→ ruthertw: 想请问微调和改进模型方法和方式,感谢~ 05/31 20:47
40F:→ chang1248w: 找任务sota搂 06/04 20:21
41F:→ ruthertw: 好,谢谢楼上大大的帮忙~ 06/05 12:20
※ 编辑: ruthertw (180.217.243.20 台湾), 08/19/2022 15:51:10







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:BuyTogether站内搜寻

TOP