[问题] 手写数字辨识问题

时间Tue Feb 27 12:25:13 2018

哈! 开版後第一个技术问题就由小鲁来提问吧我参考书上MNIST+CNN的范例建立了以下架构卷积层1 28*28 16层池化层1 14*14 16层卷积层2 14*14 36层池化层2 7*7 36层平坦层 1764 神经元隐藏层 128 神经元输出层 10 神经元完美达成了 99.5% 的辨识率可是当训练资料换成我自己的资料时辨识率就只有80%左右而且这80% 是因为完全不认得数字8跟9 所有数字8跟9的全部认错所以只有80% 放大神经元数或卷积、池化层数目也得到类似的结果是因为我的训练资料不足的关系吗? 我看MNIST是各数字都有6000多笔我的资料分布如下 0 : 85 1 : 860 2 : 2231 3 : 1521 4 : 1750 5 : 1302 6 : 1511 7 : 1671 8 : 1967 9 : 2426 光看资料感觉比较认不出来的应该是 0 或1 阿另外为了弥补资料量的差异我有改变训练资料每个数字各取800个出来训练 (0太少只能完整训练) 再把每个数字随机抽出50个出来验证 9还是每个都认错... 请问我的方向该怎麽修正呢? --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 219.87.162.162 ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/deeplearning/M.1519705516.A.4F3.html

1^F：→ GTX9487: 你的99.5%的辨识率是Training 还是 Test? 02/27 12:28

2^F：→ jikker: training 99.5 test 98.9 02/27 12:34

3^F：→ h821231: 参数跟初始都有可能造成差异吧 02/27 12:54

4^F：→ followwar: MNIST pretrain後在你的dataset上finetune 02/27 12:56

5^F：→ patrick2dot0: 把8跟9的data抓出来train看看? 02/27 12:56

6^F：→ patrick2dot0: 分成8，9，others 看分不分的出来 02/27 12:57

7^F：→ GTX9487: 4楼的意思是 MNIST 训练完的参数为初始参数 02/27 12:59

8^F：→ patrick2dot0: 噢我知道我的回文不是针对四楼 02/27 13:05

9^F：→ GTX9487: 我只是帮4F解释清楚别紧张哈哈 02/27 13:10

10^F：→ aaaba: 先把诊断资料整理出来吧，例如：confusion maxtrix 02/27 13:23

11^F：→ aaaba: https://tinyurl.com/yaq4vkp3 02/27 13:23

12^F：→ aaaba: 如果你自己的8、9没有特别怪异，你也可以用mnist训练出来的 02/27 13:25

13^F：→ aaaba: 那个分类器跑一遍你自创的那批资料，看看结果如何 02/27 13:25

14^F：→ brian980466: MNIST test不到99其实不强 02/27 13:27

15^F：推 pinky750619: 你的手写资料图片有跟他原本数据库的格式一样吗？印 02/27 14:06

16^F：→ pinky750619: 象中，例如图片大小相同？图片颜色是否二值化且手写 02/27 14:06

17^F：→ pinky750619: 白色背景黑色？ 02/27 14:06

18^F：→ jikker: 文字黑色背景白色这点相同但我的资料大小是58*48 02/27 15:35

19^F：→ jikker: 有把它缩为28*28 02/27 15:35

20^F：→ jikker: 有空再把我的资料open出来 02/27 15:35

21^F：→ jikker: 我的资料是真实资料所以有10几个人的不同笔迹 02/27 15:38

22^F：推 GTX9487: 那很有可能就是前处理的问题了 02/27 15:39

23^F：推 cc9i: 看要不要把code贴上来 80% train accurate是有收敛吗? 02/27 16:44

24^F：→ cc9i: 你训练时train data有shuffle吗? 还是说以label顺序下去跑 02/27 16:48

25^F：→ jikker: 有收敛资料是照顺序下去跑的耶 @@ 02/27 16:49

26^F：→ circus: Overfitting? 02/27 17:06

27^F：→ jikker: 天阿!!!! 真的是训练资料要打散的问题感谢各位大大 02/27 17:12

28^F：推 seasa2016: 想请问为什麽shuffle会影响结果呢？ 02/27 17:28

29^F：→ jikker: 资料是一批一批跑的一次执行都算1 下一次执行都算2 02/27 18:05

30^F：→ jikker: 每次fitting完下一次近来的资料都完全不同效果自然差 02/27 18:05

31^F：→ GTX9487: 原来不是前处理的问题!?@@ 02/27 18:27

32^F：推 sore: 你的训练资料不平衡 02/27 18:49

33^F：→ brian980466: 前几个 batch 看到的东西对 model 影响比较大 02/27 19:39

34^F：→ gus2: 好奇你shuffle後辨识率多少 02/27 20:24

35^F：推 galapous: 每个batch training label 都很相近的话 02/27 20:49

36^F：→ galapous: minibatch的意义就没了，gradient很容易冲过头overfitti 02/27 20:49

37^F：→ galapous: ng 02/27 20:49

38^F：推 cc9i: 原po把改完的结果回报一下啦顺便问问你optimizer用哪个 02/27 21:11

39^F：推 GTX9487: 推推好文章推起来 02/27 23:26

40^F：推 chris810314: 这不就是minibatch的概念吗？如果你的minibatch没有 02/27 23:54

41^F：→ chris810314: 足够独立的样本，那可能就会学到原本不该学的东西！ 02/27 23:54

42^F：推 huaishuo: 弱弱问一下 model的正确率是要看training的还是validati 02/28 14:21

43^F：→ huaishuo: on的，还是是看val_acc最高的那个epoch的acc呢？ 02/28 14:21

44^F：推 ljn3333: val 02/28 17:55

45^F：推 Kazimir: 我觉得很有可能是前几个batch把NN玩坏了所以最後到89的 03/01 01:37

46^F：→ Kazimir: 的时候已经失去学习能力 03/01 01:37

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

DataScience 板

[问题] 手写数字辨识问题

热门看板

赞助商连结