作者wii8898333
看板Python
标题[问题] 图片辨识输出文字
时间Thu Jun 6 02:11:46 2019
目前有乘客文件可以扫描成PDF档案,想透过程式将身份字号转译成文字档,该透过什麽方
法呢?
这方面有想过可能要透过智慧学习方式提高辨识度
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 39.9.202.92 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1559758308.A.E46.html
※ 编辑: wii8898333 (39.9.202.92 台湾), 06/06/2019 02:58:32
1F:推 CCWck: 找ocr api 06/06 10:19
2F:→ wii8898333: orc辨识度太低怎麽办呢 06/06 12:54
3F:→ Hsins: 找足够的 dataset 自己 train 一个 06/06 15:09
4F:→ Hsins: 问题就在於你有没有足够的 data 给他 train,还有你会不会 06/06 15:09
5F:→ Hsins: train… 06/06 15:09
6F:→ hsnuyi: 除非辨识率100% 不然到时候你还不是要人工比对一次? 身分 06/06 16:51
7F:→ hsnuyi: 证字号可以错喔? 06/06 16:51
8F:→ hsnuyi: 用时新找个工读抄写就好 要辨识做啥? 有比较省时便宜又正 06/06 16:55
9F:→ hsnuyi: 确? 06/06 16:55
10F:→ hsnuyi: ^时薪 06/06 16:56
11F:推 wahaha279: 想玩机器学习先叫老板给资料 不然就是做不到 06/06 17:44
12F:→ ohcE0: 身分证资料多少算是可以错的? 毕竟有验证码栏位 06/06 20:27
13F:→ ohcE0: 资料的话 应该已经算是很好自行产生的了 06/06 20:29
14F:→ vi000246: 手写还是印刷的字? 06/06 23:06
15F:→ wii8898333: 印刷 06/07 06:37
16F:推 king22649: 印刷的 tesseract 就行了 画值不要太低的话 06/07 07:17
17F:推 art1: 买个专业的 OCR 软体来辨识比较实在一些 06/07 16:02
18F:→ MasterChang: 印刷的用tesseract去串接就好..... 06/08 00:57