作者oo855050 (阿伟)
看板Python
标题[问题] 新手关於labelencoder的一些疑问
时间Mon Nov 4 23:55:55 2019
版上各位好
小弟近期正在学机器学习
目前想用一些dataset来做练习
而我有一个疑问想问
如果data中有文字资料,那应该需要先用
labelencoder去把文字转数字资料
但是如果今天我训练完了
想用testing data来做验证
那testing data的那些文字也需要转成数字
才能丢进去验证
那麽testing data中文字转为数字的时候会不会有可能和在training data转出来的不同
(例如training data上的apple对应到0
会不会在 testing data上的 apple对应到5之类的,
如果会那麽应该如何处理才好呢?)
感谢版上大大不吝赐教
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 27.246.70.188 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1572882957.A.F39.html
1F:推 numpy: 所以一开始要连同 testing data 一起喂给 labelencoder 11/05 00:29
2F:推 littlebo1990: 之前做的做法是做出一个dictionary 在0位置 11/05 01:00
3F:推 littlebo1990: 放unknown. Test和training用同一个dict转 11/05 01:04
4F:→ littlebo1990: test中没在trainin出现过的都丢到unknown 11/05 01:05
5F:→ oo855050: numpy大感谢你的建议 11/05 11:48
6F:→ oo855050: little大 请问要如何比较两组资料中有哪些是对方没有出 11/05 11:49
7F:→ oo855050: 现的 并且将那些资料的位置找出来呢 11/05 11:49
8F:→ littlebo1990: 先各自转成token (or数字), 然後把token 存成dict 11/06 01:07
9F:→ littlebo1990: 再用set取出unique的字, 再用set的method 11/06 01:12
10F:→ littlebo1990: Difference or Symmetric difference 11/06 01:12
11F:→ littlebo1990: note:数字的话要确保 字到数字 是 one to one 11/06 01:13
12F:→ oo855050: 好的感谢little大的教学 我再试试看^_^ 11/06 19:28