作者Wush978 (拒看低质媒体)
看板R_Language
标题[分享] FeatureHashing
时间Wed Jan 21 23:40:58 2015
[关键字]: FeatureHashing, hashing trick, R
[出处]:
https://www.youtube.com/watch?v=CdMzHLrmpi8
这是我在社群介绍CRAN的套件:FeatureHashing时的录影
在以预测为主的分析,处理大量资料时,
如果有大量Categorical Variables,
用这个套件可以让写code简单很多(但是准确度会掉一点点)
也可以当作一种randomized dimension reduction使用。
欢迎有兴趣的版友试用,有问题也欢迎找我交流。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.45.200.180
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1421854862.A.3A1.html
※ 编辑: Wush978 (114.45.200.180), 01/21/2015 23:41:54
1F:推 braveht: 为什麽有dimension reduction效果? 01/21 23:46
2F:→ Wush978: 你可以设定hash过後空间的大小 01/22 00:09
3F:→ Wush978: 有Paper计算这种方式降维後,向量内积的误差范围 01/22 00:11
Kilian Weinberger; Anirban Dasgupta; John Langford; Alex Smola; Josh
Attenberg (2009). "Feature Hashing for Large Scale Multitask Learning". Proc.
ICML
※ 编辑: Wush978 (114.45.200.180), 01/22/2015 00:13:13
4F:推 gsuper: 正需要这种 我现在都不处理 numeric 了, 直接都转 01/22 23:33
5F:→ gsuper: artifically category variable 01/22 23:34
6F:推 kenshin528: 推推感谢分享 01/23 23:32