作者f496328mm (123)
看板R_Language
标题[问题] xgboost 在 python 与 r 上的差异
时间Fri May 12 01:17:36 2017
文章分类提示:
- 问题: 当你想要问问题时,请使用这个类别。
建议先到
http://tinyurl.com/mnerchs 搜寻本板旧文。
[问题类型]:
意见调查(我对R 有个很棒的想法,想问问大家的意见)
[软体熟悉度]:
入门(写过其他程式,只是对语法不熟悉)
[问题叙述]:
最近发现 xgboost 在 R 与 python 上好像不太一样,python的好像比较好?
所以拿 iris data 进行测试
python
http://imgur.com/Z9qB7B3
R
http://imgur.com/bu5RN3D
参数都设一样,
发现 python 的表现比较好,1 次 vs 7 次
而且 python 做出的 model 比较好,
在 best_iteration 上也有差异,
所以 python 的 xgboost 比较快也比较强?
------------------------------------------------------
单纯在 iris data 上就有差异,实际做分析时,差异只会更大,
想问问各位,是我code有错,还是真的有差异??
ps: seed 可能不同,但是不应该影响这麽多
[程式范例]:
程式码可贴於以下网站:
[环境叙述]:
XGB 在 R 与 PYTHON 上版本都是 0.6
[关键字]:
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 111.80.21.159
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1494523058.A.AD5.html
※ 编辑: f496328mm (111.80.21.159), 05/12/2017 01:19:08
※ 编辑: f496328mm (111.80.21.159), 05/12/2017 01:27:10
1F:→ a78998042a: 对结果有兴趣,如果觉得seed可能产生影响,是否直接多 05/12 08:22
2F:→ a78998042a: 做几次? 减轻随机误差,反正iris data set也不大 05/12 08:22
3F:→ f496328mm: 实际上做过多次,甚至其它data,一样发生相同问题,应 05/12 09:14
4F:→ f496328mm: 该跟seed无关 05/12 09:14
5F:推 a78998042a: 您的意思是做过多次python的结果都显着优於r的版本? 05/12 09:22
6F:→ f496328mm: YES 特别在KAGGLE上 几乎大家都用 python 05/12 11:12
7F:→ f496328mm: 实际上我用 R 去重现对方的 python 效果也比较差 05/12 11:12
8F:→ f496328mm: 可能是因为这个原因 所以比较少人用 R 05/12 11:13
9F:→ f496328mm: 而且我有google找过 其他人也有相同的疑问 05/12 11:14
10F:→ f496328mm: 我认为不太可能因为种子 产生这麽大的区别 05/12 11:15
11F:→ f496328mm: 目前不知道原因 只好先转用PYTHON去train model 05/12 11:15
12F:→ clansoda: 何不直接去问DMLC? 05/12 11:39
13F:→ f496328mm: 已经问了 等待回应 05/12 12:45
14F:推 spiderway: 有随机性... 05/21 23:32
15F:→ Wush978: 直接被close了 05/23 15:56