[问题] 平均分布分割测试与训练资料

时间Wed Jun 21 17:43:40 2017

[问题类型]: 程式谘询(我想用R 做某件事情，但是我不知道要怎麽用R 写出来) [软体熟悉度]: 入门(写过其他程式，只是对语法不熟悉) [问题叙述]: 透过logit model，用各个商品的属性及是否阅读商品评论，预测消费者会购买哪种商品为了实作predit()要分割资料集已知caret package的createDataPartition能将训练与测试集的商品依比例平均分布但资料集为long format，每四列为一个单位（一个受测者产生四列资料，为四个商品）使用createDataPartition後，资料被打散了，不再是每四列为一单位该如何保持资料每四列一个单位，但训练与测试集中的商品还是可以按比例分布呢？ ps被购买的商品比例本来就不平均，但希望训练集与测试集的比例相同，例如10:5:2:1 [程式范例]: 共有432名受测者，1728列资料，long format资料集如图 http://imgur.com/pWhvNCF 各商品被购买的比例大约为 HighJ HighU LowJ LowU 272 80 60 20 library(caret) Train <- createDataPartition(mydata$purchase, p=0.6, list=FALSE) training <- mydata[ Train, ] testing <- mydata[ -Train, ] 照上述程式码跑无错误讯息，但是资料被打散推测可能是用来取index的mydate$purchase有问题，不知道该怎麽改才好@@ [环境叙述]: R version: 3.2.3 (2015-12-10) Platform: x86_64-w64-mingw32 Running under: Windows >= 10 [关键字]: --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 111.240.104.195 ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1498038223.A.AC3.html

1^F：推 f496328mm: 有id就好办了，去sample，然後 %in% 就可以抓出来了 06/21 18:06

2^F：推 f496328mm: sample(nrow(data)/4,train.amount) 06/21 18:08

3^F：→ f496328mm: 上面是取 train 的 id，之後去抓相同的id即可 06/21 18:09

4^F：推 f496328mm: data[ subject_id %in% train_id ] 06/21 18:11

感谢回覆！我试做之後好像有点错误，可以指正一下吗>"< # 解读为从1728笔中，取出260个数字当作train_id sample(nrow(mydata)/4, 260) newdata <- mydata[ "subject_id" %in% "train_id" ] 不太确定%in%的用法，google一直忽略%所以查不到...... 所以第二行还不太理解，直接照打後发现如果不加 " " 会出现下述错误 Error in match(x, table, nomatch = 0L) : object 'subject_id' not found 没有error顺利跑完後，newdata有1728obs. of 0 variables 请问有哪里做错了吗QAQ ※ 编辑: shirley7483 (111.240.104.195), 06/21/2017 18:35:13

5^F：→ obarisk: 我们的google不一样？ 06/21 18:54

6^F：→ obarisk: https://www.google.com.tw/search?q=r+%25in%25&ie=utf- 06/21 18:54

7^F：→ obarisk: 8&oe=utf-8&gws_rd=cr&ei=RFBKWYHnJ4S20ATg3oz4BQ 06/21 18:54

8^F：→ obarisk: https://tinyurl.com/yapu9sbe 06/21 18:56

9^F：→ obarisk: 我贴网址的能力有问题 06/21 18:57

10^F：→ obarisk: https://stackoverflow.com/questions/10385863/the-r-in 06/21 18:57

11^F：→ obarisk: -operator 06/21 18:57

12^F：→ obarisk: ?`%in%` 06/21 18:58

抱歉我估狗%in% r，出现一堆XXX in R的资料，原来放前後顺序搜寻有差，学到了！也感谢提醒?`%in%`，原来符号前後面要加`，难怪我一直出现error... 重新理解後做了修正，感觉很接近需求了，只是这次又出现一些问题 train_id <- sample(nrow(mydata)/4,260, replace = FALSE) length(train_id) #确定真的有取出260个数字做为train_id mydata$train <- mydata$subject_id %in% train_id #新增栏位放比对後的True/False traindata <- mydata[mydata$train == TRUE, ] #有train==TRUE那列放到新dataframe 正常来说，traindata应该要有260*4=1040笔但traindata只有900多笔，而且每次做数量都不同...好困惑啊再麻烦各位协助了>"< ※ 编辑: shirley7483 (111.240.104.195), 06/21/2017 19:55:27 ※ 编辑: shirley7483 (111.240.104.195), 06/21/2017 20:00:48 抱歉！！！上述程式没有问题，能够成功取出1040笔资料是我原始资料中的编号出错，改正後已解决感谢各位的协助，让我成功可以继续下一步 m(_ _)m ※ 编辑: shirley7483 (111.240.104.195), 06/21/2017 20:20:07

13^F：→ f496328mm: mydata[ "subject_id" %in% "train_id" ] 把引号拿掉 06/21 22:24

14^F：→ f496328mm: 如果会有error 那把mydata转成data.table型态 06/21 22:30

15^F：→ shirley7483: 成功！使用data.table好快速啊，马上笔记起来，感谢~ 06/22 08:33

※ 编辑: shirley7483 (111.240.104.195), 06/22/2017 08:34:06

16^F：→ celestialgod: 楼楼上只是少一个,所以才出错 06/22 20:07

17^F：→ f496328mm: 原来不是引号的问题QQ 06/22 20:32

18^F：→ celestialgod: data.table可以不用,，但data.frame, matrix一定要 06/22 20:36

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

R_Language 板

[问题] 平均分布分割测试与训练资料

热门看板

赞助商连结