作者swilly0906 (史威利哥哥)
看板R_Language
标题在资料中新增一个变数来进行统计分析
时间Fri Aug 12 02:16:56 2016
[问题类型]:
新手(没写过程式,R 是我的第一次)
入门(写过其他程式,只是对语法不熟悉)
[问题叙述]:
拍谢拍谢 其实我真的不清楚标题要怎麽打比较好
我的问题及如下:
这是我资料的前10笔
年 性别 ......(其他变数)
100 F
101 M
100 F
102 M
103 M
101 M
102 F
104 M
104 F
102 M
.
.
.
.
.
(约2w笔)
我先讲 我的目的:我希望可以算出各年(资料仅有100~104年而已)的男女生的
某变数统计量
所以就是说 我想要跑出一个表格
列:100年男,100年女,101年男.....,104年女(共10个)
行:meadian,mean,sd,skewness....(一些统计量而已)
所以我想到了一个方法(因为我只能想到这招 有更好的请教我一下 感恩QQ)
第一步骤:我先创造一个新变数叫做"yearsex"
然後我希望把"100年男,100年女,....,104年女" 分别用1~10代表
我以我上面的资料例子为例yearsex=c(2,3,2,5,7,3,6,9,10,5)
然後再用cbind并入我的原资料
:第二步骤:接着我再用sapply(unique(yearsex),function(x){........})
就大功告成了
其实step2我没问题啦,反而我想问step1怎麽做呀???????(还是有其他比这2个步骤更好的)
------------------------------------------------------------------------------
其实还有另一个问题,不过这问题我已经用SQL解决了
但我还是想问一下
有关筛选掉重复值要如何在R进行(还是我这个要求 无法在R执行!?)
资料如下:
NUM ID NAME
123 A123456789 willy
123 A123456789 willy *重复
123 A233456789 sandy
124 B123456789 wang
124 A233456789 sandy
125 A233789456 janet
126 B123456789 wang
127 C147852369 mandy
127 C147852369 mandy *重复
我的目的就是要把*的那一个row全部删除
其余都要留着 这办的到吗?
我的意思就是我希望在给定相同的NUM里面 里面的ID只能出现一次,不能同时出现2次
感谢解答><
[程式范例]:
[环境叙述]:
[关键字]:
分组变数,筛选重复值问题
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 111.253.114.116
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1470939418.A.AE8.html
1F:→ clickhere: try unique 08/12 03:56
2F:推 carl090105: 若是有时间的话,建议学习一下dplyr套件 有助於资料 08/12 07:19
3F:→ carl090105: 方面的处理 08/12 07:19
4F:→ carl090105: 第一个用group_by然後summarise_all或summarise_at 08/12 07:21
5F:→ carl090105: 第二个可使用distinct,by the way 需要注意的是dply 08/12 07:23
6F:→ carl090105: r版本方面的问题0.5.0版本有做了不少更动 08/12 07:23
7F:→ swilly0906: 先感恩 我先去学习 研究看看@@ 08/12 09:10