作者ecstasym (爱咳死在西)
看板R_Language
标题[问题] 用R分析健保资料
时间Wed Mar 5 20:17:31 2014
[问题类型]:
程式谘询
我想用R 分析健保资料,但是连要怎麽用R 读资料都写不出来
[软体熟悉度]:
入门(写过其他程式,只是对语法不熟悉)
[问题叙述]:
老师丢了一笔健保教我用R试着分析 (老师自己是用SAS)
但我之前修过的课都没有教得太难
大部分是社区型的小资料
健保资料是很大的一笔 .DAT档案
内容超过 65万笔资料,约 40个变项
目前上网找过,也看过一两本R的书
但都没有写的很详细
目前知道read.delim()可以读进档案,但是根本乱码 XD
需要的帮助是希望高手们可以教教我怎麽可以读这档案
或是有没有程式套件可用~
以上,希望各位帮帮小妹了
[关键字]:
健保资料
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 123.192.51.110
1F:→ obarisk:big5 utf8? 资料的分隔符号是? 关键字XD 03/05 20:39
2F:→ ecstasym:请问资料的分隔符号要从哪里可以知道呢? 03/05 21:03
3F:→ gsuper:你的问题应该不是R , 是要先找软体把 .dat 档换成 .txt档 03/05 21:04
5F:→ ecstasym:所以我需要的是宣告第几个字元是哪个变数吗?? 03/05 21:36
6F:推 kokolotl:你要先知道每个位置代表啥意思 去找资料的codebook吧 03/05 22:19
7F:推 diplazium:何不直接请老师给你CSV档? 03/06 09:24
9F:→ braveht:请安装RStudio,点右上角的import dataset... 03/06 19:13
10F:推 kokolotl:这样的资料型态我比较喜欢用stata来弄XD 03/06 19:51
11F:→ obarisk:看不出来资料长怎样 03/06 23:15
12F:推 summitstudio:跟老师要codebook里面有资料格式(健保资料是固定长度 03/07 17:28
13F:→ summitstudio:而不是用分隔符号这点比较麻烦,有codebook才作得动 03/07 17:29
14F:→ summitstudio:基本上一行(row)就是一个观察值 然後用长度去切栏位 03/07 17:30
15F:推 summitstudio:或者懒人解法就是跟老师要已经读好的 SAS dataset xD 03/07 17:33
16F:→ anovachen:substr() 03/11 15:34
各位好
我有译码簿了,这个健保资料是没有分隔符号的
所以基本上应该是照SU大说的要用长度去分割它
所以我发现我的问题应该是不知道怎麽去分割,而且也不知道
read.delim()读档案是不是对的
>_<
(老师的意思好像要我直接跑,而不是用转其他格式的档案跑)
※ 编辑: ecstasym 来自: 123.192.51.110 (03/22 17:09)
17F:→ gsuper:#1HLjk2HI 参考一下我这篇笔记文 花个10天学一下资料处理 03/23 00:37
18F:→ gsuper:资料处理本来就是分析中相当耗时的部分 不太可能一键解决 03/23 00:38