作者ariainaqua (把渚送上本垒吧!)
看板R_Language
标题[问题] R 语言读取序列资料
时间Mon Jun 5 09:48:36 2017
[问题类型]:
R 语言读取长短不一的序列资料问题
[软体熟悉度]:
入门(对 R 语法不太熟悉)
[问题叙述]:
目前想读取 22 万笔序列资料(input.csv)如下格式:
a,b,c,a,gcc,aka,c,t
a,b,c,g,gcc,a,nv,qc,c,ntt,ntt1,ntt2,g,ncc,nv
a,sgt,c,a,org,com,ggc,bbc,qc,c,b,ncc,gov,gov,gov,ntt1,ntt2,fb,app,la,d,e,fb,fe
t,
a,b,c,a,gcc,d,sgt,c,fet,1394,1394,1394,fet,fet,org
a,sgt,c,org
...
每一笔资料长短不同,最长为 10,143 个项目;最短 2 个项目。
如果直接用 read.csv 或 read.table 读取的话无法将全部的数列储存为 data.frame,
最大只有 71 行,另外就是原本同一行的资料会被拆成 2 行。
> dim(input)
[1] 210220 71
# 只能读 71 行,且资料少 48,333 笔
> view(input)
57 a b a c c c 1394 c c c org c c c c 1394 ..
.
58 skt skt skt skt
# 57, 58 在原始资料为同一笔(列)
想请问有没有更好的资料读取方式?
後续想接 seqHMM 建立隐马可夫模型, seqHMM 会呼叫 seqdef {TraMineR} 将 data.fra
me 转换成模型的输入格式
谢谢各位前辈的帮忙。感谢 =)
--
Sent from my Windows
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.136.186.27
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1496627319.A.360.html
※ 编辑: ariainaqua (114.136.186.27), 06/05/2017 09:54:07
※ 编辑: ariainaqua (114.136.186.27), 06/05/2017 09:58:32
※ 编辑: ariainaqua (114.136.186.27), 06/05/2017 10:06:50
1F:→ Wush978: Try two package: text2vec or FeatureHashing 06/05 11:18
2F:→ ariainaqua: 谢谢 Wush 的建议,只是转换成特徵向量是不是就不适合 06/05 20:14
3F:→ ariainaqua: 使用 HMM 了? 06/05 20:15
4F:→ Wush978: 我不知道耶,要看你HMM的实做了 06/06 00:06
5F:→ Wush978: 不然就用strsplit硬干,或是写Rcpp在C++里面处理 06/06 00:06
6F:→ ariainaqua: 喔喔!原来使用 text2vec 的 ifiles 就可以了,太感 06/06 00:53
7F:→ ariainaqua: 谢了 =) 06/06 00:53