作者toxicsweet (toxic)
看板R_Language
标题[问题] R 如何计算 txt 档案中每个字出现的频率
时间Wed Jun 8 07:05:29 2016
[问题类型]: 程式谘询
[软体熟悉度]:
介於入门和使用者之间
[问题叙述]:
手边有个txt文件,目前先使用read.table读进R後,原本想使用text mining 的package
(tm)来计算出每个字出现的频率。
以一个两列的文件为例:
第一列:I like it, can you share it?
第二列:Yes, I would like to!
想得到:
I like it can you share yes would to
2 2 2 1 1 1 1 1 1
但翻了一下tm package还是不知道该怎麽套用,或是有其他作法可以得到呢?
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 180.217.130.57
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1465340732.A.5ED.html
1F:推 JackBaska: 英文吗 ? 英文的话比较好处理, strsplit用 " " 隔开 06/08 07:42
2F:→ JackBaska: 然後合并成一维向量後做元素统计就好了 06/08 07:43
3F:→ Wush978: 量大吗? 06/08 10:11
4F:→ toxicsweet: 英文,量很大,档案约有200MB 06/08 18:25
5F:→ toxicsweet: 这边只是举两列的例子,但实际有超过百万列。 06/08 18:26
6F:→ Wush978: tm_lite? 06/08 18:59
7F:→ toxicsweet: tmlite里面的哪个functiin可以做到这件事呢? 06/09 10:24