作者john5601 (HTC ONE年不变)
看板R_Language
标题[问题] text mining 长词优先
时间Wed Jul 22 22:04:44 2015
[问题类型]:
程式谘询(我想用R 做某件事情,但是我不知道要怎麽用R 写出来)
[软体熟悉度]:
入门(写过其他程式,只是对语法不熟悉)
[问题叙述]:
目前在作英文的文字探勘,已经可以分别算出单词和双词的结果
举例 :
"Information management" 在文章中出现3次
"Information"在文章中出现5次
"management"在文章中出现6次
但因为想要长词优先,所以"management"和"Information"的次数要分别减3次
http://imgur.com/jAjrZxK
以上为跑出的结果 不知道该如何达成这样的作法
恳请前辈大大指导
[程式范例]:
http://pastebin.com/27rXYuQp 程式码
[环境叙述]:
R version 3.1.2 (2014-10-31)
Platform: x86_64-apple-darwin13.4.0 (64-bit)
[关键字]:
text mining
长词优先
--
sent from my htc one年不变
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 111.254.151.162
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1437573894.A.A50.html
1F:→ celestialgod: 我只想到用grep跟length做一个条件筛选,然後删除, 07/22 22:51
2F:→ celestialgod: 需要两层回圈来做,明天有空再来回程式码 07/22 22:51
3F:→ john5601: 感谢c大!!! 07/22 23:00