作者blackyu (??)
看板R_Language
标题[问题] data frame转corpus前过滤非英文字词
时间Sat Mar 19 10:31:46 2016
[问题类型]: 程式谘询
[软体熟悉度]: 入门
[问题叙述]:
大家好,我现在处理data frame时遇到一个问题
我从资料库取出资料後存为data frame的形式
但里面内容语言部份是简体中文、日文等,例如
text
1 今天天气很好...
2 It's good但是...
我现在需要把非英文的字词在转入corpus前先行过滤掉
之前有去stackoverflow找相关的解决办法
目前有找到一篇
http://goo.gl/arqKWi
但是我不太熟如何将data frame先拆解後再过滤
请问有什麽方法可以协助我解决这个问题呢?
谢谢各位!
[环境叙述]: R ver 3.2.3;套件:RMySQL & tm
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 140.116.96.199
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1458354708.A.6E3.html
1F:→ Wush978: 你可以先用strsplit把字一个个切出来,然後要求他们只能 03/19 12:16
2F:→ Wush978: 是a-z, A-Z, 0-9 以及其他你觉得要放的文字 03/19 12:17
3F:→ Wush978: 或是用jieba断词後,把那些非英文的词通通扔掉 03/19 12:18
4F:→ Wush978: 你可以试试看jiebaR套件 03/19 12:18
5F:→ blackyu: 谢谢~ 03/19 14:29