作者saladang (沙拉蛋的阿哥哥)
看板R_Language
标题[问题] 建立TDM做文档矩阵时出现乱码
时间Sat Apr 1 13:08:41 2017
[问题类型]: 建立TermDocumentMatrix作文档矩阵时出现乱码
程式谘询
[软体熟悉度]:
新手(没写过程式,R 是我的第一次)
[问题叙述]:
R 3.3.3 (32-bit)
我正在做ptt网路爬虫的文本探勘, 参考 陈嘉葳用R进行中文 text Mining,前面
都很顺利直到在建立 TermDocumentMatrix作文档矩阵时,就出现错误了,
inspect(tdm[1:10, 1:2])
#############
Error in nchar(Terms(x), type = "chars") :
invalid multibyte string, element 1
##############
於是检查了一下文档,执行查看停用字head(myStopWords,20)出现是正确的文字(非
乱码),所以应该不是编码问题,在findFreqTerms看关键字时文字就变乱码了。麻
烦各位帮我解惑一下怎麽排解文档矩阵出现乱码的问题。
Environment
https://goo.gl/zlJTQb
指令
https://goo.gl/zKDl5j
[环境叙述]:
R 3.3.3 (32-bit)
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.173.141.139
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1491023327.A.366.html
※ 编辑: saladang (1.173.141.139), 04/01/2017 13:10:32
2F:→ saladang: 谢谢w大,试过您的,结果还是没有成功解决问题。 04/03 18:18
3F:→ wheado: 你要不要把code放上来,我有空帮你看一下 04/03 19:11
4F:推 bluecadence: 刚刚无聊把 "陈嘉葳用R进行中文 text Mining" 跑了一 04/03 20:04
6F:→ bluecadence: 不过我用的是 R-3.3.2 on Slackware linux 04/03 20:05
已经将部分指令以图片方式放上,请各位帮忙
※ 编辑: saladang (36.236.90.159), 04/03/2017 23:23:08
※ 编辑: saladang (36.236.90.159), 04/03/2017 23:42:12
8F:推 bluecadence: 不知道你问题解决了没,我在想你的语言编码是用utf8 04/06 07:48
9F:→ bluecadence: 还是用big5 ? 04/06 07:48
10F:→ bluecadence: 你用陈嘉葳text Mining的script方法,里面有用到中国 04/06 07:50
11F:→ bluecadence: 简体 GB2312 的东西,会不会是这个问题? 04/06 07:51
12F:→ saladang: 问题还没解决,我的是utf8 04/06 17:26
13F:推 kenson: google 到的 跑TDM前 多跑一行 04/10 23:21
14F:→ kenson: 1Sys.setlocale(category='LC_ALL', locale='C') 04/10 23:21
15F:推 kenson: 更正 "Sys.setlocale(category='LC_ALL', locale='C')" 04/10 23:28
16F:推 prettyskys: 遇到同样的问题耶 求解TT 04/16 00:44
17F:推 minchang: 用Sys.setlocal语系设为C,还是没用... 05/01 15:49
18F:→ minchang: 请问有其它解法吗? 05/01 15:49