[问题] 当read_csv遇到utf-8-BOM

时间Wed Mar 21 15:24:59 2018

各位好: 我使用readr::read_csv读取csv档 ex:a <- read_csv("xxx.csv") 按下enter後出现几行字: Parsed with colum specification: cols( `<U+FEFF>id` = col_character(), ... ) 当时没有想太多, 因为View(a)看起来都很正常接着要把 a 跟其他的 dataFrame merge的时候总是会出现错误: Error in fix.by(by.x, x) : 'by' must specify a uniquely valid column 用dplyr::left_join()则是会出现: Error in left_join_impl(x, y, by$x, by$y, suffix$x, suffix$y) : 'id' column not found in rhs, cannot join 怀疑应该是那个`<U+FEFF>id`在作怪用关键字找到这篇 https://github.com/tidyverse/readr/issues/263 不过看完还是不知道发生了甚麽事...@@a 不晓得有人可以协助解释吗? 1. UTF-8-BOM 跟 UTF-8 的差别? (之前读csv档从来没注意过有这个问题) 2. R 要怎麽正确的读取 UTF-8-BOM 的档案呢? 任何观念的厘清小弟都很欢迎先谢谢各位了！！！ ps. 最後我是用很笨的方法 a <- a %>% select(id=`<U+FEFF>id`...) 把栏位改名後就可以成功merge（但还是想知道大家遇到这问题都怎麽处理的）补充: 用names(a), colnames(a), summary(a)看起来栏位都显示正常不过head(a)会显示以下的东西 # A tibble: 6 × 5 `<U+FEFF>id` <chr> ...... --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 223.136.174.63 ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1521617104.A.BC4.html ※ 编辑: locka (223.136.174.63), 03/21/2018 15:40:17

1^F：→ obarisk: 不要用read_csv就可以了吧03/21 18:28

O大有推荐的处理套件吗？ ※ 编辑: locka (223.136.174.63), 03/21/2018 19:42:03

2^F：推 kimball: BOM 是 windows 在存 utf-8 csv 的时候在开头加入的三个03/21 21:18

3^F：推 kimball: byte……手动修改的话可以用 notepad++ 读入後存成非BOM03/21 21:21

4^F：→ kimball: utf-8 的格式03/21 21:21

感谢说明，不过我好奇为什麽View(a)的时候不会出现像乱码的东西可是head(a)就会第二是有没有办法侦测读入档案时，该档案是以哪种编码储存？ ※ 编辑: locka (223.136.174.63), 03/21/2018 22:32:28

5^F：→ andrew43: 因为BOM是没有「外观」的，而你看到的乱码能方便显示这 03/21 23:40

6^F：→ andrew43: 类没有外观但又存在的字符 03/21 23:40

7^F：→ andrew43: 要用R去除BOM也不难，google R read utf-8 BOM资料很多 03/21 23:42

8^F：→ andrew43: 参考看看 https://goo.gl/Q3Sc9g 但我相信read_csv()未 03/21 23:46

9^F：→ andrew43: 来更新後会处理 03/21 23:46

10^F：→ Wush978: 可以先用 readBin 读进来之後丢掉前三个 bytes, 然後用 03/22 09:57

11^F：→ Wush978: connection 丢给 read.table 处理 03/22 09:57

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

R_Language 板

[问题] 当read_csv遇到utf-8-BOM

热门看板

赞助商连结