作者minksable ()
看板Database
标题[问题] 格式不太正确的csv档
时间Wed Sep 2 00:26:47 2009
在csv档中 字串性质的栏位应该会加上""
e.g. "string", number, date
不然字串里如果有「,」要怎麽办? (假设这里是以,为栏位分隔)
结果我手上拿到一堆没有用双引号区隔的档案
以致於我没有办法汇入这些档案
我试过写程式判断什麽时候是逗号 什麽时候是分隔
但我想需要很不错的NLP技术才行......
我想请问一下遇到这样的问题要怎麽解决?
原则上是不可能请人家重新汇出给我
因为公家单位跑个文应该要一个月吧
而且我很担心他们不懂我的问题所在
(如果懂的话 当初就不会给格式不符的档案了吧....)
ps. 因为字串性质的栏位中算是一些口语的纪录
所以用到逗号的机率颇高
而资料至少上万笔 我不想一笔一笔帮它们加双引号 >"<
如果能救我 我会很感谢的 <(_ _)>
--
「
如果我就这麽松开手,你会不会永远记得我?
」
《妖灵皇子》司徒红
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.119.150.244
1F:推 maplenote:如果假设分隔不是用,呢@@?! 既然,不好分 为什麽不换个?? 09/02 09:32
2F:→ minksable:可是档案已经用,分好给我了..... 09/02 09:42
3F:推 daniel1205:可以试试用 csved 这个免费的小工具!! 09/02 11:46
4F:推 daniel1205:1.读CSV; 2.用Filter找出有问题资料; 3.做Col.Join 09/02 11:57
5F:→ Antzzz:原则上这样子的资料我都叫人重汇,根本不能用 09/02 12:19