作者maplenote (猫奴一只)
看板Database
标题Re: [问题] 格式不太正确的csv档
时间Wed Sep 2 09:47:12 2009
※ 引述《minksable ()》之铭言:
: 在csv档中 字串性质的栏位应该会加上""
: e.g. "string", number, date
: 不然字串里如果有「,」要怎麽办? (假设这里是以,为栏位分隔)
: 结果我手上拿到一堆没有用双引号区隔的档案
: 以致於我没有办法汇入这些档案
: 我试过写程式判断什麽时候是逗号 什麽时候是分隔
: 但我想需要很不错的NLP技术才行......
: 我想请问一下遇到这样的问题要怎麽解决?
: 原则上是不可能请人家重新汇出给我
: 因为公家单位跑个文应该要一个月吧
: 而且我很担心他们不懂我的问题所在
: (如果懂的话 当初就不会给格式不符的档案了吧....)
: ps. 因为字串性质的栏位中算是一些口语的纪录
: 所以用到逗号的机率颇高
: 而资料至少上万笔 我不想一笔一笔帮它们加双引号 >"<
: 如果能救我 我会很感谢的 <(_ _)>
公司单位给你文件 可以用Excel开启吗?
(TXT?CSV?XLS?)
有招很笨 请笑小力点=口=||
是我第一次要转资料的时候自己研究出来的
不过栏位很多的时候好像也很麻烦
我是用Excel做排版
在每个栏位的前後插入一栏 加上分隔符号跟双引号 整列套用储存格内容
搞定後 资料全选复制 开新的记事本贴上
这时候会发现有多的TAB缩排
所以先复制TAB缩排 利用记事本的取代功能 全部取代成空值
存成CSV(选UTF8罗) 搞定!
当厂商给我500笔甚至1000笔EXCEL或TXT资料的时候
我都是这样处理的
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 61.221.128.182
1F:推 LPH66:问题就在於也许上一行某格有三个逗号 下一行某格有四个逗号 09/02 10:26
2F:→ maplenote:我猜给的CSV是用EXCEL转过去的 应该有办法回到原来状态 09/02 10:31
3F:→ maplenote:如果资料全乱~只能说没救了吧= =" 只能用人脑判断了 09/02 10:34