Python 板


LINE

#-*- coding: UTF-8 -*- import csv import string import commands import os,sys,math import shutil t="/home/ray/workspace/itri/src/a/" fname1='test.csv' gname1='test2.csv' f=open(t+fname1,"r") g=open(t+gname1,"w") temp = f.readlines() for r in temp: tmp = r tmpline=tmp.replace('<b><font color=”#333366”>','') newline=tmpline.replace('<br /><br />',' "," ') #row=newline.split(',') #if r==temp[0]: #new_row=newline+','+"row" #else: #new_row=newline+','+row g.write(newline) f.closeg.close 我是直接把它當作txt檔處理 沒有用CSV Module 因為CSV的只有複寫跟append上去感覺直接用replace比較方便 現在下面的資料欄位已經可以分隔開不會有一個欄位有多值的問題 但是還是有兩個問題 1.把機構名稱還有負責人姓名提出來 還是有問題因為找不到一定 相對應的符號...... 2.有些欄位裡有負責人姓名有些沒有 所以用,"分出來後,還是有些因空白值 而對錯欄位目前正在研究re來處理 希望各位大大能夠幫忙~~~感激 ※ 引述《KSJ (阿真)》之銘言: : ※ 引述《tt812 (DW)》之銘言: : : 我現在有一個CSV檔是從網路上面抓下來的 : : 因原本欄位不夠多所以要增加欄位, : : 所以用input output 的方法 : : 其中因爲第三欄的資料要跟據表頭再分出不同欄 : : 大概是這樣: : : stitle,xpostDate,xbody,xcreatedDate,xAddress, : : "台北市私立寶貝托兒所","2010/8/3 上午 11:48:00","<b><font color=”#333366”>機構 : : 名稱:台北市私立寶貝托兒所</font></b><br /><br />負責人姓名:林秀娟<br /><br />聯 : : 絡人姓名:林秀娟<br /><br />電話:2305-1623<br /><br />立案字號:北市社五(立 : : )676<br /><br />立案日期:0870817<br /><br />核定收托人數:31<br /><br />托收對象: : : 托收對象年齡0-2歲0人; 2-6歲31人; 6-12歲0人<br /><br />是否備有交通車:無<br : : /><br />地址:臺北市100寧波西街181巷44號1樓<br /><br /><a href=” : : http://www.dosw.taipei.gov.tw/a/a0104.asp” target=”_blank”>婦女福利及兒童托育 : : 科</a><br />","2011/9/16 上午 01:46:00","臺北市寧波西街181巷44號1樓 : : ","121.509605407715","25.026424407959" : : 希望可以把機?名稱,負責人姓名,聯絡人姓名,電話,立案字號等各獨立出一欄 : : 目前思考方向是用,取代:然後表頭append上去但不得其門而入,希望各位大大幫忙 : 資料不多的話 提供一個笨方式 : 因為有中文 要用unicode 我是用python2.5.4 在idle下 有些decode小問題 : 觀念比較重要 : 首先發現 ":" 是個不錯的分段點 通常在":"之後就是資料 : 資料的結尾大部份是"<ooxx//>" 之類的東西 : 所以寫一個笨的parser : def findcontent(ustr,hstr,tstr): : '''找出hstr與tstr之間的內容''' : h_index = ustr.index(hstr) #找到此字串的index : start = h_index + len(hstr) #內容物的起始index : t_index = ustr.index(tstr,start) #從start後開始找 : end = t_index : return ustr[start:end] : 來回傳結果 : 假設第三欄的資料叫 third_str : 比方你要找 機構名稱 : 就用 findcontent(third_str.decode("cp950"), : "機構名稱:".decode("cp950"), : "</font>".decode("cp950")) : "機構名稱:".decode("cp950") 是在idle下用的 : 一般來說 寫 u"機構名稱:" 就行了 : 要找 負責人姓名 : 就用 findcontent(third_str.decode("cp950"), : "負責人姓名:".decode("cp950"), : "<br />".decode("cp950")) : 以此類推 應該就行了 : 有錯請指正 有更好的方法也請與大家分享~ : 感恩 --



※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 111.243.156.171







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:WOW站內搜尋

TOP