作者KSJ (阿真)
看板Python
標題Re: [問題] 一個抓資料的問題
時間Wed Nov 2 20:55:25 2011
前文吃光光
在cmd下看到的都是亂碼
無論用big5 utf-8 cp950去對number做decode或是encode都沒用
想請問怎麼會這樣呢?
是因為re無法處理中文嗎?
煩請大大們解惑
謝謝!
cmd是指黑底的嗎?? 黑底的應該比較容易正常說 雖然都轉成unicode就沒事了
我測試直接urllib2抓網頁 有下面的結果
http://dl.dropbox.com/u/24628527/TEST.PNG
用unicode來看都還蠻正常的 ( 用str不正常就不提了... windows oooos)
然後我也用了re (想學一直沒空 我抄你的程式碼) 有以下的結果
http://dl.dropbox.com/u/24628527/test2.PNG
當然在黑底的cmd也是沒問題
上面是在 windows xp
python 2.5.4 測試的
蠻好奇你怎麼抓不出來@_@a
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 61.231.27.129
1F:→ suzuke:先說你是在哪個系統做吧? windows or linux 11/01 00:19
2F:推 KSJ:推樓上XD 11/01 00:26
3F:→ pm2002:應該是windows吧,cmd下unicode會是亂碼沒錯 11/01 02:21
不好意思忘記講 我是用windows XP
python 2.5
4F:推 cobrasgo:我猜是text editor的關係 11/01 03:47
我是用notepad++ 請問text editor如何影響這部份呢?
5F:推 NolandTA:先encode成latin再decode成cp950試試看 11/01 10:40
不行耶 用latin去encode會失敗
※ 編輯: poopoo888888 來自: 218.166.198.127 (11/01 19:24)
6F:→ KSJ:我用WINDOW7 Python2.5.4 urllib2 在cmd下正常 idle下亂碼 11/01 21:57
7F:→ KSJ:可是decode("big5","ignore") 就可以了 你要不要試試? 11/01 21:58
8F:→ KSJ:再問一下 是只要是中文都亂碼?? 11/01 22:10
很謝謝你 但出來還是亂碼耶
只有抓這個網頁是亂碼 其他地方的中文都沒問題
※ 編輯: poopoo888888 來自: 61.231.27.37 (11/02 19:10)
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.112.63.202