作者WhiteComet (???N)
看板Python
标题[问题] 爬虫 期货表格
时间Tue Nov 20 10:45:30 2018
code
https://pastebin.com/7nj8i6RD
如下:
import requests
import sys
import re
from bs4 import BeautifulSoup
import pandas
import lxml
Juridical_person = "
http://www.taifex.com.tw/cht/3/futContractsDateExcel"
df = pandas.read_html(Juridical_person)
print(df[1])
pandas读进来之後,print出来发现表格歪掉了
可能是前两栏有些储存格合并的关系
我该怎麽呈现和网页一样的效果呢?
我应该在读进来之前就先对html作处理
还是读进来之後再对df作表格的排版
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.39.16.239
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1542681935.A.2B9.html
1F:→ jiyu520: 或许用BeautifulSoup抓回table後, 再做清理解析比较好 11/20 16:13
感谢回覆
我相信不论pandas读进来之前还是之後作处理应该都能解决
碍於新手对语法不熟,两种方法都不知该如何具体的写出code
经过下午在网上翻阅文章终於解决,在此使用的方法为後者
将print(df[1])那一行
改为下列两行
df[1][13:15] = df[1][13:15].shift(2,None,'columns')
print(df[1].loc[12:14,9:14])
程式码如下
https://pastecode.xyz/view/157bc1ba
※ 编辑: WhiteComet (114.39.16.239), 11/20/2018 19:48:58