作者paranoia5201 (社会黑暗、行路难)
看板Python
标题[问题] 爬虫:换页与主题的双重回圈
时间Tue Mar 5 17:36:21 2019
我正在学习网路爬虫,有个小问题想请教。
以下是我的想要爬的网址,有略作修改:
'
https://MainAddress?Page=1&city=tpe'
简单而言,Page有超过200页,而city有近30个。
想到一个简单的做法是,把网址书写如下:
link = '
https://MainAddress?Page={}&city={}'.format(n,m)
换页的部分想到用下面的方式写:
n = 1
while n < total_pages:
print(link, n)
n = n + 1
但是如果还要加入city的m......我就暂时卡住,不知道该要怎麽包了。
有什麽建议的方式可以把它全部包起来吗?
p.s. 有个list把所有的city都先罗列出来,或许可以用它包第二层回圈?
感谢指导~
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 61.216.102.143
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1551778584.A.2CA.html
1F:→ HenryLiKing: 网址连不到欸 03/05 17:41
2F:推 nini200: 通常page和city有着顺序关系 但你这里我看不到 03/05 17:43
3F:→ nini200: 直接给网址最快 不用猜你可能错误的想法 03/05 17:44
4F:→ adrianshum: for (n,m) in {page,city for page in range(total_pa 03/06 06:52
5F:→ adrianshum: ge) for city in city_list}: 之类? 随便写 syntax 03/06 06:52
6F:→ adrianshum: 应该有误。没记错的话 generator expression 或 list 03/06 06:52
7F:→ adrianshum: comprehension 可以用两个 for然後给出所有组合 03/06 06:52
8F:→ adrianshum: 不然就直接写对应的两层for loop 就好 03/06 08:46
9F:→ HenryLiKing: 大家太认真了 感觉他不会回来解释和放网址了 03/07 00:49