作者askdrlin (中央气象局)
看板Python
标题[问题] 新手问ptt政黑版爬虫
时间Sun Dec 9 12:11:45 2018
大家好,小弟我目前已经把ptt政黑版爬虫给爬完了,目前的状况是标题,时间,发文id
,内容,推文,都可以爬下来
想要进阶到正则表达式把内文作者或是来源给抓出来,不知道这是否可行?因为政黑版的
发文格式相当混乱,
像是是
新闻来源:xx
新闻:xx
xxx 报导
xxxx ooo 综合报导
或是什麽都没有
不晓得是否能够写出把这些单独抓出来的正则表达式,因为也怕写了会抓到其他的字就是
了....
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 110.26.228.210
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1544328708.A.3FB.html
1F:→ jiyu520: ㄜ...你自己回答自己了,可以啊12/09 12:36
2F:→ s860134: 没有乾净的资料只有无尽的苦功...12/09 16:55
3F:推 CodingMan: 推二楼 你只能case by case 了12/10 14:59
谢谢回覆 看来的确是一个一个用个案去写了 感恩大大
※ 编辑: askdrlin (110.26.228.210), 12/11/2018 14:45:58