[问题] 爬取图文成档案

时间Wed Dec 25 00:28:11 2019

爬文都只有只爬取图片或文字用requests和bs4爬取文字或图片是会了但是想要爬取成图文混排所以txt是没办法了目前能够图文混排的格式打算用world或epub 但是不知道要怎麽爬取图文用bs4只会跑出图片的连结没有头绪了... --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 125.224.161.174 (台湾) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1577204893.A.478.html

1^F：→ Hsins: 能够爬取连结就能够对网际网路资源进行存取，再透过相关的12/25 00:59

2^F：→ Hsins: 套件操作 word 或 epub。关键字可以自己去搜，作法有很多12/25 01:00

3^F：→ Hsins: ，实际上要混排你也可以使用 html。两年前你可以是小白，但12/25 01:01

4^F：→ Hsins: 不应该这麽久过去了，还不能够自己找答案呀。12/25 01:02

我又不是很常用这功能... 虽然是比两年前会很多不过爬虫是最近才尝试的东西找到的答案又都是单纯爬图或爬文 html... 尝试还是只能爬图或文写不出一起爬的

5^F：→ junwh: 用Markdown如何12/25 02:35

这是？轻量级标记式语言？ ※ 编辑: s4028600 (125.224.161.174 台湾), 12/25/2019 05:59:01

6^F：→ dennisxkimo: 选个可图文并茂的档案格式爬到的内容写出入该格式12/25 09:36

7^F：→ dennisxkimo: markdown(.md)或html都可爬到资料怎麽使用自由发挥12/25 09:38

8^F：→ dennisxkimo: 载图嵌入路径还是插连结是看有没有离线保存需要12/25 09:40

import requests from bs4 import BeautifulSoup import os url = 'https://ericjhang.github.io/archives/ad5450f3.html' html = requests.get(url).content with open('123.html','wb')as f: f.write(html) f.close() 这样爬出来图是叉叉怎麽镶嵌比较好 ※ 编辑: s4028600 (125.224.161.174 台湾), 12/25/2019 11:08:54

9^F：→ Hsins: 就算不是同一个功能，你两年来似乎也没有为了让自己更理解12/25 12:40

10^F：→ Hsins: 这个工具去把英文念好不是吗？12/25 12:41

11^F：→ Hsins: 当你要做的功能越趋复杂（对於你而言），你没有让自己有足12/25 12:41

12^F：→ Hsins: 够的能力听懂别人要表达什麽的时候，问再多都没用。12/25 12:42

两年前也才一篇文章而且还是文件处理中间并没有用过好吗？而且就是不懂才要问就算听不懂也可以抽丝剥茧从回答中找到更多东西你的html建议就很有用的确我还摸索不出来不过比你指责我英文不好要有用多了 ※ 编辑: s4028600 (175.183.44.67 台湾), 12/25/2019 14:14:52 https://blog.csdn.net/he_string/article/details/78574198 根据这篇文章可以把图放入world 可是只能放到最後面... ※ 编辑: s4028600 (175.183.44.67 台湾), 12/25/2019 14:18:34

13^F：→ kobe8112: world...? 是指办公室软体word吗?12/25 16:54

14^F：→ s4028600: 对我现在才发现多一个l12/25 19:00

15^F：→ dennisxkimo: 你能爬资料找到文字与图片的连结从来没想过可以12/25 19:29

16^F：→ dennisxkimo: 收集起来再自己写个程式把收集来的写成一个档案?12/25 19:30

17^F：→ dennisxkimo: 看回应的code只接受现成的function套上而已12/25 19:31

18^F：→ dennisxkimo: 这样能力会被受限永远只能玩门口的东西 12/25 19:31

有想过也试过喔最主要是我还做不到批量改html里的连结所以才难以合并不过刚找到方法了还很简陋就是了

19^F：→ s860134: 唉建议学点 copy paste 外的东西 12/25 19:46

我的确还是copy paste的程度没错不过比以前只能直接用现在会自己改了虽然进度缓慢...

20^F：→ vi000246: 拆解问题是解决问题的开始爬到图片网址把图载下来 12/26 00:27

好吧研究epub的结构後觉得我的确在一步登天还是从Hsins的建议从html开始不过我的确不太会从细部问题开始多是大问题开始走一步算一步... 图已经会载了

21^F：→ vi000246: 或是取得图片stream 再随便你要存成什麽排版 12/26 00:28

是指在print之前的排版吗为什麽你们留言我app都没显示... 总之找到一个算可行方法但是很仰赖calibre import zipfile import requests from bs4 import BeautifulSoup a=1 url = '' res=requests.get(url) res.encoding='gbk' soup=BeautifulSoup(res.text,'html.parser') html=soup.select('#contentmain')[0].prettify() outZip=zipfile.ZipFile('test.zip', mode='w', compression=zipfile.ZIP_DEFLATED) #, compresslevel=9) for img in soup.select('#contentmain'): for src in img.select('img'): filename='images/%02d.jpg'%a print(src['src']) html=html.replace(src['src'],filename) imgUrl=src['src'] imgResponse=requests.get(imgUrl) outZip.writestr(filename, imgResponse.content) a+=1 print(html) htmlContent=html outZip.writestr('index.html', htmlContent) outZip.close() 然後再用calibre转档 ※ 编辑: s4028600 (36.232.106.188 台湾), 12/26/2019 13:47:45

22^F：→ jiyu520: 加油 12/26 14:57

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Python 板

[问题] 爬取图文成档案

热门看板

赞助商连结