[问题] java 多执行绪爬虫

时间Fri Mar 30 16:51:56 2018

之前需要爬一些网站的评论而想了一个简单的多执行绪爬虫但是觉得方法不漂亮,想问问其他更好的想法需求: (由於效率问题,需要 multithreading) 将许多网站连结(存在一个 List 里面)里面的评论全部爬下来每个网站存成一个档案,例如:txt 评论中会有连结连到其他文章,连文章一并爬下来但是需要存到这个网站的档案 ex: A 网站爬下来的资料存成 A.txt 里面有评论连到 B 文章,需将 B 文章存进 A.txt 的相对位置 (就是那个评论那里) 我之前的想法: 将 List 里面的网站做 Multithreading 用一个暂时的 List 存爬下来的资料碰到连结在 List 里面做记录,并把连结存到另一个 List 爬完这个网站之後将存连结的 List 做 multithreading 爬回来的文章写回存资料的暂时 List 全部连结爬完之後将这个暂时 List 写到 txt 问题: 1. 假如正在爬的几个网站评论很多,记忆体用量可观,而且 Threads 数量会很多较难估计 CPU 使用 2. 每个网站产生完 threads 用过即丢,感觉很浪费,想重复利用对於上面问题想请教更好的做法感谢各位大大 -- 这是个最好的时代，也是个最坏的时代，是最光明的时代，也是最黑暗的时代藏龙卧虎今懦夫,镜里罪容化成无人情冷暖难回首,叹留多少伤心事一沙一世界，一花一天堂，掌中盈无限，刹那即永恒。 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 47.149.227.123 ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/java/M.1522399948.A.3EA.html

1^F：→ Chienhua: 用ThreadPool重新利用并控管总Thread量 03/31 11:55

2^F：推 pupuliao: 我们公司就在做这个不过我没接触XD 03/31 12:29

3^F：→ pupuliao: 你把爬虫数量跟任务(网页连结)数量分开 03/31 12:30

4^F：→ pupuliao: 所有爬虫都统一去任务池中取任务，找到新任务也丢进去 03/31 12:31

5^F：→ pupuliao: 这是我想到的方法可以控制CPU 用量 03/31 12:31

6^F：推 v9290026: unblockingQueue 04/01 12:30

只有找到 BlockingQueue ※ 编辑: obelisk0114 (47.149.227.123), 04/01/2018 14:39:34

7^F：推 zephyrhymn: 很多系统都是用pooling去管理使用总量 04/02 10:26

8^F：→ zephyrhymn: 一直new thread对效能和时间也是浪费 04/02 10:26

9^F：→ ssccg: 一定要用thread pool，要不要控制总量(thread数上限)是一回 04/02 10:36

10^F：→ ssccg: 事，但另一个重点是重复利用不要一直new新的 04/02 10:36

11^F：→ ssccg: 至於记忆体不够用那当然就只能不要存记忆体，用暂存档最後 04/02 10:53

12^F：→ ssccg: 再组合也可以 04/02 10:53

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

java 板

[问题] java 多执行绪爬虫

热门看板

赞助商连结