本文代码github地址:
回复 datadw 公众号关键词“QQ”获取。
爬虫功能:
QQSpider 使用广度优先策略爬取QQ空间中的个人信息、日志、说说、好友四个方面的信息。
判重使用“内存位”判重,理论上亿数量级的QQ可瞬间判重,内存只占用400M+。
爬虫速度可达到单机每天400万条数据以上(具体要考虑网速、网络带宽、稳定性等原因。我在学校是400万+,但在公司那边却只有六成的速度,普通家庭网络可能会更慢)。
2022年06月08日
本文代码github地址:
回复 datadw 公众号关键词“QQ”获取。
爬虫功能:
QQSpider 使用广度优先策略爬取QQ空间中的个人信息、日志、说说、好友四个方面的信息。
判重使用“内存位”判重,理论上亿数量级的QQ可瞬间判重,内存只占用400M+。
爬虫速度可达到单机每天400万条数据以上(具体要考虑网速、网络带宽、稳定性等原因。我在学校是400万+,但在公司那边却只有六成的速度,普通家庭网络可能会更慢)。
Powered By
Copyright Your WebSite.Some Rights Reserved.