首页技术文章正文

写爬虫是用多进程还是多线程?

更新时间:2021-05-21 来源:黑马程序员 浏览量:

1577370495235_学IT就到黑马程序员.gif

一般情况下,在选择是使用多进程还是多线程时,主要考虑的业务到底是IO密集型(多线程)还是计算密集型(多进程)。在爬虫中,请求的并发业务属于是网络的IO类型业务,因此网络并发适宜使用多线程;但特殊需求下,比如使用phantomjs 或者chrome-headless来抓取的爬虫,应当是多进程的,因为每一个phan/chro实例就是一个进程了,并发只能是多进程。此外爬虫中还是数据处理业务,如果数据处理业务是一个比较耗时的计算型操作,那么对数据处理部分应当设为多进程,但更多可能会考虑将该部分数据处理操作和爬虫程序解耦,也就是先把数据抓取下来,事后单独运行另外的程序解析数据。


以下是黑马程序员近期推出的Python兴趣课程,3天入门Python,体验Python的魅力!

0基础Python3天入门课程

   ·了解Python主流就业方向,把握最新热点技术
   ·掌握Python的基础语法及API调用
   ·能够使用Python对数据获取、使用和展示
   ·打造自己的数据分析项目并自动生成工作报告

Python零基础3天课程


分享到:
在线咨询 我要报名
和我们在线交谈!