如果你时一步步从第一节看到这里的,相信会对Python爬虫有了基础的了解。到此,基础的理论已经都了解到了,需要的时自己动手实战练习。

学到的知识如果没有实际使用,很快就会被忘记。

在实践过程中的建议

  • Python环境:建议使用Anaconda3搭建Python环境,然后使用 jupyter-notebook 通过浏览器页面编写、运行代码,这样可可以实时查看运行结果情况,方便调试。
  • 选择一些不需要登录的网站练习(降低练习难度)
  • 学会利用浏览器的F12开发者模式,通过开发者模式可以了解网站中的网络交互过程以及爬取数据的方法。

参考示例

  • comics_spider: 一个漫画爬虫示例(内部示例仅供参考,方法可能已经失效)。
  • spider_keyword: 关键词爬虫, 收集各种关键词信息(weibo/baidu)