WebMagic是一个简单灵活的Java爬虫框架,基于WebMagic,你可以快速开发出一个高效、易维护的爬虫程序。
你可以直接去官网查看说明文档,也可以跟随本文,一步一步地实现一个简单的知乎答案图片下载爬虫程序。
1. 新建Maven项目
在Intellij Idea中新建一个基于Maven的Module,如果你不清楚怎么新建项目,可以参考 如何新建基于Maven的Module ,确保你新建好的项目能正确运行。
2. 添加依赖,编写代码
在你的pom.xml文件中,加入WebMagic的依赖,我使用的是最新版的:
1 | <dependency> |
新建一个ZhihuPictureSpider.java类,类的内容:
1 | package com.zhaoyh.main; |
3. 写入配置并启动
在ZhihuPictureSpider.java类的main方法,前三行是你需要配置的内容,其中
1 | String z_c0 = "XXXXXXX"; |
是你登陆状态下知乎的Cookie,如果你不知道怎么查找这个Cookie的内容,可以打开你的知乎首页,然后点击chrome浏览器的如下图的位置:
然后找到你的该Cookie的Value:
其次配置好你的图片存储目录,填上你常用的目录即可。
1 | String basePath = "XXXXX"; |
最后是找到知乎你感兴趣的某个回答,或者某个链接,填入到:
1 | String answerUrl = "XXXXX"; |
以上你就完成了第一个爬虫程序的所有配置步骤,右击点击run即可查看运行效果,下图是我本地的运行效果:
代码下载:github