2021
09-30
09-30
教你如何用Java简单爬取WebMagic
一、Java爬虫——WebMagic 1.1WebMagic总体架构图1.2WebMagic核心组件1.2.1Downloader该组件负责从互联网上下载页面。WebMagic默认使用ApacheHttpClient作为下载工具。1.2.2PageProcessor该组件负责解析页面,根据我们的业务进行抽取信息。WebMagic使用Jsoup作为HTML解析工具,并基于其开发了解析Xpath的工具Xsoup。1.2.3Scheduler该组件负责管理待抓取的URL,以及去重的工作。WebMagic默认使用JDK内存队列管理URL,通...
继续阅读 >