2021
04-27
04-27
Python爬取网页的所有内外链的代码
项目介绍采用广度优先搜索方法获取一个网站上的所有外链。首先,我们进入一个网页,获取网页的所有内链和外链,再分别进入内链中,获取该内链的所有内链和外链,直到访问完所有内链未知。代码大纲1、用class类定义一个队列,先进先出,队尾入队,队头出队;2、定义四个函数,分别是爬取网页外链,爬取网页内链,进入内链的函数,以及调函数;3、爬取百度图片(https://image.baidu.com/),先定义两个队列和两个数组,分别来存储内...
继续阅读 >