什么是python爬虫?

2021-04-10 17:55:54 浏览数 (2963)

如果你想学习 python,那么你一定听过“爬虫”。那么这篇文章 w3cschool 小编就来为你介绍一下什么是 python 爬虫。

概述

Python 爬虫主要是指网络数据的抓取和处理。相比于其他编程语言,python 内含有大量的内置包,非常适合用来开发网络爬虫,可以轻松实现爬虫的功能。

Python爬虫的架构组成

URL 管理器:用来管理 URL 集合,将待爬取的 URL 传送给网页下载器;

网页下载器:爬取相应的网页,并将它存储成字符串,再传送给网页解析器;

网页解析器:分析出网页中有价值的数据并存储,同时补充 URL 到 URL 管理器。

爬虫工作原理

通过 URL 管理器判断是否有等待爬取的 URL,如果有的话通过调度器传递给下载器,下载 URL 内容,之后通过调度器传送给解析器,解析 URL 的内容,并将有价值的数据和新的 URL 列表通过调度器传送给应用程序,并输出数据的过程。

以上就是问题“什么是python爬虫?”的全部内容。更多 python 爬虫学习请关注 python 编程狮

推荐课程:零基础学爬虫python3爬虫入门与实践