Python爬虫基础入门实例
本文涉及的主要知识点如下:
- WEB 是如何交互的;
- requests 库的 get、post 函数的应用;
- response 对象的相关函数及其属性。
环境:Python3.6 + Pycharm
库:requests
小编在本文中代码都已给出了详细注释,并且可直接运行。
首先,屏幕前的小伙伴们需要先安装 requests 库,安装之前需先安装好 Python 环境,如未安装,小编在这给小伙伴们提供最新的 Python 编译器安装教程:Python 最新 3.9.0 编译器安装教程。
安装好 Python 环境后,windows 用户打开 cmd 命令输入以下命令即可(其余系统安装大致相同)。
pip install requests
Linux 用户:
sudo pip install requests
接下来就是实例讲解啦,小伙伴们多多动手操练呐!
1、爬取百度首页页面,并获取页面信息
实例
# 爬取百度页面
import requests #导入requests爬虫库
resp = requests.get('http://www.baidu.com') #生成一个response对象
resp.encoding = 'utf-8' #设置编码格式为 utf-8
print(resp.status_code) #打印状态码
print(resp.text) #输出爬取的信息
2、requests 库 get 方法实例
在此之前先给大家介绍一个网址:httpbin.org,这个网站能测试 HTTP 请求和响应的各种信息,比如 cookie、ip、headers 和登录验证等,且支持 GET、POST 等多种方法,对 web 开发和测试很有帮助。它用 Python + Flask 编写,是一个开源项目。
官方网站:http://httpbin.org/
开源地址:https://github.com/Runscope/httpbin
实例
# get方法实例
import requests #导入requests爬虫库
resp5、爬取网页图片,并保存到本地。5、爬取网页图片,并保存到本地。 = requests.get("http://httpbin.org/get") #get方法
print( resp.status_code ) #打印状态码
print( resp.text ) #输出爬取的信息
3、requests 库 post 方法实例
实例
# post方法实例
import requests #导入requests爬虫库
resp = requests.post("http://httpbin.org/post") #post方法
print( resp.status_code ) #打印状态码
print( resp.text ) #输出爬取的信息
4、requests库 put 方法实例
实例
# put方法实例
import requests #导入requests爬虫库
resp = requests.put("http://httpbin.org/put") # put方法
print( resp.status_code ) #打印状态码
print( resp.text ) #输出爬取的信息
5、requests 库 get 方法传参
想要使用 get 方法传递参数,有两种方法可行:
- 在 get 方法之后加上要传递的参数用“=”号链接并用“&”符号隔开;
- 使用 params 字典传递多个参数。实例如下:
实例
# get传参方法实例1
import requests #导入requests爬虫库
resp = requests.get("http://httpbin.org/get?name=w3cschool&age=100") # get传参
print( resp.status_code ) #打印状态码
print( resp.text ) #输出爬取的信息
实例
# get传参方法实例2
import requests #导入requests爬虫库
data = {
"name":"w3cschool",
"age":100
} #使用字典存储传递参数
resp = requests.get( "http://httpbin.org/get" , params=data ) # get传参
print( resp.status_code ) #打印状态码
print( resp.text ) #输出爬取的信息
6、requests 库 post 方法传参
使用 post 方法传递参数和使用 get 方法传递参数的方法二是类似的。实例如下:
实例
# post传参方法实例
import requests #导入requests爬虫库
data = {
"name":"w3cschool",
"age":100
} #使用字典存储传递参数
resp = requests.post( "http://httpbin.org/post" , params=data ) # post传参
print( resp.status_code ) #打印状态码
print( resp.text ) #输出爬取的信息
7、如何绕过各大网站的反爬虫措施,以猫眼票房为例:
实例
import requests #导入requests爬虫库
url = 'http://piaofang.maoyan.com/dashboard' #猫眼票房网址地址
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
} #设置头部信息,伪装浏览器
resp = requests.get(url, headers=headers) #
print(resp.status_code) #打印状态码
print(resp.text) #网页信息
8、爬取网页图片,并保存到本地。
先在E盘建立一个爬虫目录,才能够保存信息,小伙伴们可自行选择目录保存,在代码中更改相应目录代码即可。
实例
import requests #导入requests爬虫库
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
} #设置头部信息,伪装浏览器
resp = requests.get('http://7n.w3cschool.cn/statics/img/logo/indexlogo@2x.png', headers = headers) #get方法的到图片响应
file = open("E:\\爬虫\\test.png","wb") #打开一个文件,wb表示以二进制格式打开一个文件只用于写入
file.write(resp.content) #写入文件
file.close() #关闭文件操作
学以致用,希望屏幕前的小伙伴们能够多多联系,结合实际多加操作。推荐阅读:Python 静态爬虫、Python Scrapy网络爬虫。