Requests介绍与安装
- Windows环境下:pip install requests
- Linux环境下:sudo pip install requests
第三方库安装技巧
- 少使用easy_install因为只能安装不能卸载
- 多用pip方式安装
- 撞墙了怎么办?请戳->第三方库安装技巧
将下载的后缀为whl的文件改为zip, 解压文件,获得requests文件,拷贝到C盘的python/lib文件夹中。
第一个网络爬虫
Requests获取网页源代码
- 直接获取源代码
- 修改http头获取源代码
爬取python吧首页的源代码
import requests html = requests.get('http://tieba.baidu.com/f?ie=utf-8&kw=python') print html.text
单线程爬虫的基本原理:使用requests获取网页源代码,再使用正则表达式匹配出感兴趣的内容。
向网页提取数据Get与Post
- Get是从服务器上获取数据
- Post是向服务器传送数据
- Get通过构造url中的参数来实现功能
分析目标网站
- 网站地址:https://www.crowdfunder.com/browse/deals
- 分析工具:Chrome-审核元素-Network
Requests表单提交功能
- 核心方法:Requests.post
- 核心步骤:构造表单-提交表单-获取返回信息