Grab Python站点爬取框架
Grab简介
Grab,Python第三方库,可用于构建web scraper的框架。使用Grab可以构建出许多复杂的爬虫工具,从简单的数行Python脚本到处理数百万网页的复杂异步web站点爬虫,Grab可执行网络请求,并处理接收到的内容,比如与HTML文档的DOM树交互。
Grab应用实例
# 构建Grab实例并发出简单的网络请求(默认为GET请求):
>>> from grab import Grab
>>> g = Grab()
>>> resp = g.request('http://example.com/')
#resp为Response对象,它提供了一个到响应内容、cookie、头和其他内容的接口
#要生成其他请求类型,您需要通过带有方法参数的setup方法配置Grab实例:
>>> g.setup(method='put')
>>> g.setup(method='delete')
>>> g.setup(method='options')
>>> g.setup(method='head')
# 一个HEAD请求的小示例:
>>> g = Grab()
>>> g.setup(method='head')
>>> resp = g.request('http://example.example/robots.txt')
>>> print(len(resp.body))
0
>>> print(resp.headers['Content-Length'])
1776
Grab Github统计数据
MIT license
Github 2.3k stars
Grab安装命令
pip install -U grab
免责声明:内容编辑自网络,仅供参考,不保证正确性,不作任何决策依据!!以上数据皆截止于博文的写稿日期。