python-goose Html内容/文章提取器

python-goose简介

python-goose,Html内容/文章提取器,可以用于获取任何新闻文章或文章类型的网页,而且不仅可以提取文章的主体内容,还可以提取网页的元数据和图像等内容。

python-goose应用实例

>>> from goose import Goose
>>> url = 'http://www.example.example/1351332873_157836.html'
>>> g = Goose()
>>> article = g.extract(url=url)
>>> article.title

python-goose Github统计数据

Apache-2.0 license

Github 3.9k stars

python-goose安装命令

mkvirtualenv --no-site-packages goose
git clone https://github.com/grangier/python-goose.git
cd python-goose
pip install -r requirements.txt
python setup.py install

免责声明:内容编辑自网络,仅供参考,不保证正确性,不作任何决策依据!!以上数据皆截止于博文的写稿日期。


行业导航 / Python指南 :
























Copyright © 2022-2024 笨鸟工具 x1y1z1.com All Rights Reserved.