python-goose Html内容/文章提取器
python-goose简介
python-goose,Html内容/文章提取器,可以用于获取任何新闻文章或文章类型的网页,而且不仅可以提取文章的主体内容,还可以提取网页的元数据和图像等内容。
python-goose应用实例
>>> from goose import Goose
>>> url = 'http://www.example.example/1351332873_157836.html'
>>> g = Goose()
>>> article = g.extract(url=url)
>>> article.title
python-goose Github统计数据
Apache-2.0 license
Github 3.9k stars
python-goose安装命令
mkvirtualenv --no-site-packages goose
git clone https://github.com/grangier/python-goose.git
cd python-goose
pip install -r requirements.txt
python setup.py install
免责声明:内容编辑自网络,仅供参考,不保证正确性,不作任何决策依据!!以上数据皆截止于博文的写稿日期。