机器学习生成 xpath，进行通用爬虫

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

This topic created in 3095 days ago, the information mentioned may be changed or developed.

做通用爬虫，现在的正文提取已经很稳了 95%以上的正文提取率可以实现. (通用提取和 xpaht,css 等选择器)

但是为了更精确，对某域名或类型网站下，进行随机抽取 10-20 个网页。

用上述正文抽取的 content, 和原网页 html.

进行学习，然后推测出 xpath 之类。生成 xpath 配置项.

目标：以 95%的成功率实现 99.99%的成功率.

老哥们有好的思路么？@binux

参考:

pyspider 作者：Data Highlighter

xpath

正文

爬虫

提取

14 replies • 2017-12-31 01:19:53 +08:00

binux

Dec 22, 2017 via Android

机器学习个蛋啊，选择器总共能用的特征就 class，ID，属性那么几个，多个页面比对，组合一下选个最好的就完了

TimePPT

PRO

Dec 22, 2017 via iPhone

@binux 哈哈哈，正解

droiz

Dec 22, 2017

这年头怎么什么都机器学习啊。

ihciah

Dec 22, 2017

别喷机器学习啊，都是工具，有用就行，多搞点数据即使直接丢特征进 svm 也比手动写规则省事，精确。
除了一楼提到的几个特征，渲染后对应的位置、面积、长宽比，还有单词 /字符数之类的，应该也是很好的辅助。

geofvt

Dec 22, 2017

据我观察，大部分新闻网站，一个标签下有大段文字，或者有很多样式一致（指字体）的标签包裹小段文字

cross4future

Dec 22, 2017

html 头部尾部清洗+文本密度
以前我们公司是这么做的

mogging

Dec 23, 2017 via iPhone

xpath 处理 js 还是很麻烦

looplj

Dec 23, 2017 via Android

前公司做过用文本密度，准确率 95 以上。gayhub 上有个 node 的实现，准确率很高，但是性能稍微差点，要用 JSdom 渲染一遍。

scriptB0y

Dec 23, 2017

目前我用过最好的是印象笔记的 Chrome 剪藏插件。。。

话说很多网站根本不靠谱的。class id 属性不太好使（参见极端例子： https://www.kawabangga.com/posts/2240 ）文本密度好一些

mains

Dec 23, 2017

@scriptB0y 目前我的比印象笔记的 Chrome 剪藏插件识别率更好。因为我是组合通用抓取和 xpath 规则等。

mains

Dec 23, 2017

现在是可以根据文本内容自动推算出正文区域，设置 xpath 是更精确一点，不设置也行。(正常提取和 headless 等)

也设计了可视化的 xpath 提取工具，然后写入配置项，一个站 20s 左右。

现在就想人工介入的更少。

Draplater

Dec 23, 2017 via Android

@binux 不同网站的 class id 属性不一样

fish267

Dec 23, 2017

楼主有没有写过 React 网站的爬虫, 感觉维护特别费劲

voidtools

Dec 31, 2017 via Android

@mains 求此工具入口