网页结构化内容提取方式

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

这是一个创建于 1246 天前的主题，其中的信息可能已经有所发展或是发生改变。

例如提取页面的：

正文、发布时间、图片、作者信息等

进一步分析摘要，关键词，行业

查了下，类似印象笔记的剪藏模式识别主体内容，但是没有具体找到这种更结构化的思路

能想到的就是正则，但是不够通用，有没有通用算法，然后结构正则做特殊 case 修复

请教下有哪些开源的工具或者思路么，我自己慢慢折腾一个也 OK

5 条回复 • 2020-12-04 09:02:44 +08:00

svipchao

2020-12-03 22:06:12 +08:00

绝大部分网站是不会按照标准来开发的，至少大部分网站没有 Author 标识的
另外，随着搜索引擎算法更新，大部分网站是没有关键词的
提取正文等信息建议参考 https://github.com/kingname/GeneralNewsExtractor

tikazyq

2020-12-03 22:11:46 +08:00

GNE，青南大佬的作品，智能识别一哥没得说

beryl

2020-12-03 22:22:24 +08:00

@svipchao
@tikazyq 感谢推荐，研究下先

Austin2035

2020-12-03 23:40:55 +08:00

二楼提到的 GNE 框架是《基于文本及符号密度的网页正文提取方法》这篇论文的一个 Python 版实现，如果你想进阶的提取你想要的信息，也许可以参考这篇论文。

panda421

2020-12-04 09:02:44 +08:00 via iPhone

Jsoup