发现一个很 awesome 的网站 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 3045 天前的主题，其中的信息可能已经有所发展或是发生改变。

https://mercury.postlight.com/web-parser/

号称可以直接拉到 HTML 的文章内容正文的数据，测试了很多资讯站基本上都覆盖的比较完美。
不过感觉不太可能是手动覆盖了这些测试站点的样式，所以应该用的算法之类的实现。

大家有相关的资料可以参考下吗？对这个非常感兴趣

5 条回复 • 2017-10-12 09:22:41 +08:00

1

cubelate

2017 年 10 月 11 日

有意思，可能是通过判断位置，z-index，大小之类吧。把自己当做浏览器，分析最前面最大块的内容。

2

airycanon

2017 年 10 月 11 日

1

@kenshin 感觉简悦可以借鉴一下，处理不在支持列表中的网站。

3

ygger

2017 年 10 月 11 日

这是我的一个正文提取器： http://kandouban.top/extractor

4

ygger

2017 年 10 月 11 日

一些正文提取算法参考： https://code.google.com/p/cx-extractor/
http://www.cnblogs.com/jasondan/p/3497757.html#!comments

5

kenshin

2017 年 10 月 12 日 via iPhone

@airycanon
之前有参考过这个，但它是传到服务器处理。
即将发布的 1.0.4 基本上可以覆盖全部的页面了。

关于 · 帮助文档 · 自助推广系统 · 博客 · API · FAQ · Solana · 4302 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 56ms · UTC 03:04 · PVG 11:04 · LAX 19:04 · JFK 22:04
♥ Do have faith in what you're doing.