关于爬虫，现在有没有技术可以实现，不请求连接，而能知道目标网站是否更新的技术？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

V2EX 提问指南

这是一个创建于 2430 天前的主题，其中的信息可能已经有所发展或是发生改变。

增量爬取，肯定要先读取页面，或接口，才能知道目标源是否更新。我觉得这就像一个黑洞一样，你不把头伸进去，是不会知道里面情况是否变化的。可我一直发现有人吹，可以在不请求的情况下，得知目标网站是否变化？实在想不通其中原理，求大佬们解惑。

是否

请求

目标

更新

18 条回复 • 2018-06-01 16:46:19 +08:00

wintercoder

2018-05-31 20:14:00 +08:00

对方调你接口，然而这是不太可能的

xiaoke0718

2018-05-31 20:15:02 +08:00

用 Python

whoami9894

2018-05-31 20:24:49 +08:00 via Android

要不问问吹的那个人怎么做到的

Kendall

2018-05-31 20:30:45 +08:00 via Android

访问 archive 或者 Google 的缓存页面？

jakeyfly

2018-05-31 20:38:30 +08:00

@Kendall。。。缓存怎么可能有实时信息

Foolt

2018-05-31 20:47:44 +08:00

原理很简单，只要敢吹，什么都有可能。

jiangnanyanyu

2018-05-31 20:52:17 +08:00 via Android

去他们公司工作

LukeChien

2018-05-31 20:55:20 +08:00 via Android

静态页面用 head 方法读响应头的 etag，可以节约流量。部分情况下有效。

opengps

2018-05-31 20:58:03 +08:00

可以啊，变相实现，请求百度的快照#######

a7a2

2018-05-31 21:11:32 +08:00

这些都是你自己写代码实现的一部分。。。

每次访问取 body 然后 md5 写入数据库，下次同样方式然后对比 md5 即可

“可以在不请求的情况下，得知目标网站是否变化？“是不可能的，对自己掌握的技术及一些基本原理要有信心。

爬虫在页面停留，页面自动刷新已经算是接收了数据。

gamexg

2018-05-31 21:27:33 +08:00

访问列表页，列表页按更新时间排序？

night98

2018-05-31 21:32:49 +08:00

http 304 ？否则不请求怎么可能知道有没有变化，就跟你不去执行方法你怎么知道方法的返回值是什么？

qsnow6

2018-05-31 22:33:03 +08:00 via iPhone

http header 的 tag md5 length 都可以不需要读取 body

shiny

2018-05-31 22:37:23 +08:00

用算法预测网站的更新时间

xkeyideal

2018-06-01 08:59:33 +08:00

买通对方的程序员即可

Sylv

2018-06-01 09:49:23 +08:00 via iPhone

量子。。。量子纠缠？

jakeyfly

2018-06-01 11:03:59 +08:00

@qsnow6 这样也算请求了吧

Len1133

2018-06-01 16:46:19 +08:00

建立预测模型