V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
soho176
V2EX  ›  程序员

蜘蛛抓取页面的时间为什么在日志中看不到图片,ccs,js,等的请求?

  •  
  •   soho176 · 2013-04-08 18:00:19 +08:00 · 2994 次点击
    这是一个创建于 4046 天前的主题,其中的信息可能已经有所发展或是发生改变。
    查看日志,看百度蜘蛛的抓取只能看到网址返回了200,但是这个网址中的图片等信息为什么没有日志,难道是根本没有访问这个页面?如果是在浏览器中访问页面的话,应该是图片等信息都有请求的日志记录的啊。这是怎么回事?
    7 条回复    1970-01-01 08:00:00 +08:00
    lichao
        1
    lichao  
       2013-04-08 18:13:18 +08:00
    蜘蛛只抓取 HTML,图片以及,CSS, JavaScript 抓取了也没有用,所以不抓
    soho176
        2
    soho176  
    OP
       2013-04-08 18:16:39 +08:00
    @lichao 但是为什么在日志中看不到 图片请求的日志,只有网址的请求日志,这个网址上是有图片的,对这个网址进行了访问 按说应该图片也要产生请求的啊,难道是 蜘蛛的请求只返回html 代码,不返回其他的吗?
    CoX
        3
    CoX  
       2013-04-08 18:18:29 +08:00
    @soho176 蜘蛛抓取页面,不会对页面解析,所以不会请求图片的
    cloudzhou
        4
    cloudzhou  
       2013-04-08 21:49:31 +08:00   ❤️ 1
    @soho176 你要理解http协议,比如使用 curl ,wget 来获取页面,那么不会访问页面上的js和img的
    likexian
        5
    likexian  
       2013-04-08 23:08:59 +08:00   ❤️ 1
    一般来说蜘蛛只读页面html,不读引用的其它文件,但google soso这些蜘蛛都会读css
    dorentus
        6
    dorentus  
       2013-04-09 01:20:47 +08:00
    其实浏览器的话,假如我把样式和脚步都禁掉,然后访问你的页面,也是不会去下载 HTML 里面外链的 CSS 和 Javascript 等资源的。

    最基本的搜索引擎蜘蛛,一般就是抓取下页面(HTML),简单解析一下,找出里面的到其它页面的链接,然后再去抓这些页面(HTML),如此反复。

    至于 Google bot,假如我没记错的话(某年应该有个新闻提到的),现在它应该甚至都会去把 JS 抓下来执行一下,以更好地分析某些前端脚本比较复杂的页面。。。
    dorentus
        7
    dorentus  
       2013-04-09 01:24:47 +08:00   ❤️ 1
    说到图片蜘蛛,它的抓取时机并不一定和网页的蜘蛛同步的。

    比如 google bot 抓取了你的一个页面,发现里面有几张图片,它应该会把这些图片记为要抓取的,告知 google image bot,然后 google image bot 会在自己觉得合适的时机去抓取这些图片(假如它认为你的页面优先级不高,甚至会很长时间都不去抓)。

    这样应该可以解释为什么你只在日志里面集中看到了网页被抓取了,而图片没有。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   6093 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 06:16 · PVG 14:16 · LAX 23:16 · JFK 02:16
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.