V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
ihancheng
V2EX  ›  问与答

Github pages 拒绝百度爬虫怎么办?

  •  
  •   ihancheng · 2018-05-28 20:01:08 +08:00 via Android · 10257 次点击
    这是一个创建于 2377 天前的主题,其中的信息可能已经有所发展或是发生改变。

    用 github pages 做了一个博客,这几天做了 seo 优化,谷歌和必应都已经收录了我的网站,但是百度死活不行。在百度站长平台抓取也总抓去失败(猜测应该是 github 拒绝百度爬虫访问造成的)。

    那么问题来了,怎么才能在百度搜到我的博客呢?

    48 条回复    2020-03-16 07:13:30 +08:00
    yuanfnadi
        1
    yuanfnadi  
       2018-05-28 20:02:19 +08:00 via iPhone
    自己部署
    ihancheng
        2
    ihancheng  
    OP
       2018-05-28 20:06:39 +08:00 via Android
    @yuanfnadi ??
    70nY
        3
    70nY  
       2018-05-28 20:08:26 +08:00
    我是 coding 上再部署一份 然后 DNSpod 设置国内的 IP 走 coding 上的那份
    EricXuu
        4
    EricXuu  
       2018-05-28 20:09:10 +08:00 via Android
    国内部署到 coding.net 或者啥上面,然后域名分开解析。
    Pyjamas
        5
    Pyjamas  
       2018-05-28 20:14:10 +08:00
    没啥办法,我本来也挂在 Github Pages 上,后来就因为这个部署到自己服务器上了,然后才知道百度索引非要备案,最后也没让百度爬,想想算了
    ihancheng
        6
    ihancheng  
    OP
       2018-05-28 20:31:14 +08:00 via Android
    @Pyjamas 百度真的是非常折腾人了… 无力吐槽!!
    ihancheng
        7
    ihancheng  
    OP
       2018-05-28 20:32:25 +08:00 via Android
    @70nY 谢谢!意思是 github 和 coding 上的内容一样?
    ihancheng
        8
    ihancheng  
    OP
       2018-05-28 20:34:06 +08:00 via Android
    @EricXuu 那每次发文,都得更新两次>_< 好累
    WoadZS
        9
    WoadZS  
       2018-05-28 20:35:49 +08:00 via Android
    @ihancheng 如果是 hexo 的话可以直接在配置文件里面写上两个部属地址,直接同步部署了
    oonnnoo
        10
    oonnnoo  
       2018-05-28 20:41:19 +08:00 via Android
    github 把 baidu 禁了,所以在百度是搜不到 github 上的内容了
    Athrob
        11
    Athrob  
       2018-05-28 20:43:58 +08:00 via iPhone
    百度不要也罢
    yksoft1
        12
    yksoft1  
       2018-05-28 20:50:28 +08:00
    还记得当年劫持 hm.baidu.com 的脚本打 github 的“大炮”么?虽然并非百度自己干的,但这样之后 github 肯定对百度不友善了。
    xttttt
        13
    xttttt  
       2018-05-28 21:08:20 +08:00
    我感觉 GitHub 做的非常好 禁止百度没错啊
    EricXuu
        14
    EricXuu  
       2018-05-28 21:31:02 +08:00 via Android
    @ihancheng 9 楼正解。或者 git push 到两个地址即可,并不增加太多工作量
    EricXuu
        15
    EricXuu  
       2018-05-28 21:32:05 +08:00 via Android
    @ihancheng 而且国内访问 github pages 的速度不太理想吧
    wql
        16
    wql  
       2018-05-28 21:34:07 +08:00 via Android   ❤️ 4
    谁叫百度当年脚本被人劫持了……太敏感不多说了。
    70nY
        17
    70nY  
       2018-05-28 22:13:52 +08:00
    @ihancheng 是的我是 HEXO 所以部署起来比较方便写两个地址就可以了
    Lentin
        18
    Lentin  
       2018-05-28 22:16:15 +08:00
    套一层 cloudflare
    Raincal
        19
    Raincal  
       2018-05-28 23:19:36 +08:00
    就算部署在 coding 上 收录速度也特别慢 不知道是不是没备案的缘故
    ihancheng
        20
    ihancheng  
    OP
       2018-05-28 23:41:25 +08:00 via Android
    @WoadZS 谢谢!
    ihancheng
        21
    ihancheng  
    OP
       2018-05-28 23:42:31 +08:00 via Android
    @EricXuu 我觉得速度挺好的啊,没什么延迟,和访问普通网站差不多。
    ihancheng
        22
    ihancheng  
    OP
       2018-05-28 23:43:39 +08:00 via Android
    @Raincal 我只是觉得部署在 coding 太麻烦了,而且据说还有过度广告。
    ihancheng
        23
    ihancheng  
    OP
       2018-05-28 23:44:40 +08:00 via Android
    @Lentin 没用过,有空试试。谢谢你!
    yingos
        24
    yingos  
       2018-05-28 23:57:08 +08:00 via iPhone
    我是套的 cf 不过最近感觉访问速度越来越慢了
    param
        25
    param  
       2018-05-28 23:58:29 +08:00 via Android
    @Pyjamas 百度索引还要备案的?过分了。那不备案的国外网站都怎么办?
    ihancheng
        26
    ihancheng  
    OP
       2018-05-29 00:11:55 +08:00 via Android
    @yingos 负优化?
    Pyjamas
        27
    Pyjamas  
       2018-05-29 00:34:10 +08:00
    @param 一般都备案了吧。。。

    我一进站长平台就会跳一个框:

    > 经检测,您的站点符合百度新站保护要求,请先填写您网站的备案号,填写完成后您可以使用链接提交工具中的“新站保护”提交方式提交数据,百度将对此部分数据的抓取收录提供优待,为期 2 个月;备案信息可在站点属性工具中查看及修改。
    ihancheng
        28
    ihancheng  
    OP
       2018-05-29 00:54:57 +08:00 via Android
    我的域名是 cc 的,不能备案=_= 不能用腾讯的免费 cdn
    param
        29
    param  
       2018-05-29 01:14:28 +08:00 via Android
    @Pyjamas 那是因为网站放在国内才需要备案
    lodisy
        30
    lodisy  
       2018-05-29 03:46:51 +08:00 via Android
    百度不要也罢 国内就开放了搜狗和 bing
    pexcn
        31
    pexcn  
       2018-05-29 04:02:00 +08:00 via iPhone
    挺好的,我还故意把百度蜘蛛屏蔽掉了
    HayesTsai
        32
    HayesTsai  
       2018-05-29 09:07:05 +08:00
    歪个楼,请教下楼主怎么做 seo 优化啊,我也刚在 pages 上搭建了一个个人博客
    Love4Taylor
        33
    Love4Taylor  
       2018-05-29 09:20:25 +08:00   ❤️ 1
    ihancheng
        34
    ihancheng  
    OP
       2018-05-29 09:28:35 +08:00 via Android
    @pexcn 老哥这波操作 666
    ihancheng
        35
    ihancheng  
    OP
       2018-05-29 09:49:47 +08:00
    @HayesTsai

    你就用搜索引擎搜跟 seo 有关的教程,你要相信你能用搜索引擎搜到的,seo 一定做得不错的,要不然怎么能被搜到呢,哈哈,对吧?(这个逻辑没毛病~)

    这几天我搜过没有 100 个网页也有几十个了。大概就是在站长工具(谷歌、必应、搜狗 ...)提交自己的网站,做 sitemap,百度推送(主动、自动、手动推送),关键字,优化内部链接……

    http://www.dajipai.cc/archives/ec8af0f7.html
    http://hunao.info/2016/06/01/Hexo-Seo%E4%BC%98%E5%8C%96%E8%AE%A9%E4%BD%A0%E7%9A%84%E5%8D%9A%E5%AE%A2%E5%9C%A8google%E6%90%9C%E7%B4%A2%E6%8E%92%E5%90%8D%E7%AC%AC%E4%B8%80/
    http://www.arao.me/2015/hexo-next-theme-optimize-seo/
    logOo
        36
    logOo  
       2018-05-29 09:53:04 +08:00 via Android
    百度必须备案吧
    yuluofanchen
        37
    yuluofanchen  
       2018-05-29 11:11:34 +08:00
    是二级域名吗?

    https://xxx.github.io/

    把你的域名 添加到百度站长平台,然后把页面改造成 MIP 加速,发点外链。一个月内能收录。
    ihancheng
        38
    ihancheng  
    OP
       2018-05-29 11:49:32 +08:00 via Android
    @yuluofanchen 我买的 cc 域名,cname 解析到 github.io
    yuluofanchen
        39
    yuluofanchen  
       2018-05-29 12:03:42 +08:00
    @ihancheng 一样整,到百度站长平台添加这个网站,然后点 [抓取诊断] ,可能抓 10 次有 1 次成功。不管了。多成功几次,移动和 PC 端多抓取几次诊断。网站首页是 MIP 页面,然后整点外链。一个月内还是可以收录的。

    不过这样子太慢,还是撸个服务器整上吧。
    ihancheng
        40
    ihancheng  
    OP
       2018-05-29 13:37:04 +08:00 via Android
    @yuluofanchen 准备部署 coding
    Trumeet
        41
    Trumeet  
       2018-05-29 14:02:49 +08:00 via Android
    GitHub 禁百度。建议还是别管百度了(
    chuhemiao
        42
    chuhemiao  
       2018-05-29 14:40:47 +08:00
    github coding 双部署。
    nG29DOMuRYTWfcSr
        43
    nG29DOMuRYTWfcSr  
       2018-05-29 15:43:49 +08:00 via Android
    我看了楼上所有的回答,其实很多回答是不正确的,GitHub 并没有禁用百度的索引。我是 spacevim 这个项目的维护者,你可以在百度搜 site:spacevim.org

    其实关于网站的 seo 真心没必要折腾,如果你的质量写得好,有十个人替你转发一次,比得上百度上被搜到上百次。
    ihancheng
        44
    ihancheng  
    OP
       2018-05-29 19:16:12 +08:00   ❤️ 1
    coding 部署后,在百度站长工具成功抓取网页后,前 200K 部分内容:( coding 真的好讨厌……)

    // var DATA = [
    // {
    // title: '岂能尽如人意,但求无愧于心',
    // detail: '“服务”才是外包最大的竞争力。',
    // },
    // {
    // title: '客户重要还是项目重要?',
    // detail: '谁给钱谁重要。',
    // },
    // {
    // title: '外包尾款迟迟收不回来,哥儿几个的工资哪儿找?',
    // detail: '托管在码市上的钱跑不掉。',
    // },
    // {
    // title: '不靠谱的外包可以做到让你心理崩塌。',
    // detail: '理性分析,远离傻逼。',
    // },
    // {
    // title: '程序员靠什么挣钱?',
    // detail: '靠面对需求时的好脾气。'
    // },
    // {
    // title: '你写过最漂亮的代码值多少钱?',
    // detail: '需求方说了算。',
    Foolt
        45
    Foolt  
       2018-05-29 20:55:50 +08:00   ❤️ 1
    github 没有禁百度,百度也没有禁 github,你用 site 命令搜索一下就就知道了。

    百度收录不同谷歌和必应,百度收录比较慢,做多几个外链吧,比如说把文章转载到 CSDN 博客留下外链。
    songxin
        46
    songxin  
       2018-06-22 11:05:36 +08:00
    使用 Nginx 反向代理,伪造百度爬虫的 user agent 就行了。具体可以看
    [Github Pages 百度索引收录工具]( https://3gods.com/baiduindex.html)
    ihancheng
        47
    ihancheng  
    OP
       2018-06-22 12:23:35 +08:00 via Android
    @songxin 很不错哦!感谢作者!👍
    JennyWoW
        48
    JennyWoW  
       2020-03-16 07:13:30 +08:00
    CDN 基本是不管用的,Nginx 反向代理确实可以,如果没有服务器,看到有人提到 zeit.co ,百度收录很快 https://zpjiang.me/2020/01/15/let-baidu-index-github-page/
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2780 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 05:52 · PVG 13:52 · LAX 21:52 · JFK 00:52
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.