V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
Kaiyuan
V2EX  ›  问与答

后端把文字以 Unicode 输出,然后在通过 JavaScript 显示能不能防止一般爬虫?

  •  
  •   Kaiyuan · 2014-11-10 08:57:38 +08:00 · 2339 次点击
    这是一个创建于 3671 天前的主题,其中的信息可能已经有所发展或是发生改变。

    例如我想显示的文字是 「一个友好的社区」
    输出的字符串是 \u4e00\u4e2a\u53cb\u597d\u7684\u793e\u533a 然后是通过 js

    document.write('\u4e00\u4e2a\u53cb\u597d\u7684\u793e\u533a');
    

    如果可以一些相对敏感的字符是不是可以这样另类的「加密」?

    当然,一些爬虫会自动转换就另一回事。

    4 条回复    2014-11-10 09:27:32 +08:00
    hjc4869
        1
    hjc4869  
       2014-11-10 09:02:07 +08:00   ❤️ 1
    防止爬虫直接用ember.js之类的web app框架不就行了……
    HTML里不出现数据,全部用js写上去,思路是一样的。
    这样的话爬虫需要模拟浏览器执行js,成本就超大了。
    abelyao
        2
    abelyao  
       2014-11-10 09:21:38 +08:00
    @hjc4869 于是一般我就找出 load js 的规律,然后直接爬 ajax 的地址了…
    楼主那个还指望加密啊… 任何一个语言都能 decode 回来啊
    Kaiyuan
        3
    Kaiyuan  
    OP
       2014-11-10 09:25:54 +08:00
    @abelyao 我想法初衷不是全文以 Unicode 输出,是针对电邮地址和手机号码这类字符啊。
    abelyao
        4
    abelyao  
       2014-11-10 09:27:32 +08:00
    @Kaiyuan 应该也是一个思路,可以试试看,不过 email 的爬虫应该早就能识别出这些了吧,连 # 这些隐晦替代符号都能抓了…
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5950 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 51ms · UTC 02:56 · PVG 10:56 · LAX 18:56 · JFK 21:56
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.