V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
leaveeel
V2EX  ›  问与答

关于联系方式加密的疑惑

  •  
  •   leaveeel · 62 天前 · 1635 次点击
    这是一个创建于 62 天前的主题,其中的信息可能已经有所发展或是发生改变。

    看到不少帖子在需要进一步交流的时候会提供通过 base64 加密的手机/微信/QQ/email/...我在顺手解码后得到的就是上述联系方式的完整字符串,极少数会加盐后编码。这就导致你的 base64 编码并没有起到增强隐私的作用,而通过真实联系方式加密后直接就能搜索出回复过该编码的帖子。

    在仅仅是防止爬虫骚扰的情况下,对一些只爬手机号、email 的可能有效。现在大多留的是微信,我不清楚微信有没有加好友的 api ,即使有在调用之前尝试解码也不费事,手机、邮箱也可以在不需要额外人工的情况下尝试解码后进一步骚扰,和明文区别已经不大了。

    而如果加盐后再编码就能很大程度解决这个问题,比如: v2ex 微信号 ABCD => djJleOW+ruS/oeWPt0FCQ0Q=

    +括号内微信( ABCD) => K+aLrOWPt+WGheW+ruS/oe+8iEFCQ0Qp

    两个编码都能用于指向同一个微信,也能加大其他个人信息和这次编码产生联系的成本。但是这么做的人不多。

    14 条回复    2024-10-04 18:49:39 +08:00
    cmdOptionKana
        1
    cmdOptionKana  
       62 天前
    其实都泄漏得差不多了,我觉得没必要整复杂,直接暴露原文就行。
    leaveeel
        2
    leaveeel  
    OP
       62 天前
    @cmdOptionKana 现在普遍是原文加密的字符串,尤其是技术论坛。个人觉得这种粗暴的加密多此一举,没法保证隐私也给其他人增加操作,防君子不防小人了。
    cmdOptionKana
        3
    cmdOptionKana  
       62 天前
    @leaveeel 我觉得就是赶时髦而已,形式主义大于实际意义。
    llxvs
        4
    llxvs  
       62 天前 via iPhone
    1. 爬虫可以区分邮箱、手机号、普通文本的 base64 吗?退一步讲,爬虫可以区分 base64 与其他文本吗?
    2. base64 可以防止搜索引擎收录,防止根据邮箱/手机号等搜索到你的帖子,尤其是对于不能删帖的本论坛来说。
    leaveeel
        5
    leaveeel  
    OP
       62 天前 via Android
    @llxvs 不知道但实际不需要知道,只要爬到的格式非手机邮箱的字母数字符号组合就可以尝试 decode 。
    而第二点我在正文提到过,搜索引擎同样会收录 base64 码,不经过处理的号码和编码是一一对应的,想查依然能查到。
    oneisall8955
        6
    oneisall8955  
       62 天前
    我习惯 pastebin
    NoOneNoBody
        7
    NoOneNoBody  
       62 天前
    @cmdOptionKana #3
    并不是,你找个熟人的 email 或微信号去搜索引擎搜一下,看看他的足迹都到过什么地方?

    然后想想编程随想

    只想到有意收集,思维局限了,其实存在更多的情况是“无意”收集
    NoOneNoBody
        8
    NoOneNoBody  
       62 天前
    @leaveeel #5
    问个问题:
    爬了一千万个网页
    1.用正则能直接匹配出 email ,确认是 email(是否真实另算),能占 90%以上
    2.那么,base64 呢,不会整个网页都是 base64 吧,先匹配出 base64 的部分,解码,再判断是否 email ,效率应该低于 50%,成本大效率低,且这些爱用 base64 的人,警觉性也略高于前面 1 的
    假如你做黑产的话,这两种人都一视同仁么?就算明知会拉高成本也把 2 列为目标?

    当绝大部分人都放弃 1 ,采用 2 ,这样两者拉平,成本才会拉平

    当然有反向操作的情况,就是专找敌对份子的人,他们会找那些见不得光都爱“加密”的
    cmdOptionKana
        9
    cmdOptionKana  
       62 天前
    @NoOneNoBody 用 base64 骗自己,还不如用明文提高警觉性,涉黄就隔离身份换个邮箱,涉政那要做的措施就多了。
    NoOneNoBody
        10
    NoOneNoBody  
       62 天前
    @cmdOptionKana #9
    首先,隔离身份是正确的,但跟这个不是一个方向的话题
    假如我有三个电话号码,或者邮箱,给不同圈子的人,确实那个圈子的人只会联系其中之一,他们极可能并不会知晓另外两个圈子的身份
    但是如果三个圈子都是会在网上公开,且被搜集的,那这三个电话号码都会收到跟这三个圈子毫无关系的广告骚扰,或者诈骗,但如果都用“密文”,就会少很多,所以我说这是两个方向的话题

    稍微处理[可以但不是重点]保护真实身份,重点是减少那些漫无目的、无差别的收集行为
    NoOneNoBody
        11
    NoOneNoBody  
       62 天前
    @cmdOptionKana #9
    我再透点隐私帮你扩宽一下思维:
    我有个圈子,里面几乎没有会编程的,绝大多数是文字工作者,他们中应该只有少数几个知道 base64
    他们用的是什么方式对联络信息遮罩呢?
    答案是非常原始的方法 —— 繁体汉字写数字、emoji 、贴图……

    其实对于爬虫来说,程序员用 base64 反而是最弱的,越原始的方案工作量越大,哈哈
    不是说采集者不能采集、不能“解密”,而是他们要面对很多不同情形做不同的对策,情形越多成本越大
    lloovve
        12
    lloovve  
       61 天前 via iPhone
    可以做继续短链接的临时名片
    yvkino
        13
    yvkino  
       61 天前
    手机号里随机加个字母就好了
    julyclyde
        14
    julyclyde  
       57 天前
    没什么用
    只是一种文化现象而已
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2520 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 15:44 · PVG 23:44 · LAX 07:44 · JFK 10:44
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.