V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
guoer
V2EX  ›  分享创造

撸了个 163 邮箱查询站。

  •  1
     
  •   guoer · 2016-04-16 21:25:14 +08:00 via iPhone · 6476 次点击
    这是一个创建于 3134 天前的主题,其中的信息可能已经有所发展或是发生改变。
    https://163pwd.com

    50g 下了一周。
    golang+es

    求别 D
    52 条回复    2016-04-24 08:29:00 +08:00
    dreammes
        1
    dreammes  
       2016-04-16 21:29:52 +08:00 via iPhone
    一波 DDOS 即将到来
    superxzr
        2
    superxzr  
       2016-04-16 21:46:15 +08:00
    我打不开了。。。
    guoer
        3
    guoer  
    OP
       2016-04-16 21:48:11 +08:00
    @superxzr 用国外 ip 试试?
    superxzr
        4
    superxzr  
       2016-04-16 21:53:21 +08:00
    Azure HK 也是 Time out... 一直连接然后没有然后了 V2EX 和 LOC 的区别在于一个秒死一个等一会死...(逃
    superxzr
        5
    superxzr  
       2016-04-16 21:54:56 +08:00   ❤️ 1
    我的老天..刷了十几次终于开了 花了大概 15s
    YUX
        6
    YUX  
       2016-04-16 21:59:11 +08:00   ❤️ 1
    法国秒开
    Midnight
        7
    Midnight  
       2016-04-16 22:00:45 +08:00
    打不开?
    sola97
        8
    sola97  
       2016-04-16 22:05:04 +08:00   ❤️ 2
    加拿大秒开
    oott123
        9
    oott123  
       2016-04-16 22:10:25 +08:00
    下了一周……
    guoer
        10
    guoer  
    OP
       2016-04-16 22:11:15 +08:00
    国内 ip 不行。不知道是谁的锅。正在联系 vps 提供商
    guoer
        11
    guoer  
    OP
       2016-04-16 22:11:52 +08:00
    @oott123 并不是不间断下载。速度大概是 500kb/s
    superxzr
        12
    superxzr  
       2016-04-16 22:21:34 +08:00
    可是。。 我挺懵的,只有我一个人出现这个情况?
    http://img.superxzr.net/uploads/2016/04/1.jpg
    guoer
        13
    guoer  
    OP
       2016-04-16 22:28:59 +08:00
    @superxzr 检测到一波 ddos 被机房拔网线了
    strwei
        14
    strwei  
       2016-04-16 22:29:28 +08:00
    无法访问此网站

    163pwd.com 的响应时间过长。
    请试试以下办法:
    重新加载网页
    检查网络连接
    检查代理服务器和防火墙
    ERR_CONNECTION_TIMED_OU
    congeec
        15
    congeec  
       2016-04-16 22:46:38 +08:00
    立马被 D 。。。。。多大仇
    RanchoH
        16
    RanchoH  
       2016-04-16 23:08:02 +08:00
    哈哈哈哈哈哈哈,笑死了
    果然不能在 V 站上发链接
    xhowhy
        17
    xhowhy  
       2016-04-16 23:16:18 +08:00
    es 是啥
    slixurd
        18
    slixurd  
       2016-04-16 23:40:12 +08:00
    @xhowhy 目测 Elastic Search
    superxzr
        19
    superxzr  
       2016-04-17 01:27:49 +08:00
    @guoer 空路由啊,正常
    iwishing
        20
    iwishing  
       2016-04-17 01:34:16 +08:00
    Website is offline No cached version of this page is available.
    Error 522 Ray ID: 2948fe7cace20294 • 2016-04-16 16:25:52 UTC
    Connection timed out
    You
    Browser
    Working
    dingyaguang117
        21
    dingyaguang117  
       2016-04-17 02:24:46 +08:00 via iPhone
    lz 用的哪些分隔符分词?存储加索引多大空间?
    abcdabcd987
        22
    abcdabcd987  
       2016-04-17 09:15:35 +08:00   ❤️ 2


    当时我刚放出来查询站的时候还挺火的,感觉现在已经没啥人关注了,等 VPS 到期就下线,楼主继续。
    源码开放了: https://github.com/abcdabcd987/163password.download
    shulen
        23
    shulen  
       2016-04-17 10:01:33 +08:00
    404 ,
    powtop
        24
    powtop  
       2016-04-17 12:11:43 +08:00
    速度 挺快的求方法
    mobeiyibei
        25
    mobeiyibei  
       2016-04-17 12:48:29 +08:00
    靠,前面流量这么高,要是能维持住的话,放点广告就很不错了。
    guoer
        26
    guoer  
    OP
       2016-04-17 14:53:11 +08:00 via iPhone
    @powtop cloudflare
    RobertYang
        27
    RobertYang  
       2016-04-17 16:47:58 +08:00 via Android
    怪不得我一个没有用的 163 邮箱天天提示我尝试登录
    xu15
        28
    xu15  
       2016-04-17 17:44:34 +08:00
    这个 52g 应该是很杂乱的库吧?
    powtop
        29
    powtop  
       2016-04-17 18:51:01 +08:00
    @guoer 我是说 查询的 挺快的 是分表做的好么 可能开源? 3Q
    guoer
        30
    guoer  
    OP
       2016-04-17 19:05:14 +08:00 via iPhone
    @xu15 的确是。有去重
    guoer
        31
    guoer  
    OP
       2016-04-17 19:05:49 +08:00 via iPhone
    @powtop elastic search
    SCaffrey
        32
    SCaffrey  
       2016-04-17 21:11:52 +08:00
    @abcdabcd987 插楼问下……您就是 Quarter Geek 吗……树剖什么都是跟着您的博客学的……万分感谢
    abcdabcd987
        33
    abcdabcd987  
       2016-04-17 21:34:01 +08:00   ❤️ 1
    @SCaffrey 啊,那是我搞 OI 的时候写的博客。我有看过你的评论,但是因为太久没有接触,把以前这些东西都忘掉了。所以如果没有回复你的评论请见谅。
    kirisetsz
        34
    kirisetsz  
       2016-04-18 01:04:23 +08:00
    @abcdabcd987 还有加统计 23333 ,最后我想了想没合适的地方就放 GitHub 上了
    LEFT
        35
    LEFT  
       2016-04-18 06:25:18 +08:00 via iPhone
    这个 52G 跟上一个 52G 不一样,不包含我的一个邮箱
    abcdabcd987
        36
    abcdabcd987  
       2016-04-18 08:36:50 +08:00
    @kirisetsz 啊哈,我当时用 mega 下载太慢,于是就开了台 VPS 下,于是顺势就放在 VPS 上了。
    florije
        37
    florije  
       2016-04-18 09:09:09 +08:00
    是全的么?前面一个小伙伴的查到一个鄙人的不知道哪个网站的密码,但是你这个里面什么也没有……难道有诈?
    sengxian
        38
    sengxian  
       2016-04-18 13:13:44 +08:00
    @SCaffrey 嘿嘿嘿 BZOJ 好熟的 ID 。
    mxonline
        39
    mxonline  
       2016-04-18 13:56:57 +08:00
    有个 01 年注册的 163 邮箱一直很安全,哈哈哈
    SCaffrey
        40
    SCaffrey  
       2016-04-18 20:42:14 +08:00
    Patrick95
        41
    Patrick95  
       2016-04-18 22:21:13 +08:00
    之前在 163password.download 那个站里查到两条数据,在你的站里没查到,估计数据库的泄露时间不一样?
    kirisetsz
        42
    kirisetsz  
       2016-04-18 22:30:29 +08:00
    @abcdabcd987 +1 然后顺势就把代码丢 GitHub 上了……
    guoer
        43
    guoer  
    OP
       2016-04-18 23:12:37 +08:00
    @Patrick95 我的数据不太全。目前只导入了 4kw 条
    ing
    guoer
        44
    guoer  
    OP
       2016-04-18 23:13:23 +08:00
    @abcdabcd987 vps 没那么大空间 😢
    qfdk
        45
    qfdk  
       2016-04-19 01:15:33 +08:00 via iPhone
    @abcdabcd987 哈哈哈 🙏感谢一下 我按照您思路写了一下 还是挺好玩的 最后死在 导入数据库了 写了个 java 多线程倒入 后来又想换成 ssdb 哈哈哈
    abcdabcd987
        46
    abcdabcd987  
       2016-04-19 12:44:10 +08:00
    @qfdk 啊哈,我也是导入的时候特别慢,试了好多种写入方法都是慢。最后换了个 SSD 的 VPS 瞬间就变快了!
    wlh
        47
    wlh  
       2016-04-19 14:06:01 +08:00
    这个库全的吗?我查了手头的十几个网易邮箱,都没有
    Reficul
        48
    Reficul  
       2016-04-19 15:10:59 +08:00 via Android
    我也在玩这个,第一个压缩包大概就有 1 亿 5 千多条记录(未去重复)

    放到 Redis 内存满了被内核杀掉,目前正在导入 MongoDB

    数据格式好乱,分词拆开好麻烦。

    另 163password.download 的貌似也不全,部分记录没有明文密码,保存为四列,其中一列貌似是 md5 散列。这类格式在这个网站貌似查不到。

    搭车问一下, Golang 中 slice 是不会复制底层数组的,辣么如果把一个[]byte 转换成 string ,这个 slice 的内容会被复制么。
    qfdk
        49
    qfdk  
       2016-04-20 16:07:34 +08:00   ❤️ 1
    @abcdabcd987 感谢你的导入脚本,自己撸了个 GUI 界面的多线程导入,过两天整理好了开源一下。
    研究一下 126 的信箱导入 取前 10 个文本的话,导入速度大概 110 s 左右, MacBook 2015 SSD ,因为每次导入的时候要处理数据。思考如何可以更快的导入文本,希望各位同学咱研究一下,最近也在研究 Apache Solr :)
    loev139
        50
    loev139  
       2016-04-22 21:39:34 +08:00
    逗我呢,这速度怎么快,求算法
    guoer
        51
    guoer  
    OP
       2016-04-22 22:05:53 +08:00
    @loev139 elastic search
    jciba5n4y6u
        52
    jciba5n4y6u  
       2016-04-24 08:29:00 +08:00
    我还在导入 mysql ,是不是太 low 了?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1044 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 22:16 · PVG 06:16 · LAX 14:16 · JFK 17:16
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.