V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
gap
V2EX  ›  分享发现

archive.org 惊到了

  •  1
     
  •   gap · 2023-08-18 09:26:18 +08:00 · 7787 次点击
    这是一个创建于 465 天前的主题,其中的信息可能已经有所发展或是发生改变。

    刚才在阮一峰的周报中看到一句话「每个人都应该有一个网站。它会被安全地保存在 archive.org 中,供你的后代研究和思考。网站的可持久性,比社交媒体好得多,也比人们以为的更长久。」

    其实我都没有怎么用过 archive.org ,刚才跑去将自己几年前做的一个小网站地址输入了进入,该网站早已停了,居然被收录了! archive.org 难道是真的爬全网并收录?!

    49 条回复    2024-08-02 00:29:39 +08:00
    InDom
        1
    InDom  
       2023-08-18 09:30:37 +08:00
    一样,找到了我曾经十几年前的旧博客,回忆满满啊。
    titanium98118
        2
    titanium98118  
       2023-08-18 09:33:04 +08:00
    能收录到的肯定只是一少部分网站,你可以手动让它去收录。
    至于它的收录规则是怎样,没去了解过。
    Tink
        3
    Tink  
       2023-08-18 09:33:19 +08:00 via Android
    不然嘞
    cairnechen
        4
    cairnechen  
       2023-08-18 09:33:59 +08:00
    确实能找到很多历史存照,但用多了你就知道有很多是没有收录进去的
    vueli
        5
    vueli  
       2023-08-18 09:41:30 +08:00   ❤️ 4
    我刚刚去看了一下自己的网站,tmd 被腾讯拦截了,要我去备案
    coolair
        6
    coolair  
       2023-08-18 09:49:05 +08:00
    并没有爬全网,我原来自己做过的个人站没有一个被收录的。
    goldenalex
        7
    goldenalex  
       2023-08-18 09:49:25 +08:00
    早年的互联网上数据很小的,全网爬一下没啥。。。

    爆发应该是 iphone 出来之后的事情了。。。

    而且 archive.org 是爬文本为主的,多数的图片都没了。。。
    estk
        8
    estk  
       2023-08-18 09:53:24 +08:00   ❤️ 7
    之前滴滴被下架,官网也没 apk 可以下载,去第三方下 apk 不放心,于是去 archive ,它竟然连 apk 文件都缓存,直接下载了。。
    GoTop
        9
    GoTop  
       2023-08-18 09:55:57 +08:00
    @estk 它真的,我哭死
    28Sv0ngQfIE7Yloe
        10
    28Sv0ngQfIE7Yloe  
       2023-08-18 09:57:29 +08:00   ❤️ 1
    当时闲鱼买了个洋垃圾音响,官网都挂了,结果在 archive 里找到了缓存,下载到了最后一版固件,正好把我的问题给修复了
    davin
        11
    davin  
       2023-08-18 10:04:34 +08:00
    很想找到当年谷歌还没退出大陆时候的首页快照截图,翻了很久也没找到。记得当年搜索框底下,有几个会动的图标是用纯 CSS 写的,鼠标经过时,精灵图变换坐标位置,在当年看起来还是挺时尚的。有没有大佬能找到当年这个快照截图呀😅
    zhangshine
        12
    zhangshine  
       2023-08-18 10:08:52 +08:00
    一部分,现在 aigc 的原因连 google 都爬不过来了,更别提 archive 了
    tony1016
        13
    tony1016  
       2023-08-18 10:10:25 +08:00   ❤️ 1
    初次认识这个网站,是因为 tiny 11
    kassol
        14
    kassol  
       2023-08-18 10:54:34 +08:00
    刚进去找到自己十二年前的 blog ,虽然当时的 WordPress 正文页没有 archive ,但是看列表也都满满都是回忆了🤣,倒是后来的 Hexo 有 archive 到全部的页面
    maemolee
        15
    maemolee  
       2023-08-18 10:57:01 +08:00
    我看了一下,我的博客也能搜得到,厉害了
    Biggoldfish
        16
    Biggoldfish  
       2023-08-18 10:57:55 +08:00 via Android
    Google 就是爬全网收录、定期更新、rank 然后提供检索
    gpt5
        17
    gpt5  
       2023-08-18 11:00:44 +08:00
    导出不是很友好,我记得必须用他们自己的那个 cms 。
    给个导出为静态页面的选项多方便啊!!
    Maboroshii
        18
    Maboroshii  
       2023-08-18 11:21:54 +08:00 via Android
    有的不行。比如阿里云盘当时说永不限速,结果用 archieve 看,是看不到当时的网站内容的
    1423
        19
    1423  
       2023-08-18 11:37:41 +08:00   ❤️ 1
    不止呢,再重新惊一次
    搜一下 mkv BDMV. 好多影视资料也在,几百 G 的圆盘也有
    stillyu
        20
    stillyu  
       2023-08-18 13:12:39 +08:00
    我有一个网页,是记录前女友从出生到现在的时间
    实现逻辑就是前端获取当前的时间戳 - 出生时间戳
    archive.org 上不同日期的缓存,算出来的竟然都是当时的结果
    bclerdx
        21
    bclerdx  
       2023-08-18 13:18:58 +08:00 via Android
    @zhangshine 被所谓的互联网不是法外之地所蒙蔽了。
    zjj19950716
        22
    zjj19950716  
       2023-08-18 14:25:04 +08:00
    看了下不同时间点的 hao123,4399 ,回忆涌上心头
    chesha1
        23
    chesha1  
       2023-08-18 14:26:27 +08:00
    知乎不允许这个网站爬,只有 archive.today 才能爬的了知乎,archive.today 这个网站虽然规模不如 archive.org 大,但也有不少 archive.org 覆盖不到的资源
    BeforeTooLate
        24
    BeforeTooLate  
       2023-08-18 15:06:52 +08:00
    为啥网站我打得开但是是一篇空白
    Charbo
        25
    Charbo  
       2023-08-18 15:12:12 +08:00   ❤️ 1
    @BeforeTooLate 带上 https 就行
    kaychen
        26
    kaychen  
       2023-08-18 15:47:24 +08:00
    太酷啦.....回忆满满
    devswork
        27
    devswork  
       2023-08-18 15:53:32 +08:00   ❤️ 1
    问一个不该问的问题,pornhub 上的视频也被收录吗...........几年前 PH 因为修改政策,部分视频被删除了
    SunsetShimmer
        28
    SunsetShimmer  
       2023-08-18 16:04:19 +08:00
    @stillyu #20 因为它不是保存 DOM (?),而是所有的网页资源(图片 css js 任何常规浏览器会请求的东西)。只保存当时页面内容的是 https://archive.ph/
    tgich
        29
    tgich  
       2023-08-18 16:13:15 +08:00
    之前在 blog.com 写博客,关闭后就是在这个网站找到的快照
    id80108900
        30
    id80108900  
       2023-08-18 17:00:18 +08:00
    确实。
    帮我保存了很多黑历史,但时间拉长,确实都属于宝贵的回忆。
    craiiz
        31
    craiiz  
       2023-08-18 18:00:15 +08:00
    我的博客被保存了好多,没有主动提交过。
    pheyer
        32
    pheyer  
       2023-08-18 18:16:57 +08:00
    十多年前的博客名字都忘记了,只记得博客大巴上的,这怎么找
    miaomiao888
        33
    miaomiao888  
       2023-08-18 19:39:33 +08:00
    之前有個開源項目的作者把項目名改了,舊版本的源碼也刪了,新版本越來越不好用,又不好意思麻煩作者,上 archive.org 一搜還真有,甚至連 zip 的源碼壓縮包都有備份。
    但其實也是幸運,有時搜一些小網站也是沒結果,可能對主流網站比較友好。
    這種項目和維基一樣偉大,越來越沒有記憶的互聯網很需要它。
    BwNVlwSq
        34
    BwNVlwSq  
       2023-08-18 20:35:38 +08:00 via iPhone
    很棒的网站,很多删掉的页面都有保存上
    atrexl
        35
    atrexl  
       2023-08-18 20:50:38 +08:00 via Android
    这网站十几年前就有了啊
    JensenQian
        36
    JensenQian  
       2023-08-18 21:17:08 +08:00 via Android
    我博客用的域名查到以前是大姐姐站
    JensenQian
        37
    JensenQian  
       2023-08-18 21:18:00 +08:00 via Android
    @JensenQian 我扫了个没人注册的三杂 cc ,往前翻了下是大姐姐站
    NnMmOo
        38
    NnMmOo  
       2023-08-18 22:09:20 +08:00   ❤️ 2
    archive.org 只要一直做下去,会成为信息时代之后人类最宝贵的文化遗产,没有之一
    laogui
        39
    laogui  
       2023-08-18 22:16:30 +08:00 via Android   ❤️ 1
    很多年没去这网站了,看到我 20 多年前做的网页,快哭了。https://web.archive.org/web/20021128122856/http://sie.y365.com/
    shakoon
        40
    shakoon  
       2023-08-18 22:32:28 +08:00
    二十年前我在自己 pc 上做的几个静态网页也收录得有,是当年我自己架的资源下载 ftp 的目录。可能因为我曾经在百度贴吧发帖宣传过才被收录的。
    zjp
        41
    zjp  
       2023-08-18 22:41:25 +08:00
    去看了自己博客域名的上一任,还有 05 年的 v2ex.com
    zjp
        42
    zjp  
       2023-08-18 22:47:40 +08:00
    想起来今年给 archive.org 捐了 20$。存储 832 billion 个网页真的是一个恐怖的数字
    bao3
        43
    bao3  
       2023-08-18 22:53:30 +08:00
    冷知识:很多软件、游戏机 ROM 你都可以点它来保存,不犯法。以后可以在任意时间找出来下载。找游戏 ROM 和软件的不二选择
    Equiliu
        44
    Equiliu  
       2023-08-18 23:00:55 +08:00
    查了 13 年前做的独立博客,没有数据。域名过期也有十年了
    FragmentLs
        45
    FragmentLs  
       2023-08-18 23:02:04 +08:00
    @NnMmOo 然而他们常年被版权商告
    lianyue
        46
    lianyue  
       2023-08-18 23:28:32 +08:00
    2011 的独立博客 在上面找到了
    beyondex
        47
    beyondex  
       2023-08-19 11:14:21 +08:00
    很多年以前我做的网页被收录了,不过漏掉的不少。
    xiaomoxian
        48
    xiaomoxian  
       2023-08-21 02:06:51 +08:00 via Android
    嗯,找到了我之前的果照,回忆满满。
    xavierskip
        49
    xavierskip  
       115 天前
    https://archive.ph/ 为啥挂了?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5644 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 35ms · UTC 08:12 · PVG 16:12 · LAX 00:12 · JFK 03:12
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.