V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Distributions
Ubuntu
Fedora
CentOS
中文资源站
网易开源镜像站
LxnChan
V2EX  ›  Linux

两份一模一样的文件,在两台一样的服务器上被压缩,压缩后的文件校验值会一样吗

  •  
  •   LxnChan · 74 天前 · 5489 次点击
    这是一个创建于 74 天前的主题,其中的信息可能已经有所发展或是发生改变。

    如题 假设有两台一模一样的服务器,但是不在一个省,采用同样的参数不同时间压缩一份一模一样的文件,出来的压缩文件校验值会一样吗

    26 条回复    2021-09-28 10:16:05 +08:00
    oksbsb
        1
    oksbsb  
       74 天前
    不一定,即时是同一个机器也不一定。还要看是什么压缩算法
    muzuiget
        2
    muzuiget  
       74 天前   ❤️ 1
    问题你是在于你如何保证和定义“参数一模一样”。
    libook
        3
    libook  
       74 天前   ❤️ 2
    如果真的是完全一致的文件元信息、完全一致的文件内容、完全一致的压缩算法和参数,压出来的文件的校验值理论上应该是一样的。
    但实际有很多变数,比如你在把文件从一台服务器上复制到另一台服务器是否确保文件的修改时间一致,哪怕内容一样,修改时间不同也会导致校验值不同。
    感觉像个 X-Y 问题,可以说一下这个需求的背景,看是不是需要调整探索的方向。
    shoco
        4
    shoco  
       74 天前
    看用什么类型的压缩软件,一般压缩软件会把压缩时间作为参数放入到压缩文件里面, 那么一样的可能性为 0
    chengyiqun
        5
    chengyiqun  
       74 天前
    很多时候, 会, rar5 加恢复记录后, 不会.
    life4me
        6
    life4me  
       74 天前
    函数一样,参数一样,结果一样
    momocraft
        7
    momocraft  
       74 天前
    有 timestamp 的文件格式一定不一样 不要假定一样
    WordTian
        8
    WordTian  
       74 天前
    有 timestamp 的,大概率会不一样
    LGA1150
        9
    LGA1150  
       74 天前
    参考一下 OpenWrt 的打包命令 https://github.com/openwrt/openwrt/blob/master/include/download.mk

    tar --numeric-owner --owner=0 --group=0 --mode=a-s --sort=name --mtime="$TAR_TIMESTAMP" ...
    HankLu
        10
    HankLu  
       74 天前
    为什么会有这种问题?
    GrayXu
        11
    GrayXu  
       74 天前
    @libook 话说 md5 之类的只是校验文件内容吧?
    msg7086
        12
    msg7086  
       74 天前 via Android
    可以一样,只要把其中的不确定因素排除就行。典型的因素包括时间。不含时间信息的压缩可以做到一致。(这算是 reproducible 可重复制作性。)
    ch2
        13
    ch2  
       74 天前
    压缩包里会额外加元数据的那种肯定不一样
    sadfQED2
        14
    sadfQED2  
       74 天前 via Android   ❤️ 1
    你先在同一台机器上压缩同一个文件两次,看看是不是一样的
    TomChaai
        15
    TomChaai  
       74 天前
    你首先要定义什么叫“一模一样”的文件。时间是否包含在“一模一样”的范围内。
    文件系统、数据结构的实现不同,可能会导致不一样的结果,比如文件元数据被当成文件的一部分这种事,是否包括在你的题设内。
    liuidetmks
        16
    liuidetmks  
       74 天前 via iPhone
    这是一个 xy 问题,请说出你当前真实需求
    wangkun025
        17
    wangkun025  
       74 天前
    我试过。同一台机器上对同一个文件进行 gzip,md5 不一样。
    smdbh
        18
    smdbh  
       74 天前
    文件时间这些,是存在文件里的吗??
    Trim21
        19
    Trim21  
       73 天前
    以 zip 为例,zip 文件里有每个被压缩文件的修改时间。把这一项写 0 也不影响解压。
    rrfeng
        20
    rrfeng  
       73 天前 via Android
    时间什么的都是参数,其实关键是压缩算法。

    我可以写个随机压缩算法,只要能解压你管我每次压缩成什么样子呢。
    jim9606
        21
    jim9606  
       73 天前
    归档工具(tar,zip,7z)由于包含文件元数据,通常都不行。
    gzip 要加 -n 才是 reproducible 。
    ( https://unix.stackexchange.com/questions/531494/can-files-compressed-with-bzip2-be-relied-upon-to-be-deterministic-reproducible )
    swulling
        22
    swulling  
       73 天前 via iPhone
    把 mtime 统一一下,那就是一样的。
    2i2Re2PLMaDnghL
        23
    2i2Re2PLMaDnghL  
       73 天前   ❤️ 1
    首先你得保证压缩算法稳定。
    压缩可以用一些随机化算法避免特定形态的数据构成最差复杂度,通过少量的抖动来进一步压缩。

    @smdbh 是存在归档里的
    归档文件内部有一个形似文件系统的结构,比如 tar zip 7z rar (除了 tar 不能压缩以外,其他均是可压缩可不压缩),它可能会同时保存文件的 mtime
    非归档类压缩永远只能单文件,比如 gzip cab
    归档非压缩和压缩非归档可以组合成压缩归档,比如 tar.gz ( tgz )
    libook
        24
    libook  
       73 天前   ❤️ 1
    @GrayXu #11 没错,但是你把文件压缩了之后,md5 校验的是压缩包的内容,而压缩包的内容是包括内部文件列表和元信息的。
    GrayXu
        25
    GrayXu  
       72 天前
    @libook 看了 23L,get 到了
    zhangyufei49
        26
    zhangyufei49  
       72 天前
    指定压缩算法,算法版本,时间戳,得到的就是一样的结果。
    当然并不是所有的压缩格式都存储时间戳。
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2570 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 14:16 · PVG 22:16 · LAX 06:16 · JFK 09:16
    ♥ Do have faith in what you're doing.