V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Distributions
Ubuntu
Fedora
CentOS
中文资源站
网易开源镜像站
cwbsw
V2EX  ›  Linux

自组 Linux Server 奇怪问题,请大家帮忙诊断

  •  
  •   cwbsw · 40 天前 · 2135 次点击
    这是一个创建于 40 天前的主题,其中的信息可能已经有所发展或是发生改变。

    用淘汰下来的配件装了一台机器,系统是 Debian 13 ,配置了文件下载、共享等等服务,一直以来运行都挺好的。 前段时间想着增加硬盘扩下容,向新硬盘用 rsync 传输了大概 3T 的数据,都是 PT 保种用的,PT 软件用的是 Transmission ,虽然迁移数据不要求重新校验,但保险起见还是都校验了,结果发现有十几个种子校验不通过,手动复制后重新校验均通过,可见源硬盘上的数据是完整的。

    于是第一个问题:文件传输出错是源硬盘读取错误、新硬盘写入错误、内存错误、软件错误还是其它原因?如何排查?

    接下来就比较奇怪了。因为怀疑内存出错,于是就进 BIOS 取消了 XMP ,然后 U 盘引导跑 memtest86 ,跑了一个多小时没有发现错误,重启后继续用 Transmission 校验,然后过了一段时间后居然就死机了,SSH 断开,网络也 ping 不通,显示器画面冻住无法切换控制台,只能强制关机,应该是内核崩了。此故障可以稳定复现,开机后待机一晚上也没事,编译软件 ffmpeg 转码也正常,但是只要 Transmission 校验,一段时间之后必然死机,死机时正在校验的种子没有发现有规律。试过 BIOS 恢复默认、重装系统,无法修复。这个故障我真的很蒙圈,感觉无处下手,还请大家帮忙诊断。

    第 1 条附言  ·  38 天前
    kernel panic 时的输出:
    22 条回复    2022-05-25 17:22:38 +08:00
    233373
        1
    233373  
       40 天前
    Debian 有 13 了吗?不是 11 吗
    cwbsw
        2
    cwbsw  
    OP
       40 天前
    @233373 哈哈,笔误。
    cathiabi
        3
    cathiabi  
       40 天前
    找一下系统日志,看看死机前发生了什么。校验的话,不知道文件传输是否跨了操作系统 /文件系统。
    min
        4
    min  
       40 天前
    换全部内存,或者拔条子排除
    cev2
        5
    cev2  
       40 天前
    建议先排除硬件再排除软件,如果是我我会选择 AIDA64 单烤 FPU ,同时观察 12V 供电(是否过 /欠压)和散热是否有问题。
    powergx
        6
    powergx  
       40 天前
    用 ecc 内存看看
    chenxytw
        7
    chenxytw  
       40 天前
    我上次遇到类似的奇怪的问题(特定用户跑特定的程序必现死机...)是 CPU 坏了...
    cwbsw
        8
    cwbsw  
    OP
       40 天前
    @cathiabi 日志没记录到有价值的东西。是本机传输,每个硬盘是单独的文件系统。

    @min
    @cev2 所以说还是 CPU/内存的嫌疑比较大么。
    cwbsw
        9
    cwbsw  
    OP
       40 天前
    @powergx 意思传输错误是内存出错的锅吗?但就算是非 ECC ,复制个几 T 文件就坏十几个,这概率有点高啊。

    @chenxytw 希望能通过 BIOS 设置抢救一下……毕竟高负载下还是正常的。
    gengchun
        10
    gengchun  
       40 天前
    试一下 magic sysreq 看看。最好看一下 top ,首先要排除 transmission 进程的问题,最好看看能不能升级一下,或者启动不要校验。
    documentzhangx66
        11
    documentzhangx66  
       40 天前
    1.memtest86 ,跑了一个多小时没有发现错误????

    memtest86 不是这样用的。memtest86 ,以 pass 作为一次轮回。一次 pass 表示跑完一轮所有的内存位置。新买的内存,至少要跑一次 pass 来检查是否有坏块。洋垃圾二手内存一般至少跑 2 - 3 个 pass 。

    2.服务器是否为 ECC 或 RECC 内存?

    3.磁盘用 HD Tune Pro 跑过全盘检查没?
    Cooky
        12
    Cooky  
       40 天前
    用 md5sum sha1sum 之类的持续校验几个大文件试试?
    seers
        13
    seers  
       40 天前 via Android
    内存问题概率大
    kuichieh
        14
    kuichieh  
       39 天前 via Android
    是不是早期的 Ryzen 平台?
    wsseo
        15
    wsseo  
       39 天前
    插了几根内存?一根根拔下来,直到正常。
    flynaj
        16
    flynaj  
       39 天前 via Android
    内存问题,我的 Windows 10 差不多一个星期蓝屏一次,memtest86-pro 跑下来没有故障。换了内存才好。软件测试内存不靠谱,除非是明显故障。
    cwbsw
        17
    cwbsw  
    OP
       38 天前
    @documentzhangx66
    第一次跑了 2.5pass ,昨天又跑了 4pass ,没有出错。
    非 ECC 。
    现在机械盘全拔了只留下 SSD ,换 qBittorrent 开始下载,结果还没下完又崩了。
    cwbsw
        18
    cwbsw  
    OP
       38 天前
    @Cooky 现在不用校验了,在 BT 下载途中就崩了。
    documentzhangx66
        19
    documentzhangx66  
       38 天前
    跑个烤机试试,分设备跑。

    比如烤内存、烤 CPU 、烤硬盘、烤网卡、烤显卡试试,总有一个部件烤着烤着就死机。
    yanqiyu
        20
    yanqiyu  
       38 天前
    先打开 kdump 看看更完整的崩溃的 dmesg ?不过考虑到 kernel panic 可能性也就硬件故障和驱动 bug 两种可能性了
    yanqiyu
        21
    yanqiyu  
       38 天前
    我之前遇到过类似的问题,下载 IO 高负债就会崩溃,一开始也怀疑是内存问题,但是因为内存是 ECC 内存&kdump 没看到 EDAC 报错,并且错误是在 iommu 的驱动上的 BUG(),更新了几个内核版本之后就消失了
    ToBeHacker
        22
    ToBeHacker  
       36 天前
    可能是内存问题,这个不好查。之前我 Windows 老 kernel panic ,把内存条拔下来换下位置好了。服务器还是用用 recc 的内存条更稳当些。
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1880 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 105ms · UTC 16:46 · PVG 00:46 · LAX 09:46 · JFK 12:46
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.