V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Sting
V2EX  ›  路由器

家用设备间歇性断网的奇怪问题

  •  1
     
  •   Sting · 2021-07-24 11:00:03 +08:00 · 2731 次点击
    这是一个创建于 978 天前的主题,其中的信息可能已经有所发展或是发生改变。
    家用设备,不管是手机、iPad 、电视,有时会突然无网络,发生类似情况时(只有)断开一下 wifi 马上连回去就可以恢复。最容易复现这个情况就是下载 apple music 歌单中的音乐。

    环境:
    在运营商给的猫+路由后又加了一套 mesh wifi,这样虽形成了双重 NAT,但用着也没什么大问题,想着这可能是导致断网问题的主要原因,就开始研究怎么绕过运营商的路由。虽然运营商的设备无法改成桥接模式,但却找到了一个高级 DMZ 的功能,根据提示打开这个功能可以让设备得到猫的公网 IP 。实际使用中,自己的路由器确实可以得到和猫一样的公网 IP,看上去就和桥接差不多,这样应该也没有双重 NAT 了。但设备断网还是偶尔发生,现在我实在想不到是什么导致这个问题的了,mesh wifi 就用一个主路由也试过,还是一样问题。家中只有无线网络,有线的情况下也无法测试。
    19 条回复    2021-07-25 23:38:53 +08:00
    toaruScar
        1
    toaruScar  
       2021-07-24 11:16:27 +08:00 via iPhone
    路由器有日志输出吗?
    wanguorui123
        2
    wanguorui123  
       2021-07-24 11:32:10 +08:00
    过热了?
    Sting
        3
    Sting  
    OP
       2021-07-24 12:04:31 +08:00 via iPhone
    @toaruScar 试过,但并看不出什么。
    @wanguorui123,应该不是,因为当一个设备发生这样情况的时候,其他设备都是正常的。开始我想是可能因为多并发下载会这样,但连在运营商路由上下载 apple music 因为却并不会断。
    dLvsYgJ8fiP8TGYU
        4
    dLvsYgJ8fiP8TGYU  
       2021-07-24 12:15:34 +08:00
    DHCP 服务器是哪台设备?
    无线网络有几个接入点?是否可能是设备在不同接入点漫游期间出的问题?

    考虑写个脚本定时 ping 随便一个网站 /IP 检查连通性,摸清楚问题发生的规律:多久会出现一次,出现问题的时候有没有什么操作(例如大流量下载 /设备移动位置触发漫游)
    是单一设备无法上网还是家里所有设备集体断网?
    只是无法访问特定服务(比如 Apple music )还是所有公网服务均不可用?
    在公网不可用的状态下是否可以访问局域网内设备(比如路由器管理页面)?
    czb
        5
    czb  
       2021-07-24 13:31:47 +08:00 via Android
    可能出现在 Mesh 上 Mesh 是在 5G 频率吗?还是在非标频率?有可能断流是因为频段拥挤产生的切换行为
    Cipool
        6
    Cipool  
       2021-07-24 14:06:31 +08:00 via Android
    遇到过类似的问题,最后排查是 DHCP 服务器冲突了
    maryshaw
        7
    maryshaw  
       2021-07-24 14:39:57 +08:00 via Android
    我也被这个问题困扰。。
    Sting
        8
    Sting  
    OP
       2021-07-24 19:46:38 +08:00 via iPad
    @dLvsYgJ8fiP8TGYU 目前 dhcp 服务器就是 mesh 的主节点,接入点一共有三个,发生问题时并没有移动。另外单独用主节点我也试过,偶尔还是这样
    是单一设备断网,但并没失去连接,只要断一下 wifi 就会立即恢复。
    并不是不能访问特点应用,断网时所有服务都没了,并不会自动恢复,只能断一下。下载因为时故障比较容易复现,但也不是肯定发生。
    访问局域网确实没有试过,下次试试看



    @czb mesh 网络合并了 2.4 和 5G,测试速度时可以看到应该都是连在 5G 上的。感觉断网时并没有“切换”行为,我不知道的情况下网络就会断一天,直到手动断开下。



    @Cipool 最后怎么解决的? 我现在 mesh 主节点已经是公网 ip 了,冲突应该只发生在双 nat 上吧?


    谢谢大家
    Chihaya0824
        9
    Chihaya0824  
       2021-07-25 00:23:53 +08:00
    我一直也遇到了这个问题,是因为 mesh,最近解决了,解法是换网线,但是我的断网原因可能非典型。

    1.我注意到了路由器日志说了类似这样的报错
    `kern.warn kernel: [178574.680996] br-lan: received packet on eth0 with own address as source address (addr:dc:a6:32:f2:38:1f, vlan:0)
    `

    2.我开始检查 dhcp 租约时间和断网的时间去比对那个设备了网络影响了网络的使用,并且成功隔离出了一个一链接就开始让网络出问题的设备(只要这个设备一出现整个网络可能就会卡半秒到一秒),但是奈何设备实在是太多无法确定到底是哪个设备。所以我选择了防火墙直接丢弃哪个设备的所有链接,然后哪个设备就再也没造成过让网络里别的设备不可用的情况,但偶尔 wifi 不可用但过一会可用的原因还是没有找到

    3.我开始继续用 dhcp 祖约时间确定设备,结果最后发现在一个交换机下面的所有设备会出现集体断链和 [1] 的错误,然后经过简单排查发现:

    有某个交换机,并且哪个交换机连接了一个 mesh 的 wifi ap 。该交换机和上级交换机的网线偶尔会出现不稳定然后重新协商速率的情况(不跑 5G 的速度降到 1G 甚至更低),然后发现了问题:Mesh 的 ap 检测到断网了以后,会和上级 ap 自动重新组网,然后交换机就走 mesh 的无线回程了而不是网线,切换无线回程我猜测 ap 改变了部分天线的使用方式,导致 wifi 要断那么一小会。 这个功能在网线出问题的时候也可以保持哪个交换机的功能,这很好,但是问题在于交换机和上层交换机的链接一般会在那么 1 秒-2 秒后恢复,导致 AP 刚刚切换成无线回程又要切换会普通的 AP 模式,这就导致了一个可感知到断网区间,让体验大幅度下降( wifi 不可用一分钟)。

    知道问题了以后就先尝试隔离网线问题,换了条网线,结果发现一切回归正常。
    Chihaya0824
        10
    Chihaya0824  
       2021-07-25 00:24:56 +08:00
    @Chihaya0824 “祖约” 是租约,打错
    eijnix
        11
    eijnix  
       2021-07-25 00:30:32 +08:00
    是华为的么?我女朋友家里的华为 mesh 就这样
    Sting
        12
    Sting  
    OP
       2021-07-25 00:40:00 +08:00 via iPhone
    @Chihaya0824 我目前没有用网线,唯一的一条就是用来连接 isp 设备的,我也尝试更换了,但好像并不是网线的问题。而且我用单路由也有类似问题发生。


    @eijnix 不是华为的。
    Chihaya0824
        13
    Chihaya0824  
       2021-07-25 00:47:40 +08:00
    @Sting 你可以试试用我上面的方法通过对比 dhcp 剩余时间和系统日志来反推这个问题发生的时候什么设备断网了,或者什么设备没断去隔离一下问题。同时我再找这个问题的解法的时候也看到了有人说部分博通的芯片经过(网线电口)雷击或者高压的情况会损坏,然后出现同样的情况,所以最好也换个路由器或者 ap 看看会不会复现
    toaruScar
        14
    toaruScar  
       2021-07-25 01:01:55 +08:00
    @Sting 如果只看一次是看不出什么名堂。
    可以考虑把路由器的日志输出到专门存储日志的服务器上(比如一个跑 rsyslog 的主机),然后你这边每次断网的时候记录一下时间,断了两三次之后,去找日志,让后对比一下断网时有没有什么类似的信息反复出现。
    dLvsYgJ8fiP8TGYU
        15
    dLvsYgJ8fiP8TGYU  
       2021-07-25 03:01:53 +08:00
    @Sting 出现中断的时候,你的设备处在房子的哪个位置?十分靠近某一个接入点 AP,还是在几个 AP 的中间位置?

    AP 一般利用 RSSI (信号强度)作为触发漫游的条件(有些还会用速率百分比。你的 mesh 具体用哪种判断依据,需要看日志或管理界面),假如漫游算法优化不够好,或由于某种客观原因一直在漫游阈值的边缘反复横跳,可能出现断流。

    建议用 Wi-Fi 分析软件监测你的设备到各个 AP 间的 RSSI 数值,看是不是这个问题
    Sting
        16
    Sting  
    OP
       2021-07-25 04:43:29 +08:00
    @Chihaya0824 @toaruScar 好的我测试下看看。 谢谢


    @dLvsYgJ8fiP8TGYU 几乎出现在任何位置。 我来看看你提到的分析软件。谢谢
    czb
        17
    czb  
       2021-07-25 10:16:32 +08:00 via Android
    @Sting Mesh 节点之间也没有出现切换?
    danielzhang0212
        18
    danielzhang0212  
       2021-07-25 22:08:00 +08:00 via iPhone
    试试 smokeping
    Sting
        19
    Sting  
    OP
       2021-07-25 23:38:53 +08:00 via iPhone
    @czb 可能没有? 因为设备比如电视机,都没移动过,长时间在一个地方放着也会间歇性断一下
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1001 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 19:48 · PVG 03:48 · LAX 12:48 · JFK 15:48
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.