V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
工单节点使用指南
• 请用平和的语言准确描述你所遇到的问题
• 厂商的技术支持和你一样也是有喜怒哀乐的普通人类,尊重是相互的
• 如果是关于 V2EX 本身的问题反馈,请使用 反馈 节点
xiaoshouchen
V2EX  ›  全球工单系统

离谱!阿里云新加坡 ECS 崩溃了两天了,还没恢复!

  •  
  •   xiaoshouchen · 70 天前 · 6590 次点击
    这是一个创建于 70 天前的主题,其中的信息可能已经有所发展或是发生改变。
    状态显示 Instance Status Stopped
    节点区域 Singapore Zone C

    服务器出了问题可以理解,但是作为一个成熟的云服务商,居然可以超过两天都没有恢复,是不是太离谱了。而且没有任何的消息通知和道歉。
    56 条回复    2024-09-13 12:56:58 +08:00
    ntedshen
        1
    ntedshen  
       70 天前
    您的数据可能正在清洗(物理)
    请稍后再试(狗头
    https://v2ex.com/t/1071606#reply83
    tommyzhang
        2
    tommyzhang  
       70 天前   ❤️ 1
    我们都已经第一时间把服务迁到另外 2 个机房了 你没签吗?
    主要是大火把一些基建烧没了 网络需要重新弄 设备都要检修
    qoo2019
        3
    qoo2019  
       70 天前   ❤️ 1
    说明服务也没那么重要
    Jinnrry
        4
    Jinnrry  
       70 天前 via iPhone   ❤️ 16
    什么三地两中心,秒级扩容迁移,x 个 9 可用率,全都是扯淡啊
    luojianxhlxt
        5
    luojianxhlxt  
       70 天前
    @tommyzhang #2
    大佬,小弟请教下这个云服务器机房故障不是应该自动迁移吗?还需要用户自己去迁移吗?那什么容灾之类的就是这么设计的吗?
    qweruiop
        6
    qweruiop  
       70 天前
    上次 hk 出事,aliyun 也没赔钱。。。之后,就吸取教训了,现在宁肯用 aws ,也不会用 aliyun 了。。。
    vjnjc
        7
    vjnjc  
       70 天前   ❤️ 2
    @Jinnrry 出事前高可用,出事后不可用。 服务售价还是高可用 23333
    vjnjc
        8
    vjnjc  
       70 天前
    幸好我们海外在 hk ,
    不够之前已经被坑过一次了 0 0
    processzzp
        9
    processzzp  
       70 天前
    @Jinnrry 出事之前:5 个 9 可用率
    出事之后:9 个 5 可用率
    xmumiffy
        10
    xmumiffy  
       70 天前 via Android   ❤️ 1
    @luojianxhlxt 数据都在火里“上云”了吧,得自己用镜像迁。
    单可用区的 ecs 硬盘可没说放在多可用区,数据就算还在也得等可用区恢复。
    la2la
        11
    la2la  
       70 天前
    @luojianxhlxt 自动迁移那是另外的价钱,大客服云服务商会有人驻场 24 小时值班的
    8n1AfdFQWA5CWTNQ
        12
    8n1AfdFQWA5CWTNQ  
       70 天前
    @Jinnrry 那你自己要做这些方案的,不是云厂商帮你做.
    比如说你自己把数据放在三个地方
    tommyzhang
        13
    tommyzhang  
       70 天前
    @luojianxhlxt 我不是 aliyun 的哈 也不是大佬 你说的这个迁移理论上是 aliyun 要做的吧 但是实际下来业务遇到问题我们想的都是先赶紧跑掉
    Jinnrry
        14
    Jinnrry  
       70 天前 via iPhone
    @iammecn 我如果要自己做,那我还要毛云服务啊?两地三中心,异地多活,x 个 9 ,秒级迁移,业务无需关注灾备和迁移,这些话都是阿里云自己说的啊
    Jerry23333
        15
    Jerry23333  
       70 天前
    @luojianxhlxt #5 看你买什么级别的服务呀。贴一下我在另一个帖子下的回复:
    云服务也分单可用区部署和多可用区。以数据库为例,购买分了基础版和高可用版,高可用版又分了单可用区部署和多可用区部署。如果你买的是高可用版本,且是多可用区的,一旦出现主实例不可用,是自动会切换的。进度里也提到了“ [进展更新] 截至 11:30 按照产品调度策略,云数据库 Redis/MongoDB/RDS MySQL 、对象存储 OSS 、表格存储 OTS 等云产品的**高可用版本**已陆续完成容灾切换。”。但如果你买的基础版,服务器出问题了那谁也没办法,自己部署也是一样的。
    花多少钱,干多少事。
    nicoljiang
        16
    nicoljiang  
       70 天前
    @luojianxhlxt iaas 不会做这个,paas 或 saas 会做。
    lilyou
        17
    lilyou  
       70 天前
    两天了还没弄好,组里同事熬了俩通宵,太坑了
    Jerry23333
        18
    Jerry23333  
       70 天前
    @Jinnrry #4 得看你买的版本呀大哥,基础版的不带这些,高可用版肯定会切的。花多少钱,干多少事。
    exiaohao
        19
    exiaohao  
       70 天前
    因为 UPS 换了锂电池,锂电烧起来 灭火都灭不下来…

    另外就是因为一个成熟的服务商 搞太多的骚操作想降本增笑,好了现在火都灭不掉了
    其实最崩溃的是 Digital Reality ,楼都被烧废了,新加坡一栋楼啊

    楼主还是要学一下字节,阿里云被烧了就光速转移到马来,需要狡兔三窟
    sphawkcn
        20
    sphawkcn  
       70 天前
    自动灭火装置难道是摆设?
    superrichman
        21
    superrichman  
       70 天前
    您好,您的服务器已经(烧)上云了
    phithon
        22
    phithon  
       70 天前
    早说了云实际上就是 vps 换了个名字,其实没啥区别。
    wqhui
        23
    wqhui  
       70 天前
    物理层面出事了就不是几天能恢复的,该迁移迁移
    willli
        24
    willli  
       70 天前
    总结一下,那些吹的服务都是要加钱的,没有买那些服务,就跟你的个人电脑一样,坏了就坏了
    proxytoworld
        25
    proxytoworld  
       70 天前   ❤️ 1
    火烧云哈哈哈
    ssgooglg
        26
    ssgooglg  
       70 天前   ❤️ 1
    @Jinnrry 阿里还说永不限速呢
    me1onsoda
        27
    me1onsoda  
       70 天前
    @Jinnrry #14 sir ,得加钱
    txydhr
        28
    txydhr  
       70 天前 via iPhone
    @sphawkcn 锂电池起火灭不了吧
    rahuahua
        29
    rahuahua  
       70 天前
    @Jinnrry 都是要钱的,你不要想花买五菱的钱买法拉利啊,其他云也一样的,付费就有好的服务
    opengps
        30
    opengps  
       70 天前
    @Jinnrry 另一个帖子我刚回复过对于这句话的理解偏差:你买的服务器只是一个可用区下的云资源,不是两地三中心的云资源,想要多中心化,你的软件架构还需要很多东西
    deplives
        31
    deplives  
       70 天前
    有没有只种可能阿里云的高可用指的是 新加坡不行了我们还有北京的机房可用
    panzhc
        32
    panzhc  
       70 天前   ❤️ 1
    "
    昨晚 20:23 ,消防部门仍在处理大楼现场风险中,运维工程师正在等待获准进入机房大楼。如现场评估后不具备原地恢复的物理条件,应急小组将执行服务器设备迁移恢复预案。
    "

    看起来依然任重道远。
    qweruiop
        33
    qweruiop  
       70 天前   ❤️ 2
    @Jerry23333 高级版的也不会切的,上次 hk 出事,后台都打不开了。。。你想多了。。。
    Jhma
        34
    Jhma  
       70 天前
    重要业务要么云上多区域自建高可用,要么干脆自建私有云多地多活高可用而且故障转移可自主处理,以为上云是很轻松的事情实际更考研运维的能力
    vpsvps
        35
    vpsvps  
       70 天前 via iPhone   ❤️ 1
    火烧云
    f0101
        36
    f0101  
       70 天前
    几十块钱的东西,就别想着有什么三地两中心,秒级扩容迁移, 跟你没关系.
    bagel
        37
    bagel  
       70 天前
    你看看阿里云的历史事故总结,对比 aws 的,云泥之别。亚马逊的总结都是工程师写的,就事论事记录得非常清楚,还会给你科普技术背景,比如迁移技术架构导致出的事故,来龙去脉都有。阿里云的就一句话,公关口吻的事故发生了,事故解决了,抱歉噢,完了。
    lizytalk
        38
    lizytalk  
       70 天前
    人家机房烧了,咋给你马上恢复啊。唯一的路就是把服务迁移到别的 AZ 呗
    lizytalk
        39
    lizytalk  
       70 天前
    @luojianxhlxt 当然有支持多 AZ 容灾的产品,但是价钱不一样
    twl007
        40
    twl007  
       70 天前 via iPhone
    @tommyzhang 阿里云做了 你要掏钱 你可以看很多服务会有额外的一个多可用区域的选项 这个选了才是多可用区
    xiaoshouchen
        41
    xiaoshouchen  
    OP
       70 天前
    @f0101 确实钱不够多,但是一年也好几万,并不是几十块钱的服务。而且也不是不能接受出现故障,而是不能接受这么久的故障,一般几个小时,忍忍也就过去了,这次是两天多,快 3 天了
    chenduke
        42
    chenduke  
       70 天前
    还好烧的不是在腾讯云购买的新加坡服务器所在的机房。
    ETiV
        43
    ETiV  
       70 天前 via iPhone   ❤️ 1
    能迁就迁,全当它不存在了吧,机房的某些楼层已经成危楼了


    罗央大道一座数据中心起火,消防员仍在现场进行浇湿工作。虽然大楼整体结构未受影响,新加坡建设局仍对大楼的部分楼层区域发出危楼和封闭令,以策安全。https://zb.sg/VHkV
    tomatocici2333
        44
    tomatocici2333  
       70 天前
    = =要是锂电池一点办法都没有。ups 敢用锂电池也是牛
    8n1AfdFQWA5CWTNQ
        45
    8n1AfdFQWA5CWTNQ  
       70 天前
    @Jinnrry 对的,他是说他可以做到,但你没有买这个服务啊.
    比如数据库,他是支持异地备份的,但你没有买,当然没有了.并不是所有服务都能做到完全的多地多活的,这个成本很高.
    比如这么说吧,你一个月 100 元买了一个核 1G 的主机,他怎么可能给你默认做到三个地方都存在一个活跃的点?
    这三个点还要实时数据传输,出了问题,还要实时恢复?这个不可能的.不要说三个异地了,就是本地也做不到,你一般来说,一台主机就是在一台物理机上,不可能给你放在三台物理机的,但这台物理机出了问题,他可以给你迁移到其它机器上,相比于传统的物理机恢复是快了.但他这个是整个机房出问题了,没有办法的.
    ZZ74
        46
    ZZ74  
       70 天前   ❤️ 1
    @bagel 事情已经发生,损失已经产生,总结写得好有什么...aws 该崩照样崩。这不是哪家技术好不好的问题。说到底都是买卖。忽悠你上云,然后收割你
    qq1427168550
        47
    qq1427168550  
       70 天前
    @qweruiop 来来来,用 aws
    neptuno
        48
    neptuno  
       70 天前
    这次最严重的还不是自己服务挂了,我们当天就迁移完成了,但上下游都用的阿里云,他们搞了好久没恢复!
    zhuanggu
        49
    zhuanggu  
       70 天前
    锂电池起火了
    qweruiop
        50
    qweruiop  
       70 天前
    @qq1427168550 已经迁移了几个客户了,还有几个差钱的,也正在迁移中。
    也给楼上的同学说没花钱的提个醒。我们很多项目都是花了钱买了多可用区域了。事实证明,信了就输了。无论是之前 hk ,还是这次。出事的时候,他们的 很多控制台要么打不开,要么不可用。现在想来,他们连自己的业务都做不到高可用,还可以怎么弄呢。。。而且他们处理故障的时间。。。基本上,你要是 2b 的话,你的客户是等不到他们恢复的。。。
    sphawkcn
        51
    sphawkcn  
       69 天前
    @txydhr #28 锂电池的化学反应是无法中止的,但是明火是可以灭掉的,就是必须保持灭火装置持续工作。
    txydhr
        52
    txydhr  
       69 天前 via iPhone
    @sphawkcn 来不及
    galenzhao
        53
    galenzhao  
       69 天前
    @qweruiop 你得上跨 region 多活,单纯多 AZ 不是很好用。我们有客户就上的多 region 。
    galenzhao
        54
    galenzhao  
       69 天前
    @qweruiop 因为确实遇到过整个 region 不可用状态
    galenzhao
        55
    galenzhao  
       69 天前
    @qweruiop 举个简单例子,多 AZ 你可以理解为一个机房大楼里的不同楼层,像碰到挖断整栋光纤的时候简单的多 AZ 就没啥用了
    andyliu24
        56
    andyliu24  
       69 天前
    @ZZ74 拉长时间维度去看呢?故障又不是只有 0 和 1 ,0.4 和 0.6 差别还蛮大的……
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4057 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 10:16 · PVG 18:16 · LAX 02:16 · JFK 05:16
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.