V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
工单节点使用指南
• 请用平和的语言准确描述你所遇到的问题
• 厂商的技术支持和你一样也是有喜怒哀乐的普通人类,尊重是相互的
• 如果是关于 V2EX 本身的问题反馈,请使用 反馈 节点
gcg0036
V2EX  ›  全球工单系统

ECS 生产环境俩主机被无故释放,阿里云只赔 500 块?

  •  
  •   gcg0036 · 2018-01-29 21:30:05 +08:00 · 149347 次点击
    这是一个创建于 2493 天前的主题,其中的信息可能已经有所发展或是发生改变。
    前几天操作 edas 时,莫名其妙,把我们俩主机直接释放了,毛都没剩,手机验证码也没,甚至都没个弹框确认


    后来发工单,客服确认是阿里云代码 bug,然后说送我 500 代金券??


    我们加班加点弄了一晚上才重建了生产环境哦,马爸爸你也好意思?


    你们说说还有没有王法了
    第 1 条附言  ·  2018-01-30 15:32:28 +08:00
    --------------------------
    2018-1-30
    阿里云刚赔偿了 4000 通用代金券,也就先这样了

    大家还是别把鸡蛋放一个篮子里
    97 条回复    2018-03-20 23:41:02 +08:00
    saberlove
        1
    saberlove  
       2018-01-29 21:31:43 +08:00
    没有
    ericguo
        2
    ericguo  
       2018-01-29 21:34:31 +08:00
    没有
    fange01
        3
    fange01  
       2018-01-29 21:34:31 +08:00
    吓得我,赶紧备份一下几个 ECS
    riggzh
        4
    riggzh  
       2018-01-29 21:35:56 +08:00   ❤️ 7
    马爸爸:你都叫我爸爸了,心里有点熟
    rogwan
        5
    rogwan  
       2018-01-29 21:37:59 +08:00
    这是灾难级故障啊。自动快照和镜像系统给你保留了吗?
    est
        6
    est  
       2018-01-29 21:43:06 +08:00 via Android
    没有
    misaka19000
        7
    misaka19000  
       2018-01-29 21:45:03 +08:00 via Android
    楼主看来已经准备好了一千万了
    gcg0036
        8
    gcg0036  
    OP
       2018-01-29 21:46:29 +08:00
    @rogwan 本身就啥快照镜像都没,然后再也没有了,还说这是当用户发现 bug 给予的奖励呢
    liuzhedash
        9
    liuzhedash  
       2018-01-29 21:50:53 +08:00
    这太严重了吧,要是 ECS+快照一起消失,那可真是毛都没了
    salmon5
        10
    salmon5  
       2018-01-29 22:00:27 +08:00 via Android
    这 bug 太可怕了
    huntzhan
        11
    huntzhan  
       2018-01-29 23:45:28 +08:00
    原来阿里云是没有 SLA 的么。
    publicAdmin
        12
    publicAdmin  
       2018-01-29 23:57:13 +08:00   ❤️ 9
    再补个刀,

    前公司苦于没有运维,图省事,买了阿里云的 redis...
    2G 的 redis 数据直接清空,最后补偿了一张互联网大会门票。。。。
    huiyifyj
        13
    huiyifyj  
       2018-01-29 23:59:47 +08:00
    @publicAdmin 这操作稳啊。还好我用的是腾讯云。
    Livid
        14
    Livid  
    MOD
       2018-01-30 00:03:12 +08:00   ❤️ 3
    @misaka19000 请不要再回复“一千万”这种毫无意义的内容。
    codeeer
        15
    codeeer  
       2018-01-30 00:10:25 +08:00 via iPhone
    楼主的主机开通多久了?距离续费多久?阿里最近有点疯狂,我们的香港反代节点不定时被封,网络连接情况也不太好
    mritd
        16
    mritd  
       2018-01-30 00:12:18 +08:00 via iPhone
    看完各位遭遇......我是真特么不敢用了
    pmispig
        17
    pmispig  
       2018-01-30 00:22:05 +08:00
    edas 这个巨坑我算是出来了,改用 spring cloud,不用好舒服了。
    Rickkkkkkk
        18
    Rickkkkkkk  
       2018-01-30 00:28:16 +08:00
    不是自家的 SRE, 出了问题只能看合同.

    翻一翻用他家云时点同意的那份用户协议吧.
    realpg
        19
    realpg  
       2018-01-30 00:42:33 +08:00   ❤️ 1
    目测跟楼主同一波
    客户数据盘没了 而且没了还在计费
    然后计费取消不说 给了点代金券……重新挂了个盘
    miyuki
        20
    miyuki  
       2018-01-30 00:52:19 +08:00 via Android
    厉害了
    zhouquanbest
        21
    zhouquanbest  
       2018-01-30 00:55:03 +08:00
    还好现在用 AWS
    一年多了没出过任何问题
    skydiver
        22
    skydiver  
       2018-01-30 01:20:42 +08:00 via Android
    一晚上才重建,还是反思一下自己的容灾恢复做的哪里不好吧
    515576745
        23
    515576745  
       2018-01-30 01:44:02 +08:00 via Android
    套路云
    imbushuo
        24
    imbushuo  
       2018-01-30 05:49:28 +08:00
    你们需要用 Chaos Monkey 这样的东西测一下自己架构的可靠性
    zlfzy
        25
    zlfzy  
       2018-01-30 07:44:37 +08:00 via iPhone
    马云都说了 99.9999%数据可靠性
    odirus
        26
    odirus  
       2018-01-30 07:56:29 +08:00 via Android
    我们没有遇到,遇到了也会在几分钟内恢复。

    所有业务全部部署了两组不同可用区的服务器,重要服务器快照频率很高,前面放了负载均衡。

    如果要恢复,直接从快照恢复,几分钟的事情。

    用了几年,并没有遇到啥大问题,只是偶尔有服务器突然死机,不过有负载均衡在,用户并不会感知到。
    gcg0036
        27
    gcg0036  
    OP
       2018-01-30 07:57:02 +08:00
    @codeeer 是按量付费的,用了俩月吧
    gcg0036
        28
    gcg0036  
    OP
       2018-01-30 07:59:49 +08:00
    @odirus 你如果用了 edas,所有 ecs 就都是一体的,没成想都一块消失了
    CEBBCAT
        29
    CEBBCAT  
       2018-01-30 08:16:41 +08:00 via Android   ❤️ 29
    楼主节哀,以后多用快照,换家服务商吧;


    我觉得楼上有几位有洗地的嫌疑;

    这种大事故当事人心情至少不是愉快的,在这种时候还说一些 “ 啥?一晚上才把环境搭起来?这也忒慢了吧?我司 256 组 raid 全球部署,这种事件根本不能奈何我们,自己找面墙反思反思吧“ ,这反映似乎不是常人该有的反应
    lun10439547
        30
    lun10439547  
       2018-01-30 08:26:39 +08:00 via iPhone   ❤️ 1
    bug 无法避免,赔偿方案太恶心!
    linpf
        31
    linpf  
       2018-01-30 08:37:49 +08:00
    @skydiver
    不是所有公司都有那个成本和技术能力去做好那么多防灾措施的。
    goofcc
        32
    goofcc  
       2018-01-30 08:41:16 +08:00
    这小子估计怕公司追究,私下找你私了了,
    huangunic0rn
        33
    huangunic0rn  
       2018-01-30 08:43:14 +08:00 via Android
    @CEBBCAT 阿里释放机器会同时删除自动创建的快照 😹
    hugee
        34
    hugee  
       2018-01-30 08:48:34 +08:00 via Android
    5w 都不能接受
    whileFalse
        35
    whileFalse  
       2018-01-30 09:00:25 +08:00
    AWS 感觉良好。
    shirakun
        36
    shirakun  
       2018-01-30 09:20:54 +08:00
    中国厂商都这个样,重要数据还是尽快搬离中国大陆吧
    顺便上面发现一只公关人员
    liteyou
        37
    liteyou  
       2018-01-30 09:23:02 +08:00 via iPhone   ❤️ 7
    @misaka19000
    @Livid
    用户这种带泪的自嘲都不可以吗?
    sjwuny
        38
    sjwuny  
       2018-01-30 09:23:33 +08:00
    @publicAdmin 脑子有屎吧
    jeffersonpig
        39
    jeffersonpig  
       2018-01-30 09:25:26 +08:00   ❤️ 1
    楼上某些洗地真的是令人恶心。V 站什么时候做个踩的功能
    yls258
        40
    yls258  
       2018-01-30 09:25:31 +08:00
    可以放图么 另:500 券随便用么
    sjwuny
        41
    sjwuny  
       2018-01-30 09:33:07 +08:00
    吓得我赶紧创建了个快照
    boyxupers
        42
    boyxupers  
       2018-01-30 09:38:44 +08:00 via iPhone
    SLA 好像是按照不可用时间赔付吧,就 ECS 这种没准赔你 100 都算多的。但,故障就不一样了,建议提工单质问吧。不过楼主还是确认下是否有自己操作失误的可能性。
    gcg0036
        43
    gcg0036  
    OP
       2018-01-30 09:49:28 +08:00
    @yls258 是通用的,也忒少吧
    gcg0036
        44
    gcg0036  
    OP
       2018-01-30 09:51:59 +08:00
    @boyxupers 我是正常操作,碰到了他们代码一个地雷
    v2chou
        45
    v2chou  
       2018-01-30 09:52:10 +08:00
    好像赔偿大多是给 <b>代金券</b> 的
    hasbug
        46
    hasbug  
       2018-01-30 09:54:59 +08:00
    。。。
    caniuse
        47
    caniuse  
       2018-01-30 10:00:59 +08:00
    我买的腾讯云,专搞公众号 小程序
    QAPTEAWH
        48
    QAPTEAWH  
       2018-01-30 10:05:26 +08:00 via iPhone   ❤️ 16
    @Livid 怎么就没意义了,lz 要是真被起诉了 1000 万站长你出?
    wekw
        49
    wekw  
       2018-01-30 10:35:21 +08:00
    是欠费导致的吗?如果不是这就严重了,可以起诉赔偿。

    话说我都做好了阿里云大兴机房被炸以后的灾备准备了。
    kingda
        50
    kingda  
       2018-01-30 10:41:05 +08:00
    阿里云,我这么相信你,你竟然背叛我?
    aisk
        51
    aisk  
       2018-01-30 10:42:50 +08:00
    没有。
    longggg
        52
    longggg  
       2018-01-30 11:07:40 +08:00
    SLA ? https://help.aliyun.com/knowledge_detail/40683.html
    按照合同来呗. 我看写的是 100 倍, 找你们销售或市场去谈就行吧. 如果算故障了 12 小时, 那每台 ecs 就应该是: 43200 * 100 * min_price,
    建议以后可以有 snapshot, 不怕一万, 就怕万一啊!
    ooooo
        53
    ooooo  
       2018-01-30 13:08:46 +08:00
    这个很严重啊! 还好楼主没有重要数据在里面,阿里快照记得收费了吧?
    atcdef
        54
    atcdef  
       2018-01-30 13:19:44 +08:00
    这是灾难级的了吧,不过国内情况,只能自认倒霉,没啥好办法。

    另外,BS 一下上面洗地的,你的良心不痛么?
    guoyuchuan
        55
    guoyuchuan  
       2018-01-30 13:28:49 +08:00
    怎么洗地
    niunan
        56
    niunan  
       2018-01-30 13:40:33 +08:00
    支持支持
    edsheeran
        57
    edsheeran  
       2018-01-30 13:42:14 +08:00 via iPhone
    @longggg 怕被公關
    WendellSun
        58
    WendellSun  
       2018-01-30 13:48:07 +08:00
    还能这样。。
    jokerjoker
        59
    jokerjoker  
       2018-01-30 14:06:34 +08:00
    @skydiver 这是什么逻辑,难道用户买了资源,不是希望一直不挂的用下去吗,你愿意重新搞一次嘛
    aileswang
        60
    aileswang  
       2018-01-30 14:20:58 +08:00
    aws 国内除了贵点都还行。。
    Felldeadbird
        61
    Felldeadbird  
       2018-01-30 14:54:17 +08:00
    这 BUG 也太可怕了。以前我向人推荐阿里云是因为可以省去运维成本。看来还的自己请运维了。
    skadi
        62
    skadi  
       2018-01-30 14:56:27 +08:00
    aws 或者 azure
    wizardry
        63
    wizardry  
       2018-01-30 15:05:59 +08:00
    看来还是得备份一份线下存起来
    blufaux
        64
    blufaux  
       2018-01-30 15:12:34 +08:00
    @QAPTEAWH 小心被 Livid 封了你
    nciyuan
        65
    nciyuan  
       2018-01-30 15:15:35 +08:00 via Android
    Dropbox 真的好用啊嘻嘻嘻嘻嘻嘻
    594duck
        66
    594duck  
       2018-01-30 15:18:28 +08:00
    @CEBBCAT 说的太好了,阿里那些洗地的人真的是令人失望。很多小公司就是因为没有运维所以搞的 ECS,希望的是用钱买平安。现在好了,平安 没了。
    Zzzzzzzzz
        67
    Zzzzzzzzz  
       2018-01-30 15:24:47 +08:00
    觉得 aws 不会出这种事的自行搜 ebs volume data loss, 案例又不少, 倒不是给阿里洗地, 楼主这事很明显责任就是阿里云的

    但是就数据保障这点来说, 可靠性是靠钱做冗余和备份堆出来的, 存储介质或者服务商单方面再可靠都是靠不住的
    qoras
        68
    qoras  
       2018-01-30 15:25:37 +08:00
    用套路云, 一边要小心扣费, 另一边还要担心灾备
    建议换 aws
    rswl
        69
    rswl  
       2018-01-30 15:31:11 +08:00
    花了钱还不省心……这
    gcg0036
        70
    gcg0036  
    OP
       2018-01-30 15:33:51 +08:00
    事情就这样啦,感谢同仁鼓励!
    fredcc
        71
    fredcc  
       2018-01-30 16:01:52 +08:00
    @Zzzzzzzzz AWS 官方有 EC2 和 EBS 的 SLA 协议 https://www.amazonaws.cn/ec2/sla/beijing/ 看起来是 99%左右,并且官方明确建议不要把单台实例或者单个 EBS 卷视为可靠不丢失的资源。对比楼主的案例,aws 的场景应该是多可用区 RDS 或者 ElasticCache 服务器宕机丢失数据吧
    echo1937
        72
    echo1937  
       2018-01-30 16:13:47 +08:00
    @fredcc #70 链接里注明是,不低于 99.99%
    dianso
        73
    dianso  
       2018-01-30 16:32:06 +08:00 via iPhone
    无图无真相 真假难说
    fredcc
        74
    fredcc  
       2018-01-30 16:36:29 +08:00
    @echo1937 尽力保证 99.99%,达不到按比例返代金券。
    zjw60320
        75
    zjw60320  
       2018-01-30 17:13:53 +08:00
    @Livid 如果这是毫无意义的内容,我想知道什么内容是有意义的
    bookit
        76
    bookit  
       2018-01-30 17:44:57 +08:00
    别用云。。。
    cherrybob
        77
    cherrybob  
       2018-01-30 18:02:22 +08:00
    没有竞争,国产保护的都是劣质厂商
    ted05
        78
    ted05  
       2018-01-30 21:16:08 +08:00
    阿里云的产品好贵啊!为啥还那么不靠谱
    panzhc
        79
    panzhc  
       2018-01-31 00:09:36 +08:00
    楼主可以具体说下是怎样的操作触发了这个 Bug 吗?
    gcg0036
        80
    gcg0036  
    OP
       2018-01-31 02:25:04 +08:00
    删掉 edas 所有应用,然后删掉 swarm 集群,前提是你是按量付费 ecs,这时候就会自动释放
    现在应该已经修复了
    fuermosi777
        81
    fuermosi777  
       2018-01-31 09:30:46 +08:00
    一条普通的回复也会被站长审查....叹
    opengps
        82
    opengps  
       2018-01-31 10:52:39 +08:00
    这个概率真够低的啊
    Livid
        83
    Livid  
    MOD
       2018-01-31 11:02:06 +08:00   ❤️ 1
    每次阿里云一出什么事情,就有人马上要抖那个“一千万”的梗。

    当这些人在抖这个“一千万”的梗的时候,除了能够帮助阿里云恐吓楼主之外,还有什么任何帮助呢?

    这种无聊的回复就和“路过”,“顶”,“不明觉厉”一样,毫无信息量。
    qcloud
        84
    qcloud  
       2018-01-31 11:11:53 +08:00
    @Livid #83 别太较真嘛大哥,像你这样说,很多回复对于楼主来说并不能解决问题,那岂不是毫无信息量?那这一切回复都没有意义了吗.....
    Livid
        85
    Livid  
    MOD
       2018-01-31 11:21:12 +08:00 via iPhone
    @qcloud 你说话的这个逻辑我实在看不懂,搅稀泥也不是这样搅的。从反对一条一千万的无意义回复,可以演绎为“一切回复都没有意义了吗”,这是什么神逻辑?
    qcloud
        86
    qcloud  
       2018-01-31 11:24:13 +08:00
    @Livid #85 我前面已经说了别太较真...难道你没看懂吗......你觉得一千万没有意义,但是别人觉得有意义啊,不知道你为什么要干涉....你在这下面回复的这些话,对楼主有什么意义吗?
    Livid
        87
    Livid  
    MOD
       2018-01-31 11:30:06 +08:00 via iPhone
    @qcloud 这个世界上所有的意外事故,比如无故释放生产环境中的虚机,虽然有 SLA 但是并不当真,都是那些不较真的人才会搞出来的破事。
    qcloud
        88
    qcloud  
       2018-01-31 11:33:32 +08:00
    @Livid #87 那...你说的这个是对于工作,工作做事肯定要认真啊,目前我们说的是仅仅在 V 站产生的一条评论而已,为什么扯得那么远.....
    Livid
        89
    Livid  
    MOD
       2018-01-31 11:39:25 +08:00 via iPhone   ❤️ 1
    @qcloud 确保 V 站不被无意义的回复抢占,看到就处理,就是我的工作。
    qcloud
        90
    qcloud  
       2018-01-31 11:43:49 +08:00 via iPhone
    @Livid 好吧,您的站您说了算
    sixdian
        91
    sixdian  
       2018-01-31 12:04:49 +08:00 via Android
    我的地盘我做主
    xdeng
        92
    xdeng  
       2018-01-31 12:13:32 +08:00   ❤️ 1
    一千万的梗比 路过 顶 有意义吧,不知道的人会去搜历史,知道的人会更严谨检查自己的提问。
    KaoN
        93
    KaoN  
       2018-01-31 12:15:21 +08:00   ❤️ 2
    @Livid 请问站长,1# 2#的回复有什么意义呢?
    ctsed
        94
    ctsed  
       2018-01-31 12:24:34 +08:00 via Android
    观众朋友们,以上就是 v 站枪毙名单,本期节目到此结束
    ruimz
        95
    ruimz  
       2018-01-31 12:35:45 +08:00 via Android   ❤️ 2
    @KaoN 正面回答楼主的在正文末尾提出的问题并直接了当地给出否认的答案。快速准确得到答案,这也是 v 站优于其他专门的问答网站的优势所在
    KaoN
        96
    KaoN  
       2018-01-31 12:45:36 +08:00   ❤️ 1
    @ruimz #95 然而 LZ 最后一句并不是问句
    flower545
        97
    flower545  
       2018-03-20 23:41:02 +08:00 via Android
    @Livid #38 这话说的过分了吧
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4006 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 10:20 · PVG 18:20 · LAX 02:20 · JFK 05:20
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.