V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
huafang
V2EX  ›  云计算

云计算无法消灭“误差”,运维裸奔是创业大忌

  •  
  •   huafang · 2018-08-07 15:40:38 +08:00 · 3479 次点击
    这是一个创建于 2335 天前的主题,其中的信息可能已经有所发展或是发生改变。

    夏日炎炎,闷热北京,宁可不见窈窕淑女,也不愿出门晒肉干,不见天空云朵,因为不敢抬头看太阳。

    在热雷雨的天气里,云计算行业出现了一则小插曲,腾讯云趟上事儿了,还是一件纵有委屈、有口难辩的事儿。

    一位叫做“前沿数控”的用户发文控诉腾讯云, 用了一个很吓人的标题《腾讯云给一家创业公司带来的灾难》,以创业者之名谴责腾讯云赔偿金额太少,并索要千万元赔偿。

    看双方沟通过程,私下应该已经勾兑许久,但最终还是因为赔偿金额的分歧闹到台面上。看腾讯云的官方表态,还是希望尽可能帮助用户解决问题。但在帖子中“创业者”、“灾难”、“数据丢失”这些个关键词的引导下,业界还是掀起一片讨论。

    纵览事情来龙去脉,我发现这事儿不复杂,搞了十几年互联网,啥事都遇见过,也用过各大云计算厂商的云服务器,同时,我也是苦逼创业者。从旁观者角度,我说说自己的一些观点,希望对大家有所帮助。

    ## 三副本策略不等于快照,云计算做不到零误差

    我细看了一下“前沿数控”的声讨文章、腾讯云的官方声明,发现这事儿真的不复杂:一块操作系统云盘出现低概率的硬盘固件版本 bug,造成一部分数据丢失,腾讯云的文件系统专家已经帮助恢复了大部分数据,但部分数据无法修复,“前沿数控”认为腾讯云有“ 99.999999%的数据可靠性的三副本存储策略,认为腾讯云应该负全责。

    三副本存储策略,成为焦点,在一些技术社区也展开了技术大讨论,然而,并没有出现云计算同行挤兑腾讯云,这是为什么呢?因为三副本存储策略是云计算行业的通用技术方案,各大云计算厂商都是这个策略,但谁也不敢保证零故障的可能性。

    事件中的“前沿数控”,把三副本理解成万无一失的快照备份了,没有做本地备份,基本上属于运维裸奔状态。但是,云计算行业做不到零误差,这是人类世界的极限挑战,只能无限接近完美,却永远无法做到物理世界的零误差,腾讯云做不到,阿里云也做不到,AWS 也做不到。

    快照,快照,快照,重要的事儿说三遍,三副本策略不等于快照,三副本策略是云计算厂商的底层系统,是云计算厂商工程师才能操作的数据层,快照才是云服务器运维的必备工具。无论是腾讯云,还是阿里云,都会强调三副本策略不同于快照,三副本不能替代用户的备份工作。

    ## 云计算不是万能上帝,Google 也难逃 0.000001%

    纵然云计算为各行各业带来了云计算的技术福利,也确实降低了企业的创业成本,但是,剩下的 0.000001%的不确定因素是腾讯云不敢保证的,阿里云、AWS、微软、谷歌之中也没有一个敢保证。

    说说 Google 的事儿,他们的比利时数据中心曾遇到四次闪电袭击电力设施,导致磁盘受损、部分云存储系统断线、数据丢失。Google 工程师对受损磁盘进行了努力修复,仍有不到 0.05%的磁盘未得到修复,丢失的数据仍非常非常地小,永久被删除的数据只占了该数据中心的 0.000001%。

    今一月份,麦田音乐网在发文,因阿里云服务器崩溃,磁盘分区表损坏,自己存放在阿里云上的数据全部丢失。今年的 6 月 27 日,由于运维误操作,阿里云曾经出现过一次重大技术故障,时间长达 30 分钟,陆续恢复用了近一个小时,引发剧烈的行业讨论和用户吐槽。

    七月份,腾讯云北京三区出现少量故障,而“前沿数控”这家企业的一块操作系统云硬盘恰好在列,确实挺倒霉的。

    虽然各大云服务商的传播口径中都有关于 XX 个 9 的可靠性介绍,但是,就像物理学中的误差一样,这个数字只能无限接近于 1,谁也不能保证故障可能性为 0。

    ## 运维裸奔是大忌,同情“前沿数控”

    无论是硬件不可抗力的故障,还是黑客入侵、意外删除,都可能带来系统崩溃,这个事件是“前沿数控”的惨痛教训。运维裸奔是创业大忌,用好云计算厂商的运维工具是创业必修课,我自己在用腾讯云的云服务器、RDS 和快照,做好数据库安全和云服务器数据安全。

    “前沿数控”的技术负责人似乎没有运维经验,应该提前做好源代码、数据、静态附件的备份,如果你用了 RDS,恢复生产会更容易一些。“前沿数控”的遭遇源自于一块系统盘不可抗力 bug,更加说明了系统盘快照、镜像的重要性。

    对于中小创业者,只需要用云计算平台的快照、镜像、本地备份,即可确保数据的安全性。以腾讯云为例,系统盘、数据盘都可以进行快照备份,目前快照服务是免费的,直到 2018 年四季度才开始商业化,用好快照,则可以备份、恢复不求人了。

    过去,我也犯过运维裸奔的错误,吃过不少亏,现在比较老实了,老老实实做好数据运维和安全运维,才能减少系统性风险。虚拟主机时代,是服务器管理员帮你在代运维;云计算时代,技术更先进,自由度更高,但运维却需要自己来做,云计算厂商只提供一些现代运维工具,事实上,运维反而变得更加重要了。

    ## 云计算不是一劳永逸,技术合伙人是创业必备

    “前沿数控”的这个事儿,说明了两点:1、云计算不等于零运维,云计算只是基础设施,不能忽视技术运维的重要性;2、不懂技术的创业者,必须有一个合格的技术合伙人。

    只要干了互联网这一行,只要有网站、数据在运行,我们是永远要和漏洞、bug、黑客、备份、恢复等一大串关键词打交道。项目做得越大,越需要牛逼的运维人员,越会发现技术合伙人的重要性,并非把项目传到云服务器上就万事大吉。

    未来的一切互联都将跑在云计算平台上,此时,创业者的技术思维不能停留在虚拟主机 Hosting 时代,不能给拖拉机装飞机发动机。

    建议“前沿数控”这家公司开除技术负责人,寻找更好的技术带头人,重新规划和设计自己的技术运维路线,为未来发展打下好基础。希望这家公司的投资人,多一些包容,帮助创业者寻找技术合伙人,不要再出现运维裸奔了。建议理性索要赔偿金额,合理评估各方责任,避免在不合理金额的无休止争论中浪费时间,用科学方法评估,致力于解决问题,而不是问责。

    希望腾讯云能够派出一名运维专家,去给这家公司的技术部门、领导层讲讲课,普及一下基础运维知识。

    建议腾讯云推出一些高清视频课程,为那些不太懂运维的用户群体,做一些形象直观的官方教程,帮助比较小白的用户进行自学成长。

    via 微信公众号 小芳侠

    25 条回复    2018-08-11 13:19:20 +08:00
    qiyuey
        1
    qiyuey  
       2018-08-07 15:48:06 +08:00   ❤️ 2
    本章已看完,感觉并没有任何实质性内容
    huafang
        2
    huafang  
    OP
       2018-08-07 15:50:58 +08:00
    @qiyuey 技术大牛们可以直接略过
    pinews
        3
    pinews  
       2018-08-07 15:51:51 +08:00   ❤️ 1
    弃用腾讯云不是更好的选择?
    huafang
        4
    huafang  
    OP
       2018-08-07 15:53:57 +08:00
    @pinews 大厂的云计算,基础服务都差不多,阿里 google 都遇到过各种问题,也没少被骂
    defunct9
        5
    defunct9  
       2018-08-07 15:54:43 +08:00   ❤️ 3
    运维不裸奔上什么云呢
    zxdyb
        6
    zxdyb  
       2018-08-07 16:02:22 +08:00   ❤️ 3
    “阿里云服务器崩溃,磁盘分区表损坏”,“由于运维误操作,阿里云曾经出现过一次重大技术故障”,
    “七月份,腾讯云北京三区出现少量故障,而“前沿数控”这家企业的一块操作系统云硬盘恰好在列,确实挺倒霉的”,

    这样的用词,感觉倾向性很强啊。
    iwaifor
        7
    iwaifor  
       2018-08-07 16:07:26 +08:00
    没啥内容啊,连个可参考的方法论的东西都没有
    pinews
        8
    pinews  
       2018-08-07 16:08:28 +08:00
    @zxdyb 我记得阿里云的确出了问题,但是数据最后恢复了,这家只是少量故障却无法恢复数据,除了用”倒霉”二字,还真不好用其他词形容,只是不知道是腾讯云倒霉,还是客户倒霉,谁倒谁的霉。
    vimutt
        9
    vimutt  
       2018-08-07 16:08:50 +08:00 via iPhone   ❤️ 1
    快照如果坏了呢 又说快照不等同于运维备份 所以最该背锅的还是运维 让运维赔 1000w 吧
    huafang
        10
    huafang  
    OP
       2018-08-07 16:11:33 +08:00
    @vimutt 快照服务器一般是独立的,而且是定期快照,相对更安全
    zapper
        11
    zapper  
       2018-08-07 16:12:46 +08:00   ❤️ 3
    公关文吧
    yeze322
        12
    yeze322  
       2018-08-07 16:13:34 +08:00
    线上事故不需付出高额赔偿,股价大跌会让你付出应有代价。

    换成 AWS 或 Azure,敢多出几次这种事,分分钟钟被看空
    huafang
        13
    huafang  
    OP
       2018-08-07 16:18:03 +08:00
    @yeze322 google 出过类似事儿,如果事故规模大了,影响股价是必然的
    cherryas
        14
    cherryas  
       2018-08-07 17:18:47 +08:00
    虽然是洗白文,但是确实其他几家( aws、阿里云)都出过丢数据的事情,腾讯云的事情不是首例,也不会是最后一例
    LucasLee92
        15
    LucasLee92  
       2018-08-07 18:00:45 +08:00
    就不知道,其他几家对数据丢失后是如何处理的
    annielong
        16
    annielong  
       2018-08-07 18:05:07 +08:00
    技术上 bug 概率一定存在,XX 个 9 依然不能保证数据的安全,所以数据备份很重要。腾讯云出故障,该赔偿就赔偿,不过不能把锅全甩给腾讯
    bofei
        17
    bofei  
       2018-08-07 18:12:21 +08:00   ❤️ 1
    倾向太明显了 没看的价值
    night98
        18
    night98  
       2018-08-07 22:14:05 +08:00
    v2 某些人水平也是可以的,技术这种事情本身就做不到百分百无 Bug,三副本是动态数据安全,快照才是静态数据安全,上云不代表运维裸奔,只是减少服务器运维成本而已,不要想太多。
    qiuqiuer
        19
    qiuqiuer  
       2018-08-07 23:29:32 +08:00 via Android   ❤️ 4
    这篇文章绝对是疼讯写的,中心思想表示:”这都是用户的错,没我们什么事”,建议疼讯开除这名产品经理,因为没有忽悠到我。
    jimmyczm
        20
    jimmyczm  
       2018-08-08 10:14:01 +08:00
    软文,腾讯的错一笔带过,公司的错放大来看
    UGLW
        21
    UGLW  
       2018-08-08 10:32:42 +08:00
    看来我是个老实人。
    kangkang
        22
    kangkang  
       2018-08-08 10:58:54 +08:00   ❤️ 1
    腾讯还不明白吗?在明知有错的情况下,越是花钱洗地越是加深用户的不安全感。
    云这种东西卖的就是安全感啊。
    yanyuechuixue
        23
    yanyuechuixue  
       2018-08-08 11:45:49 +08:00 via Android
    这篇文章绝对是疼讯写的,中心思想表示:”这都是用户的错,没我们什么事”,建议疼讯开除这名产品经理,因为也没有忽悠到我。
    lyhiving
        24
    lyhiving  
       2018-08-09 09:21:56 +08:00
    腾讯云洗地之作。

    云丢数据还叫什么云?
    Suzutan
        25
    Suzutan  
       2018-08-11 13:19:20 +08:00
    这篇文章绝对是疼讯写的,中心思想表示:”这都是用户的错,没我们什么事”,建议疼讯开除这名产品经理,因为没有忽悠到我。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1538 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 17:01 · PVG 01:01 · LAX 09:01 · JFK 12:01
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.