V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
nciyuan
V2EX  ›  问与答

感觉腾讯云这次可能就是吹牛大了,无他

  •  
  •   nciyuan · 2018-08-07 17:21:26 +08:00 via Android · 4002 次点击
    这是一个创建于 2334 天前的主题,其中的信息可能已经有所发展或是发生改变。

    这几天 QQ 云服火了,不过云硬盘真心不可能那么牛逼,我刚才浏览了一下 QQ 云服的网站 yun.qq.com 发现有些真的挺好玩的 首先是连接智能未来的拳头产品,

    https://www.qcloud.com/product/cvm

    宣称

    CVM 提供达 99.95 %的服务可用性和 99.9999999% 的数据可靠性。

    七个九,也就是有 0.0000001% 的数据损坏性,十亿分之一,也就是一乘十的负九次方,相当于告诉你差不多 1TB 可能会损失一字节。但是转到

    https://www.qcloud.com/product/cbs/

    之后就好玩了。上面说 云硬盘中的数据自动地在可用区内以多副本冗余方式存储,避免数据的单点故障风险,提供高达 99.9999999% 的数据可靠性。 然后下面就写着

    CBS 的数据复制机制高于业内平均水平,能够保证任何一个副本故障时快速进行数据迁移恢复,数据可靠性高达 99.999999%,以保护您的应用程序免受组件故障的威胁。

    少了一个九。然后他们的三硬盘备份还是跨机架的。如下图,取自 CBS 介绍页面->常见问题->云硬盘简介->云硬盘的优势影片

    IMG_20180807_164148.jpg

    然后呢这个取自 CBS 介绍页面->入门->视频教程->多副本冗余影片

    IMG_20180807_165014.jpg IMG_20180807_165101.jpg

    所以说,当写请求在处理过程中,备份盘和主盘不仅要三盘完全一致,还要都写完才能返回写入 OK。同时在图中,这几块硬盘是跨机的,所以说数据应该会有极高的安全性。但是我又去看了腾讯发布的声明,

    前沿数控平台一块操作系统云盘,因受所在物理硬盘固件版本 bug 导致的静默错误(写入数据和读取出来的不一致)影响,文件系统元数据损坏。

    他们说只坏掉一个盘,一块哦

    腾讯云监控到异常后,第一时间向用户告知故障状态,并立即组织文件系统专家并联合厂商技术专家尝试修复数据。遗憾的是,虽经多方努力,最终仍有部分数据完整性校验失败。

    所以说,1TB 丢一字节的高可用性,最终丢了数据叫一部分。可是呢,三个跨机架,数据完全一致的其它盘呢?难道不同机架用了同一厂商,同一固件,同一 BUG 的盘?而且这个静默错误是

    经过分析,该硬盘静默错误是在极小概率下被触发。

    然而在腾讯云的三个机柜中,该 bug 同时被触发了。 最后,向大家推荐腾讯云稳成狗的数据中心,就应该是天津腾讯云了,名曰北京一区,号称亚洲最大的数据中心,承载 QQ 微信等腾讯北方地区全部业务,经受滨海大爆炸,号称水漫金山都不怕,稳如狗

    16 条回复    2021-01-13 20:11:44 +08:00
    nciyuan
        1
    nciyuan  
    OP
       2018-08-07 17:37:39 +08:00 via Android
    哈,国内一众云都敢自称 99.5/6/7 个 9,国外大多 2/3 个
    keinx
        2
    keinx  
       2018-08-07 17:56:31 +08:00
    看你上面的图片 3 腾讯云也是先写入主盘,然后以同步的形式同时同步给两个复盘的。
    如果按照腾讯云官方的回复出问题的那块硬盘是主硬盘,主硬盘写入的数据和读取的数据不一致那么腾讯云主盘写入 0,读取 1,并且把 1 同步给两个完好的复盘,这个时候从三个硬盘读取出来的数据都是 1,而不是写入的 0,所以数据就真的丢失了。

    想知道目前有什么更好的办法去最数据冗余?
    binghe
        3
    binghe  
       2018-08-07 17:56:39 +08:00
    如何证明腾讯确实有三副本存储?
    如果无法证明三副本,那么是不是存在虚假宣传?
    假如,我是说假如是虚假宣传,那么。。。
    ZE3kr
        4
    ZE3kr  
       2018-08-07 18:04:17 +08:00
    Re #1

    + AWS S3 (云存储)可用性: 99.99%(年度)/ 持久性 99.999999999 %( 11 个 9 )
    + GCS Regional Storage (云存储)可用性: 99.99%(月度)/ 持久性 99.999999999%( 11 个 9 )
    各家云存储差不多都是这个标准

    + AWS EBS (磁盘)可用性 99.999%,没找到持久性
    + GCP 磁盘没有找到可用性和持久性
    Tink
        5
    Tink  
       2018-08-07 18:11:06 +08:00 via iPhone
    腾讯云的意思就是说的二楼的意思
    ys0290
        6
    ys0290  
       2018-08-07 18:12:26 +08:00 via iPhone
    其实我觉着,这些个 9 都是不敢写 1 的时候随便写出来的
    swulling
        7
    swulling  
       2018-08-07 18:14:28 +08:00   ❤️ 1
    @keinx 数据都会加 checksum,如果因为读取错误,那么这个副本就不会通过 checksum,直接丢弃

    这个是绝大部分分布式存储的的设计,腾讯不可能犯这个低级错误
    swulling
        8
    swulling  
       2018-08-07 18:17:26 +08:00   ❤️ 2
    @ZE3kr 不一样
    AWS S3 是 Object Storage,对象存储,对象存储的成本较低,一般采用异地冷备的方式进行数据备份,所以可靠性可以做的很高

    AWS EBS 以及这次出事的 腾讯 CVM 是块存储,Block Storage,一般用来挂来做系统盘、数据盘的。因为数据 IO 性能要求比较高,加上数据的变动比较频繁,一般不做全量的冷备,所以都无法承诺高可靠。
    keinx
        9
    keinx  
       2018-08-07 18:22:35 +08:00
    @swulling
    不太懂运维方面的东西,谢谢科普
    请教一个知识,如何从业务层就把数据同步存储到 2-3 个不同的云服务提供商。是用户发送并发请求?
    maemolee
        10
    maemolee  
       2018-08-07 18:26:49 +08:00
    只要没出过事儿,就没人能证伪,自然是疯狂放卫星。
    一出事儿就完蛋了。
    llxe2v
        11
    llxe2v  
       2018-08-07 18:28:36 +08:00
    看了腾讯 PR 稿,貌似没有说 3 重备份的事情。希望之后能出来解释一下。
    iConnect
        12
    iConnect  
       2018-08-07 18:31:31 +08:00 via Android
    普通用户对于三份副本的理解确实是一份数据 copy 三份,三份啊,多安全,平时自己最多用移动硬盘 copy 一份。问题是移动硬盘 copy 的那份才是真安全(冷数据离线备份),线上的三份副本都是热数据,快照和镜像,甚至异地跨机房,跨服务商才是真的安全策略。厂家宣传有意无意的误导了,然而基本功并没有过硬,客户也是水的很。确实算是极偶然的 bug,让双方短裤都露出来了
    swulling
        13
    swulling  
       2018-08-07 18:55:28 +08:00   ❤️ 1
    @keinx 一般有两种方式
    1. 中间加一个 Proxy 层,所有的数据存储先到 Proxy,由 Proxy 控制双写或者多写到不同的后端存储。这样 Proxy 就屏蔽了后端存储的细节,它会自动做 failover 等工作。上层 RD 就专注于业务就行

    这种方式效果最好,但是增加了 Proxy 层增加了很大的开发成本,而且 Proxy 要做的事情很多,包括后端云存储故障的屏蔽,云存储丢失数据后数据的同步等。


    2. 直接写到其中一个存储上,其他存储同步该存储,一般是定时同步

    这种方式成本最小,但是缺点是如果主存储失效,故障处理比较麻烦。
    nciyuan
        14
    nciyuan  
    OP
       2018-08-08 00:45:47 +08:00 via Android
    @keinx 注意指针,并且去官网先看看,1 写请,2 为先副,4 为写本,5 为写回,然后我不会认为腾讯云架构能傻到写下主,读出来写副,再写一次,而且他们的视频别的片段也说,不会这么傻的用一次写三,或流水线方式,他们说这种既降低流量,又能提升速度,所以步骤 4 写主。
    @binghe 反正我感觉开盘都能恢复数据的事,腾讯云说 100%回不来真的很钢哦
    @ZE3kr 我找的是 EBS,也就是云硬盘,不知道我理解的对不对,静态文件存储是 S3 的业务,硬盘给 EC2 用,阿里云的 ECS 说的是 99.七个 9,但是 OSS 这种静态业务是 99.九个九,官网宣称的服务器硬盘本身没有分别选项,因为硬盘就是随时读写的,静态存储的是有请求就读写,上传完没人访问 IO 就 0 了,腾讯云 COS 也是九个九,静态安全性总是比较高的
    @swulling 谢大佬解答
    nciyuan
        15
    nciyuan  
    OP
       2018-08-08 01:13:30 +08:00 via Android
    我感觉如果腾讯云恪守诚信,那么按照 1TB 丢一字节来算,那么麻花腾真是把这么多年了做的孽都遭报应了。不过还有很多小学生充钱,合盒和ヽ(=^・ω・^=)丿
    @keinx @Tink @llxe2v @iConnect
    这里说明了腾讯云三机备份的分布
    https://cloud.tencent.com/product/cbs?idx=1
    在云硬盘的优势这个视频,
    https://cloud.tencent.com/product/cbs/getting-started
    这里是多副本冗余的视频,特别清晰明白的说明第四步才写主盘,并且明确地说明了腾讯云不会先写一份盘,然后延迟,通过流水线方法备份,就是收到数据先写别的,不存在读的过程。
    @llxe2v @swulling 感觉这次腾讯云的公关真没百度强,因为他们承诺故障百倍赔偿,PC 官网有,并且它的声明里说
    腾讯云目前制定如下“赔偿+补偿”方案。赔偿部分:“前沿数控”在平台上(自 2017 年 12 月份开户至今)产生的实际消耗共计 3569 元,腾讯云将按照赔偿条款中的上限以现金形式全额返还这笔费用。补偿部分:本着帮助用户迅速恢复业务的目的,腾讯云承诺为“前沿数控”提供 132900 元现金或云资源的额外补偿。“赔偿+补偿”总金额达到 136469 元的解决方案。
    但是官网说百倍的是赔偿,如果按照腾讯云的说法,假设真的是一百倍赔偿,假设腾讯云恪守诺言,相当于说前沿数控在腾讯云因为云硬盘消费了 1329 元钱,而腾讯云说的是本着帮用户的态度,所以闭口不提三备份和故障百倍赔偿。另外我在北三数据中心(北京)和北一数据中心(天津)进行价格计算得出的数据,12 月到现在一共是 9 个月,那么假设购买日期为一年的话,450 GB 普通云硬盘的一年期为 1344.6 元,或者两年 260G 普通云硬盘 1310.4 元,或者是 1 年期 380G 混合盘 1324.68 元,2 年 230G 混合 1352.4,一年 SSD120G 1314.72 ,SSD 最低 100G 起售,所以两年 1.3K 不存在。
    baiwfg2
        16
    baiwfg2  
       2021-01-13 20:11:44 +08:00
    @ys0290 啊,不是数学公式算出来的啊。。我 naive 了吗
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4109 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 10:12 · PVG 18:12 · LAX 02:12 · JFK 05:12
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.