V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
esplendo
V2EX  ›  云计算

UCloud 资深工程师邱模炯,讲述他的经历与成长

  •  1
     
  •   esplendo · 2014-06-27 11:18:41 +08:00 · 8039 次点击
    这是一个创建于 3803 天前的主题,其中的信息可能已经有所发展或是发生改变。
    各位好,

    以前,大家更多看到的,是UCloud在游戏行业的影响力,以及CXO在各种场合的风采剪影。虽然每次都有新亮点,但是看多了难免有些审美疲劳,也想多了解了解UCloud其他的团队成员,看看UCloud的技术到底牛逼不牛逼,团队给力不给力。

    所以,下半年起,我们会有更多这方面的内容出来。主要目的也不是为了营销,而是让大家更好地了解UCloud的团队,也可以抹去各种不透明和不公开,和我眼中的技术大牛们,直接一对一的沟通。大家在V2EX的反馈,都会直接传达到各个具体负责这项技术的同学,以达到更加简短和良性的沟通渠道。

    最近,有媒体对邱模炯同学进行了一期非常精彩的采访,他是UCloud的内核高手,在UCloud实现了内核热补丁技术,提交了好几个内核补丁。一起看一下: http://www.topthink.com/topic/909.html

    ——下面是部分采访内容——

    邱模炯,UCloud资深工程师,北京大学计算机系研究生毕业,擅长操作系统、虚拟化和数据中心自动化等云平台的基础技术。

    在采访邱模炯的过程中,也是经历了很长的一段时间,没有机会与这位高材生大牛人物面对面的采访,但是从邮件采访中,可以感觉出他是一个认真周到而又注意细节的人,当然也是非常忙碌的开发者。

    以下是小编的整理报道:

    回想起来在成为开发者一路上都是有很多机缘巧合联系起来的。我是2007年北京大学计算机系研究生毕业的。那时国内还没几个人做虚拟化,而研究生实验室刚好有Xen虚拟化的项目,于是学习了大量内核知识,并对虚拟化底层技术形成浓厚兴趣。除了研究生方向是个巧合,毕业工作也是。国内的内核开发岗位非常少,更不用提虚拟化方向的内核开发。所幸的是,VMware恰好进入中国,并在次年搭建了内核开发团队。所以我走上了内核开发道路,实际参与到VMware这个最优秀的虚拟化内核。离开VMware后,腾讯的工作机会也是巧合。那时是2010年,BAT(BAT又指百度腾讯阿里这三家公司,分别是B百度、A阿里巴巴、T腾讯的首字母。所以缩写BAT,指的是目前中国IT行业3巨头的简称)发展很快,需要建立内核团队去做深层次工作。在这样的背景下来到了腾讯创建操作系统团队。

    时过境迁,现在则大大不同。国内不少公司都提供了内核开发岗位,比如BAT、Ucloud等。从内核角度讲,这是新的大环境,铸就优秀内核人才的大环境。我也看到了越来越多的后起之秀,他们在这个大环境茁壮成长,青出于蓝而远胜于蓝。

    我的技术经历有两个特点:一是偏内核,操作系统和虚拟化以内核为主;二是研发和运维相结合,经常需要和运维打交道,数据中心自动化更是如此。

    工作经历:

    VMware期间:曾经参与过VMware虚拟化产品,负责以及参与几个特性的开发:时间同步、Host Guest File System内核文件系统、还有Record/Replay回放,这些都是内核技术。

    VMware内核开发是当时我梦寐以求的工作,进步很快。我见识到虚拟化领头羊产品的方方面面,包括内核原理,应用架构,解决方案,前沿课题等。五六年后的今天,我仍然感到早年做的一些工作还未过时。

    作为内核工程师,有幸在最优秀的虚拟化产品上贡献自己的代码,这段经历除了技术得到提升外,更重要的是养成了受益终生的研发习惯。

    受VMware那段经历影响很大。对产品开发的认识,对内核的经验习惯都是那时培养的。VMware工作期间参与了最核心的VMM(Virtual Machine Monitor)的工作,与一批最顶尖的博士一起讨论问题,从技术到团队合作到个人品行都有很深的体会。我的mentor是VMware美国的华人资深工程师徐旻博士,很幸运得到了他的手把手指导。大到模块设计必须严谨推演,小到每一行内核代码都要多人review仔细推敲,代码注释里连一个标点符号都不能错。VMware产品之所以优秀不是偶然的。核心代码容不得半点大意。

    欣赏VMware期间的mentor,VMware美国的资深工程师徐旻。不光研究做得出色,工程理念也是一流的;能耐心教一个刚入门没两年的工程师,帮助成长。这份耐心和奉献的精神要继承下来。我一直努力向他靠齐,并试图传导给我所指导过的工程师。

    腾讯期间:离开VMware后来到了腾讯,从零建立起操作系统团队,为公司创建了tlinux操作系统。tlinux是基于开源社区成果仅在腾讯内部使用的Linux,运行于公司几十万台服务器上。内核采取类似于商业Linux公司的道路自主维护,用户态发行版基于CentOS6。

    这个项目的意义在于构建稳定且高效运行于海量服务器的Linux。腾讯的数据中心服务器规模国内第一,即使放在全世界也罕见。这样的海量规模下,服务器的稳定和高效意义非常大。关于稳定,只要软件故障率(按月计)比起商业Linux优越哪怕千分之一,那么会给业务带来很大的价值,也节省大量人力无力。同样由于海量规模,操作系统运维工作很繁重,为此我们开发了一大堆自动化工具,所有的操作都是傻瓜式的一键操作。虽然tlinux故障率远低于商业Linux,但还是因为海量规模,我们每天仍然能观察到几十上百台死机,如果靠人工去分析,得几十个人才能应付,为此我们还开发了内核故障的自动定位,大量节省了人工并提高相应速度。关于高效,主要从性能考量,为重点业务定制内核帮助提升特定场景下的性能表现,改进业务架构等。

    除了操作系统工作外,我还负责了几个运营自动化项目。庞大的数据中心是运营自动化实践的绝好机会,这点我很幸运。

    我对海量服务器的一切很痴迷,腾讯期间的工作废寝忘食,一心在工作上。



    腾讯的tlinux项目帮助我形成了产品、运营和研发的概念及其协同。和VMware传统软件产品开发不一样,腾讯是个互联网公司。在腾讯,产品、运营和研发处处体现互联网思维,如先抗住再优化,小步快跑等。tlinux项目还让我学会如何带领团队,学会了要像家人一样对待团队:包容、帮助。

    UCloud期间:现在在UCloud参与内核和平台开发。非常看好云平台的长远意义,同时想更接地气,于是来到了Ucloud。在UCloud负责各产品后端的公共平台开发,包括内核和运营自动化系统。

    云平台最重要的是稳定性。内核直接影响到云平台的稳定性,我们结合产品需要对Linux内核进行深入分析并开发了包括热补丁在内的配套技术。云平台的稳定也和运维关系很大,我们正在开发相关的运营自动化系统,避免人工运维引入的操作失误,主要包括自动部署,配置管理数据库,集中管理分发,基础监控和自动统计分析等方面。

    在UCloud进一步深化了我的互联网理念。UCloud是云平台领域的创业公司,而云平台对技术的广度和深度要求都很高。虽然如此,公司以产品和运营为先,技术为后盾。这其实是体现用户服务的互联网理念。



    接触计算机至今没有参加过任何培训,也没有获得过任何认证,属于“无证程序员”。从我个人经验看,底层开发(内核开发)技术能力的培养一是跟项目,二是专注思考。不管在VMware、腾讯还是现在,每一个项目只要细心做好就会有进步,思考得越多越有收获。比如,工作以来的3项美国专利均来自于对项目所涉及技术点的思考。又比如,腾讯海量服务器每天的死机都不少,如果每次死机都要人工分析,需要耗费大量人力,所以我们就开发了内核死机自动定位分析的系统。在UCloud,每一台服务器直接为用户服务,是不能重启的,所以我们只能搞定内核热补丁技术并应用进生产环境,这些在国内都属于领先的工作。

    邱模炯也提到了他的遗憾:“多年前就想多讲课,与人分享技术和经验,但一直没有切实行动,一次主动演讲都没有,只有被动应付式的。这点很失败。有时确实忙得没时间,但主要是没有足够重视。这也和性格有关系。我比较保守,专注于技术钻研而不喜欢宣传。希望一年后改变这点,多和外部讨论技术。”

    对于工程师们的生活习惯,一直很好奇,邱模炯每天以工作为主。和很多程序员一样有个“坏习惯”:喜欢深夜工作。有时进入状态后,特别是感兴趣的事情,就会没日没夜,连睡觉都很少。不过不时会去附近学校锻炼身体,偶尔打一下乒乓球羽毛球、爬山之类。

    关于之后的职业计划邱模炯说:做感兴趣的工作,继续从事操作系统、虚拟化和数据中心自动化这几个领域,锻炼相关的宏观判断力。同时希望能帮到更多的刚毕业的学生,把我认为值得发扬的技术和经验传授给他们,而具体的方式比如撰写文章、讲课(目前做得很少)等是我后面想要发展的。
    17 条回复    2014-06-27 16:34:01 +08:00
    XXOO
        1
    XXOO  
       2014-06-27 11:25:51 +08:00
    阿里云,腾讯云,ucloud。。。。。
    其中Ucloud常出现再v2ex
    darkyoung
        2
    darkyoung  
       2014-06-27 11:28:54 +08:00
    最近ucloud的事故出得有点多啊
    XXOO
        3
    XXOO  
       2014-06-27 11:36:23 +08:00
    反正我不用。事故多叶和我木有关系。
    iscraft
        4
    iscraft  
       2014-06-27 11:41:10 +08:00
    软文典范
    疲软的价格和过硬的服务能让用户心服口服 说你们老总是一只大猩猩都行
    jiayao321
        5
    jiayao321  
       2014-06-27 12:27:29 +08:00 via iPhone
    文中提到腾讯基于CentOS开发tlinux但仅供内部使用是不是违反GPL协议
    esplendo
        6
    esplendo  
    OP
       2014-06-27 12:37:26 +08:00
    @XXOO 你列举的这三个,应该是国内公有云市场份额前三名了。
    XXOO
        7
    XXOO  
       2014-06-27 13:09:23 +08:00
    @esplendo 阿里云再前3,腾讯云 ucloud 是不是再前3,我不知道。至少我知道的还有青云,腾讯云,ucloud 没有按按流量付费,阿里云有,进入中国的aws,azure 都有按流量付费,你说腾讯云和ucloud 再不再前3呢?
    XXOO
        8
    XXOO  
       2014-06-27 13:12:07 +08:00
    没有按流量计费模式能叫板 前3么?
    pyKun
        9
    pyKun  
       2014-06-27 13:22:04 +08:00
    @jiayao321

    我记得违反GPL的行为是:基于centos做出了“某某os”后直接商用
    pyKun
        10
    pyKun  
       2014-06-27 13:23:51 +08:00
    @esplendo

    很羡慕那个人的履历,我开窍略晚,导致现在想去学习和去适合的地方都拖带着巨大的生活成本,和年龄上的期望的压力

    不过 ucloud 是如何看待青云的?
    Virtao
        11
    Virtao  
       2014-06-27 13:46:15 +08:00
    前几天UCloud北京BGP又挂了一次
    esplendo
        12
    esplendo  
    OP
       2014-06-27 13:53:06 +08:00   ❤️ 1
    @pyKun

    从我个人审美上来讲,我很喜欢他们官网的设计风格,控制台的交互设计也很出色。我是觉得这方面挺值得我们学习的。

    青云和我们的交集一直很少,两家创业公司在商业化上的尝试和摸索完全是走的两条道路。
    esplendo
        13
    esplendo  
    OP
       2014-06-27 14:13:40 +08:00
    @XXOO

    1.是不是前3,主要是在行业蛮长时间,我的个人感觉啦。这一块大家都没有对方的核心数据。我能确定的是,阿里云目前确实是国内市场份额第一的,这点毋庸置疑。

    2. 按流量付费是产品和功能层面的,其实在技术实现上并不难。我们的产品研发思路一直是“用户的需求,就是我们的下一个产品”,而按流量付费从我们与绝大部分的用户的接触看来,需求并不强烈,而且国内恶劣的网络情况,加上DDOS之类的如此之多,被D一次,你妥妥的就不太想按流量付费了...目前,国内在这方面的监管层面太松了。

    3.按需付费倒是挺好的一个功能,有些用户是有中途关机,节省成本的需求的,我们在下个月应该就会推出,欢迎体验!
    XXOO
        14
    XXOO  
       2014-06-27 14:36:52 +08:00
    @esplendo 我很好奇 uCloud 是流入要收费的么?
    XXOO
        15
    XXOO  
       2014-06-27 14:58:20 +08:00
    @esplendo 希望这张图可以让你理解下 什么是 DD.
    http://upload.wikimedia.org/wikipedia/commons/thumb/3/3f/Stachledraht_DDos_Attack.svg/744px-Stachledraht_DDos_Attack.svg.png
    如果 uCoud 理解错误,请及时更正.
    如果我理解错误,我去找维基百科,她竟然骗我.
    wsgzao
        16
    wsgzao  
       2014-06-27 15:16:03 +08:00   ❤️ 1
    XXOO
        17
    XXOO  
       2014-06-27 16:34:01 +08:00
    我只能说呵呵.呵呵你的防火墙. 看来是还是 aws 和 azure 阿里云 靠谱点,尤其是 流入不在 计费范围.
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1152 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 87ms · UTC 18:11 · PVG 02:11 · LAX 10:11 · JFK 13:11
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.