V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
liang723
V2EX  ›  职场话题

现在有没有 ai 平台的架构师方向?需要精通啥?

  •  
  •   liang723 · 207 天前 · 1535 次点击
    这是一个创建于 207 天前的主题,其中的信息可能已经有所发展或是发生改变。

    如题,譬如自建 k8s 平台,在此平台上做些算法模型,同时做大数据平台输入数据的处理,这样的岗位在市场上多吗?

    5 条回复    2024-05-30 16:42:44 +08:00
    nulIptr
        1
    nulIptr  
       207 天前
    不是有一大波做深度学习框架的公司,其实做的都是这些东西,比如 oneflow ,阿里云也有 PAI-EAS
    carmark
        2
    carmark  
       207 天前   ❤️ 2
    说下我的感受,做 AI 平台+系统 接近 8 年:
    1. K8s 现在针对 AI 平台,技术点主要包括:调度器( Gang Scheduler ),Training-Operator 这种;这里面可做的点比如:调度器性能优化,调度器调度优化解决碎片问题,解决高低优先级问题,节点内亲和性,节点间 RDMA 网络亲和性; Operator 里面结合调度,如何做容错等;

    2. K8s 结合存储系统,类似 Fluid 或者其他存储方案,如何针对性提升,或者针对存储解决 AI 训练或推理场景的问题,比如训练的低延迟,推理的高吞吐;是否可以搞个缓存系统,缓存如何优化,Dataloader 如何搞;

    3. K8s 结合网络,这里主要是 SRIOV 相关的技术,基于 sriov-Operator ,以及网络上 multus 就差不多;

    4. K8s 结合 GPU ,GPU Device plugin ,GPU Operator 以及其他,基于 nv 的卡都具备了,GPU 可以搞搞虚拟化,容器 GPU 虚拟化,虚拟机咋接,怎么调度这些;

    5. AI 平台流程化,比如熟悉 AI 算法的开发流程,调试流程,上线流程,CV 和 LLM 的特点是啥,数据集管理这些;

    6. 需要了解 AI 任务分布式特点,如何建立,如何容错,如何与 K8s 结合,这部分就是 Training Operator 的内容,需要知道。

    7. 进一步就是了解 AI 算法本身,比如大模型计算过程,参数量啥的,还有推理优化、预训练优化等等;
    liang723
        3
    liang723  
    OP
       206 天前
    @carmark 做这种平台应该都是大厂吧,一般的公司玩不起。薪资应该也蛮高的,50k 以上?
    carmark
        4
    carmark  
       206 天前
    @liang723 规模大了的话,一般大厂规模会更大。不过现在小厂也是随便有百卡(盲猜)。
    liang723
        5
    liang723  
    OP
       206 天前
    @carmark 那小厂也不错,不过感觉市面上这样的公司比较少
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2832 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 19ms · UTC 11:54 · PVG 19:54 · LAX 03:54 · JFK 06:54
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.