V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
wangluowangwang
V2EX  ›  远程工作

远程大数据开发,推荐算法工程师,有兴趣可以聊聊

  •  
  •   wangluowangwang · 6 天前 · 479 次点击

    大数据

    1. 架构设计:负责公司 PB 级用 户行为数据( AppList + GPS )仓库的建设。设计基于 StarRocks + MinIO 的 存算分离 架构,在私有化物理机环境下实现低成本存储与秒级多维 查询。
    2. ETL 与 Python 工程化:放弃传统 Java 开发模式,主导使用 PySpark 编写高性能数据清洗脚本。解决海量 JSON/GPS 日志处理中的数据倾斜与内存溢出 (OOM) 问题,建立 Python Native 的数据工程体系。
    3. AI 数据管道建设:负责搭建数据湖 -> 训练集群的高速数据传输通道。解决海量小文件读取瓶颈,优化 I/O 吞吐,确保清洗后的语料能高速流向 GPU 集群,保障 AI 训练效率。
    4. 集群稳定性:负责私有云环境下大数据组件( Spark on K8s/YARN, StarRocks )的部署与监控。配合 AI 团队进行资源隔离( CPU vs GPU ),确保数据处理与模型训练互不干扰。
    5. 计算机相关专业本科及以上学历,5 年以上大数据架构经验,必须有 PB 级数据处理实战经验。
    6. 精通 Python (PySpark):具备大型 Python 工程开发能力。同时具备 阅读 Java/Scala 报堆栈 (Stack Trace) 的能力,能排查 Spark 底层的 JVM 问题。
    7. 精通 MPP 数据库,是 StarRocks 、Apache Doris 或 ClickHouse 的重度使用者。
    8. 熟悉 私有云/IDC 环境下的资源规划,具备在物理机上搭建和维护大规模集群的能力。

    推荐算法 1 、负责抖音业务推荐算法工作,与来自国内外名校、有丰富业界经验的同学合作,共同搭建行业顶级的推荐系统,为用户提供一流的产品体验; 2 、将最前沿的机器学习技术应用到抖音的核心场景业务,优化用户体验促进业务发展; 3 、研究方向包含且不局限于:深度学习、图神经网络、多任务学习、Learning To Rank 、模型压缩和加速、多模态技术等,结合业务的实际问题来做好技术的探索和研究; 4 、和产品、运营团队紧密合作,通过对产品和用户的深入理解和分析,制定算法策略促进抖音生态的长期繁荣发 1 、具备优秀的编码能力,扎实的数据结构和算法功底; 2 、对机器学习有热情、乐于学习、思考和创新,有自然语言处理、数据挖掘、计算机视觉相关的工作经验; 3 、熟悉常见算法,如 LR ,GBDT ,DNN 等,具备推导, 实现, 应用能力; 4 、熟悉 C++和 Python 语言,熟悉 Linux 开发环境; 5 、优秀的分析问题和解决问题的能力,有良好的沟通表达能力和团队精神。 全职远程,不接受兼职,行业全球 ai 内容生成 toc 平台 25k-45k 想聊聊的 TG:@chycgz

    目前尚无回复
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   3679 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 04:55 · PVG 12:55 · LAX 21:55 · JFK 00:55
    ♥ Do have faith in what you're doing.