V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
cassidyhere
V2EX  ›  程序员

spark 怎样处理后台需要被频繁更新的数据?

  •  
  •   cassidyhere · 2018-10-20 14:59:38 +08:00 · 2051 次点击
    这是一个创建于 2217 天前的主题,其中的信息可能已经有所发展或是发生改变。
    目前在做的一个项目,用户上传 csv 文件后,可以对文件进行 ETL 操作。目前后台用 spark 处理,spark 把用户上传的文件创建 table 并缓存,用户每次对文件进行操作都要取出相应的 table 并更新。用户操作比较频繁,文件可能从几 m~几 g 不等,修改 table 和更新缓存的开销比较大,有没有比较好的优化方案? web 开发里多个接口会修改或访问同一个比较大的对象,一般会怎么处理?
    1 条回复    2018-10-21 03:25:45 +08:00
    piggybox
        1
    piggybox  
       2018-10-21 03:25:45 +08:00
    可能需要支持频繁更新的存储,比如 Kudu
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3708 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 00:52 · PVG 08:52 · LAX 16:52 · JFK 19:52
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.