这是一个创建于 2256 天前的主题,其中的信息可能已经有所发展或是发生改变。
目前在做的一个项目,用户上传 csv 文件后,可以对文件进行 ETL 操作。目前后台用 spark 处理,spark 把用户上传的文件创建 table 并缓存,用户每次对文件进行操作都要取出相应的 table 并更新。用户操作比较频繁,文件可能从几 m~几 g 不等,修改 table 和更新缓存的开销比较大,有没有比较好的优化方案? web 开发里多个接口会修改或访问同一个比较大的对象,一般会怎么处理?
1 条回复 • 2018-10-21 03:25:45 +08:00
|
|
1
piggybox 2018-10-21 03:25:45 +08:00
可能需要支持频繁更新的存储,比如 Kudu
|