V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
cqcn1991
V2EX  ›  问与答

适用于小团队的数据平台、数据仓库解决方案?

  •  
  •   cqcn1991 · 2019-03-09 12:31:01 +08:00 · 3959 次点击
    这是一个创建于 2120 天前的主题,其中的信息可能已经有所发展或是发生改变。

    目前在做数据平台方面的工作,发现对大公司而言,方案其实都很固定了

    但对于小团队来说,有什么好的解决方案?

    早期主要是用来解决 BI,数据查询需求,可支持或不支持基于数据的机器学习项目

    • 最好基于开源、免费
    • HDFS, Spark, 系统资源最好能有厂商维护, 因为这些其实运维成本都不小

    目前能想到的

    • Google Analytics/Mixpanel 埋点 + 业务数据库备份用 Metabase/Superset 查看

    但不知道好的 ETL 工具用啥,莫非用 airflow? MySQL 库是否就足够了?

    28 条回复    2019-03-28 08:40:21 +08:00
    LightLolo
        1
    LightLolo  
       2019-03-09 13:30:12 +08:00
    ETL 工具可以尝试一下 kettle。
    liprais
        2
    liprais  
       2019-03-09 14:56:45 +08:00
    etl hive spark 搞搞就完了
    可视化 superset / zeppelin / Jupyter 哪个简单用哪个
    小公司小团队就别搞啥数据仓库了,工作量太大,搞个数据集市收工
    ddkk1112
        3
    ddkk1112  
       2019-03-09 17:01:56 +08:00 via iPhone
    先确定数据分析支持的业务范围
    自己采集数据后可以上传阿里云计算,或者直接阿里云采集并计算
    数据展示用 flask+element,一周就可以成型
    hilbertz
        4
    hilbertz  
       2019-03-09 17:14:20 +08:00
    用 greenplum 就可以了
    cqcn1991
        5
    cqcn1991  
    OP
       2019-03-09 18:36:54 +08:00 via Android
    @liprais 啥意思? hive/HDFS 的维护需要多少人?
    cqcn1991
        6
    cqcn1991  
    OP
       2019-03-09 18:51:24 +08:00 via Android
    @ddkk1112 是要用阿里云的什么产品?
    sampeng
        7
    sampeng  
       2019-03-09 18:54:15 +08:00 via iPhone
    直接上云…讲真。这些需求小团队肯定是上云成本最低。无论哪个角度
    cqcn1991
        8
    cqcn1991  
    OP
       2019-03-09 18:58:31 +08:00 via Android
    @sampeng 啥意思? AWS red shift ?
    sampeng
        9
    sampeng  
       2019-03-09 19:01:57 +08:00 via iPhone
    @cqcn1991 网络没问题。如果是海外用户肯定 aws 了。国内不好推荐…没用过…主要是数据的可靠性。腾讯和阿里都出过数据丢失…
    sampeng
        10
    sampeng  
       2019-03-09 19:02:58 +08:00 via iPhone
    @cqcn1991 只是做离线数据分析,日志分析的。我觉得… aws 吧…
    sampeng
        11
    sampeng  
       2019-03-09 19:05:11 +08:00 via iPhone
    最近也正好看到这块。小需求…小团队的需求。aws 都不需要 ec2。全家桶。几天成型。把数据灌进去就能用了
    cqcn1991
        12
    cqcn1991  
    OP
       2019-03-09 19:08:37 +08:00 via Android
    @sampeng aws 除了 red shift 还用些啥产品呢?也是自己部署些应用?有啥推荐的教程之类吗?
    sampeng
        13
    sampeng  
       2019-03-09 19:13:43 +08:00 via iPhone
    @cqcn1991 其它的没了解…不用部署应用…鼠标点点。给你入口,api 把数据灌进去。就能用了…文档很细致了。自己看官网教程吧。算一下费用能不能接受…都是按使用量收费,精确到请求次数。其实阿里云国内也可以。看你看重什么…
    sampeng
        14
    sampeng  
       2019-03-09 19:16:10 +08:00 via iPhone
    @cqcn1991 aws 大计算和 ai 那么多产品呢。总有一个适合你。最不济的。连 elk 都给你准备好了。再高级点就是 emr 了。你要的 hdfs 和 spark。flink 啥的都有。你要的帮你维护机器和程序自己撸用例。
    sampeng
        15
    sampeng  
       2019-03-09 19:17:17 +08:00 via iPhone
    但按你的最近需求。真的 elk 完全够用…几年十来万差不多了…
    cqcn1991
        16
    cqcn1991  
    OP
       2019-03-09 20:01:16 +08:00
    @sampeng 谢谢大哥!
    想问一下,关于数据平台,从几个人,到小团队到大团队的演化,有什么文档、教程吗?
    比如你说的,用 AWS/阿里云 ELK 一直到 HDFS/Spark。因为我知道的就是自研 HDFS+各种自研产品...
    fredliang
        17
    fredliang  
       2019-03-09 20:11:25 +08:00 via Android
    阿里云可以大概过一下 dataworks 的文档,写的已经比较完善了。如果没有很强的自建需求,从经济和研发成本来看公有云应该是最好的选择。
    likuku
        18
    likuku  
       2019-03-09 22:32:52 +08:00 via iPhone
    @cqcn1991 也可以直接打电话找 aws 售前技术支持咨询下,若比较合意,花点小钱买个 aws 技术支持服务,可以详细和专业大佬讨论方案。
    sampeng
        19
    sampeng  
       2019-03-09 22:33:52 +08:00 via iPhone
    @cqcn1991 官方文档…没有之一。实在怕搞不定。都 support 服务。每月 10%支出。甚至会给你架构建议
    sampeng
        20
    sampeng  
       2019-03-09 22:34:55 +08:00 via iPhone
    @cqcn1991 演化就是踩雷的过程。没雷了就演化结束
    wc951
        21
    wc951  
       2019-03-10 00:34:36 +08:00 via Android
    cdh 社区版,etl 用 kettle
    qwingmix
        22
    qwingmix  
       2019-03-26 17:08:39 +08:00
    我们是一致用 GA+google tag manager, 我觉得日活在 10W 以下的基本够用,各种实时啊,聚合啊,埋点专题分析啊,都足够了。python 写脚本定制一些专题,导入到本地数据库,也足够了。 最后用 superset 展示。
    其实你上面也写了这个方案。
    cqcn1991
        23
    cqcn1991  
    OP
       2019-03-26 17:23:50 +08:00 via Android
    @qwingmix 话说你们数据怎么导入的? bigquery 导出?

    用的什么数仓?直接 postgre 备份主库?还是?
    qwingmix
        24
    qwingmix  
       2019-03-27 08:40:58 +08:00
    @cqcn1991 直接通过 python 脚本导出到 mysql,复杂一点的,就先在 python pandas 里面做计算,计算完再导出到 mysql。主要是 python 里面找到一个可以无抽样导出的轮子,轻松解决 GA 数据结果抽样的问题。
    cqcn1991
        25
    cqcn1991  
    OP
       2019-03-27 12:48:39 +08:00 via Android
    @qwingmix 恩,那 GA 的数据咋进去的?先进,big query 吗?
    qwingmix
        26
    qwingmix  
       2019-03-27 14:01:19 +08:00
    @cqcn1991 啊? GA 的,就用 GTM 在 web 和 app 里面调用 GA 的 api 埋点啊。
    cqcn1991
        27
    cqcn1991  
    OP
       2019-03-27 18:50:33 +08:00 via Android
    @qwingmix 那 GA 的原始数据你们拿回来吗?
    qwingmix
        28
    qwingmix  
       2019-03-28 08:40:21 +08:00
    @cqcn1991 仅仅部分会拿,比如 event label 里面塞满了我们自己的维度组合,GA API 拿到本地后分割开来。 一般都不拿原始数据。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5425 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 08:01 · PVG 16:01 · LAX 00:01 · JFK 03:01
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.