V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
pibicha
V2EX  ›  程序员

被强拉来做 Olap 系统,求大佬指点怎么搞

  •  2
     
  •   pibicha · 2019-11-20 09:43:55 +08:00 · 5934 次点击
    这是一个创建于 1837 天前的主题,其中的信息可能已经有所发展或是发生改变。
    • 由于人手问题,被强拉到一个报表项目。架构师用的是 clickhouse,后端开发就我一个。 前端和大数据开发各有一个人

    项目主要是从一堆数据中,加工出一堆报表展示到前端页面(柱状图、饼状图、桑基图、等等)。

    我这完全不知道怎么开展啊... 有做过类似项目的大佬,能指点下么?


    PS 说得不是很清楚 请见谅啊,完全不熟这种类型的项目;本来这个项目是找 BI 做的,BI 不做,强拉我进来。。

    26 条回复    2019-11-27 05:12:34 +08:00
    ra1983
        1
    ra1983  
       2019-11-20 09:53:00 +08:00 via Android
    Tableau
    刚从 Las Vegas 的 TC19 回来
    pibicha
        2
    pibicha  
    OP
       2019-11-20 09:56:29 +08:00
    @ra1983 膜拜....
    fancy111
        3
    fancy111  
       2019-11-20 09:59:20 +08:00
    你到底是负责后端还是前端呢?后端好说啊,直接 API 数据出来,让他们处理。
    前端的话,赶紧拿起文档读吧,没别的方法。
    min
        4
    min  
       2019-11-20 10:00:31 +08:00
    你这个后端负责数据部分么?
    guxingke
        5
    guxingke  
       2019-11-20 10:01:09 +08:00
    https://superset.incubator.apache.org/

    参考这个搞一搞了, 这个已经支持了 clickhouse 做数据源了
    pibicha
        6
    pibicha  
    OP
       2019-11-20 10:03:27 +08:00
    @min 对。。我后端处理数据,现在不知道咋“处理”
    pibicha
        7
    pibicha  
    OP
       2019-11-20 10:03:39 +08:00
    @guxingke 感谢~~ 我瞅瞅
    lidongdongnk
        8
    lidongdongnk  
       2019-11-20 10:07:13 +08:00   ❤️ 1
    推荐 metabase,一个开源的 bi 系统,支持 clickHouse 做数据源
    写好查询语句,直接界面配置可视化就行了
    pibicha
        9
    pibicha  
    OP
       2019-11-20 10:15:59 +08:00
    @lidongdongnk 好的好的,我瞅瞅,感谢。我之前看的是 kylin,要先构建 cube ;我对比一下哪个更适合我
    lidongdongnk
        10
    lidongdongnk  
       2019-11-20 11:06:48 +08:00
    @pibicha kylin 我也用过,如果是做 bi,还是 metabase 更好一些,metabase 同时支持定时任务,可以设置一些条件自动发邮件给指定的人,其它的网页要引用图表也比较方便。上面有人推荐 tableau,这个功能更强一些,但是得付费
    zefpe2
        11
    zefpe2  
       2019-11-20 11:08:53 +08:00
    @lidongdongnk 看了一下 metabase,好像并不支持 clickhouse 哎
    lidongdongnk
        12
    lidongdongnk  
       2019-11-20 11:15:21 +08:00
    @zefpe2 肯定支持,我现在就在用,metabase 版本是 v0.34.0
    srlp
        13
    srlp  
       2019-11-20 13:18:36 +08:00 via iPhone
    本人这边的理解(不保证完全正确,仅供参考):

    这里涉及到几个层面的概念:

    clickhouse 是一个“大数据的数据库”。

    kylin 一般是数据处理流程的一部分,用于加快计算流程的,不知道能否或是否必要和 clickhouse 结合使用,其中“构建 cube”的部分就是用于加速统计的(本质其实是预计算)。

    superset 是“前端”,就是提供给用户在已有数据集的情况下进行画图和搭建报表的部分。

    就楼主的情况而言,应该 5 楼所说的那样,clickhouse + superset,就能搭起一个普通用户能用的系统了。
    microcn
        14
    microcn  
       2019-11-20 13:47:13 +08:00
    有钱直接 Tableau,没钱就 Echatrs 画起来。
    pwrliang
        15
    pwrliang  
       2019-11-20 14:42:43 +08:00   ❤️ 1
    我在某公司数据部门,以架构的角度描述下吧。
    1. 数据抽取业务数据( mysql、kafka、日志等)入数据仓库( Hive ):这一步平抽,不作处理
    2. 数仓建模:将上一步的 Hive 表做一些加工、清洗、关联也就是 ETL (具体参考数仓建模)
    3. 搭建 OLAP DB (如 Presto、Impala、Kylin 等),用来查询第二步加工过的数据
    4. BI 应用(报表、图表等)拼 SQL,扔给第 3 步 OLAP DB 查询,然后将查询到的结果显示在页面上(可以自己开发也可以用开源的)
    pibicha
        16
    pibicha  
    OP
       2019-11-20 16:19:21 +08:00
    @pwrliang 对,我这流程应该也是这样。1、2 步有数据分析师来做, 第 3 步搭建 olap 引擎已经有人做好了, 第 4 部 BI 拼 SQL,目前是让我来;然后查完数据给前端, 第 5 步前端用 echart 展示。

    问题是第 4 步拼 SQL, 我觉得是数据分析师来搞.......... 这种系统不会拼 SQL 的后端,要我有何用..
    pibicha
        17
    pibicha  
    OP
       2019-11-20 16:27:34 +08:00
    @srlp 是的, 我这应该不用 superset 了。前端展示的时候有专门的前端工程师来搞。 后端只用 clickhouse 就行了。
    pibicha
        18
    pibicha  
    OP
       2019-11-20 16:28:00 +08:00
    @microcn 好像用的就是 echart
    fireapp
        19
    fireapp  
       2019-11-20 16:55:57 +08:00 via iPhone
    bi 平台有很多功能的,需要 web 跟前端来做
    1. 你得接入用户系统吧,权限管理之类的
    2. 数据展示有各种提前跑好的各种报表数据,得有分门别类目录菜单吧,还有简单的时间或其他维度过滤
    3. 即时查询的,也要根据各种数据类型,提供各个维度查询,在页面上就是各种下拉列表,选择框,输入框之类的,逻辑上就是拼 sql,总不能让客服啊,领导啊,运营啊直接写 sql 吧
    4. 用户自定义脚步啊,各种定时配置啊,然后把结果发邮件之类的
    5. 各种数据的提前预热啊,之类的太多了,就是一个以数据为主的后台系统
    pibicha
        20
    pibicha  
    OP
       2019-11-20 18:01:54 +08:00
    @fireapp 感觉要变成做 BI 的了 o(╥﹏╥)o 但是我们有专门的 BI 平台啊 ╮(╯▽╰)╭ 心酸
    levelworm
        21
    levelworm  
       2019-11-22 05:08:59 +08:00
    这不就是 BI 么?首先分析需求,就是看有啥报告要出的,然后 ETL 进数据库做数据仓库,最后接 Tableau 或者 Power BI 出报告。Clickhouse 不熟,也许能够直接拿来用?我记得它本身适合做 OLAP。

    Tableau 的话可能需要 ODBC Driver,Power BI 查了下应该也是如此。

    这活可是我梦想的活,可惜没机会做。
    levelworm
        22
    levelworm  
       2019-11-22 05:12:27 +08:00
    DWH 的话 PostgreSQL 怎么样?这也是免费的,不过不知道你们数据量,以及原先存储在哪里。
    levelworm
        23
    levelworm  
       2019-11-22 05:17:56 +08:00
    @fireapp 同意,基本上这种系统都是两部分,一部分是 Monitoring 性质的,直接做成 Dashboard,如果效率不够高就要想办法预先 aggregate 等等。还有一部分是 Analysis 性质,其实不应该是楼主管,其他部门应该有 BA/DA,但是需要楼主做好数据仓库,否则查询起来要死了。
    pibicha
        24
    pibicha  
    OP
       2019-11-22 21:36:58 +08:00
    @levelworm 我可能真不是这个领域的。。。 除了 BI 和 ETL 其他都没看懂(实际上我之前连 BI 和 ETL 是啥都不知道)
    levelworm
        25
    levelworm  
       2019-11-22 22:57:47 +08:00
    @pibicha 我也不是 BI 的,是 BA。。。不过经常和他们接触就是了。你要出报表的话,肯定有需求对吧,有了需求就知道大体上目前的数据行不行了。因为很多时候原始数据查询起来特别麻烦,效率很低,所以这时候就要做成 OLAP,然后再写查询,最后进可视化软件。但是具体怎么做我也不懂,而且我印象中 Clickhouse 本身就是 column-based,适合做数据仓库,所以弄不好不怎么需要处理?
    levelworm
        26
    levelworm  
       2019-11-27 05:12:34 +08:00
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1004 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 23:05 · PVG 07:05 · LAX 15:05 · JFK 18:05
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.