V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
shoumu
V2EX  ›  程序员

大数据量下基于 ES 的统计分析怎么做?

  •  
  •   shoumu ·
    shoumu · 2016-06-02 21:20:26 +08:00 · 9285 次点击
    这是一个创建于 2855 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有下面的一个需求,请问一下大家有什么好的方案? 现在有亿级别的新闻文本数据,每条文本有超过二十个的属性(比如新闻正文、译文、时间、国家、地点等),已经使用 es 对这些数据建了索引。

    现在要根据提供的关键词进行检索,对检索到的前 N 条( N 可能为 2000 、 5000 、 10000 、 100000 等)数据进行分析,主要是针对各个属性进行统计,比如统计各个国家的新闻数量。

    目前是直接通过 es 拿到结果做统计,但是非常慢,有什么好的方案吗?

    7 条回复    2016-06-03 20:17:56 +08:00
    ligyxy
        1
    ligyxy  
       2016-06-02 21:23:24 +08:00 via Android
    Spark cluster
    Numbcoder
        2
    Numbcoder  
       2016-06-02 22:52:25 +08:00
    试试这个 druid.io
    fcicq
        3
    fcicq  
       2016-06-02 22:54:58 +08:00
    带宽和 IOPS 就是单机水平那就不可能指望有突破啊.
    shoumu
        4
    shoumu  
    OP
       2016-06-03 09:35:41 +08:00
    @fcicq
    带宽和 IOPS 都好说,这里想先看看有啥好的方案
    shoumu
        5
    shoumu  
    OP
       2016-06-03 09:35:55 +08:00
    @ligyxy
    @Numbcoder
    谢谢两位,我先去看看
    SmiteChow
        6
    SmiteChow  
       2016-06-03 16:19:49 +08:00
    我觉得你的 ES 部署方式有问题,是分布式的么?
    shoumu
        7
    shoumu  
    OP
       2016-06-03 20:17:56 +08:00
    @SmiteChow
    是分布式的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5493 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 09:06 · PVG 17:06 · LAX 02:06 · JFK 05:06
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.