linhrdom
V2EX  ›  数据库

团队日志要存几年,怎么找一个便宜又能查的地方?

  •  1
     
  •   linhrdom · Aug 21, 2025 · 9660 views
    This topic created in 265 days ago, the information mentioned may be changed or developed.

    我们这边每天都会落几十 GB 日志,埋点+调试都有。 想法比较简单:

    • 日志最好能留够 1 年。
    • 偶尔要查问题,用 SQL 能直接捞出来就行。
    • 不想自己搭 ES/数仓,成本太高、维护也麻烦。

    之前看过对象存储 + Presto(Trino) 这套,但有点懒得自己搭建和维护,感觉太折腾。 大家平时是怎么搞的?有没有省心点的办法?

    96 replies    2025-08-24 14:28:34 +08:00
    FlashEcho
        1
    FlashEcho  
       Aug 21, 2025   ❤️ 3
    grafana 可视化+promtail 收集+loki 日志聚合+任意对象存储,k8s helm chart 一个 loki-stack 全搞定了,只要调调 yaml 配置,相当不折腾
    c00WKmdje2wZLrSI
        2
    c00WKmdje2wZLrSI  
       Aug 21, 2025
    阿里云或者腾讯云的日志服务?
    phrack
        3
    phrack  
       Aug 21, 2025
    @chesha1 你这相当复杂了
    Nitroethane
        4
    Nitroethane  
       Aug 21, 2025 via iPhone
    试试阿里云 maxcompute ?内部叫 odps ,挺好用
    nm1st
        5
    nm1st  
       Aug 21, 2025   ❤️ 2
    duckdb+s3
    Smileh
        6
    Smileh  
       Aug 21, 2025
    买个 10T 硬盘
    linhrdom
        7
    linhrdom  
    OP
       Aug 21, 2025
    @c00WKmdje2wZLrSI 有点贵,1TB 一年 2700 左右。有点恐怖了
    COW
        8
    COW  
       Aug 21, 2025 via Android
    presto 非常吃内存的,而且也不太推荐用于块存储查询,要不看看 ck ?
    linhrdom
        9
    linhrdom  
    OP
       Aug 21, 2025
    @COW 感谢建议,避坑了
    Maboroshii
        10
    Maboroshii  
       Aug 21, 2025   ❤️ 2
    没有银弹... 最简单就是存文件,grep 查
    bruce0
        11
    bruce0  
       Aug 21, 2025
    我前几天刚搭了一套 ELK, filebeat 收集,logstash 分析处理,ES 存, kibana 展示. 除了 filebeat 都是 docker(podman) 跑的, 现在只收集程序运行 log.每天 2G 左右,保存 14 天,原始 log 永久保存(gov 规定的)

    前几天想把玩家行为 log 也写入 ES,每天可能在 10G 左右,打算保存 1 年+, 算了一下,硬盘需求太大,还是用原来的吧(原来有一套程序+脚本能通过原始 log 文件查找分析玩家行为) 就没必要把行为 log 再写入 ES 了
    vincentWdp
        12
    vincentWdp  
       Aug 21, 2025
    aws Athena? 虽然成本也不低
    Dragonish3600
        13
    Dragonish3600  
       Aug 21, 2025 via iPhone
    aws s3
    pingdog
        14
    pingdog  
       Aug 21, 2025 via Android
    买冷存储块,3 天后就放入冷库,要查在捞出来
    DefoliationM
        15
    DefoliationM  
       Aug 21, 2025 via Android
    quickwit+s3 ,完美符合你的要求,支持全文搜索。
    ETiV
        16
    ETiV  
       Aug 21, 2025 via iPhone
    https://github.com/openobserve/openobserve

    🚀 10x easier, 🚀 140x lower storage cost, 🚀 high performance, 🚀 petabyte scale - Elasticsearch/Splunk/Datadog alternative for 🚀 (logs, metrics, traces).

    OpenObserve (O2 for short) is a cloud-native observability platform built specifically for logs, metrics, traces, analytics, RUM (Real User Monitoring - Performance, Errors, Session Replay) designed to work at petabyte scale.
    perfectlife
        17
    perfectlife  
       Aug 21, 2025 via Android
    云上直接用云平台的日志服务,想降低成本就设置把历史日志扔到归档存储里
    BlueSpace4512
        18
    BlueSpace4512  
       Aug 21, 2025   ❤️ 4
    我有一技:
    你去 steam 上买个 wallpaper engine
    然后使用 SteamCMD 命令行向 wallpaper engine 创意工坊上传作品,在这个作品里把你的日志文件加密丢进去,然后随便整个图片包装下上传,描述或者标题就写你的日志备份日期
    一次传十几个 G 的文件没太大问题,还能免费用到 steam 的 CDN 下载服务
    而且完全可以自动化进行,因为 steam 有 SteamCMD 功能可以命令行运行,可以部署在 linux 或者 docker 上
    w568w
        19
    w568w  
       Aug 21, 2025
    ETiV
        20
    ETiV  
       Aug 21, 2025 via iPhone   ❤️ 1
    我也给我们项目写过

    - 日志每天 gzip 上传到阿里云 oss 、AWS S3 这种地方,存储路径、文件名都有规律的
    - 配置好归档冷存储策略
    - 等需要搜索的时候,大批量开按量计费的虚拟机,然后用分布式、多进程、管道化的方式来 gunzip | grep 想要搜索的内容
    * 机器都开在了同 region ,访问走内网域名,不会收取 egress 流量费
    - 上面的工作是一个异步的任务,开跑了就可以挂着了
    - 跑完会给企业微信群里发条消息,说最终 grep 匹配出来的结果放在了什么路径下。然后把跑任务的机器自动关机。
    lscho
        21
    lscho  
       Aug 21, 2025   ❤️ 4
    便宜
    不折腾
    能直接用( SQL 能直接捞出来)

    以上不可能三角
    JungleZZ
        22
    JungleZZ  
       Aug 21, 2025
    @sjbsjb233 笋都让你夺完了...hhh
    wupher
        23
    wupher  
       Aug 21, 2025
    - 常用查询放 ELK ,一般双周或一月,视各项目重要情况。

    - 归档日志存放于 Hadoop ,通过 API 进行检索。
    defunct9
        24
    defunct9  
       Aug 21, 2025   ❤️ 1
    @ETiV 你这一股子的咖喱味,能行吗
    ITisCool
        25
    ITisCool  
       Aug 21, 2025
    @sjbsjb233 #18 你说得这么详细,想必是正在这么干
    zed1018
        26
    zed1018  
       Aug 21, 2025
    @phrack 实际上一点也不,除了 s3 配置一下,剩下就是 replica 的设置搞一搞绝大部分用 helm values 的默认值就完事了
    slowman
        27
    slowman  
       Aug 21, 2025   ❤️ 1
    每天上传几十 GB 日志,会不会被认定跑 PCDN 被限速?
    512357301
        28
    512357301  
       Aug 21, 2025 via Android
    用 duckdb 转成 parquet ,然后随便放哪里(本地或者 s3 ,甚至 http 文件服务器也行),用 duckdb 读取,速度也很快。
    512357301
        29
    512357301  
       Aug 21, 2025 via Android
    每天啊,那这量不算小,一般建议数仓了,可以先用 duckdb 试试,不行就上 ck 数仓
    dji38838c
        30
    dji38838c  
       Aug 21, 2025   ❤️ 2
    如果一年几万块,不值得出
    那么大概率这数据也不值得放
    marquina
        31
    marquina  
       Aug 21, 2025 via iPhone
    @dji38838c #30 +1 ,用价格竞争最充分的对象存储来算,每月几十 g 的数据一年下来也得 5 位数了。如果这钱都不想出那说明这数据没那么值钱。
    billccn
        32
    billccn  
       Aug 22, 2025
    以前 AWS S3 还支持直接运行 SQL-like 查询呢: https://docs.aws.amazon.com/AmazonS3/latest/userguide/selecting-content-from-objects.html

    当然这种好事已经结束了
    guo4224
        33
    guo4224  
       Aug 22, 2025 via iPhone
    找个大善人给你出钱出精力维护
    xuanbg
        34
    xuanbg  
       Aug 22, 2025
    日志留够 1 年是你想多了,除非用于数据恢复。查问题的话,7 天足够了。一般也就 24 小时内的问题要查。
    bk201
        35
    bk201  
       Aug 22, 2025
    自己买 nas 存储设备存储最便宜。
    ExplodingDragon
        36
    ExplodingDragon  
       Aug 22, 2025
    一楼的方案算是比较好的了,prometheus 也可以顺便用 grafana ,只不过每天落几十 GB 日志有点难崩,假如 30G/d, 一年就是 10T + 了
    jnliyan1
        37
    jnliyan1  
       Aug 22, 2025
    啥问题需要一年后查..
    penisulaS
        38
    penisulaS  
       Aug 22, 2025
    既要低成本又要方便查询,我感觉需要建多层缓存
    opengps
        39
    opengps  
       Aug 22, 2025
    其实一块大容量的移动硬盘已经足够靠谱了
    spritecn
        40
    spritecn  
       Aug 22, 2025
    年? 没审计需求的话,到月就可以了吧,我只存 10 天,方案是 OpenObserve 走 s3
    spritecn
        41
    spritecn  
       Aug 22, 2025
    OpenObserve 存储也是 parquet
    yudoo
        42
    yudoo  
       Aug 22, 2025
    ilogtail+clickhouse 最简单的 单节点就行 压缩比 es 高 7 倍,硬盘 1T 差不多了
    guanyujia5444
        43
    guanyujia5444  
       Aug 22, 2025
    对象存储+分层存储,要不就降低保留时间,再便宜的方案可能可用性就受影响了
    i8086
        44
    i8086  
       Aug 22, 2025
    频繁查询都是 15 天内的,我这里 3 个月前的日志很少要查,平均下来 1 年查不到 2 次,那时候把日志导出为文本,直接用 winrar + 大字典压缩归档了,超级省空间,10G 日志压缩完不到 1G 。

    完善后续恢复导入流程就可以了。
    i8086
        45
    i8086  
       Aug 22, 2025
    按月归档。
    TaiShang
        46
    TaiShang  
       Aug 22, 2025
    victorialog
    tomatocici2333
        47
    tomatocici2333  
       Aug 22, 2025
    百度云自动备份就行了 就一个会员钱
    Sezxy
        48
    Sezxy  
       Aug 22, 2025
    日志我们最多只存 30 天
    RedisMasterNode
        49
    RedisMasterNode  
       Aug 22, 2025
    一年 2700 的成本都不愿意..吗 这不对吧
    dode
        50
    dode  
       Aug 22, 2025
    试试 clickhouse ,带压缩功能
    evan1
        51
    evan1  
    PRO
       Aug 22, 2025
    @RedisMasterNode #49 这是 1t 的价格。op 一天就产生几十 g 的日志。一年下来也要几万块钱了。
    RedisMasterNode
        52
    RedisMasterNode  
       Aug 22, 2025
    @evan1 按 30G 一年只有 10T 左右,现在日志存储压缩率极高,轻松可以有 10x 以上的压缩率把存储开销保持在 2T 内。

    See: https://victoriametrics.com/products/victorialogs/
    joyoyao
        53
    joyoyao  
       Aug 22, 2025
    clickhouse 上手简单。支持到期日志自动删除,压缩算法也给力。也支持 sql 。搞个大一点的机械硬盘就行了。
    guxingke
        54
    guxingke  
       Aug 22, 2025
    doris ,MySQL 协议兼容,支持分层存储(冷数据丢到 OSS)
    duanxianze
        55
    duanxianze  
       Aug 22, 2025
    买两块硬盘不就好了,互为备份就行了,五年内还是稳的
    fengfisher3
        56
    fengfisher3  
       Aug 22, 2025
    日志最好能留够 1 年。
    偶尔要查问题,用 SQL 能直接捞出来就行。
    不想自己搭 ES/数仓,成本太高、维护也麻烦
    -------------------------------------------------------
    大量长时间存储,还要方便能直接使用,又不想麻烦的,真的如 @lscho 所说,不可能三角。
    每天 几十 GB 日志,这个量,光存储的钱都不少,还不想麻烦,真的不可能,换方案吧。
    luzihang
        57
    luzihang  
       Aug 22, 2025
    年初遇到个需求,金融机构上面来检查,按照订单号,要查 5 年内的日志:请求和响应 2 条。后面写个脚本,读按照日期归类的日志压缩文件。
    salmon5
        58
    salmon5  
       Aug 22, 2025
    @duanxianze #53 的方案可以了,买 2 块大硬盘足够了
    laminux29
        59
    laminux29  
       Aug 22, 2025
    你既要方便地能直接 SQL 查询,又懒得搭建和维护。

    这边建议您花钱找人帮您搭建。
    spritecn
        60
    spritecn  
       Aug 22, 2025   ❤️ 1
    @w568w influxDB 新版本也是走 parquet 存储的,但现在开源版本还没有 s3 可以用
    la2la
        61
    la2la  
       Aug 22, 2025
    假设 1 天 100 GB 数据,1 年 大概 36.6 TB 左右的数据
    这点数据可以考虑一下云厂商的 OSS 服务,在加上冷热模式,用不了几个钱。
    不过你要支持可查,那么用数据湖格式,存储落到 OSS 上,使用 Doris 或者 Spark 挂个外表就能查了。
    spritecn
        62
    spritecn  
       Aug 22, 2025
    @joyoyao #53 clickhouse 需要机器好,机器不好可能会一条 sql 拉挂掉,太吃 cpu 了
    JoeDH
        63
    JoeDH  
       Aug 22, 2025
    一年有没有必要?如果接受不了云服务的价钱,那还是自己买存储搭一套吧
    Moatkon
        64
    Moatkon  
       Aug 22, 2025
    找一个压缩算法,规划好分片维度。后面业务如果需要找到指定分片解压
    zhangxiangperson
        65
    zhangxiangperson  
       Aug 22, 2025   ❤️ 1
    如果不想自己拼组件,可以考虑全托管的湖仓,(对象存储 + 表格式 + SQL 引擎一体化)。例如把日志直接落到云器 Lakehouse ,一年存储免费的 “资源包”,1TB 存储免费,存储+SQL 即席查询的诉求能一次到位:
    https://www.yunqi.tech/product/one-year-package
    linhrdom
        66
    linhrdom  
    OP
       Aug 22, 2025
    @vincentWdp AWS Athena 我简单算了一下,可能要 4000 多美金,更恐怖了。
    linhrdom
        67
    linhrdom  
    OP
       Aug 22, 2025
    @DefoliationM 可以,但不是 SQL
    linhrdom
        68
    linhrdom  
    OP
       Aug 22, 2025
    @fengfisher3 感谢分析
    linhrdom
        69
    linhrdom  
    OP
       Aug 22, 2025
    @zhangxiangperson 这个好,试试
    wineejam
        70
    wineejam  
       Aug 22, 2025
    直接上 SLS
    tooroot
        71
    tooroot  
       Aug 22, 2025
    Doris 存算分离模式 + OSS 冷备
    gzldc
        72
    gzldc  
       Aug 22, 2025
    公司出钱 让公司买现成的 没钱就不留呗
    yidinghe
        73
    yidinghe  
       Aug 22, 2025 via Android
    几十 TB 一年的存储费用可不少,任何云服务都不便宜。一个方案是用 btrfs 文件系统存储原始日志文件,挂载时加上压缩参数,能压缩 80%左右,35TB 原始文本可压缩成 7TB ,一个硬盘就能装下,查询日志用 grep 即可。
    vopsoft
        74
    vopsoft  
       Aug 22, 2025
    "我们这边每天都会落几十 GB 日志,埋点+调试都有。 想法比较简单" 最后这个句改成 "想法太天真"吧
    需求能实现 也是野路子或者薅羊毛 感觉就是给 2 毛钱预算 让你做核弹 ...唉
    js2854
        75
    js2854  
       Aug 22, 2025
    腾讯云 CLS 低频版,关闭全文索引,添加需要的键值索引,成本还比较低
    Gilfoyle26
        76
    Gilfoyle26  
       Aug 22, 2025
    百度云盘
    howencilx
        77
    howencilx  
       Aug 22, 2025
    重要就会花钱,舍不得花钱那还是不太重要
    wangtian2020
        78
    wangtian2020  
       Aug 22, 2025
    自己买一台 NAS

    renting-is-for-suckers
    https://andrewkelley.me/post/renting-is-for-suckers.html
    quicksandznzn
        79
    quicksandznzn  
       Aug 22, 2025
    我们是 es 保留近几天 其它的云服务深度归档(便宜) 需要的时候在恢复
    BlueSkyXN
        80
    BlueSkyXN  
       Aug 22, 2025
    网盘+压缩
    DLOG
        81
    DLOG  
       Aug 22, 2025
    filebeat -> kafka -> (ck -> S3)
    才几十个 G ,随便玩
    spritecn
        82
    spritecn  
       Aug 22, 2025
    @DLOG kafka 可以去掉的.. filebeat 走 bluk api 塞 ck
    maximdx
        83
    maximdx  
       Aug 22, 2025
    这得上数仓吧,我们公司用 pinot 或者 clickhouse
    HappyAndSmile
        84
    HappyAndSmile  
       Aug 22, 2025
    ClickHouse 按天分区,简单,不用那么折腾
    luciankaltz
        85
    luciankaltz  
       Aug 22, 2025
    可以考虑 GreptimeDB ,和常见的日志存储在官网都有对比文章。写了一大堆 v2 不让我发,麻了
    利益相关
    yingqi1
        86
    yingqi1  
       Aug 22, 2025
    我也推荐 duckdb+云存储方案, 文件压缩率也是第一梯队,duckdb 也可以, 然后 duckdb 安装极其简单,使用也简单,查询速度丝毫不弱。
    deplives
        87
    deplives  
       Aug 22, 2025
    @linhrdom #7 一天几十 G 一年就差不多得 17T 日志,又想冷数据大容量存储存储,又想热数据随时调用,又想不花钱,又想不麻烦。讲真,寿命这个数据不重要,你们干脆自己买个几块企业硬盘吧。够用了。
    qweruiop
        88
    qweruiop  
       Aug 22, 2025
    楼上的各位佬,最近有个内部文档,看介绍 duckdb 可以直接挂在 cloudflare r2/s3 来实现全文搜索?不知道,是否有简单的例子,或者 demo 。。。
    tudou1514
        89
    tudou1514  
       Aug 22, 2025
    直接物理存,买硬盘,做好报警,满了就换
    pinylin
        90
    pinylin  
       Aug 22, 2025
    vector -> clickhouse -> S3
    vector -> quickwit-> S3

    我觉得 都行
    Maboroshii
        91
    Maboroshii  
       Aug 22, 2025
    补充一下我之前说的文件方案:
    保存到支持透明压缩的文件系统里,比如 btrfs ,不仅支持快照,也支持方便的备份
    然后文件是可以天然支持根据日期分区的
    最后,直接用 warp 等 ai 终端帮你查找想要的内容,都不用自己拼 grep 或写脚本分析了
    guyueyiren
        92
    guyueyiren  
       Aug 22, 2025
    @ETiV #20 感觉是邪修,从未想过如此办法,哈哈
    lichon
        93
    lichon  
       Aug 23, 2025
    signoz clickhouse 存储 支持 S3 fallback
    RicardoY
        94
    RicardoY  
       Aug 23, 2025
    没有审计需求留一年干嘛,一个月足够了(大多数是 7 天)
    nicoljiang
        95
    nicoljiang  
    PRO
       Aug 23, 2025
    @linhrdom #69 兄弟是会做推广的。
    z12cryoto
        96
    z12cryoto  
       Aug 24, 2025
    可以试试 web3.storage
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1175 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 212ms · UTC 23:30 · PVG 07:30 · LAX 16:30 · JFK 19:30
    ♥ Do have faith in what you're doing.