如何高效存储和管理爬虫抓取的数据，以便后续清洗和转换？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 134 天前的主题，其中的信息可能已经有所发展或是发生改变。

在进行数据采集、清洗和转换的过程中，经常会出现重复处理同一批数据的情况。例如，在需求初期不需要年份信息，但后续又需要添加年份信息。如果每次都重新采集数据，会非常麻烦且低效。

为了解决这个问题，我设想应该将爬虫抓取的原始数据保存或缓存到某个地方，每次需要清洗和转换时，直接从该存储位置提取数据进行处理。

我在网上查阅了一些关于数据仓库和数据湖的资料，但不太理解这些概念。请问在这个场景下，应该如何高效地存储和管理这些数据？

2 条回复 • 2024-08-12 10:17:22 +08:00

Iakihsoug

133 天前

把功能分开，把原始数据地址状态版本号入库，方便重采
处理服务直接读原始数据处理，数据有问题标记重采

qsnow6

128 天前

@Iakihsoug 有没什么工具可以方便处理这些工作