请问一下,数据处理需求频繁变更时,各位是怎么做的?
公司会产生很多 json
格式的数据,任务是需要对这些 json
数据进行数据处理,提取/重组其中的一些 key: value
,按照甲方的要求生成特定的数据集(也是 json
格式)。
之前一直是编写 python
脚本直接处理数据,但是费时费力,甲方有时候一些小要求,代码就需要改动很多。有没有什么办法可以更加标准化/便捷的做这件事?比如能否利用某些数据库去完成这个任务?
非常感谢🙏
1
Livid MOD 导入 MongoDB 或者 ElasticSearch 然后试试用查询?
|
2
yuanmomo 205 天前 via iPhone 1
这种你找找身边做大叔的,或者做数仓的,他们天天就干这个。
大数据一般分成很多段来处理数据。数据采集,清洗,规整,然后导出。我不是专业做大数据,在大数据团队待了一年,所以就见过一些。 把数据处理,分成一段一段,每一段只完成一件事情,然后最终把数据导入到一些支持查询的数据库里面,然后再用 SQL 之类的语言去查询。 |
3
ke1e 205 天前 via Android
数仓正解,如果数据量不大或者对时效性和 qps 不敏感可以看看 MongoDB
|
4
netnr 205 天前 via Android
用 nodejs
每种处理单元为一个类或方法,对应一个 js 文件 根据配置动态加载执行 js 文件 后续有新的处理方式,拷贝一份 js 文件微调,再更新一下配置参数 |
5
vivisidea 205 天前
耗时主要在哪呢? json 解析可以试试 jsonpath 这个工具,我觉得还挺好用,https://github.com/json-path/JsonPath python 应该也有对应的实现
|
6
yinmin 205 天前 via Android
用 ai 试试,把原来的代码和新的需求都发给 ai ,让 ai 修改代码。你可以试试 gpt4 、claude3 opus 、mistral large 、gemini 1.5 、deepseek code 这几个模型。
|
7
yjhatfdu2 205 天前 1
使用 postgresql 的 jsonb ,可以使用 copy 快速导入,可以使用 jsonpath 快速查询,可以使用各种 json 相关函数和 json 聚合函数快速编辑和处理,而这些都只需要 SQL
|
8
Joker520 205 天前
可以试下用 MongoDB 来存
|
9
noahlias 205 天前
|