V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  noparking188  ›  全部回复第 2 页 / 共 57 页
回复总数  1139
1  2  3  4  5  6  7  8  9  10 ... 57  
75 天前
回复了 zhwq 创建的主题 酷工作 [上海][鹰角]无心工作,发个内推吧
@Morii #6 老哥,大数据的上海有坑位吗
77 天前
回复了 u21t20o15 创建的主题 广州 有什么办法对付二手房东?
举报他逃税
Infra 的职责谁担
知乎上看到个二本社招进字节的女生,她做的数仓,主要写 SQL 做业务,但是自己看 Spark 和 Hive 源码,对 SQL 背后底层原理了解很透彻,能做一些源码级别的优化。你这 211 科班直接过了学历门槛了,说这话让 v 站一大堆高职坛友情何以堪
业务合法吗,正常签公司劳动合同不
要学会从别人身上找原因,这是公司的项目管理问题和规章制度不完善,给员工造成了心理负担
我用的 outlook 邮箱发你咨询了老哥,看看有没有被垃圾箱😁
@MonoMikan #40 很卷吗😂
滤镜+角度,很会拍,颜值虎扑 5.5 ,身材+0.5
把我骗进来以为多好看,OP 肯定小红书刷少了
88 天前
回复了 Light1226 创建的主题 English [记录] 2024 年练习英语
加油加油!
试试直接 PySpark 单机跑,API 接口和 pandas 差不多,记得用 3.3 及以上版本的,可以直接读批量 Excel
Python + SQL ,找数据开发和分析
ReDash 跨源 JOIN 是用 sqlite memory 模式实现的
96 天前
回复了 DualVectorFoil 创建的主题 数据库 新人学习求数据库管理系统推荐
《数据库系统概念》
《数据库系统内幕》
《数据库系统实现》
《数据库查询优化器的艺术》
96 天前
回复了 15342 创建的主题 程序员 大量数据同步一致性问题
2000 万数据量不多,看了下 starrocks 支持流处理 https://docs.starrocks.io/docs/integrations/streaming/
我熟悉的类似这种实时同步到 AP 数仓或者数据湖的方案,一般都 Kafka 队列,然后用个消费端根据 interval 和 buffer 及时往目标库分小批次的写。
你给的信息不多,es 的数据是业务数据?那就同时写 es 和 starrocks ,可以加个离线任务每天对比两边数据是否一致
问主管 binlog 同步哪去了,之前 经历过是用 binlog 同步 HDFS ,Presto 查,千亿数据量
98 天前
回复了 afeiche 创建的主题 数据库 数据量较大,数据库选型问题
我的经验是,不要分库分表,其他都好说
98 天前
回复了 afeiche 创建的主题 数据库 数据量较大,数据库选型问题
@nothingistrue #129 我真是程序员,我还是个 PingCAP Certified TiDB Professional ,不过没啥用,之前公司用我就简单学了下原理实现。https://i.imgur.com/krir4IG.png TiDB 是 Share Nothing ,底层存储是 TiKV ,基于 RocksDB 开发的,TiFlash 是借鉴 ClickHouse 开发的。
简单讲,TiDB 底层数据结构是 LSM-Tree ,MySQL 是 B+Tree ,二开不了。
再告诉你个好玩的,他们一开始打算用 HDFS 做底层纯属引擎,用 Java 吭哧吭哧写入半年,然后删库重写。
1  2  3  4  5  6  7  8  9  10 ... 57  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   866 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 36ms · UTC 21:56 · PVG 05:56 · LAX 14:56 · JFK 17:56
Developed with CodeLauncher
♥ Do have faith in what you're doing.