V2EX › Keuin 的所有回复 › 第 1 页 / 共 2 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2

❮

❯

2025 年 6 月 15 日

回复了 jsrunner 创建的主题 › 职场话题 › 已经知道上了裁员名单怎么谈自身利益

如果觉得团队没有亏待你，就好聚好散吧，妥善交接，不用事无巨细，也不要隐瞒细节。不想撕破脸的话，就按流程交接，但是都懂，你可以交接得不好，细节交接不干净。
请假的话，交接是你主动安排日程的，你可以前面几天密集交接完，然后直接清空假期，毕竟都要走了，假期不放就白费了不是？这也是符合规则的，没人能说你什么。但前提是要配合交接。

2025 年 6 月 13 日

回复了 c0011 创建的主题 › 求职 › 35 岁程序员能找到一个 5000 后端远程开发吗？

做交易，祝交易大赚，这样就不至于找 5k 的 dev 工作糊口了

2025 年 4 月 14 日

回复了 drymonfidelia 创建的主题 › 程序员 › 如果只用 Nginx 等现成的 HTTP Server 搭建 HTTP 服务，不自行建立 TCP 连接，是否就不用考虑 TCP 粘包这类传输层的问题？

2025 年了还在粘包

2024 年 12 月 7 日

回复了 badbye 创建的主题 › Go 编程语言 › 被 Java 毒害的脑子想在 Go 中实现一个操作，望打醒

首先 go 用 codegen 这个思路没问题，可以看一下 grpc 是怎么做的，利用了 go implements interface implicitly 这个特性，codegen 依赖 service 的 interface ，具体 service 实现留着让人在外部包完成，最后启动的时候组装，也就是形成了单向依赖：
- main 包依赖 protocol 包、service 包
- protocol 和 service 之间不互相依赖（ service 隐式实现了 protocol 定义的一个 interface ，但是不需要导入它）

2024 年 11 月 24 日

回复了 wingtatlee 创建的主题 › NAS › 淘寶海外 16tb 酷狼 pro 机械硬盘 OEM 全新盤靠得住嗎？

这个价格包清零的

2024 年 7 月 28 日

回复了 TMMXA 创建的主题 › NAS › 给实验室配了一台公用 nas 想让各位大佬出出主意

不要自己意淫需求，你这里大部分都是伪需求
买个白群或者威联通，插几块新盘，解决，不要搞这些图吧方案，公共资产不是你的 homelab

2024 年 7 月 21 日

回复了 desGalaxy 创建的主题 › Windows › Crowdstrike crash 是由空指针解引用导致

Rust 也不能保证不会出 bug ，解决 bug 的应该是流程和规范，而非语言

2024 年 7 月 16 日

回复了 yujianwjj 创建的主题 › Go 编程语言 › 使用 go 设计数据结构很蛋疼的一个点

这个锅其实硬扣，可以扣到 go 头上，但是没有必要

```go
var (
v int
ok bool
)
for v, ok = s.Pop(); ok; v, ok = s.Pop() {
fmt.Println(v)
}
```

你要是喜欢用 error 的话，把`ok bool`换成`err error`也是一样的。这里体现出 Go 的问题是，没有内置 Option[T]类型和迭代器类型（虽然有库，但是没有语法糖配合，基本没有使用价值），想要语法层面有糖吃，就要封装成 channel ，有性能损失。

2024 年 7 月 13 日

回复了 drymonfidelia 创建的主题 › 程序员 › 生产服务器 RAID5 挂了一块盘，最佳实践是马上补上一块重建还是立即备份全阵列，备份完再补盘？没有备份，数据不丢失比短期可用重要。

仅理论分析一下，raid5 每个盘存储的都是奇偶校验信息，没有存原始数据的盘，因此备份和重建都需要读所有盘的所有内容。丢数据是坏了两个盘，现在已经坏了一个，备份跟重建都是要读所有盘，因此没有区别，怎么样都可以。

2024 年 6 月 8 日

回复了 heguangyu5 创建的主题 › 程序员 › [单个 6.2TB 203 亿行的超大 csv 文件保持顺序的情况下去重]的两个解决方案

@wxf666 自己研究一下吧，昨天的楼被删了，我懒得再写一遍了，只需要假定 csv 列数固定，不需要用到 cut 。如果假定不了，简便起见，需要找一个输入里面没有的分隔符。
写入量的话，我在原 po 主帖子里分析过，不过那里把加行号的中间结果也全部存下来了，所以当时给的磁盘用量是 3*6TB 。如果都用流式传递中间结果的话，两个 sort 需要有 2*6TB 的临时空间。

2024 年 6 月 8 日

回复了 heguangyu5 创建的主题 › 程序员 › [单个 6.2TB 203 亿行的超大 csv 文件保持顺序的情况下去重]的两个解决方案

@wxf666 昨天写的马虎，忘记顺序这个要求了，我其实又回复了一次来 update ，不过看起来楼被 v 站吞了。保序的方案是用 sort -u -k1,4 来只按原内容排序并去重，最后 sed 去掉行号，最最后的 uniq 去掉即可

2024 年 6 月 8 日

回复了 drymonfidelia 创建的主题 › 程序员 › 要对单个 6.20TB 的超大 csv 文件保持顺序的情况下进行去除重复行，有什么好思路？显然不可能加载进内存

@Keuin 没有保序，bugfix 一下。假设 csv 有 4 列，把 sort 替换成`sort -u -t, -k1,4 | sort -t, -k5`，把结尾的 uniq 删掉，变成：

```shell
awk '{print $0","NR}' input | sort -u -t, -k1,4 | sort -t, -k5 | sed -E 's/,[0-9]+$//' | uniq
```
不能假设列数的话，受这几个 shell 工具的限制，需要换一个没有出现过的字符做分隔符

2024 年 6 月 8 日

回复了 drymonfidelia 创建的主题 › 程序员 › 要对单个 6.20TB 的超大 csv 文件保持顺序的情况下进行去除重复行，有什么好思路？显然不可能加载进内存

```shell
awk '{print $0","NR}' input.csv | sort | sed -E 's/,[0-9]+$//' | uniq
```

Example usage:

```
$ cat input
1,2,3,4
2,3,4,5
3,4,5,6
4,5,6,7
2,3,4,5
1,2,3,4
5,6,7,8
$ awk '{print $0","NR}' input
1,2,3,4,1
2,3,4,5,2
3,4,5,6,3
4,5,6,7,4
2,3,4,5,5
1,2,3,4,6
5,6,7,8,7
$ awk '{print $0","NR}' input | sort
1,2,3,4,1
1,2,3,4,6
2,3,4,5,2
2,3,4,5,5
3,4,5,6,3
4,5,6,7,4
5,6,7,8,7
$ awk '{print $0","NR}' input | sort | sed -E 's/,[0-9]+$//'
1,2,3,4
1,2,3,4
2,3,4,5
2,3,4,5
3,4,5,6
4,5,6,7
5,6,7,8
$ awk '{print $0","NR}' input | sort | sed -E 's/,[0-9]+$//' | uniq
1,2,3,4
2,3,4,5
3,4,5,6
4,5,6,7
5,6,7,8
```

不管你的电脑内存是 1T 还是 1G ，都可以正确运行并得到相同输出，因为 sort 命令用的是归并排序，是外存算法。如果你要限制用到的内存大小，把 sort 改成 sort --buffer-size=100M ，即可限制只用 100M 内存，其他命令都是行缓存算法，只会保存当前行在内存里，也就是说，最大内存用量是 max(100M, max_line_size_bytes)

2024 年 6 月 8 日

回复了 heguangyu5 创建的主题 › 程序员 › [单个 6.2TB 203 亿行的超大 csv 文件保持顺序的情况下去重]的两个解决方案

一行 shell 的事被你搞得这么复杂，6TB 可以存内存里，6PB 呢？
看不下去了，这个源码也不愿意给，我直接给出结论：
```shell
awk '{print $0","NR}' input.csv | sort | sed -E 's/,[0-9]+$//' | uniq
```
其中 input.csv 替换成你的输入文件，结果将出现在 stdout ，如果要存到文件，自己重定向一下即可。
运行实例：
```
$ cat input
1,2,3,4
2,3,4,5
3,4,5,6
4,5,6,7
2,3,4,5
1,2,3,4
5,6,7,8
$ awk '{print $0","NR}' input
1,2,3,4,1
2,3,4,5,2
3,4,5,6,3
4,5,6,7,4
2,3,4,5,5
1,2,3,4,6
5,6,7,8,7
$ awk '{print $0","NR}' input | sort
1,2,3,4,1
1,2,3,4,6
2,3,4,5,2
2,3,4,5,5
3,4,5,6,3
4,5,6,7,4
5,6,7,8,7
$ awk '{print $0","NR}' input | sort | sed -E 's/,[0-9]+$//'
1,2,3,4
1,2,3,4
2,3,4,5
2,3,4,5
3,4,5,6
4,5,6,7
5,6,7,8
$ awk '{print $0","NR}' input | sort | sed -E 's/,[0-9]+$//' | uniq
1,2,3,4
2,3,4,5
3,4,5,6
4,5,6,7
5,6,7,8
```

不管你的电脑内存是 1T 还是 1G ，都可以正确运行并得到相同输出，因为 sort 命令用的是归并排序，是外存算法。如果你要限制用到的内存大小，把 sort 改成 sort --buffer-size=100M ，即可限制只用 100M 内存，其他命令都是行缓存算法，只会保存当前行在内存里，也就是说，最大内存用量是 max(100M, max_line_size_bytes)

2024 年 6 月 2 日

回复了 drymonfidelia 创建的主题 › 程序员 › 要对单个 6.20TB 的超大 csv 文件保持顺序的情况下进行去除重复行，有什么好思路？显然不可能加载进内存

@Keuin 最后还差一步，按行号升序排序，重新排序回原来的顺序，最大额外磁盘空间不变

2024 年 6 月 2 日

回复了 drymonfidelia 创建的主题 › 程序员 › 要对单个 6.20TB 的超大 csv 文件保持顺序的情况下进行去除重复行，有什么好思路？显然不可能加载进内存

awk 每行尾追加逗号和行号，整个文件每个行都追加一下，占 6.2T
unix sort 工具外排序，直接按字母表排序，占 6.2T 。重复行会变成相邻的，编号不一样。输出另占 6.2T
用 awk 配合 uniq ，去重，全内存 O(1)空间算法，输出占 6.2T ，即为最终结果

中间文件可以在不用的时候删掉，最大同时出现 2 份，也就是需要额外 2*6.2T 磁盘空间，由于都是流式算法，内存用量为很小的常数

2024 年 3 月 31 日

回复了 abcfreedom 创建的主题 › 旅行 › 走错机场，损失惨重，心态有点崩

花钱买教训吧，下次做好 double check ，这种地址信息我一般都是比对文字确认的，两个 app 或者网页的截图来回对照看两三遍，类似于铁路的指差确认。因为人脑具有模糊性，人犯迷糊的时候，就容易稀里糊涂认为是正确的，必须落到文字上，这样就不会出错了。不过更简单的办法是把行程信息发到家庭群里，让家人也帮忙看看，还能减轻自己全程规划的负担，家人也更有参与感

2024 年 1 月 20 日

回复了 Ccf 创建的主题 › Windows › 是否推荐把 nas 系统 windows server2019 升级到 server 2022

虚拟机装 docker 呗，反正 wsl2 也是虚拟机，不如 hyperv 开个 debian 实例

2023 年 6 月 4 日

回复了 KimiblockMoe 创建的主题 › 哔哩哔哩 › Archlinux, 13 代 Intel 移动处理器无法硬件解码 Bilibili AV1 视频, YouTube AV1 正常

源代码： https://code.videolan.org/videolan/dav1d/-/blob/master/src/obu.c
metadata_type 的定义： https://aomedia.org/av1/specification/semantics/

2023 年 6 月 4 日

回复了 KimiblockMoe 创建的主题 › 哔哩哔哩 › Archlinux, 13 代 Intel 移动处理器无法硬件解码 Bilibili AV1 视频, YouTube AV1 正常

刚刚用 ffmpeg 处理的时候也遇到这个报错了“Unknown Metadata OBU type 6”，翻了一下源代码，这个报错意思是遇到了未知类型的元数据信息，从枚举值 6 可以看到这个是 B 站定义的私有信息，B 站这个 AV1 确实是魔改过的。我用 mpv 可以直接播放，看来忽略这个东西也不影响正常的解码。

1 2

❮

❯