V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  111qqz  ›  全部回复第 12 页 / 共 47 页
回复总数  922
1 ... 8  9  10  11  12  13  14  15  16  17 ... 47  
2022-03-31 20:15:47 +08:00
回复了 111qqz 创建的主题 Redis 使用 redis 如何维护一个动态的区间和?
调研到了这个 https://redis.io/docs/stack/timeseries/
感觉蛮合适
2022-03-29 19:36:33 +08:00
回复了 taotian 创建的主题 C++ 求助: C++ std::polar 函数在 macOS 下的奇怪表现
"The behavior is undefined if r is negative or NaN, or if theta is infinite."
https://en.cppreference.com/w/cpp/numeric/complex/polar
2022-03-20 20:03:22 +08:00
回复了 111qqz 创建的主题 程序员 每次 OnCall 过后都掉一层皮
@southwolf #57 上线前肯定是测试过的。但是有些部分是没办法完全测试到的,比如一个很大的变量就是模型。每个服务的模型都是不是一样的,我们一般只能挑有代表的几个模型测一测,没办法做到全覆盖。还有很多问题的根源在于权限不收敛,线上环境可以被同部门的其他同学随意变动(比如扩缩容,放量,将一个错误的模型上线到某个服务上)。 权限控制这部分就要跨部门了,我们也只能等人家的排期,转眼也等了快一年了(
2022-03-20 13:10:21 +08:00
回复了 111qqz 创建的主题 程序员 每次 OnCall 过后都掉一层皮
@461da73c #37 公司是绿色软件家。不过看其他楼层的回复,字节,快手估计也差不多这个样子...
2022-03-20 13:08:57 +08:00
回复了 111qqz 创建的主题 程序员 每次 OnCall 过后都掉一层皮
@Lonenso #40 感谢,我去看看,增加一些工作的信心(x
2022-03-20 13:04:52 +08:00
回复了 111qqz 创建的主题 程序员 每次 OnCall 过后都掉一层皮
@wangyzj #46 我们部门的 SRE 比我强度还大很多...ToC 的公司基本都是 24 小时有业务吧😂
2022-03-20 13:02:51 +08:00
回复了 111qqz 创建的主题 程序员 每次 OnCall 过后都掉一层皮
@NCZkevin #39 巧了,我们确实是做框架的组.... 快手的框架组也这样嘛,害怕
2022-03-20 13:02:13 +08:00
回复了 111qqz 创建的主题 程序员 每次 OnCall 过后都掉一层皮
@461da73c #37 是啊,线上跑了几年了。 其实已经上线不去修改的服务也不会出问题,出问题的大部分都是新服务,比如想用某个新功能但是没配置对或者新功能有 bug. 是没有测试的,测试全都被砍掉做测试开发了。 服务质量交给开发通过写单元测试,接口测试自己保证。 测试左移算是一个大趋势吧(虽然有利有弊
2022-03-20 12:57:21 +08:00
回复了 111qqz 创建的主题 程序员 每次 OnCall 过后都掉一层皮
@OliveGlaze #33 哈哈哈哈那确实
2022-03-20 12:56:41 +08:00
回复了 111qqz 创建的主题 程序员 每次 OnCall 过后都掉一层皮
@wa007 #30 是呀。请求出错大部分倒不是服务的问题,而是用户代码的问题(比如请求了计算图中不存在的 tensor) 但是模型上线失败确实是组件的问题。我们依赖的两个外部存储会出问题,平均一周两三次吧。 以前次数更多一些
2022-03-20 12:54:52 +08:00
回复了 111qqz 创建的主题 程序员 每次 OnCall 过后都掉一层皮
@xmumiffy #29 差别还挺大的,正常上班的话吃饭,午休都不紧不慢,节奏自己可以把控。OnCall 就完全不一样了...
2022-03-19 17:35:13 +08:00
回复了 111qqz 创建的主题 程序员 每次 OnCall 过后都掉一层皮
@ZSeptember #25 1. 技术债太多了。
2. 业务方不知道是自己的问题呀,我们是调用链的下游。
3. 我觉得主要是业务招人完全不考察这方面,基本只看发了什么 paper, 所以很多业务是基本不会写代码的,问题就特别多了。
2022-03-19 17:28:44 +08:00
回复了 111qqz 创建的主题 程序员 每次 OnCall 过后都掉一层皮
@OliveGlaze #23 如果是做 infra,哪里都逃不过 oncall 的,国外也一样😂
2022-03-19 17:28:00 +08:00
回复了 111qqz 创建的主题 程序员 每次 OnCall 过后都掉一层皮
@ryd994 #22 老哥说的都非常有道理。 我老板还是靠谱的,也在想办法解决。 但是一个是人力原因,一个是技术债实在太多了,公司各种古老的技术架构也在慢慢更新。 我尽力而为吧
2022-03-19 15:22:02 +08:00
回复了 111qqz 创建的主题 程序员 每次 OnCall 过后都掉一层皮
@marffin #13 我们这边的要求是,如果能明确是某个人写的代码的问题,那么可以交给那个同学来处理。 但是时间主要就花在定位问题上了。对于问题的定位,我们这边一般是哪周出现的问题,那一周 oncall 的同学跟到底。 然后我这边其实已经都是白天了,基本没有晚上处理的情况. 但是单子还是处理不过来
2022-03-19 15:13:42 +08:00
回复了 111qqz 创建的主题 程序员 每次 OnCall 过后都掉一层皮
@d5 #9 研发 on-call 基本只有白天,而且我也不是外企哈哈哈,木有其他时区的同事
2022-03-19 15:11:24 +08:00
回复了 111qqz 创建的主题 程序员 每次 OnCall 过后都掉一层皮
@Biggoldfish #10 学弟现在在哪家来着。 我们其实不算直接 customer facing , 但是因为是推荐场景,服务有问题就直接影响算法效果。 感觉做 infra 的话去哪里都少不了 oncall
2022-03-19 15:09:32 +08:00
回复了 111qqz 创建的主题 程序员 每次 OnCall 过后都掉一层皮
@ericbize #12 寒冬了,招聘都锁了。人数多了确实能好不少😂
2022-03-19 15:08:33 +08:00
回复了 111qqz 创建的主题 程序员 每次 OnCall 过后都掉一层皮
@ryd994 #7 感谢老哥的回复。 我这里说的用户是指其他业务部门的研发同事。1. 用法咨询我们一直有 wiki 的其实,但是 wiki 内容太多了,得看个一两天。目前的做法是还是要接单子,然后帮用户分析他的需要是什么,再帮他路由到对应的 wiki 条目。 2. 我们是推荐场景,线上有上千个服务,模型上线基本时半个小时-40 分钟一次。 尤其有很多对实时性敏感的场景(比如新闻推荐), 模型上线失败对业务效果影响非常大。
3. 失败率这个还算比较紧急,因为会影响我们整个部门的考核。
4. 这个我们也尝试过,比如训练任务经常出现的一个问题是 OOM ,有其他同事写了一个特别详细的“OOM 问题排查指引”。 但是发现由于用户基本都是算法研究同学,他们对这些系统 /工程 一些的问题基本看了 wiki 也不知道如何排查。对内存 /cpu 这些的理解和普通人差不太多。

5. 这个问题的痛点主要是,我们缺少一些"自证清白"的途径。 我们负责的部分基本属于整个调用链的最下游,所以需要排除上游的这些问题。 如果拒不配合到也好说,最担心的是遇到过用户一口咬定"模型训练代码,数据都没有修改过,突然服务就报错了"。 可能最后查了一周,发现用户的模型代码都变了,于是问用户,结果被回答"我以为这两种模型结构是等价的,不算修改"😅

6. 我们木有客服组,其他设施出了问题大部分是研发在和他们对接。

老板其实也知道单子多,也一直在想办法降低数量。 好在老板不太会给额外的压力,就是 OnCall 下来确实头痛得不行
2022-03-19 13:56:41 +08:00
回复了 111qqz 创建的主题 程序员 每次 OnCall 过后都掉一层皮
@kkfnui #4 有几种吧。1.用法咨询,基本不花时间也不花精力
2. 模型上线失败,原因可能有很多种,要一个一个去排查,每种都要花些时间
3. 失败率突增 /毛刺,SRE 会先查一些普遍的原因,之后会转到我们这边。 这种可能一两天也找不到原因...
4. 用户请求服务报错。 这里面原因也种类特别多,最头疼的是用户代码写的有问题,可能需要看模型的结构,或者用户的代码。 这种基本要连续半天的时间来排查,但是中间会被很多次 2/3 这种线上问题打断。
5. 用户打分对不齐。 这种就更花精力了,一个 case 查一周都是有可能的。 原因种类虽然不多,但是一般会依赖用户配合来排查。 但是我们的用户基本都是做算法的同学,很多做不到 /不愿意 辅助我们排查。
6. 我们依赖很多第三方的基础设施,这些基础设施偶尔会出问题。
1 ... 8  9  10  11  12  13  14  15  16  17 ... 47  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   974 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 28ms · UTC 18:20 · PVG 02:20 · LAX 11:20 · JFK 14:20
Developed with CodeLauncher
♥ Do have faith in what you're doing.