ONLINE |
|
houshuu
V2EX 第 91590 号会员,加入于 2015-01-13 17:17:38 +08:00今日活跃度排名 6821
|
全栈工程师
日常工作技术栈: Go, Lua, React, Svelte, Java, Kotlin, Python, Rust
机器学习相关: NumPy, Pandas, SciPy, PyTorch, Jax, DGL, LightGBM, XGBoost
偶尔用用: C/C++, Swift, Vue
houshuu 最近回复了
模型的结构是可以做成不同大小,不同结构的,所以在不同项目上的表现也大概率有差异。训练时本身的随机性也会导致不同初始状态的网络产生差异,那么相互学习就能够从其余网络中把这些优秀的特性汇集过来。蒸馏不是抄作业答案而是把目标模型当作老师学习,逐渐让自己能够达到老师水平的感觉。是可以用算法设计把不如自己的部分无视掉的,相互学习相当于好几个学生互相切磋琢磨的过程,理论上是能提高的,大概 5 年前这个概念也是相当火爆
开的工资比刚毕业的大学生都低,还要有三年经验。
体感这种岗位至少 700 万,有点带团队经验的少说 850 起
在日本职场常年习惯了这种招呼,有一说一就算是形式上的东西有时候潜移默化的,是有点安慰人的作用的。
就和早上和邻居打打招呼一样的,给人一种群居感。
在日本 10 来年了,见过的日企技术岗位 1000 万+的说实话极少数(<10%),大部分人能到个 700w 就算不错了,工作时间长点的到个 800-900w 。要么就是做管理岗位空间大不少。主要是 IT 和国内的地位不太一样,不算是高薪行业,还是金融房地产大商社比较赚。
体感税前收入:400w-600w 新卒开发 600w-900w 普通开发 900w-1200w Manager 1000w-2000w 开发部长
和国内差不多,薪资范围 A ~ B 你默认是 A 就行了
很多年没干蒸馏了,不知道现在还是不是这样。
软目标的设置终究是为了更多的得到当前概率分布和目标概率分布的差值,那么在这个基础上如果能有另外手段来计算两个回答间的散度即可,不需要一定要有个确定的目标。
机器学习手法有很多假设性的东西,设定一个公式自圆其说很多时候就行了。比如我直觉上第一个想到的,用另外一个模型把学生信号和教师信号语义分别分解到另外一个统一空间内,然后算下距离啥的。
蒸馏也算个老东西了,llm 蒸馏可能搞不来但其他视觉模型啥的以前个人都是可以搞的
vscode 下面一堆测试相关的插件都是疏于维护的状态,之前记得用 vitest 插件都无法点击运行按钮单独执行单元测试。vue 插件也经常更新出很奇怪的卡顿问题。私下用用还行,公司业务代码用 vscode 很给自己找罪受。
相比之下,neovim 和 webstorm 至少商业代码必要侧身环节的支持没啥问题,也够快。vscode 的 lsp 基本都有其他编辑器的完整移植,就算是前端开发体验现在其实优势很小了。
webstorm 我记得还有自己独有的 parser ,有些时候 lsp 解析不出来,webstorm 内置的解析却能正确找到 symbol 。
最后最重要的是 refactoring 的体验,只要是重构项目,我基本只用 jetbrains 系。多文件的 import 修改,重构时可选的 exclude ,comment 同时更新等等,过于方便了。