V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  siriussilen  ›  全部回复第 3 页 / 共 20 页
回复总数  385
1  2  3  4  5  6  7  8  9  10 ... 20  
312 天前
回复了 shakespark 创建的主题 宽带症候群 北京联通海外宽带加速(9929)体验
“9929 的带宽是和原有带宽一致的,即原有家宽千兆上行百兆,则测速 9929 到海外也是这么高(没有千兆海外机器,但是至少不是之前有人说的 200m ),这就有点牛了”
其实应该看的是 vps 的下行,和家宽上行没关系啊,如果看的话,能测出来 speedtest 只有 230M
313 天前
回复了 412999826 创建的主题 Apple 看“再次感叹 airdrop 的黑科技”的帖子有感
同意很多人只是喜欢输出自己的情绪而已,并不是真正讨论问题
314 天前
回复了 lmx07 创建的主题 阅读 学习批判性思维看什么书?
@ooee2016 独立思考和核心就是批判性思维吧
314 天前
回复了 Jinnrry 创建的主题 Local LLM Google Gemma 开源没人讨论下吗?
@keepRun gpt3.5 是 20B 的模型……
314 天前
回复了 Jinnrry 创建的主题 Local LLM Google Gemma 开源没人讨论下吗?
中文社区讨论大部分都在知乎上
339 天前
回复了 onikage 创建的主题 问与答 ai 训练(非大模型)现在可以用 cpu 跑吗?
可以,就是慢了点
@TXisfine 还能备案?????
339 天前
回复了 TESTFLIGHT2021 创建的主题 宽带症候群 北京联通 AS9929 谁测试过?
用上了 限速 200M ,speedtest 最多能跑 230M
@Azure99 看错了,5.98 是某个单项的。不是总分,如果只看这两个评测结果来看的话,确实感觉这批数据的效果还不错,不过我感觉还是说不清这个收益的提升是因为你的数据多样性、高质量带来的,还是因为引入中文语料的所带来提升,感觉再补充更多的评测证明工作的有效性会更好一点,已 star
@Azure99 求解释下上面的信息👆
是这样,我们都知道 sft 的时候需要保证样本的多样性以及使用高质量的样本是吧,以及你在上面也提到了现有的大部分 sft 工作就是把 chatgpt 或者人类编写的高质量回复作为一个 teacher 模型来指导相对小模型的学习。Orca 的意义在于给你了一种看似还不错的数据加工方法,让你能够在某一批通用数据的基础上使用这种方式组织样本后能够最大限度发挥 teacher 的能力,通过 sft 的方式迁移到小模型上还能取得一个不错的效果。Orca 也只是在 Flan 工作的基础上证明这条技术路线的有效性而已。

我刚刚看了一下您的数据精调模型( blossom-v4-qwen-14b )和其他通用精调模型( qwen-14b-chat )的对比
我看在你的 github 里 AlignBench 评估中,blossom-v4-qwen-14b 是 5.66 分,qwen-14b-chat 是 5.41 分。
但是我在 Align Bench 的 github ( https://github.com/THUDM/AlignBench )中看到的评测信息,qwen-14b-chat 是 5.98 分,这个怎么理解啊?
@Azure99 看到介绍了,基于 OpenOrca 处理的
@Azure99 而且 orca1 的工作在论文上做精调效果也不差,在指令遵循等方面都有不错的提升,orca2 放出了精调的模型,也可以瞅瞅看看它的能力边界,我认为不算差,是一个开源社区中通用精调相当不错的工作。
@Azure99 1850 种不算少了吧,中文 orca 数据怎么做的?开源的吗? 还是自己复现了 orca1 的工作?
说到 step by step ,有一个 Orca2 的工作,他们对任务的划分不仅仅是 step by step, 还有 direct answer ,recall then generate 等等
@Azure99 我不认为是 cot 有问题,我认为是 sft 的数据配比及多样性有问题,导致在下面 case 中
“inst:请判断下面的评论是好评还是差评,好评输出 true ,差评输出 false 。评论:真难看,不推荐购买
output1:"真难看,不推荐购买"有明显的消极观点,因此是差评,所以,输出 false 。
output2:false”
模型丧失了指令遵循的能力
@Azure99 为什么用大量 cot 数据会导致直接输出的任务很差啊? 如何定义“直接输出任务”吗? QA 问答么?
@Azure99 基于 yi sft 的吗? 这个微调 llm 有足够 solid 的评估吗?
352 天前
回复了 shubiao 创建的主题 问与答 怎么把大模型微调成文本分类模型?
另 gpt3.5 论文细节是是一个 20B 的通用模型,所以用领域数据精调后打败了 3.5 没什么感到牛逼的 - -
352 天前
回复了 shubiao 创建的主题 问与答 怎么把大模型微调成文本分类模型?
@shubiao Lora 我没做过我不了解,我是做全参数微调,几百条就够了,别轻视大模型的拟合能力,另外几百条数据这个点,也可以参考一下 OpenAI 的文档,主要是一些边界 Case 的处理很关键
1  2  3  4  5  6  7  8  9  10 ... 20  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3473 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 22ms · UTC 04:50 · PVG 12:50 · LAX 20:50 · JFK 23:50
Developed with CodeLauncher
♥ Do have faith in what you're doing.