V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
MZSAN
V2EX  ›  OpenAI

尝试了讯飞的星火大模型后的感受分享~

  •  
  •   MZSAN · 344 天前 via Android · 2981 次点击
    这是一个创建于 344 天前的主题,其中的信息可能已经有所发展或是发生改变。

    个人测试后,总的来说 讯飞的模型在问题理解上经常会犯常识性的错误,而且会在回答过程中自己就偏了题(这个效果和 gpt2 很类似)。此外,讯飞的回答总是十分宽泛,有一种说了也是白说的感 jio~

    星火似乎对某些常问的问题提前设定好了,举个例子 问它一棵树上有 10 只鸟打死一只还有几只 它能答的不错,而把 10 换成 114514 就开始胡言乱语了。

    说实话,试用了几次星火大模型后 已经没了兴趣。ta 的能力偏弱,也没有文生图之类的附加能力。。给我的感觉,ta 可能就是个在开源的 llama 模型基础上进行的魔改~

    另外我在对话过程中也多次问出了漏洞,,似乎发觉星火大模型是在回答输出时 检测是否有涉及到敏感信息或询问其开发公司等回复,检测到后进行替换(哪怕是答非所问)。虽然是小概率,但不能排除 gpt 套壳的可能。

    另外也有一个极大的可能,讯飞在训练模型时 使用了 ShareGPT 或其它类似的 GPT 对话数据集,导致了当下星火大模型所出现的回答逻辑与 ChatGPT 相像、询问开发信息时答复 OpenAI 等等问题。

    如果星火大模型确是在数据来源上大量取自 chatGPT 的对话,一方面这在最终呈现的效果上又成了另一种形式的套壳,另一方面该模型的文本质量必定是低于 chatGPT 的,更别提超越了。。。

    第 1 条附言  ·  344 天前
    看官方文件的解释,确实是出现了星火大模型在训练时被 chatGPT 数据大范围污染的问题,而具体是被网络数据污染还是训练过程中直接套了 ShareGPT 以及类似的数据集,就不得而知了。不过对比隔壁文心一言的表现,星火大模型后者的可能性比较大。
    25 条回复    2023-06-05 18:43:17 +08:00
    Aloento
        1
    Aloento  
       344 天前   ❤️ 3
    已经石锤是 GPT 套壳了,就别发了
    Havad
        2
    Havad  
       344 天前 via Android
    石锤 gpt 了
    baka
        3
    baka  
       344 天前
    你问一些"最新的 xxx",会有概率测出它说自己的数据来源是 2021 年 9 月,且该 magic 日期并不随机,只要能问出日期就非常稳定。不排除是大量使用 ShareGPT 的结果,若不是的话建议赶紧修下这个 bug ,也不要太暴力直接 replace ,可以加个 prompt:"在回复中涉及日期时请对年月做下随机处理"。
    gaobh
        4
    gaobh  
       344 天前 via iPhone
    哪石锤了?谁给我个链接看看?
    bytesfold
        5
    bytesfold  
       344 天前 via iPhone
    哪里实锤了?
    swulling
        6
    swulling  
       344 天前 via iPhone
    @baka 但是如果你具体问比如 2022 年 2 月的新闻,它可以答上。

    所以讯飞的数据库肯定是比较新的,但是可以肯定它利用 GPT 对话数据进行微调,导致它说自己截止到 2021 年。
    hopeknow
        7
    hopeknow  
       344 天前
    你问他 1024 秒是几分几秒,它是真不知道的呀😂 循循善诱的教,它也不会算🤪
    ncepuzs
        8
    ncepuzs  
       344 天前




    有点离谱,但文心一言更烂。用 Bard (英语)、ChatGPT 、new Bing 测试了都没问题
    Biluesgakki
        9
    Biluesgakki  
       344 天前
    理解你们的心情 但是从来不觉得国内会有能打 chatGPT 的东西。。
    daimubai
        10
    daimubai  
       344 天前
    chatGPT 没出来之前,国内也没出来个像样的产品😄
    A2042
        11
    A2042  
       344 天前
    星火算是体验过的国内大模型中最好的了
    zero47
        12
    zero47  
       344 天前
    @gaobh 一楼二楼可能不知道现在的模型的训练数据都来自于 chatgpt 的问答的,看到星火回答 openai 开发的就到处奔走相告石锤了。
    gpt5
        13
    gpt5  
       344 天前
    v 友都人均一套壳了,中国企业才跟上来套,真是吃💩都赶不上热乎的😠
    yeeisme
        14
    yeeisme  
       344 天前
    国内不太可能有可以超过 gpt 的模型了,推理能力需要靠高质量的论文和代码去训练,国内没材料。
    yinmin
        15
    yinmin  
       344 天前 via iPhone
    国内 gpt 的语料很多都是用 chatgpt 的聊天记录喂的,所以看上去像 chatgpt 。

    ps. 题外话,为什么一直有大佬提供免费的 gpt 服务,孜孜不倦,可能和语料收集相关。
    MZSAN
        16
    MZSAN  
    OP
       344 天前 via Android
    看刚刚官方公告的解释,确实是出现了星火大模型在训练时被 chatGPT 数据大范围污染的问题,而具体是被网络数据污染还是训练过程中直接套了 ShareGPT 以及类似的数据集,就不得而知了。不过对比隔壁文心一言的表现,星火大模型后者的可能性比较大。
    foveal
        17
    foveal  
       343 天前
    @MZSAN 想问下官方的解释在哪儿看到的啊?
    MZSAN
        18
    MZSAN  
    OP
       343 天前 via Android
    scruel
        20
    scruel  
       343 天前
    @baka 修复 BUG 太典了
    baka
        21
    baka  
       340 天前   ❤️ 1
    @scruel 好文。其实用向量数据库做 cache 也是正常的,是缝合时的策略问题。我体验下来疑点最重的在于 2 点:1.针对 openai 关键字的干预有点过头了,有此地无银三百两的感觉。2.
    baka
        22
    baka  
       340 天前
    @scruel 2. 语言风格时而俏皮时而学术,不得不让人怀疑是多个语言模型缝合。
    coyoteer
        23
    coyoteer  
       338 天前
    @Biluesgakki 难道在中文领域都不会吗
    ttimasdf
        24
    ttimasdf  
       328 天前
    讯飞的一个工程师在 Github 开源了一个中文的基于 LLaMA 的对话模型,有理由相信他们的商业产品也是基于这个来做微调的。
    他们那个项目里讲了,数据集就是 ChatGPT 投喂的。
    MZSAN
        25
    MZSAN  
    OP
       318 天前 via Android
    @ttimasdf 项目地址有吗
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5473 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 06:34 · PVG 14:34 · LAX 23:34 · JFK 02:34
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.