V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
guazila
V2EX  ›  OpenAI

GPT-4o 中文对话答非所问

  •  1
     
  •   guazila · 41 天前 · 1889 次点击
    这是一个创建于 41 天前的主题,其中的信息可能已经有所发展或是发生改变。
    应该是中文语料库被污染的问题,询问 gpt-4o 黄赌词汇,回复的根本不搭边,例子可以见下面的链接。

    https://chat.openai.com/share/3b6490e3-38cb-4fec-b71d-badee6f13ad1

    我在其它论坛看到后用 4o 测试了一下的确如此,各位有兴趣也可以测试一下。
    11 条回复    2024-05-16 01:08:38 +08:00
    itskingname
        1
    itskingname  
       41 天前
    我也遇到了。我问大海为什么是蓝色的。它识别出来的是一个字幕组的网址。然后回答了这个字幕组的介绍。
    zylll520
        2
    zylll520  
       41 天前
    5oiR5Lmf55SoIDRvIOa1i+ivleS6huS4gOS4i++8jOavj+asoeWbnuetlOi/mOS4jeS4gOiHtO+8jOWAkuaYryA0IOayoeaciei/meS4qumXrumimA==
    ccnoobs
        3
    ccnoobs  
       41 天前
    我试着没问题 还有 1 楼的 问题回答都挺正常的 https://chat.openai.com/share/d34db0f9-bdb4-437a-902c-54878ee94337
    freak118
        4
    freak118  
       41 天前
    肯定的啊 包括说什么 4202 年了 怎么怎么样
    notwaste
        5
    notwaste  
       41 天前
    4o 的准确度是不如 4 的
    byasm32
        6
    byasm32  
       41 天前 via iPhone   ❤️ 2
    gpt4o:你就说快不快吧!
    chuchong
        7
    chuchong  
       41 天前
    是被修复了吗我现在 plus 用的 4o 复现出来回答倒也算正常了
    iamsad3508
        8
    iamsad3508  
       41 天前 via Android
    我问第一个问题,他给我介绍中国青年报是什么
    naminokoe
        9
    naminokoe  
       41 天前
    测试了 OP 关于福利彩票的问题,回答没有错误
    syaoranex
        10
    syaoranex  
       41 天前   ❤️ 5
    这没有什么好奇怪的,你只是遇到了「 SolidGoldMagikarp 」现象,或称「幽灵 Token 现象」。详情可以参考这篇文章: https://www.lesswrong.com/posts/aPeJE8bSo6rAFoLqg/solidgoldmagikarp-plus-prompt-generation

    简单来说,4o 的词表训练的时候,用了大量网路爬虫资讯,其中囊括了大量受污染的词汇,这些词汇出现多了之后,出现次数较多的词组就会被固定在分词模型中。但是在训练的时候,用的则是另一批中文语料,或者这些受污染的词汇网页被清洗了,所以这些 token 没有被充分训练,模型对这些 token 相当陌生,只能大概直到它和某些娱乐、信息、网站相关,所以回复就会比较随机,有时能碰对,有时回复又会天马行空。

    用个形象的比喻来说,在大语言模型眼里,幽灵 Token 相当于汉字使用者看到这句话:「介绍一下熕粐彁粫椦恷妛」

    但是你只要往这些 token 字符中间加入一个空格,就可以将这个幽灵 Token 破坏为两个普通 Token ,这个时候,模型就能看懂你的输入了。比如原问题是「介绍一下中国福利彩票天天」,你替换为「介绍一下中国福利 彩票天天」,或者「介绍一下中国 福利彩票天天」,结果就会不一样。
    syaoranex
        11
    syaoranex  
       41 天前
    @syaoranex 更详细的解析可以参考[这篇文章]( https://zhuanlan.zhihu.com/p/697675593),里面有解析幽灵 Token 的代码,可以自行上手验证。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1067 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 22:14 · PVG 06:14 · LAX 15:14 · JFK 18:14
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.