V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
waler
V2EX  ›  分享发现

文心一言测试

  •  
  •   waler · 2023-03-17 22:34:38 +08:00 · 4364 次点击
    这是一个创建于 617 天前的主题,其中的信息可能已经有所发展或是发生改变。
    30 条回复    2023-03-20 17:02:40 +08:00
    waler
        1
    waler  
    OP
       2023-03-17 22:38:04 +08:00
    rimutuyuan
        2
    rimutuyuan  
       2023-03-17 23:59:34 +08:00   ❤️ 1
    其实还不错,稳步更新中
    stabc
        3
    stabc  
       2023-03-18 00:37:27 +08:00
    它只是把百家号的自动生成工具拿出来了。百家号是啥德行大家都知道。
    tool2d
        4
    tool2d  
       2023-03-18 00:42:01 +08:00   ❤️ 3
    一问一答这种只要训练集足够大,总能模糊匹配出一些看起来还可以的答案,拉不来明显差距。

    ChatGPT 惊艳的地方,不是回答问题的能力,而是分析问题的能力。

    能理解你语境和语句的内涵,这才是 AI 的魅力所在。
    misslita
        5
    misslita  
       2023-03-18 00:49:33 +08:00 via iPhone   ❤️ 1
    多轮对话很弱没有记忆一样,就是一问一答其他模型也能做到,代码能力约等于没有,比较强的可能就是对于一些中文的理解,其实把生成图片和语音缝合进来很尬
    nomagick
        6
    nomagick  
       2023-03-18 00:50:24 +08:00
    要知道 ChatGPT 刷新认知之后,对大模型的期望更多是战略层面上的,要能自动化进行情报收集分析和整理,辅助政策制定,要能模拟选民或者受众行为,还要能应用到军事,辅助战场指挥。最后是融入各行各业,具体推动社会发展。

    在民用领域聊几个闲天,这功能有没有,谁提供,无所谓。
    Elix
        7
    Elix  
       2023-03-18 01:22:34 +08:00
    lhbc
        8
    lhbc  
       2023-03-18 07:36:28 +08:00 via Android
    第一个其实是 Java 工程师的要求,几个框架全是 Java 的

    那个邮箱正则错了几个地方:
    用户名漏了 _
    域名是可以单个字母数字的,它限制了至少两个
    多了个空格
    lhbc
        9
    lhbc  
       2023-03-18 07:38:04 +08:00 via Android
    @tool2d 完全赞同。
    需要设计一些精妙的问题来测试 AI 这方面的能力
    lhbc
        10
    lhbc  
       2023-03-18 07:38:54 +08:00 via Android
    @Elix 不要问天气了,天气这种级别的问 siri 小爱就行
    lhbc
        11
    lhbc  
       2023-03-18 07:40:27 +08:00 via Android
    粗略地说,超出我预期了
    liuguangxuan
        12
    liuguangxuan  
       2023-03-18 08:17:09 +08:00 via Android   ❤️ 1
    @lhbc 你只看到了他问天气,没看到他的 02.29
    lhbc
        13
    lhbc  
       2023-03-18 08:26:52 +08:00 via Android
    @liuguangxuan 没有意义。
    你确定文心一言会即时联网或者训练数据包括了天气数据并且语料时间在 2 月 29 号之后吗?
    cat333
        14
    cat333  
       2023-03-18 08:27:02 +08:00
    脑筋急转弯还是不行
    lhbc
        15
    lhbc  
       2023-03-18 08:28:53 +08:00 via Android
    @liuguangxuan 也不用测试它是否会判断闰年之类,AI 不是这样检索问题的
    joy33
        16
    joy33  
       2023-03-18 08:29:55 +08:00   ❤️ 1
    @cat333 #14 哈哈,有待加强,起码说明不是照搬 openai 、有思考性
    lhbc
        17
    lhbc  
       2023-03-18 08:30:24 +08:00 via Android
    低级问题只能 garbage in garbage out
    Elix
        18
    Elix  
       2023-03-18 11:35:17 +08:00
    @lhbc 不是我问的,你仔细看看图。
    Elix
        19
    Elix  
       2023-03-18 11:36:46 +08:00
    @lhbc 请问 2023 年的 2 月有 29 日么?还是说文心一言用玛雅历?
    LightOrange
        20
    LightOrange  
       2023-03-18 12:35:54 +08:00
    yaoyao1128
        21
    yaoyao1128  
       2023-03-18 12:43:47 +08:00 via iPhone

    笑死
    lhbc
        22
    lhbc  
       2023-03-18 12:51:34 +08:00 via Android
    @Elix 我说了,garbage in garbage out
    baiduyixia
        23
    baiduyixia  
       2023-03-18 16:49:57 +08:00
    @lhbc 无语,你没看懂吗? 2023 年 2 月没有 29 日,只有 28 日,楼上问了一个不存在的日期,结果还给出了天气预报
    lhbc
        24
    lhbc  
       2023-03-18 20:31:06 +08:00
    @baiduyixia 我看到了啊,上面我都说了它不一定会判断闰年
    GPT 不是这样用的,这种问题根本没理解 GPT 的工作原理
    这种问题就是 garbage in garbage out
    lhbc
        25
    lhbc  
       2023-03-18 20:37:27 +08:00
    @baiduyixia 我问 ChatGPT 『 2021 年 2 月 29 号是星期几?』
    它回到我『 2021 年 2 月 29 日是星期一。』

    GPT 不是这样用的,这没法体现出文心一言的水平如何
    garbage in garbage out ,明白了吗?

    https://imgur.com/a/1OKQGMd
    gam2046
        26
    gam2046  
       2023-03-18 21:02:35 +08:00
    @baiduyixia #23 这类深度学习,用人类语言来说,就是都通过相关性给出的结果,而非逻辑性。问日期这种是没有意义的。没有办法提醒出模型训练过程的相关性结果。

    类似的,就算你问他一加一等于几,它回答等于三,也不等于它是垃圾。
    sleepybear1113
        27
    sleepybear1113  
       2023-03-18 23:03:08 +08:00
    有没有可能,2.29 那天,就是 3.1,?
    binux
        28
    binux  
       2023-03-18 23:33:06 +08:00 via Android
    比我想的要好
    昨天的 V2:chatppt
    今天的 V2:不如 chatgpt
    和着反正做什么都是错的
    lhbc
        29
    lhbc  
       2023-03-18 23:38:48 +08:00 via Android
    @sleepybear1113 不是的。语言模型并没有这样的能力
    问它逻辑题、脑筋急转弯都没意义,即使回答对了也不是推理出来,而是训练语料里的相关性检索出来的
    icharm
        30
    icharm  
       2023-03-20 17:02:40 +08:00
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1051 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 76ms · UTC 23:24 · PVG 07:24 · LAX 15:24 · JFK 18:24
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.