V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
hahastudio
V2EX  ›  OpenAI

想要讨论一下使用 GPT 作为搜索引擎的问题

  •  
  •   hahastudio ·
    hahastudio · 2023-02-12 11:05:25 +08:00 · 1786 次点击
    这是一个创建于 651 天前的主题,其中的信息可能已经有所发展或是发生改变。

    关于最近很火的 ChatGPT ,我希望我并不是因为媒体说它很厉害、很多人吹它很厉害,就认为它很厉害。我希望我能更多地了解它的原理。 目前看大家的应用场景,我觉得主要集中在这几个方面:

    • 辅助生成代码、配置文件
    • 辅助写作,特别是一些程式性的文章(例如周报、ReadMe )
    • 充当搜索引擎

    关于充当搜索引擎这部份,我有一些担忧。ChatGPT 会理直气壮地返回一些事实性的错误,例如它会说鲁迅和周树人不是同一个人。Google 之前宣传的 Bard 也有类似的问题。传统的搜索引擎会返回来源,而 ChatGPT 会模糊来源,让人更难判断真伪。如果我一定要用的话,我会先用 ChatGPT 询问,然后再回到搜索引擎去寻找来源,感觉就像是多做了一步。

    目前我的问题主要集中在 GPT 的训练部分。如果作为搜索引擎的话,GPT 应该需要像传统搜索引擎一样,持续不断地爬取互联网的新内容,用来训练。而关于这段训练,我有两个问题:

    1. GPT 的增量训练是不是非常简单?只需要把新文本当做新的训练集追加训练就好了?
    2. 如果后续发现爬取的内容有事实错误,想要 GPT 里面剔除这些内容,是不是代价非常高?基本上只能从头训练?

    如果是这样的话,那么会不会有以下的问题:

    1. 对返回结果进行投毒变得比较容易,特别是时事内容。在时事内容还在一些主流的媒体网站传播的时候,就利用大量的小网站或者在其他网站的评论里投毒。投毒的内容可以夹在随机的语句之中。
    2. 时事还在发展进行中,经历了“反转”,那么 GPT 是不是就很难返回最新进展。
    3. 运营公司需要消耗大量成本来剔除投毒内容,那是不是只从有声望的大网站上爬取内容就好了?这样的话,是不是互联网的内容会更加集中到大型网站里,小网站更难有出头之日?
    6 条回复    2023-06-23 11:28:14 +08:00
    churchmice
        1
    churchmice  
       2023-02-12 11:29:27 +08:00 via Android
    我的一个观察,不一定对
    当初搜索引擎出现的时候也是一个大变革,但是信息这个东西需要你做甄别,要交叉对比,而不是只看搜索引擎返回的结果
    chatgpt 也是如此,然鹅现在的人动手能力已经下降的很快了,比如找电影,在腾讯爱奇艺里面找不到就没辙了,不知道拿搜索引擎搜一搜
    alalida
        2
    alalida  
       2023-02-12 11:31:03 +08:00 via Android
    你先理解一下 in context learning 再来看这些问题
    alalida
        3
    alalida  
       2023-02-12 11:31:37 +08:00 via Android
    GPT 的增量训练非常昂贵
    pochy06
        4
    pochy06  
       2023-02-12 13:07:12 +08:00   ❤️ 2
    1. 看有多少数据,以及是多大的模型。OpenAI 其实已经提供了 fine-tune 接口,训练价格$0.0300/k token
    2. 不是的。可以利用 RLHF 的方法让模型自己有一些筛选能力,或者使用事实检测(假新闻检测)的方法做筛选
    3. 目前的一个趋势是检索式方法+生成式模型( retrieval-enhanced pretrained language model ),在一定程度上可以解决这种问题,即结合搜索引擎的实时性内容优势+少批量候选,利用生成式语言模型做最后召回 /生成。(也许)这就是为什么 new bing 可以做到回答 2021 年以后的问题。所以“返回最新进展”这个需求不是一个简单的单模型问题,而是一个系统问题。
    DeltaC
        5
    DeltaC  
       2023-02-12 13:14:26 +08:00
    个人不看好 chatgpt 向搜索引擎方向发展。
    想一想自己从搜索引擎搜索信息然后取信依靠的什么指标,或者换一种说法,当接触到一个信息时,我们自己的知识储备不能判断其正误,我们通过什么因素去判断信息的价值呢?
    我感觉有一下三点
    1.其他人类的选择,比如 stackoverflow 的 vote ,git repo 的 star ,以及评论区的反馈;
    2.“交叉验证”,从不同的信源,得到了相近的结论,那我们倾向于认为是可信的;
    3.“专家系统”,领域知名专家 /开发者的结论,也倾向于可信。比如 russ cox 讲 memory model ,linus 讲 os 。

    目前,我觉得 chatgpt 这三点做的都不行。

    个人看好 chatgpt 向某个特定领域的发展,比如
    - 辅助生成代码、配置文件
    - - tabnine,copilot 已经比较成熟了,后者我正在用,写 makefile,cmakelists 是相当的好用。
    - 辅助写作,特别是一些程序性的文章(例如周报、ReadMe )

    专注于某个特定的领域,只给模型特定领域的数据集,要像个“偏科生”,而不是“百科全书”,如此发展,我看好。

    此外,chatgpt 这类东西仅在三产绕圈子,貌似没有影响到一二产,我认为影响力有限。
    bigtang
        6
    bigtang  
       2023-06-23 11:28:14 +08:00
    chatgpt 的核心价值是生成,不是检索
    目前的最大缺点是响应慢,而检索能达到毫秒级,体验一下源代码检索网站: www.tanglib.com , AI 目前根本达不到这个速度。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5989 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 03:03 · PVG 11:03 · LAX 19:03 · JFK 22:03
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.