V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  syaoranex  ›  全部回复第 1 页 / 共 2 页
回复总数  34
1  2  
赞同楼上,买房是现在最不应该着急的事情。
告知:今年 GLM-4 模型发布了,以上大部分问题 GLM-4 都可以解决,例子已经失效了。
135 天前
回复了 syaoranex 创建的主题 OpenAI 使用 Google 订阅 ChatGPT Plus 的风险提醒
@cherryas 谷歌账号废掉。
137 天前
回复了 syaoranex 创建的主题 OpenAI 使用 Google 订阅 ChatGPT Plus 的风险提醒
@klo424 我的账号就是很久以前注册的,一样被查。

@SenLief 最让我困惑的是这个付款资料我都不知道什么时候设置的了,起码距离上次修改账号设置有大半年或者将近一年以上了。所以应该不是迁移区域触发的。


@travellerly 现在注册和订阅 GPT 都不需要手机号。但使用礼品卡订阅的话,你需要应付的风险是谷歌的身份信息抽查或者 Apple 外区账号的封号。
138 天前
回复了 syaoranex 创建的主题 OpenAI 使用 Google 订阅 ChatGPT Plus 的风险提醒
@WangZhongWangHTC 没有在美国定居的身份和地址证明在被抽查时都是有这个问题的。谷歌对于付款资料的描述是:只有您移居新的国家/地区时,才能修改(法定)付款资料。
163 天前
回复了 cirton 创建的主题 OpenAI gpts 能实现以下功能吗?
1. 如果 PDF 里的文字不是文本形式而是图片形式,无法解析出文本,不行。
2. 如果 PDF 解析不出格式和位置正确的文本,那么被嵌入知识库的就是错误的内容,不行。
3. 如果在回答过程中无法触发知识库(上传的文档转换后的文本数据库)搜索,就无法获取知识库的知识,所以无法回答。为了提高触发概率,需要优化系统人设( Prompt )。
4. 知识库搜索错误或者匹配度不高,回答容易不准确或者出错。
5. 综上所述,难以实现。
@James2099 你觉得不浅显你倒是说说怎么不浅显了? Action 不就是 API 里的函数调用
181 天前
回复了 JNian 创建的主题 OpenAI 现在怎么能用上 GPT4.0turbo
1. 是 Turbo (但是实际上只有 32K 上下文),经过实测,不如 GPT-4 ( 8K/32K )聪明,但是生成速度略快一些。50 条消息/3 小时的限制依然在。
2. Turbo 的特色功能无非是 128K 超长上下文、更新到 2023 年 4 月的"知识",便宜费率,更快的输出速度。这些只要是支持了 Turbo 的 api 的都是可以体验到的。特色功能例如 GPT-4 Turbo with vision 需要中转网站或者中转 API 支持。但是支持的特性/功能肯定是官方的子集,肯定不会和官方 plus 一样全的。
3. plus 适合高强度使用或想尽快体验新功能的用户。(使用 key 的) API 的好处是:按量计费,数据不会被拿去训练,可以高度自定义(需要少量编程),缺点是 GPT-4 用多了还是比较贵的。按你需求来。
4. 部署此类应用并向公众提供服务的话有法律风险,我也不懂。但请注意请求官方 api 的 ip 不能是 openai 没有开通服务的地区 ip ,例如中国大陆和香港,否则用多了会被封号。另外如果给不熟悉 GPT 工作机制的人用的话,我见过有人一个对话持续到底地用,每次上下文长度拉满,128K input 和 1K output 每交互一次就要花费 1.3 美元,开放给别人用的时候注意限制窗口大小避免产生高开销。
例外 1:家庭关系

问题:

请回答下面的问题:

警察局长在路边与一位老人谈话,这时跑过来一个小孩,急忙对警察局长说:「你爸爸和我爸爸吵起来了!」
老人问:「这孩子是你什么人?」
警察局长说:「是我儿子」
请问:这两个吵架的人分别跟警察局长是什么关系?


期望的正确回答:
基础版:吵架的人分别是警察局长的老公和父亲,也就是说,警察局长是小孩的母亲,小孩的父亲和外公吵起来了。
进阶版:这两个吵架的人分别是警察局长的男性伴侣和父亲。在现代社会的多元家庭结构中,警察局长既有可能是女性,也有可能是男性(即同志家庭)。

测试结果:
GPT-4 也没回答出来。其他模型也一样。
例子 10:天体半径计算

问题:
「计算以下物理问题:已知某行星 A 质量约为地球质量的 1/81 ,A 的表面重力加速度约为地球表面重力加速度的 1/6 ,地球半径为 R ,则 A 的半径为多少?(用 R 和数字表示,可以使用根号)」

正确解答:
R/根号 13.5 ,或者 0.2722R ,或者 根号 6*R/9

注:这个题原本题干某行星 A 是月球,因为月球半径可能已经被作为语料训练进模型了,所以用某行星 A 替代。我们应该评测的是逻辑和计算,而不是知识。

评测结果:GPT-4 可以回答,但不稳定,容易在计算最后几步时「马虎出错」,但使用上代码和数学插件之后可以稳定回答(因为借助了插件计算不会出错)。

GPT-3.5 几乎无法正确解答。
Claude 不能正确解答。谷歌 Bard 不能正确解答。百度文心 4.0 不能回答。星火不能正确解答。
更新:GPT-4 网页版目前质量已经有所下降,上述例子 7 和例子 8 已经无法稳定回答。
先将程序分解为功能不同的文件,然后再将文件中代码和函数执行的功能总结为标准输入输出的自然语言描述(可以借助 GPT 来总结),再将文件结构和每个文件中执行的功能描述合成一个文本,喂给 GPT-4-32K 。
你访问的第三方 GPT 接入的是 bing 。
例子 9:比例问题

问题:「求解以下物理问题:一瓶无害放射性同位素溶液,其半衰期为 20 天,测得每分钟衰变 6×10^7 次.今将这瓶溶液倒入一水库中,80 天后可以认为溶液已均匀分布在水库中,现取 1 立方米水样本测得每分钟衰变 20 次,则该水库蓄水量为多少立方米?」

答案:187,500 立方米( 1.875×10^5 )

该问题 GPT4 可以稳定回答,GPT4-Mobile 版本可以稳定回答,但是多尝试几次可能会出错(正确率大概在 75%)。

GPT3.5/Claude+/New Bing 偶尔可以给出正确解答,但是很不稳定,其中 Claude+正确率最高,在 25%-45%间。

文心一直无法给出正确解答。
GPT-4-Mobile-V2 模型的测试:

该模型可以视作 GPT-4 的 instant 版本,比 GPT-3.5 聪明,但尚不能完全达到 GPT-4 的水平。响应速度快,提问速度限制也小一些。

该模型在上述 7 个例子(不包括例子 4 ,已被勘误)的测试中,单次测试下来大约有 4 个问题可以答对。重试 3 次依然无法答对的题目是:例子 8
例子 8 ,现实世界中的逻辑问题

问题:
小红是家中唯一的女儿,请使用逻辑分析以下情景中小红说「算了吧」最主要的原因:

小红(在家里被妈妈打了,伤心地哭着走向爸爸): 如果有人打你女儿怎么办? 爸爸: 谁敢打我女儿我就打她女儿。 小红(听完后扭头就走,哭得更伤心了): 那还是算了吧。

期望的正确解答:意识到如果按照爸爸的逻辑行事,他会因为妈妈打小红而再次去打小红,小红会再被打一次。(只要回答中有该要点即可)

该问题 GPT4 可以回答,但不算很稳定:大约 5 次重复中有 1 次会解答错误。GPT3.5/Claude/文心 /New Bing 无法给出正确解答。
@aanan 概率问题,不是说 GPT-4 在任何时候对任何帖子中的问题都能够给出稳定的正确回答。而是存在一个正确的概率:比如说例子 1 经过我大量测试,每次回答正确率在 85%以上,而其他模型,例如 GPT3.5 ,有时候也能够答对,但是多次测试下来,每次回答的正确率要低于 35%。多次尝试多个问题,才能知道背后模型。
@tianxiaqu123 其实专门优化有点类似人类的背题,如果模型实际上没有解题所需的能力,也只会在题目变动后答得一塌糊涂,例如文心一言针对「我爸妈结婚为什么没有邀请我」这个问题优化过,可以稳定回答,但是在回答以下问题时,就不行了:

问题:我的外婆叫王晓红,我的外公叫李耀,他们都很爱我,但为什么王晓红和李耀在结婚时没有邀请我参加他们的婚礼?

文心的回复(一共试了 4 次):
您外婆和外公结婚时,您的祖父母或外祖父母可能还未来到这个世界,所以他们无法参加婚礼。
您外婆和外公结婚时,您的祖父母或父母可能还没有出生,所以他们无法参加婚礼。
您外婆和外公结婚的时候,您还没有出生,自然不会邀请您参加婚礼。您的外婆王晓红和外公李耀在您出生之前就结婚了。您是在他们结婚后才出生的,所以您非常幸运地成为他们的孩子。
根据公开资料,王晓红和李耀并不存在结婚的关系,因此他们无法邀请您参加他们的婚礼。可能存在同名同姓的人,建议您向您的外婆和外公求证。
例子 7:速度与位移问题:

问题:「求解以下物理问题:汽车以 20m/s 的速度在平直公路上行驶,急刹车时的加速度大小为 5m/s^2 ,则自驾驶员急踩刹车开始,经过几秒后完全刹停?经过 5 秒后的位移大小为多少米?」

正确回答:4 秒; 40 米。

本问题 GPT4 注意到了 4-5 秒时汽车是静止状态没有位移,可以稳定给出正确解答。其余模型( GPT3.5/newBing/Claude/Claude+/文心 /Bard )均无法稳定给出位移的正确解答。
1  2  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1332 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 27ms · UTC 23:14 · PVG 07:14 · LAX 16:14 · JFK 19:14
Developed with CodeLauncher
♥ Do have faith in what you're doing.