V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
woshipanghu
V2EX  ›  程序员

看到说国内的 ai 发展不起来其中一个原因是因为中文语料库

  •  1
     
  •   woshipanghu · 2023-03-27 14:13:03 +08:00 · 17252 次点击
    这是一个创建于 636 天前的主题,其中的信息可能已经有所发展或是发生改变。

    中文优质开源的语料库信息太少

    如果觉得少不能去把国外的英文语料库翻译成中文

    然后再训练

    是我想的太简单了吗 有做 ai 相关的大佬吗 这种可行吗

    120 条回复    2023-04-07 09:34:28 +08:00
    1  2  
    proxytoworld
        101
    proxytoworld  
       2023-03-28 17:09:39 +08:00
    @worldqiuzhi 看了一篇文章,chatgpt 训练的中文占比百分之一?好像是
    proxytoworld
        102
    proxytoworld  
       2023-03-28 17:10:41 +08:00
    @8355 关于国内国外资本投资,可以仔细想想为什么会这样,同样是资本,天然国内的就短视?说到底还是跟资本所处的环境有关
    d94IgFQK17R50xY0
        103
    d94IgFQK17R50xY0  
       2023-03-28 17:16:34 +08:00
    国内的 ai ,无法做到 chatGPT ,任何的事情、所思所想等方方面面,首先一个要命的本质原因:

    Everything is based on the need for political power
    chatWell1
        104
    chatWell1  
       2023-03-28 17:17:54 +08:00
    类似微信这么大的语料库都是自我闭环内,行业生态开放很重要
    grg
        105
    grg  
       2023-03-28 17:21:31 +08:00 via Android
    翻译有的专业术语意思可能会有歧义,人工校准成本又太大,毕竟训练数据可不小
    8355
        106
    8355  
       2023-03-28 17:27:26 +08:00
    @proxytoworld #102 别往下说了🙅🙅🙅🙅🙅🙅🙅🙅
    ptrees
        107
    ptrees  
       2023-03-28 18:04:04 +08:00
    @LaurelHarmon 计算机也不是中国发明的,编程语言也不是中国人发明的.我老觉得你们对中国人有什么误解,好像中国过去一直领先,是现代中国人不努力才导致我们落后了似的.
    大哥我们都落后几百年了,这不是还在追赶吗?
    Admstor
        108
    Admstor  
       2023-03-28 18:43:37 +08:00
    @bitshiyuzhe YYGQ 的提问得到 YYGQ 的回答,无论哪个方向,都会得到答案
    就如 openAI 早就说过,chatGPT 其实并不理解意义(至少目前没有达到我们人类所认为的"理解")
    如果一个奇怪的语言体系,训练出与之匹配的 AI,我觉得这依然是成功的

    很典型的例子
    例如 V2 或者 B 战,动不动就有人什么资本,什么 50W 挂嘴上,这不就是很成功的一个训练案例么

    在看待 AI 的时候,我们不能先入为主的认为,一定要训练出一个全能圣母,一个万能的回答机器,一个终结一切的完美设备

    而这种毫无逻辑但是能说会道,不正是很多网络上的人类吗?
    HeyWeGo
        109
    HeyWeGo  
       2023-03-28 19:50:02 +08:00
    看到楼上那些纠结歧义的,我第一印象就想到了公司的程序员在和需求讨论问题的时候总是很会用 coner case 来反驳需求一开始没考虑到的问题,然后故作聪明的样子。

    不否认总有那么多的边界问题会触发错误,但是任何问题一开始就不从实际出发,直接上来就搞极限,这种情况越来越让自己感觉反感。次数多了甚至让程序员自己都不自知的走进了喜欢走极端的思维模式。

    如果一个 AI 能够很好的覆盖绝大多数的普通场景,那么它就是足够智能的,足够被称赞的。
    linliting45
        110
    linliting45  
       2023-03-29 05:10:35 +08:00 via iPhone
    大模型不需要大量数据就可以学会新语言,论文里有说
    metalvest
        111
    metalvest  
       2023-03-29 07:55:14 +08:00 via Android
    谷歌 bard 没有这方面的限制吧?不还是一坨答辩
    nyxsonsleep
        112
    nyxsonsleep  
       2023-03-31 10:01:39 +08:00
    教育行业始终存在,只是方式不同。减负减不到私立学校头上,有钱人照样可以选择继续卷下去,接下来就是教育差异,私立暴打公立。新东方未来就是直接服务这些人去了。
    nyxsonsleep
        113
    nyxsonsleep  
       2023-03-31 11:30:22 +08:00
    @Microi 教育行业始终存在,只是方式不同。减负减不到私立学校头上,有钱人照样可以选择继续卷下去,接下来就是教育差异,私立暴打公立。新东方未来就是直接服务这些人去了。
    sunyang
        114
    sunyang  
       2023-04-04 11:19:07 +08:00
    @encro 你猜 AI 怎么理解 SHZY ?
    encro
        115
    encro  
       2023-04-05 09:40:02 +08:00
    @nyxsonsleep

    格局底了啊,有钱人根本不用卷:

    学不好没关系,继承祖业就行。
    nyxsonsleep
        116
    nyxsonsleep  
       2023-04-05 10:18:40 +08:00
    @encro 格局谁低不好说。有钱人大可以生一堆,谁有能力谁继承,就你脸大,学啥啥不行,非得把祖业给你?

    三星是 70 15 15 的分配比例,LG 是 75 12.5 12.5 的分配比例,这富一代还是没玩明白,时间也少,等找继承人的时候已经晚了,下一代只会更狠。
    encro
        117
    encro  
       2023-04-06 10:23:06 +08:00
    @nyxsonsleep

    我表达错误,我意思是:


    大家拼命学的琴棋书画,诗词歌赋最后都是悦人之道。

    而有人从小起,学的是驭人之道。

    大家不在一个赛道上,人家根本不用你和卷。。。
    nyxsonsleep
        118
    nyxsonsleep  
       2023-04-07 00:52:02 +08:00
    @encro
    首先,我从来就没有表达所谓的,卷。如果你觉得是卷,先考虑自己脑子是不是被某些潮流入脑了。富家子弟,人家不是在和你卷,而是在跟人家自家的其他兄弟姐妹竞争,和你没什么关系。

    所谓的驭人之道,呃。不知道你是看了某些地摊文学看多了,还是以为现在是古代社会吧。

    股权天然就锁定了权力的边界,被法律保护和制约,与政治是完全不同的体系。公司经营是做生意,不是给你去过官瘾的。现代公司都是职业经理人,谁驭谁呢,真当自己很厉害啊?连迪士尼都不姓迪士尼了。
    至于政治就更不需要所谓的驭人之道,政治首先要的是别站错队。

    “悦人之道”也是一股子味,现代社会了,不想当服务员自己开公司不就得了。雷军不也是学的计算机,最后不也当老板了。况且当老板就不用悦人了吗?求人买自家东西和地摊上卖货的小贩不都一样在悦人?

    现代社会早就不是古代那种人身依附的封建社会关系了,还驭人悦人,拿着糟粕当圭臬,真的是黄豆都要流汗了。少看点地摊文学和网络古代爽文吧。
    encro
        119
    encro  
       2023-04-07 09:27:48 +08:00
    @nyxsonsleep

    开个玩笑之言,不必当真。

    我这里的驭人之道你可以广义理解:工商管理,沟通谈判,资产管理,如何用钱生钱,如何做人做事的道理。

    悦人之道:就是各种打工崽技能了。

    你说的很对,现代社会大家都可以自主选择。

    我也很佩服你这样自强不息的人。


    “富家子弟,人家不是在和你卷,而是在跟人家自家的其他兄弟姐妹竞争”

    请问阁下宫斗剧也看了不少,是如何合理工作和娱乐时间的?
    encro
        120
    encro  
       2023-04-07 09:34:28 +08:00
    无论对于个人或是民族,选择自强无可指责,值得尊敬。

    为什么国家就不让大家卷呢,为啥要打击新东方和学而思这样的教辅企业呢?
    1  2  
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   899 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 22:05 · PVG 06:05 · LAX 14:05 · JFK 17:05
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.