个人认为很不错,语言的最小单元,和字节这个翻译类似。有没有人去注册一家词元跳动的公司?🤣
1
youngteam99 7 小时 15 分钟前
这公司名 25 年就有了
|
2
passive 7 小时 12 分钟前 via Android
国内的编译原理课上你们把 token 叫什么?
|
3
axuadm19 7 小时 1 分钟前
支持!应该把 web\http\com\这些洋文都换成中文,体现文化自信,大国的遥遥领先。同时还要注意,用洋文的都是潜在的行走五十万,要列入重点观察名单里。
|
4
letwewell 6 小时 55 分钟前 一进来就看见小丑在表演,一天的心情都好了
|
5
loveqianool 6 小时 44 分钟前 via Android
不是 兔啃 吗?
|
6
alect 6 小时 35 分钟前
我觉得好,信达雅。
|
7
askfilm 6 小时 32 分钟前
很好, 比 token 好理解多了
|
8
meetyuan 6 小时 27 分钟前
就读 "掏啃" ,大家都能理解啊!
|
9
akorn 6 小时 27 分钟前
|
11
dcdlove 6 小时 17 分钟前
编程
语言解析器语法树中几十年前就有词元的定义了 |
12
kfpenn 6 小时 13 分钟前 我也觉得还不错,上面抵制的没必要这么暴躁,以前 token 只在程序员圈子里用,这种专业词不翻译没什么,但随着 ai 技术的普及,这个词肯定要被大众所知所用,如果不找个合适的翻译,以后想要和日语一样在日常用语中参杂大量的英文?
|
13
dajj 6 小时 10 分钟前
我觉得不如叫数字粮票
|
15
hash 6 小时 0 分钟前
个人觉得既然因为大语言模型导致很多普通人需要开始理解 token 那么进行中文化翻译完全没问题
但是翻译成词元...我说实话普通人也很难理解的 |
16
JiafuYuan 5 小时 57 分钟前 http 请求时的 token 也是词元吗,一帮专家闲着没事干
|
18
saranz 5 小时 55 分钟前 说实话,不是很明白为什么像 token 、Ai 这类的单词为什么非要翻译出一个中文词汇。
|
20
chandlerbing9317 5 小时 51 分钟前
@dajj 叫话费吧
|
22
break 5 小时 36 分钟前 @saranz 如果 token 可以用英文名这个逻辑成立,外来文化直接用他们原文,那我们说其它国家名称的时候是不是学的美国就是 America 、日本就是にほん呢?那对于新生代来讲,会需要学会全世界语言来接受外来文化的基础教育。
一个国家不是所有人都学了英语,站在更高的高度去看 14 亿人,考虑的问题需要更全面。也许新知识的推广,后期新生代的教育,有些东西需要编入文档,编入教材,转化成一个中国知识结构里面的内容,最终融汇到“文化”里面去。 |
23
break 5 小时 33 分钟前
token 在都理解的人群里面沟通交流,完全可以继续使用 token 。但是给它翻译成汉字也很重要,有它使用的场景
|
24
Chicagoake 5 小时 26 分钟前
我在多邻国学一些简单的日语想着以后万一出国了能用,结果被假名整崩溃了。
|
25
liu731 PRO 「 An Inquiry into the Nature and Causes of the Wealth of Nations 」
「国民财富的性质和原因的研究」 「国富论」 |
26
Dispatcher 5 小时 18 分钟前
@alect 信达雅个锤子。
token 就是 token ,强行命名适得其反,我给完全不懂这个 it 技术的老婆说这个词,反而我还要解释什么叫分词,为什么要消耗 token ,生成视频又怎么计算的等等。然后和我说一句,不明所以。 @Chicagoake 日本人也很苦恼片假名,所以你不用太担心。true 、false 都有片假名谁敢信…… |
27
wudaye 5 小时 18 分钟前
虽然但是,大模型流行之前,我一直以为 token 是临时会话密钥的意思啊
|
28
dajj 5 小时 16 分钟前
@chandlerbing9317 话费不震撼。 今天我用了 1 亿数字粮票, 听起来就有钱
|
29
zli 5 小时 15 分钟前
那
OAuth Token 就是“经国家网信办等有关部门官方认证的词元”了吧 可以安全调用(手动狗头) |
33
TUTOO 5 小时 10 分钟前
翻译成词元个人感觉挺好,又不是说写入法条强制规定要用,正式的翻译为正式的文件提供了参考、统一标准。习惯用 token 、掏坑、花费、粮票的继续用就好了,又不会被出警。
|
34
NewYear 4 小时 48 分钟前
“词元”可以接受
我印象中最近有一个翻译成“新 XX”( xx 忘记是什么了),就不太行。 |
35
18bili 4 小时 22 分钟前 偷啃
|
36
lujiaxing 4 小时 17 分钟前
这东西为什么非要翻译呢? 就叫 token 不行吗????? 不翻译就叫 token 统一叫 token 会死吗
|
38
yuzii 4 小时 6 分钟前
词元 token
图元 primitive 片元 fragment 体元 voxel |
39
Procumbens 4 小时 4 分钟前
@NewYear 新智元
|
40
cmdOptionKana 4 小时 0 分钟前 我看有人建议翻译为“偷啃”就挺好的,偷啃你的钱包
|
43
cmdOptionKana 3 小时 51 分钟前 @lujiaxing 程序员思维、精英主义思维不利于赚钱。对于很多 AI 潜在消费者来说,token 这个英语单词确实不太友好。
你会反对 browser 翻译为浏览器吗,你会反对 programming 翻译成“编程”吗,你会反对 computer 翻译为电脑吗?如果不反对,为什么偏偏要反对 token 呢。 |
44
NO9527 3 小时 51 分钟前
token 指代东西太多了
|
46
wowawesome 3 小时 47 分钟前
不如 话费
|
47
lujiaxing 3 小时 46 分钟前
@cmdOptionKana 因为 Programming, Computer, Web-Brow-ser 这些词又长读起来又拗口. Pro-gram-ming, Com-pu-ter 读起来都很麻烦, 不如 "编程", "电脑", "浏览器" 读起来简洁明了. 写起来也不如中文简洁
|
50
cdwyd 3 小时 27 分钟前 via Android
token 这个词本身就挺模糊的,词元比 token 好理解。
|
52
ChineseTeacher 2 小时 57 分钟前 我都不知道上面这么多人在应激什么。“词元”这个翻译明明很好啊,让我想到把“byte”翻译成“字节”。
每个 byte 能承载一个 ASCII 字母,所以翻译成“字节”。token 翻译成词元,“元”引申单元,也指最基础的、小的处理单位,我觉得很好听。 其他领域内 token 翻译成令牌、代币,那是其他领域的事。你如果能认为 LLM 的 token 跟翻译成令牌、代币的 token 是一回事,那证明你对这些概念的理解有重大错误。 维基百科“token”在电脑领域下给了七八个不同的词条,都可以叫 token 。session token (网页会话)、security token (指 yubikey 这种东西)、access token (这种情况下翻译成令牌),还有虚拟货币的 token (翻译成代币)全都是不同的词条,LLM 的 token 的词条叫 tokenization ,这几个概念差别很大,英语里却只有一个词。搞一个新词出来方便一般公众理解,合适得不得了。 我还是觉得最适合跟词元这个翻译类比的是字节。字节和 byte 也没关系,但纯意译就搞了这么个翻译出来。mouse 英文就是老鼠,但计算机领域给翻译成鼠标。switch 在生活里可以指墙上的开关,动词可以指开关的动作,也可以指切换;专业领域里可以指铁路铁轨的道岔,还能指任天堂的游戏机;但是计算机领域里就给翻译成“交换机”。在实际可行的时候,根据实际含义来细化英文词汇的中文翻译,是理所当然的。如 switch 一样,一个英文单词对应多个中文含义的情况是非常多见的,token 能有 3 个中文翻译,分别对应不同情况,反倒对公众的理解是好事。 在日本人四处往语言里塞片假名的时候,我跟着一起喷。在微软把 sit back and relax 翻译成“坐和放宽”的时候,我也跟着一起喷。但词元这个翻译既不是片假名,也不是坐和放宽这种垃圾翻译,我无法理解为什么还会有人喷。你爱用 token 就用,就像你用 byte 一样。 |
53
PrinceofInj 2 小时 44 分钟前 via Android @JiafuYuan http 请求的时候叫令牌啊,中文现在这种是最好的,我是想不明白为什么同样是 token ,在两个环境下有两个完全不同的意思。英语简直是…
|
54
vasto 2 小时 36 分钟前
难以理解
|
55
zyzdxb 2 小时 36 分钟前
2 token 就是二次元了
|
56
micean 2 小时 30 分钟前
@PrinceofInj 英语造词能力太弱了
|
57
TimG 2 小时 28 分钟前 via Android 日文假名的含金量飙升 hhhh
|
58
tinydancer 2 小时 1 分钟前 @axuadm19 这也能上来阴阳两句😅
|
59
zachary99 2 小时 0 分钟前 via Android
确实比 token 更加贴切和容易理解
|
60
tangping 1 小时 58 分钟前
点卡
|
61
fredweili 1 小时 32 分钟前
无所谓,我就用英文说,简单无歧义
|
62
mangmaimu 1 小时 28 分钟前 via iPhone
问了下 ai ,词元都还是缩写,全称是词法单元,早就有了
|
63
answeryou 1 小时 15 分钟前
辞猿
|
64
woodfizky 1 小时 2 分钟前
|
65
back0893 1 小时 0 分钟前
也不错
|
66
sddyzm 59 分钟前
好像是早就有了
|
67
usVexMownCzar 54 分钟前 via iPhone
叫什么都行,关键要给出词语的解释。
|
68
Quik 48 分钟前
感觉不太合适,毕竟 token 里面也有不是词,或者是标点符号等部分,但我也没有想到更好的翻译。
这就像 Transformer 在毕业论文里总不能硬翻译成“变压器”和“变形金刚”之外,最后只能继续写英文。 |
70
herewego 44 分钟前
我感觉不少 v2er 有点儿高高在上的。。。。
|
71
zsqduke 42 分钟前 via iPhone 我主张直接音译,叫透肯或者投肯。
你试图信达雅,今天你说叫这个,明天我说叫那个,一千个人一千个想法 其实具体叫什么不重要、重要的是共识。比如像日语音译。有一个固定规则,可以翻译所有外来词,这样任何新词所有人都可以直接知道别人会怎么说 这就是音译的好处 而中文引入外来词的体系,每次都需要这个词进入大众视野以后等大家都需要用它了,然后再憋出来一个所谓“信达雅”的正式翻译,然后这个翻译又要一段时间被大众接受,最终才能成为中文自己的词汇。这个过程所花的时间、菜都凉了。 因为在没有语言能表达这个概念的时候这个概念只能在小范围内传播、这阻碍阻碍了各种概念的引入,阻碍了思想的交流 |
73
zsqduke 29 分钟前 via iPhone
@PrinceofInj
怎么会想不明白呢 英语思维的视角其实都是同一个意思,token 就是 token 的意思。brother 就是 brother 的意思。 中文思维去理解不得不拆成不同词汇 举个简单反面例子,打:打人,打电话,打水,打针,打球 分别是,hit ,call ,fill ,inject ,play 的意思,都是完全不相干的 看,看书,看电视 是 read 和 watch ,也是不同的 可以想象写汉语的外国人的崩溃程度吗 |
75
wupher 24 分钟前
还是新加坡聪明
|
79
jetsung 16 分钟前
想当初,Google 中文定名为 “谷歌” 时,也一堆人反对。然并...
官方翻译的主要是给它官方公文使用而已。不会影响什么。 |
80
artiga033 14 分钟前 via Android
上面一堆说 access token 的真是闹麻了,把多义词 token 拆成几个不同的表述(词元、令牌)不是天大的好事吗。
为意识形态和民族主义站队就没必要了。 因为相反,我还支持把“内存”和“外存”叫回 memory 和 storage ,或者记忆体和存储😅 |
81
zsqduke 14 分钟前 via iPhone
@Leeeeex 音译,意译本来就是各有利弊,音译的弊端我就不赘述了。刚才说了一下音译的好处就是快速造词
你觉得现在非专业人士在用这些 ai 领域的名词的时候有几个人真的知道这些词是什么意思的?不影响人们需要用这些词啊。语言只是一个标签,本身没有含义,重要的是这个标签和指代物的对应关系 不管是汉字还是表音文字的单词,最终其实都只是一个标签 |
82
Inn0Vat10n 13 分钟前
如果我遇到一个程序说今天又消耗了一百万的词元,我会觉得他是傻逼
|
83
asAnotherJack 13 分钟前
叫什么中文名都会有人不满意的
先不谈能不能普及开这个叫法,至少从语义上我觉得还不错。 直接提到 token 这个单词我最先想到的是令牌,鉴权那些东西,而不是大模型里那个 token |
84
Leeeeex PRO |
85
skydcnmana 2 分钟前
@asAnotherJack 其实不如就叫代币,令牌含义本质也是源自地铁票这种使用场景,也是代替货币在一定范围内使用的
|
86
hellozzh 几秒前
支持,从根本上防范被西化
|
87
zsqduke 几秒前 via iPhone
@Leeeeex
那一长串假名,看过去都不知道是啥东西,还得脑内转换一遍英语真的方便吗? 我学过日语,在学日语的时候确实是这样的感觉。但是我觉得不能把我们日语学习者的经历直接代入到日本人自己是这样。因为假名是他们原生文字 从我们对我们自己的原生文字汉字的经历来推导,日常常用的词就不说了。举个例子,阿玛尼,我觉得我们中国人看到阿玛尼这三个字,是要脑子里转化成 armani ,然后再理解到是那个品牌吗,听到阿玛尼就直接反应出来啦,不需要想到英文的 再来讨论碰到不认识的假名的情况。比如有个人没听说过阿玛尼。他认识的过程也不是去查阿玛尼的英文是什么呀。当然是直接去把阿玛尼和阿玛尼这家店关联在一起呀,不需要通过英文的 通过英文是中国的日语学习者臆想的 |