tokenizing(动名词/现在分词):在计算机与语言处理中,指把一段文本按规则切分成一个个“词元/标记(tokens)”的过程,例如按单词、子词(subword)、符号或字符进行分割。常用于自然语言处理(NLP)、搜索引擎、文本分析等场景。(也可写作 tokenising,英式拼写)
/ˈtoʊkənaɪzɪŋ/
Tokenizing turns a sentence into words.
分词(tokenizing)会把一个句子拆分成一个个单词。
Before training the model, we spent days tokenizing millions of customer reviews and handling punctuation, emojis, and mixed languages.
在训练模型之前,我们花了好几天对数百万条客户评论进行分词,并处理标点、表情符号以及混合语言的情况。
tokenizing 来自 token(“标记、代币、象征物”)+ -ize(“使……化/使成为……”的动词后缀)+ -ing(表示过程/进行时)。其中 token 可追溯到古英语 tācn,意为“记号、征兆”。在现代计算机语境里,“token”被借用为“可被识别的最小单位”,因此 tokenize 就是“把内容变成可处理的标记单位”。