V2EX  ›  英汉词典

Tokenizing

Definition / 定义

tokenizing(动名词/现在分词):在计算机与语言处理中,指把一段文本按规则切分成一个个“词元/标记(tokens)”的过程,例如按单词、子词(subword)、符号或字符进行分割。常用于自然语言处理(NLP)、搜索引擎、文本分析等场景。(也可写作 tokenising,英式拼写)

Pronunciation / 发音

/ˈtoʊkənaɪzɪŋ/

Examples / 例句

Tokenizing turns a sentence into words.
分词(tokenizing)会把一个句子拆分成一个个单词。

Before training the model, we spent days tokenizing millions of customer reviews and handling punctuation, emojis, and mixed languages.
在训练模型之前,我们花了好几天对数百万条客户评论进行分词,并处理标点、表情符号以及混合语言的情况。

Etymology / 词源

tokenizing 来自 token(“标记、代币、象征物”)+ -ize(“使……化/使成为……”的动词后缀)+ -ing(表示过程/进行时)。其中 token 可追溯到古英语 tācn,意为“记号、征兆”。在现代计算机语境里,“token”被借用为“可被识别的最小单位”,因此 tokenize 就是“把内容变成可处理的标记单位”。

Related Words / 相关词

Literary Works / 文学作品

  • Speech and Language Processing(Daniel Jurafsky & James H. Martin):在文本预处理与语言模型章节中讨论 tokenizing/tokenization。
  • Natural Language Processing with Python(Steven Bird, Ewan Klein, Edward Loper):在用 NLTK 进行分词与文本处理时频繁使用该术语。
  • Introduction to Information Retrieval(Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze):在检索系统的文本处理流程中涉及 tokenizing/tokenization。
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   3243 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 11ms · UTC 04:01 · PVG 12:01 · LAX 20:01 · JFK 23:01
♥ Do have faith in what you're doing.