V2EX  ›  英汉词典
Enqueued related words: Record Linkage

Jaro-Winkler

定义 Definition

Jaro–Winkler(杰罗–温克勒)相似度/距离:一种用于比较两个字符串相似程度的指标,常用于姓名匹配、去重、实体对齐、记录链接(record linkage)等场景。它在 Jaro 相似度基础上,对前缀相同的字符串给予额外加权,因此对“开头相同但后面略有差异”的字符串更敏感。(也常被称为 Jaro–Winkler similarityJaro–Winkler distance。)

发音 Pronunciation (IPA)

/ˈdʒæroʊ ˈwɪŋklər/

例句 Examples

Jaro-Winkler is often used to match names that are spelled slightly differently.
Jaro-Winkler 常用于匹配拼写略有不同的人名。

In our data-cleaning pipeline, we combined Jaro-Winkler with rule-based filters to identify duplicate customer records across multiple systems.
在我们的数据清洗流程中,我们将 Jaro-Winkler 与基于规则的过滤器结合,用于识别多个系统之间重复的客户记录。

词源 Etymology

该术语来自两位研究者的姓氏:Jaro(Matthew A. Jaro)提出了用于字符串比较的 Jaro 度量思想;Winkler(William E. Winkler)在此基础上引入“前缀加权”等改进,使其在姓名等领域更实用,因此合称 Jaro–Winkler

相关词 Related Words

文学与著名作品 Notable Works

  • William E. Winkler, “String Comparator Metrics and Enhanced Decision Rules in the Fellegi–Sunter Model of Record Linkage”——记录链接(record linkage)经典文献中讨论并推广了相关字符串比较度量(常提及 Jaro 与 Jaro–Winkler)。
  • Duplicate Record Detection》(关于重复记录检测/数据去重的学术与技术书籍中常作为常用相似度方法出现)——在实体解析(entity resolution)与去重章节中常列为对姓名字段有效的指标。
  • Entity Resolution and Information Quality》(实体解析与信息质量相关著作)——通常在“字符串相似度度量”部分介绍 Jaro–Winkler 用于人名、地址等字段匹配。
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1941 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 16ms · UTC 02:35 · PVG 10:35 · LAX 18:35 · JFK 21:35
♥ Do have faith in what you're doing.