Jaro–Winkler(杰罗–温克勒)相似度/距离:一种用于比较两个字符串相似程度的指标,常用于姓名匹配、去重、实体对齐、记录链接(record linkage)等场景。它在 Jaro 相似度基础上,对前缀相同的字符串给予额外加权,因此对“开头相同但后面略有差异”的字符串更敏感。(也常被称为 Jaro–Winkler similarity 或 Jaro–Winkler distance。)
/ˈdʒæroʊ ˈwɪŋklər/
Jaro-Winkler is often used to match names that are spelled slightly differently.
Jaro-Winkler 常用于匹配拼写略有不同的人名。
In our data-cleaning pipeline, we combined Jaro-Winkler with rule-based filters to identify duplicate customer records across multiple systems.
在我们的数据清洗流程中,我们将 Jaro-Winkler 与基于规则的过滤器结合,用于识别多个系统之间重复的客户记录。
该术语来自两位研究者的姓氏:Jaro(Matthew A. Jaro)提出了用于字符串比较的 Jaro 度量思想;Winkler(William E. Winkler)在此基础上引入“前缀加权”等改进,使其在姓名等领域更实用,因此合称 Jaro–Winkler。