V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
sonnyclarity492
V2EX  ›  程序员

求教!缩略词、错别字符串还原单词

  •  
  •   sonnyclarity492 · 2 天前 · 457 次点击
    1. 假设每个单词都有自己的变种书写形式,缩写、扩写,原样照写。
    2. 变种形式的单词,可能是恰巧和另一个单词拼写相同,可能是写错了,可能是有特定缩略形式。
    3. 词汇表的数量是有限的,比如说原始单词就 2000 个。
    4. 用户的书写习惯不同,例如 apple 这个单词,有人写作 ape ,有人写作 apl ,有人写作 apple ,有人写作 opple ,有人写作 udtp (某种意义上是正确的)。
    5. 存在用户随意输入的情况。

    于是我们就有一堆字符串,希望能够确定这个字符串最可能是哪个原始单词。

    说说我的今天工作,我把 word 和 aliases 丢到神经网络里训练,用 alias 预测 word ,结果是它几乎不认识没见过的 alias ,错误率很高。

    这是因为那些字符串我自己也还原不出来,可能是用户随意打的。

    各位大佬有没有什么好的建议?
    8 条回复    2024-06-12 21:30:48 +08:00
    sonnyclarity492
        1
    sonnyclarity492  
    OP
       2 天前
    当然了,词汇表限定在某个专业领域,也不是随便什么单词,但有些输入确实看不懂,一个个去猜的话很费时间
    aloxaf
        2
    aloxaf  
       2 天前
    感觉这事儿适合 LLM 。如果只是单纯的简写/拼错的话,用模糊匹配或许也行。

    话说我没明白 apple 究竟是咋样才能拼成 udtp……
    sonnyclarity492
        3
    sonnyclarity492  
    OP
       2 天前
    @aloxaf 哈哈哈哈哈感谢回答,这个是我随便取名字,就当是一个专有名词。

    这个数量倒不多,更多的是缩写,比如地名缩写加三个首字母
    l22576283
        5
    l22576283  
       1 天前
    这个场景得依赖上下文推测才行,我觉得直接上大模型吧,让大模型根据上下文推测用户的缩写表达的单词
    realJamespond
        6
    realJamespond  
       1 天前
    搜下 Levenshtein Distance 距离算法应该可以
    sonnyclarity492
        7
    sonnyclarity492  
    OP
       1 天前
    @realJamespond 编辑距离我尝试过了,结果不理想,要不就是概率很低,要不就是乱匹配
    sonnyclarity492
        8
    sonnyclarity492  
    OP
       1 天前
    @l22576283 很遗憾,我也想要上下文,但是仅仅是单词短语,国家、地区信息也不提供
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1504 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 17:18 · PVG 01:18 · LAX 10:18 · JFK 13:18
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.