V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
探索世界的好奇心万岁
est
V2EX  ›  分享发现

浏览器 JS 都支持原生中文分词了

  •  
  •   est · 38 天前 · 2405 次点击
    这是一个创建于 38 天前的主题,其中的信息可能已经有所发展或是发生改变。
    console.table(Array.from(new Intl.Segmenter('cn', { granularity: 'word' }).segment('工信处女干事每月经过下属科室都要亲口交代 24 口交换机等技术性器件的安装工作')))
    

    https://developer.mozilla.org/en-US/docs/Web/JavaScript/Reference/Global_Objects/Intl/Segmenter

    虽然效果一般但是可以用了。。。。

    19 条回复    2022-05-23 22:14:46 +08:00
    WildCat
        1
    WildCat  
       38 天前
    Safari 竟然也支持?
    xlsepiphone
        2
    xlsepiphone  
       38 天前   ❤️ 18
    这个测试用例有点屌。
    eason1874
        3
    eason1874  
       38 天前   ❤️ 1
    浏览器鼠标双击选中文本就是自动分词的,以前想不通为什么不提供 JS 用,现在总算有了,不知道效果是否一样
    weixiangzhe
        4
    weixiangzhe  
       38 天前

    好像还不错
    weixiangzhe
        5
    weixiangzhe  
       38 天前

    感觉确实效果一般
    lower
        6
    lower  
       38 天前
    console.table 在我 edge 浏览器里结果是 undefined ?
    lower
        7
    lower  
       38 天前
    @lower 好像又好了
    selca
        8
    selca  
       38 天前
    @weixiangzhe #5 我这双击点击出来的文本,跟你的图好像是一样的,chrome
    Buges
        9
    Buges  
       38 天前 via Android
    你把这个测试用例发到墙内平台上试试,看看他们的分词效果如何。
    zagfai
        10
    zagfai  
       38 天前
    你这个用例。。。。。顶
    Biwood
        11
    Biwood  
       38 天前
    Firefox 竟然不支持
    shyrock
        12
    shyrock  
       38 天前
    你这个用例是测试敏感词用的吧?
    Helsing
        13
    Helsing  
       38 天前 via iPhone
    不一般的测试用例
    Felldeadbird
        14
    Felldeadbird  
       38 天前
    这个分词好像只是做了常见的词语分词。
    Marionic0723
        15
    Marionic0723  
       38 天前 via Android
    我有一**立服务器
    我买了一个 8**换机
    学**者荣耀走位🔫


    这都 naive 了,现在的特殊词汇过滤一般是多种方式结合审查,比如 bilibili ,如果在某食肉动物内容的视频下面,是连“学习一下”都发不出来,评论发出去不增加总数,刷新下不会立刻出现,而是先消失后出现,弹幕发出去马上被删除,给自己的弹幕点赞就知道了。
    DOLLOR
        16
    DOLLOR  
       38 天前
    chrome 用户可以试试鼠标双击网页上的句子,你会发现 chrome 会自动选择中文词汇,正确率很高。所以我怀疑 chrome (或者哪个地方)很早就内置中文词库了。
    hamsterbase
        17
    hamsterbase  
       38 天前
    @DOLLOR

    Chrome 2012 年就支持分词了,用的是 IBM 的 icu
    lithiumii
        18
    lithiumii  
       38 天前 via Android
    这个测试用例挺经典的吧,结巴里也有
    P233
        19
    P233  
       38 天前
    @eason1874 试了几个例子,应该是一样的
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1743 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 17:01 · PVG 01:01 · LAX 10:01 · JFK 13:01
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.