V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
yzc27
V2EX  ›  问与答

目前 NLP 中,对英语进行分句、分词,最佳体验是哪种?

  •  
  •   yzc27 · 2019-01-15 10:02:31 +08:00 · 4204 次点击
    这是一个创建于 2166 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近在研究 NLP,很多模型都是需要对数据进行预处理,进行分句、分词。那么,对于英语来说,目前分句、分词最好的或者比较多人用、效果最佳的是什么包(或者方法)呢?

    下面给出个人的猜测:

    1. nltk
    2. spacy
    3. 正则分割
    4. 暴力用.分句;用空格分词 ...
    10 条回复    2019-01-15 18:58:02 +08:00
    liwl
        1
    liwl  
       2019-01-15 10:38:35 +08:00
    jiba
    liwl
        2
    liwl  
       2019-01-15 10:38:58 +08:00
    结巴分词
    TotoroSora
        3
    TotoroSora  
       2019-01-15 10:41:38 +08:00 via Android   ❤️ 1
    之前做项目用的 nltk,配合正则做一些细节调整。周围人也基本都在用 nltk。
    EPr2hh6LADQWqRVH
        4
    EPr2hh6LADQWqRVH  
       2019-01-15 10:43:06 +08:00
    英语还用分词?逗我?

    英语的词是分好的啊,空格就是分词
    SeaRecluse
        5
    SeaRecluse  
       2019-01-15 10:43:58 +08:00
    英文正则分割最方便,如果效果不好请先清洗数据。
    timle1029
        6
    timle1029  
       2019-01-15 10:59:58 +08:00
    我觉得楼主说的是 phrase finding 吧,应该是类似于这片文章里介绍的 https://dl.acm.org/citation.cfm?id=1119287
    aREMbosAl
        7
    aREMbosAl  
       2019-01-15 12:10:13 +08:00
    英语分词什么意思
    SleipniR
        8
    SleipniR  
       2019-01-15 12:34:18 +08:00 via Android
    英语不需要分词,默认空格已经分好了,但是要做词形还原。
    yanaraika
        9
    yanaraika  
       2019-01-15 12:36:00 +08:00
    nltk 不知道高到哪里去了 结巴在技术上是在搞笑吗
    yzc27
        10
    yzc27  
    OP
       2019-01-15 18:58:02 +08:00 via iPhone
    @liwl 結巴不是只針對中文的嗎?我個人只是聽說過結巴,沒去詳細了解。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2674 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 14:42 · PVG 22:42 · LAX 06:42 · JFK 09:42
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.