Python 自然语言分析如何提取特定关键词？

This topic created in 3386 days ago, the information mentioned may be changed or developed.

V 友们，给一篇文章，里面会出现一些公司的名字，前提是我不知道有哪些公司，请问如何将这些公司的名字提取出来

提取

Python

名字

公司

18 replies • 2017-09-30 23:25:14 +08:00

binux

Mar 18, 2017 via Android

公司名是全称还是简称
实体识别

maiganne

Mar 18, 2017

@binux 全称简称都没关系，只要能提取出来就行，能稍微说的详细点吗？谢谢

oisc

Mar 18, 2017

@maiganne NER 是一个自然语言处理的一个比较大的方向，怎么给你说详细一点。

binux

Mar 18, 2017 via Android

@maiganne 我问你文本中出现的是全称还是简称

maiganne

Mar 18, 2017

@binux 哦，全称，有什么 python 库可以实现吗

binux

Mar 18, 2017 via Android

@maiganne 全称分词，再自己写个规则就行了

maiganne

Mar 18, 2017

@binux 嗯，谢谢

ijustdo

Mar 18, 2017

中文处理里面有个实体识别就是代词性的分词然后找到那些为机构名词

ijustdo

Mar 18, 2017

INFO 2017-03-18 16:58:52,236] intxt: 有一个叫一腿有限公司的是个好公司
INFO 2017-03-18 16:58:52,236] 1:有 /v[-1:HED] 2:一个 /m[7:SBV] 3:叫 /v[7:SBV] 4:一 /m[4:ATT] 5:腿 /n[5:ATT] 6:有限公司 /n[2:VOB] 7:的 /u[2:RAD] 8:是 /v[0:COO] 9:个 /q[10:ATT] 10:好 /a[10:ATT] 11:公司 /n[7:VOB]
INFO 2017-03-18 16:58:52,236] A1(3, 5): 一腿有限公司
INFO 2017-03-18 16:58:52,236] A0(1, 1): 一个
INFO 2017-03-18 16:58:52,236] A0(6, 6): 的
INFO 2017-03-18 16:58:52,236] A1(8, 10): 个好公司
INFO 2017-03-18 16:58:52,236] ------------------------------------------------------------

看到没有一腿有限公司成功识别当然这个公司是不存在的呵呵

maiganne

Mar 18, 2017

@ijustdo 太好了，怎么实现的

ijustdo

Mar 18, 2017

实体识别找这个相关的库我用的哈工大的库

ijustdo

Mar 18, 2017

百度的自然语言接口也提供免费的文本相关的接口每天有次数限制

ijustdo

Mar 18, 2017

北大的中文有个撒实验室也出类似的其实就是带词性的分词然后再处理 python jieba 分词也带词性分词

最简单的你可以先用 jieba 试试找名词和机构名词我要是没记错 jieba 也带新词发现。。。

maiganne

Mar 18, 2017

@ijustdo 非常感谢

maiganne

Mar 18, 2017

@ijustdo 你用的哈工大的库是什么，能在 python 中使用吗？我也想试试

bxb100

Mar 18, 2017 via Android

清华也有个分词的包

ijustdo

Mar 18, 2017

哈工大 ltp

kunjinkao

Sep 30, 2017

找些语料训练个 crf，抽取一下就 ok 了