收集了很多用户咨询的问题，如何采用 Python 提取出最常见的问题那？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 1347 天前的主题，其中的信息可能已经有所发展或是发生改变。

我采用 jieba 进行了高频词汇的统计，然后再根据高频词调出包含的问题，但是感觉这样也不是太好。用户问题一般方式不是太一样，但是关键字都是类似的，如何能提出相似度较高的问题，想求教下大家，不吝赐教

9 条回复 • 2021-03-17 19:20:50 +08:00

princelai

2021-03-17 10:04:53 +08:00

简单点就 TFIDF 提取出每句 TOP5 的词,然后转 one hot 求和，最后求余弦距离

复杂点就 bert 直接整句输入，输出一个 768 维向量，最后还是余弦距离 /Ball-Tree/KD-Tree 这些，无新增直接聚类也应该可以。

chogath

2021-03-17 10:17:25 +08:00

统计学问题

xiaoxinshiwo

2021-03-17 12:10:33 +08:00

daijinming

2021-03-17 12:59:18 +08:00

@xiaoxinshiwo 我也是这个感觉，不明觉厉

daijinming

2021-03-17 13:00:05 +08:00

@princelai 兄台，理解你说的这话，都需要啥基础

princelai

2021-03-17 13:46:13 +08:00

@daijinming #5 只想了解名词大概意思，学 NLP 三天就够了，要想了解原理怎么也得学 2 月吧

qW7bo2FbzbC0

2021-03-17 17:23:05 +08:00

https://zhuanlan.zhihu.com/p/166499896 我也看到了这个，不知道和 ES 方案比起来如何

MOONLIGHTT

2021-03-17 18:58:39 +08:00

目前深度学习来做文本理解的方案一般是预训练+finetune，预训练模型里面一般都采用 bert 或者 bert 的变种。

具体的话可以看看这个仓库 https://github.com/ymcui/Chinese-BERT-wwm

superrichman

2021-03-17 19:20:50 +08:00

用 jiagu 提取关键词试试? 这个应该是最简单的, 就调一个函数

https://github.com/ownthink/Jiagu