1
rpman 2021-11-30 13:15:25 +08:00
起码得有点机器学习基础吧
要超越 jieba 的话, https://github.com/hankcs/HanLP 了解一下, 甚至可以基于他做多任务蒸馏 |
2
menc 2021-11-30 13:15:42 +08:00
直接看 jieba 分词的源码就行。
jieba 分词用的是传统方式,在不开隐马尔科夫模型的时候,是一个很基本的前向最大匹配和后向最大匹配算法,不需要数学知识。 建议看 jieba 早期的一些源码,没有现在这么多东西 |
5
rpman 2021-11-30 13:29:19 +08:00
@flyhelan 不知道你的学习目标是什么. 单纯说 jieba 的话它基本已经停更了, 更多只是作为一个 baseline 而存在, 或者只是单纯的路径依赖. 在真实生产上对准确率有一点要求都不会考虑它.
顺便一提即使是 jieba, 在末期的版本也已经用上了深度学习, 虽然效果还是落后. |
8
rpman 2021-11-30 14:16:58 +08:00
|
9
rpman 2021-11-30 14:25:23 +08:00
@rpman 顺便补充, 不知道 jieba 的 Bi-LSTM 深度模型是咋回事, 在我的数据上没显示出什么明显优势, 性能倒是比 HanLP 慢不少.
|
10
xingshu1990 2021-11-30 15:44:40 +08:00
有几楼偏了,不过……好像……偏的又合理。
第三方库的第一次出现,都是作者本身有一些需求,然后慢慢完善起来,慢慢的功能通用起来。 建议从 jieba 上传的第一份代码开始看起,看看每次更新了什么内容,为了完成什么需求,然后自己跟着一个字母一个字母敲了,调试。 |