这是一个创建于 3513 天前的主题,其中的信息可能已经有所发展或是发生改变。
有這樣幾個問題:
1.哪裏能獲得一些大的語料呢?
目前拿sogou實驗室的新聞語料練手,2g大小,差太遠了。
在語料的豐富度上差太多,感覺質量和數量都不夠。
2.分詞的字典,我自己有1.3億詞庫,想直接加進結巴分詞
這樣做會不會結果太亂,用結巴分詞的分詞的“全模式”分詞後放到word2vec跑會不會結果不好?
3.我想把1.3億詞庫自動分類,大家有什麼好的建議嗎?
謝謝大家!
(剛用linux,不知道爲何不能切換簡體了)
2 条回复 • 2014-10-16 09:20:24 +08:00
|
|
1
flyaway 2014-10-15 22:38:43 +08:00 1
一般的语料都是研究机构标注的,通常都是需要花钱买的
|
|
|
2
userlogin 2014-10-16 09:20:24 +08:00 1
v2ex也用了结巴分词:t/101091
|