我们的文本本身是很稀疏的,也就是一些没什么结构性的短评,标签的话我们能用的也只有用户的举报和楼主( up 主)设置的屏蔽 需求是从中挑选一些能够体现中心思想或者至少是信息量大的短评 现在已知的备选方案有: rnn seq to seq, sentence2vec 聚类,根据楼主的屏蔽和用户举报的用户行为做一些监督训练 现在完全没有什么头绪求万能的 V2EX 大神们给点提示