V2EX › Yinz 的所有回复 › 第 6 页 / 共 15 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2 3 4 5 6 7 8 9 10 ... 15

❮

❯

2017-02-06 23:10:27 +08:00

回复了 Yinz 创建的主题 › 程序员 › 使用卷积神经网络与代理服务器实现骂人弹幕的自动屏蔽

@wjm2038 并不是 up 主屏蔽 XD 你可以观察一下开关这个选项前后的弹幕池，开选项之前是 http://comment.bilibili.com/13769505.xml ，开启之后变成了 http://comment.bilibili.com/rc/13769505.xml

另外 up 主屏蔽的 api 是这样的 http://comment.bilibili.com/cloud/filter/8376267.json
XD

2017-02-06 22:42:55 +08:00

回复了 Yinz 创建的主题 › 程序员 › 使用卷积神经网络与代理服务器实现骂人弹幕的自动屏蔽

@yexm0 2333 这个功能我有注意，我原本还尝试通过求这两个模式下的差集来快速获得屏蔽弹幕呢，但是当我求完差集出来一看，这个过滤效果更像是大规模无差别灭杀 2333 ，不排除可能是通过筛选节操值小于特定阈值的用户弹幕产生的弹幕池 XD

2017-02-06 22:26:19 +08:00

回复了 Yinz 创建的主题 › 程序员 › 使用卷积神经网络与代理服务器实现骂人弹幕的自动屏蔽

@wjm2038 其实你所说的同音字，拆字，谐音字等问题，按我的理解，在 word2vec model 上就已经解决掉了， word2vec 一定程度上解决了自动识别语义相近的词语的问题 :O

2017-02-06 22:16:18 +08:00

回复了 Yinz 创建的主题 › 程序员 › 使用卷积神经网络与代理服务器实现骂人弹幕的自动屏蔽

@nbndco 首先感谢建议:D

关于关键词过滤我是有这样的想法的，我平时过滤弹幕的做法通常都是看到某些弹幕后才寻找关键词加入屏蔽列表，但是长期下来总是有许多新的关键词出现，正是这些层出不穷的漏网之鱼（词）使我产生了使用机器学习来屏蔽的想法的。

我使用神经网络，是希望它能够在大量的骂人弹幕中，寻找出一些相对明显的，人工注意不到的特征（当然这些特征里面很可能也包括关键词特征），这也是我使用 CNN 而不是普通 MLP 的原因:)

如果单从识别并找出最佳的屏蔽关键词的角度来说的话，我觉得决策树可能是一个非常合适的选择

另外我是有使用 numpy 的，包括这个项目，只不过并不算非常熟练我也不太好意思写出来献丑了:D

2017-02-06 20:39:26 +08:00

回复了 Yinz 创建的主题 › 程序员 › 使用卷积神经网络与代理服务器实现骂人弹幕的自动屏蔽

@binux 最终这个模型我测试了 20 次迭代，最后选的是第三次迭代的， Validation Accuracy 是 97.060%，训练部分的详细数据可以看这篇文章 :D
https://yinzo.github.io/14863637259966.html

2017-02-06 20:21:46 +08:00

回复了 Yinz 创建的主题 › 程序员 › 使用卷积神经网络与代理服务器实现骂人弹幕的自动屏蔽

@romantic1412 GAN 指的是 Generative Adversarial Networks 吗，是个没了解过的网络呢 :D
不过通过生成样本来提高样本量这个思路好像在哪篇论文里看到过 XD 我找时间深入了解下看看 XD

2017-02-06 18:05:38 +08:00

回复了 Yinz 创建的主题 › 程序员 › 使用卷积神经网络与代理服务器实现骂人弹幕的自动屏蔽

@regicide 思考了一下，有点难，毕竟举报处理是 up 主负责的，处理的速度也很慢，跟不上弹幕的增加速度，一般换弹幕池了举报都没解决呢...

2017-02-06 16:53:57 +08:00

回复了 Yinz 创建的主题 › 程序员 › 使用卷积神经网络与代理服务器实现骂人弹幕的自动屏蔽

@Hstar hhhhhh 好主意，可以顺便拿收集到的数据用 RNN 训练个 language model 来自动骂人 (逃