抖音和快手会对视频进行相似度检测吗？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

V2EX 提问指南

这是一个创建于 1150 天前的主题，其中的信息可能已经有所发展或是发生改变。

如果一个人同时上传两个相同的视频，我相信他们都会做 md5 检测，但是如果给视频加上封面图或者做其他修改操作，视频的 md5 就会改变。

那么除了最后的人工兜底外，抖音和快手是否会对一个用户的多个视频，或者多个不同用户的视频进行相似度检测呢？

如果采用抽帧的方式最后计算汉明距离，会涉及到解码，无论使用 FFmpeg 还是自己纯手工撸代码实现，后端的资源占用是不是巨大？

或者是否有更加便捷的方式实现视频的相似度检测？

不然他们是怎么实现屏蔽掉或者限流那么多相似的重复投稿的垃圾视频？通过人工和用户举报吗？

抖音

md5

视频

检测

27 条回复 • 2021-11-08 23:30:52 +08:00

seeyisee

2021-11-08 15:36:58 +08:00

感觉短视频检测这个意义不大。跟 bilibili 不太一样。纯自己瞎猜。

cpstar

2021-11-08 15:39:13 +08:00

显然，用 MD5 排重这种低等手段，那是第 0 步要干的事情。
真正要做的，肯定是视频摘要画面，查重。
这点资源还舍不得投入，干脆别干视频行业了。再说了，上传之后，本身也要做重新编码以至少适应不同网络速度的需求，干这个属于捎带手。

3dwelcome

2021-11-08 15:40:50 +08:00

十年前 youtube 就有上传内容版权识别功能了。

B 站也有视频里的二维码识别，抖音不可能完全没有。

但大部分时候，不用限制那么死。有些搬运小视频，访问流量那么小，不值得浪费服务器算力。

murmur

2021-11-08 15:41:53 +08:00

会，但是因为抖音快手本身就是盗抄起家，现在的抄袭都是截取一部分，加个机器解说，大字幕盖住正版视频

xlsepiphone

2021-11-08 15:44:29 +08:00

@cpstar #2 我纯粹是对他们使用的方法感兴趣。
@3dwelcome #3 所以后端还需要区分小视频？应该是有一套策略吧，命中就去走全套流程，包括最后的人工。

Jooooooooo

2021-11-08 15:44:59 +08:00

抖音上很多短视频音乐都是侵权的, 估计是能力还没补齐 (有可能是故意放过的)

p2pCoder

2021-11-08 15:45:36 +08:00

会，由于抖音快手微信视频号这些短视频平台的音视频资源特别多
给予音视频做的机器学习模型是特别多的
基础的抽帧会有专门的团队做
质量、查重都有专门的团队做
编解码这是基础的音视频算法查重是多模态的深度学习模型以及向量检索相关
涉及到的硬件成本、研发陈本都是比较大的

xlsepiphone

2021-11-08 15:46:09 +08:00

@Jooooooooo #6 我之前上传了一个视频，他们识别出 BGM 侵权，至于是人工识别还是算法识别的我就不得而知了。如果用算法，还需要先把 mp4 封装中的音频流拆分出来，跑算法检测，这样的成本应该很大。

xlsepiphone

2021-11-08 15:48:16 +08:00

@p2pCoder #7 我比较好奇的是，即使模型训练得再好，基础的编解码还是必要的吧，毕竟数据都是要经过处理（解码，抽帧）才能让模型识别的吧。

gadfly3173

2021-11-08 15:48:46 +08:00

没有直接在抖音客户端上传过两个相同的视频，但是公司业务需要做过调用抖音开放平台 api 来在用户的账号上发视频的功能，测试的时候视频都是一模一样的，没有被 ban ；市面上也有类似的产品，默认上传的视频都是相同的，也没有被 ban

xlsepiphone

2021-11-08 15:48:56 +08:00

@p2pCoder #7 姐就是说，模型不可能直接识别一个纯二进制的文件吧。这也太魔幻了。

xlsepiphone

2021-11-08 15:49:07 +08:00

@xlsepiphone #11 姐=>也

xlsepiphone

2021-11-08 15:50:19 +08:00

@gadfly3173 #10 如果被限流了，你是无感知的，只是没有播放量了。

p2pCoder

2021-11-08 15:50:58 +08:00

@xlsepiphone 这些都是必须要做的，必须做基础能力，然后再在这些基础的音视频能力上面用深度学习模型做质量、安全的工作，政治、色情这些审核是刚需，质量查重也是刚需
至于版权，有些是故意放过的

Jooooooooo

2021-11-08 15:53:24 +08:00

@xlsepiphone 现在这种量级不太可能是人工识别的. 我知道油管是专门有个系统自动识别, 还能自动分账 (你使用了版权方的内容, 视频广告带来的收入会分给版权方)

p2pCoder

2021-11-08 15:59:29 +08:00

@xlsepiphone 音视频算法，编解码也有专门的团队做，投入也很大
这块我不是很了解，对于多模态模型的业务应用接触的比较多
抖音快手微信视频号的硬件投入都很大，显卡每年的投入以及耗电都是很大的

cpstar

2021-11-08 16:12:54 +08:00

纯盲猜，分解音视频是必要的步骤，第 0 步就干了，然后供给下游视频抽帧、音频抽帧以及重编码，并行来，没啥难度。要不老黄家那个上百万的那个设备卖给谁。

hpencilb

2021-11-08 16:35:06 +08:00 via iPhone

正好看到一篇关键帧提取的 https://doi.org/10.1155/2017/1231794

clf

2021-11-08 16:39:05 +08:00

抽帧来识别吧。每隔几秒抽一帧图片来识别。

gam2046

2021-11-08 16:54:32 +08:00

做过一些搬运工作的经验，包括但不限于快抖，第一轮是平台内检测是否搬运，通过后平台内检测后，由共同委托了同一个第三方检测是否存在跨平台搬运。

检测是否搬运是有所区分的。

1 、原作者将原视频分别上传至不同平台；
2 、搬运者将用户在 A 平台的视频下载后，上传到 B 平台；

对于第一种情况，偶发性机器会认为搬运，人工申诉后即可，第二种是各大平台着重打击的。一言以蔽之，是通过检测关键帧、多个关键帧之间的相似关联度以及盲水印实现的。

曾经尝试过以下方法绕过，均失败

1 、等比例缩放
2 、小面积裁剪
3 、镜像翻转
4 、裁剪核心区域嵌套视频模板（类似大头贴那种效果）

除了 4 时灵时不灵，前三个都没用。

至于工人，大多数视频都到不了这一关，机器筛选过程就给毙了。

ch2

2021-11-08 17:01:55 +08:00

用机器学习检测的，字节跳动就是算法起家
这种都是小意思，用不了多少算力资源的

sunshijie

2021-11-08 17:05:38 +08:00

dy 有接口返回抽视频帧的图片

jdhao

2021-11-08 17:17:25 +08:00 via Android

检测重复需要机器学习算法，一般是看两个视频有多少相似度高的帧，可能还要结合音频判断是否重复，另外大公司不缺钱，别纠结资源问题，视频这种东西资源消耗肯定是很大的，谷歌在 youtube 去重算法投入上都是上亿美元的。之前正好写过一篇 https://jdhao.github.io/2021/08/02/the_youtube_content_id_system/

cairnechen

2021-11-08 17:20:23 +08:00

微博不是有这个机制吗？

realrojeralone

2021-11-08 17:40:41 +08:00

会的，两个公司都有专门的内容理解团队来做这件事，视频上传后做异步判重，相似视频做降权打压，一般都是模型判别

NCZkevin

2021-11-08 18:05:32 +08:00

两家公司都有专门的算法团队做这块的，至于视频的处理，都有自己一套完整的流水线来处理，每一步该干啥都有相应的团队负责和优化

zerofancy

2021-11-08 23:30:52 +08:00 via Android

前面应该是机器审核，有问题或达到一定传播量后二次审核，工作量没有那么庞大