盖楼抽奖｜为拿下算法 “奥斯卡”，阿里团队设计了一个冠军方案

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 1403 天前的主题，其中的信息可能已经有所发展或是发生改变。

被誉为计算机视觉领域 “奥斯卡” 的 CVPR 刚刚落下帷幕，2021 年首届 “新内容新交互” 全球视频云创新挑战赛正火热进行中，这两场大赛都不约而同地将关注点放在了视频目标分割领域，本文将详细分享来自阿里达摩院的团队在 CVPR DAVIS 视频目标分割比赛夺冠背后的技术经验，为本届大赛参赛选手提供 “他山之石”。

作者｜负天

与图像识别不同，AI 分析理解视频的技术门槛较高。长期以来，业界在视频 AI 技术的研究上鲜有重大突破。以 CVPR 会议难度最高的比赛之一 DAVIS （ Densely Annotated Video Segmentation ）为例，该比赛需要参赛团队精准处理复杂视频中物体快速运动、外观变化、遮挡等信息，过去几年，全球顶级科技在该比赛中的成绩从未突破 80 分，而达摩院的模型最终在 test-challenge 上取得了 84.1 的成绩。

DAVIS 的数据集经过精心挑选和标注，视频分割中比较难的点都有体现，比如：快速运动、遮挡、消失与重现、形变等。DAVIS 的数据分为 train （ 60 个视频序列），val （ 30 个视频序列），test-dev （ 30 个视频序列），test-challenge （ 30 个视频序列）。其中 train 和 val 是可以下载的，且提供了每一帧的标注信息。对于半监督任务，test-dev 和 test-challenge，每一帧的 RGB 图片可以下载，且第一帧的标注信息也提供了。算法需要根据第一帧的标注 mask，来对后续帧进行分割。分割本身是 instance 级别的。

阿里达摩院：像素级视频分割

阿里达摩院提供了一种全新的空间约束方法，打破了传统 STM 方法缺乏时序性的瓶颈，可以让系统基于视频前一帧的画面预测目标物体下一帧的位置；此外，阿里还引入了语义分割中的精细化分割微调模块，大幅提高了分割的精细程度。最终，精准识别动态目标的轮廓边界，并且与背景进行分离，实现像素级目标分割。

基本框架

达摩院的算法基于 2019 年 CVPR 的 STM 做了进一步改进。STM 的主要思想在于，对于历史帧，每一帧都编码为 key-value 形式的 feature 。预测当前帧的时候，以当前帧的 key 去和历史帧的 key 做匹配。匹配的方式是 non-local 的。这种 non-local 的匹配，可以看做将当前 key，每个坐标上的 C 维特征，和历史每一帧在这个坐标上的 C 维特征做匹配。匹配得到的结果，作为一个 soft 的 index，去读取历史 value 的信息。读取的特征和当前帧的 value 拼接起来，用于后续的预测。

三大技术创新

1. 空间约束

STM 的特征匹配方式，提供了一种空间上的长依赖，类似于 Transformer 中，通过 self-attention 来做序列关联。这种机制，能够很好地处理物体运动、外观变化、遮挡等。但也有一个问题，就是缺乏时序性，缺少短时依赖。当某一帧突然出现和目标相似的物体时，容易产生误召回。在视频场景中，很多情况下，当前帧临近的几帧，对当前帧的影响要大于更早的帧。基于这一点，达摩院提出依靠前一帧结果，计算 attention 来约束当前帧目标预测的位置，相当于对短期依赖的建模。

具体的方法如下图所示：

当前帧的特征和前一帧的预测 mask 在 channel 维度上做 concat，得到 HxWx (c+1) 的特征；
通过卷积将特征压缩为 HxW ；
用 sigmoid 函数将 HxW 的特征，压缩范围，作为空间 attention ；
把 attention 乘到原特征上，作为空间约束。

下图为空间 attention 的可视化结果，可以看到大致对应了前景的位置。

2. 增强 decoder

达摩院引入了语义分割中的感受野增强技术 ASPP 和精细化分割的微调（ refinement ）模块。ASPP 作用于 memory 读取后的特征，用于融合不同感受野的信息，提升对不同尺度物体的处理能力。

3. 训练策略

达摩院提出了一个简单但是有效的训练策略，减少了训练阶段和测试阶段存在的差异，提升了最终效果。

原始 STM 训练时，会随机从视频中采样 3 帧。这三帧之间的跳帧间隔，随着训练逐渐增大，目的是增强模型鲁棒性。但达摩院发现，这样会导致训练时和测试时不一致，因为测试时，是逐帧处理的。为此，在训练的最后阶段，达摩院将跳帧间隔重新减小，以保证和测试时一致。

其他

backbone: 达摩院使用了 ResNeST 这个比较新的 backbone，它可以无痛替换掉原 STM 的 resnet 。在结果上有比较明显提升。

测试策略: 达摩院使用了多尺度测试和 model ensemble 。不同尺度和不同 model 的结果，在最终预测的 map 上，做了简单的等权重平均。

显存优化: 达摩院做了一些显存优化方面的工作，使得 STM 在多目标模式下，可以支持大尺度的训练、测试，以及支持较大的 memory 容量。

数据: 训练数据上，达摩院使用了 DAVIS 、Youtube-VOS，以及 STM 原文用到的静态图像数据库。没有其他数据。

结果

达摩院的模型，最终在 test-challenge 上取得了 84.1 的成绩。

在 test-dev 上的消融实验。达摩院复现的 STM 达到了和原文一致的结果。在各种 trick 的加持下，得到了 11 个点的提升。

随着互联网技术、5G 技术等的发展，短视频、视频会议、直播的场景越来越多，视频分割技术也将成为不可或缺的一环。比如，在视频会议中，视频分割可以精确区分前背景，从而对背景进行虚化或替换；在直播中，用户只需要站在绿幕前，算法就实时替换背景，实现一秒钟换新直播间；在视频编辑领域，可以辅助进行后期制作。

参考

Oh SW, Lee JY, Xu N, Kim SJ. Video object segmentation using space-time memory networks. InProceedings of the IEEE International Conference on Computer Vision 2019
Wang X, Girshick R, Gupta A, He K. Non-local neural networks. InProceedings of the IEEE conference on computer vision and pattern recognition 2018

“新内容新交互” 全球视频云创新挑战赛算法挑战赛道

本届全球视频云创新挑战赛是由阿里云联手英特尔主办，与优酷战略技术合作，面向企业以及个人开发者的音视频领域的挑战赛。算法挑战赛道聚焦视频人像分割领域，视频分割将传统图像分割问题延伸到视频领域，可服务于视频理解处理和编辑等任务。

算法赛道描述

本次大赛提供一个大规模高精度视频人像分割数据集，供参赛选手训练模型。不同于传统的二值分割目标（即人像区域标注为 1，其他区域标注为 0 ），本竞赛重点关注分割各个不同的人象实例，目标是从视频中精确、稳定分割出显著的（单个或多个）人体实例，以及其相应附属物、手持物。

本次比赛分为初赛数据集和复赛数据集。复赛数据集等初赛结束后公布，复赛中也可以使用初赛数据集。

初赛环节提供训练集供选手下载，训练数据集共 1650 段视频。训练集中每个样本由 RGB 图像序列和掩码图像序列组成，RGB 图像序列为原始视频图像序列，格式为 jpg 文件；掩码图像为人体分割的真值 (ground-truth)，格式为 png 文件，掩码图像中不同的像素值表示不同的人体实例，0 为背景区域，非 0 为前景区域（例如 1 为人像 1，2 为人像 2 ）。RGB 和 png 文件是一一对应关系。数据集每个视频的长度为 80 帧～ 150 帧，每个视频的分辨率不完全相同。预赛的测试数据为 48 段视频。测试集只提供 RGB 图像序列。如出现多个人像实例，每个人像可以任意顺序标注，评测时将被独立计算。

本次比赛允许参数选手使用其他公开数据集和公开模型，但参赛选手的模型必须满足能在限定时间内复现的要求，复现精度小于规定误差。

评估标准

对于算法恢复的视频结果，本次比赛采用 Mean J And F 做为评价指标。J 为描述分割人体区域精度的 Jaccard Index，F 为描述分割人体的边界精确度。具体请参照参考文献 1 。每个视频允许选手最多输出 8 个人物分割结果，选手分割结果与真值先进行 IOU 匹配，找到对应的人物后，根据该结果进行评分。多余的分割结果，没有惩罚。如果超过 8 个区域，整个视频结果无效。

奖项设置

冠军：1 支队伍，奖金 9 万人民币，颁发获奖证书

亚军：2 支队伍，奖金 3 万人民币，颁发获奖证书

季军：3 支队伍，奖金 1 万人民币，颁发获奖证书

Cooper Lake 最佳实践：3 支队伍，奖金 2 万人民币，颁发获奖证书

此外，复赛审核通过的排名前 12 队伍，可进入阿里云校招绿色通道。

视频云大赛正在火热报名中 扫码或点击下方链接，一起驱动下一代浪潮！ https://tianchi.aliyun.com/competition/entrance/531873/introduction

楼层抽奖规则

评论回复内容不限，可以是视频云大赛相关提问、期望
抽十个人，每人送一个保温杯
截止日期为：2021.4.2 12:00
从回复楼层中随机抽取
中奖结果会以附言形式公布于本帖，并 @ 各位中奖用户

function createRandom(num,from,to)
{
    var arr=[]; 
    var json={};  
    while(arr.length<num)
    {
        var ranNum=Math.round(Math.random()*(to-from))+from;
        if(!json[ranNum])
        {
            json[ranNum]=1;
            arr.push(ranNum); 
        }
    }
    return arr;
}

createRandom(10,0,回复楼层) //抽奖

源码引自 yedanbo/createRandom().js

礼物图片盖楼超 100 层，下次活动送电脑包～

第 1 条附言 · 2021-04-02 12:09:51 +08:00

恭喜：
@server @dream7758522 @Microi @zhaidoudou123 @sinux @honeyshine75 @magicnobob @ervqq @auto8888 @ZHanYao

辛苦各位邮寄信息发送到 videocloudtech#gmail.com ，# 替换为 @ 。

姓名+电话+地址+V2EX 帐号截图（确认身份）

迫于大家的热情，清明节之后我们还会再办一次盖楼活动，欢迎再来玩：P

例子：

分割

达摩院

视频

STM

411 条回复 • 2021-04-06 09:43:02 +08:00

1 2 3 4 5

❮

❯

tflz514

2021-03-31 15:17:22 +08:00

这是一楼吗

luotuoccc

2021-03-31 15:20:23 +08:00

这是二楼吗

Alalajiyh

2021-03-31 15:20:38 +08:00

这是三楼吗

captain2011

2021-03-31 15:21:21 +08:00

这是五楼吗

running17

2021-03-31 15:23:08 +08:00

这是分母吗

doctortao

2021-03-31 15:24:47 +08:00

他是那种特别的，说不上来的，视频云吗？

VideoCloudTech

2021-03-31 15:26:12 +08:00

@doctortao 咱们是正经的视频云哈

opengps

2021-03-31 15:27:54 +08:00 via Android

这是八楼吗

homu

2021-03-31 15:38:55 +08:00 via Android

刚好缺个保温杯。。。
祝大赛越办越好

JinTianYi456

2021-03-31 15:43:43 +08:00

这是分子吗

BBrother

2021-03-31 15:45:24 +08:00

高级啊

dddz97

2021-03-31 15:47:49 +08:00

没接触过，感觉很强

feimengheng

2021-03-31 16:22:38 +08:00

咩啊

moxiaonai

2021-03-31 16:25:05 +08:00 via Android

恭喜恭喜🎉，我只只想要个杯子

quan7u

2021-03-31 16:25:40 +08:00

我在哪

pigmen

2021-03-31 16:26:08 +08:00

🀄️

brookepe

2021-03-31 16:29:14 +08:00

🀄️

muayang

2021-03-31 16:38:29 +08:00 via iPhone

眨眼就 18 楼了

muayang

2021-03-31 16:39:06 +08:00 via iPhone

我能中吗

waising

2021-03-31 16:39:38 +08:00 via iPhone

恭喜恭喜

bbtjym

2021-03-31 16:40:40 +08:00

或许

nightli

2021-03-31 16:42:29 +08:00

白嫖保温杯

jangit

2021-03-31 16:44:51 +08:00 via iPhone

白嫖保温杯+1

Shuqy

2021-03-31 16:54:40 +08:00

白嫖保温杯 + 2

thrinity

2021-03-31 16:55:02 +08:00

为白嫖保温杯当分子

Keppel

2021-03-31 16:55:21 +08:00

分母

ditel

2021-03-31 17:01:57 +08:00 via Android

牛逼

evanzhou1989

2021-03-31 17:04:37 +08:00

🀄️

HalcyonTime

2021-03-31 17:14:11 +08:00

看动图感觉猴赛雷

Yanwenguang

2021-03-31 17:18:36 +08:00

看不懂的样子，感觉好高级~

xwh201314

2021-03-31 17:21:53 +08:00

拉低中奖率

BoyBoy

2021-03-31 17:24:28 +08:00

牛逼普拉斯啊

Katrol

2021-03-31 17:26:07 +08:00

达摩院厉害呀

weijiawj

2021-03-31 17:28:04 +08:00

拉低中奖率

Kiana1

2021-03-31 17:33:55 +08:00

做个分子

darksword21

2021-03-31 17:34:14 +08:00

35 楼有电梯吗？

zhzhA

2021-03-31 17:34:21 +08:00

做个分母

Vindroid

2021-03-31 17:38:33 +08:00

保温杯？啊，可以泡枸杞了

bijika

2021-03-31 17:40:03 +08:00

我是谁？

kim886

2021-03-31 17:43:52 +08:00

老板来份保温杯！

ycisyc

2021-03-31 17:44:58 +08:00

这是几楼？

twttwt

2021-03-31 17:46:06 +08:00

白嫖保温杯+1

ssdrb

2021-03-31 17:49:50 +08:00

必中保温杯！

licanbo

2021-03-31 17:53:47 +08:00

达摩院牛掰呀

h272377502

2021-03-31 17:54:49 +08:00

冠军也才这点，还不够跑 GPU 的钱。

Whurry

2021-03-31 18:05:44 +08:00

...

buchikoma

2021-03-31 18:06:38 +08:00

白嫖保温杯 + 1

sychty

2021-03-31 18:09:22 +08:00

这是 48 楼吗

pap3r

2021-03-31 18:10:31 +08:00

🀄️

MadbookPro

2021-03-31 18:11:03 +08:00

达摩院厉害了

yooodooo

2021-03-31 18:11:29 +08:00

白嫖保温杯 + +

renyijiu

2021-03-31 18:13:43 +08:00

厉害了

pangleon

2021-03-31 18:22:06 +08:00

厉害厉害，能做到这种程度

cookie

2021-03-31 18:29:18 +08:00

好的

zlldeta

2021-03-31 18:29:33 +08:00

中中中

xiaoye233

2021-03-31 18:32:23 +08:00

看不懂，但是走过路过顺手拉低一下中奖率，哈哈哈

LeslieLeung

2021-03-31 18:33:30 +08:00 via iPhone

不如抽我吧

narmgalaxy

2021-03-31 18:35:10 +08:00

真的 np

chole

2021-03-31 18:35:55 +08:00

分子路过。。。。

jack594

2021-03-31 18:38:35 +08:00

路过测一下 rp 。。。

fkdtz

2021-03-31 18:38:36 +08:00

看看怎么事儿

chihiro2014

2021-03-31 18:38:50 +08:00

当个最强分子

chendy

2021-03-31 18:40:05 +08:00

路过测试一下

server

2021-03-31 18:40:12 +08:00

分母分母

ironMan1995

2021-03-31 18:41:23 +08:00

好人一生平安

torical

2021-03-31 18:43:03 +08:00

01010111001

RanchoTuring

2021-03-31 18:44:08 +08:00

厉害了！

ic2y

2021-03-31 18:52:35 +08:00

Banxiaozhuan

2021-03-31 18:59:20 +08:00

来来盖楼

BernyG

2021-03-31 19:06:42 +08:00

只想躺平

DrugsZ

2021-03-31 19:08:37 +08:00

分子

zzzhen

2021-03-31 19:11:12 +08:00

分子

wuzhidexiaolang

2021-03-31 19:14:04 +08:00

分子

zhb1993

2021-03-31 19:14:53 +08:00

期待中奖

albyBen

2021-03-31 19:15:08 +08:00

万年分母来了

xppppsfg

2021-03-31 19:16:26 +08:00

分子

netbtcc33

2021-03-31 19:17:58 +08:00

分母+1

beidounanxizi

2021-03-31 19:20:25 +08:00

什么都没做出就微博满世界吹比的达摩院?

huntrue

2021-03-31 19:21:17 +08:00

试图拉低概率

drperry

2021-03-31 19:21:35 +08:00 via Android

希望越办越好！

willhunger

2021-03-31 19:21:50 +08:00

分母+1

dream7758522

2021-03-31 19:33:38 +08:00 via Android

支持啊

nikanon

2021-03-31 19:37:36 +08:00

牛哇

hocgin

2021-03-31 19:45:47 +08:00 via iPhone

分母

xieren58

2021-03-31 19:48:27 +08:00

分母

ymoeu06

2021-03-31 19:49:43 +08:00 via Android

冲冲冲，中中中

HillW

2021-03-31 19:57:09 +08:00

冲冲冲

lecia

2021-03-31 19:57:23 +08:00 via iPhone

送不送文化衫 O(∩_∩)O

zhtttyecho

2021-03-31 19:59:55 +08:00

cool

secretName

2021-03-31 20:00:37 +08:00

分母

BridgeCham

2021-03-31 20:00:47 +08:00

分子来了

admin601

2021-03-31 20:01:49 +08:00

万年分母来了

Microi

2021-03-31 20:02:07 +08:00

我问你这图哪来的.jpg

pipilu

2021-03-31 20:02:42 +08:00

分母来了

pipilu

2021-03-31 20:03:02 +08:00

厉害了，我的云

biubiuF

2021-03-31 20:10:24 +08:00

分子分子

qing18

2021-03-31 20:11:58 +08:00

想要保温杯

guochens

2021-03-31 20:12:29 +08:00