近日,权威机构ACM MM’20 Grand Challenge主办的“大规模复杂场景人体视频解析”挑战赛如期举行,包括 Amazon、腾讯、大华科技、依图科技、中山大学等上百支参赛队伍参与了超过56000个复杂事件下的人体行为(包括排队、打架、俯身、同行、跑动、滞留等)解析。来自中国的依图科技拿下了“Track-4:行为识别”的第一名。
据了解,ACM是全球最大的计算机领域专业性学术组织,其评选的图灵奖(A.M.Turing Award)被公认为世界计算机领域的诺贝尔奖。而ACM MM是全球多媒体领域的顶级会议,属中国计算机学会(CCF)指定的A类国际会议。
如果把人脸识别比作医院的“普外门诊”,那么行为识别尤其是人类的行为识别,其复杂度和识别难度不亚于“心血管内科+神经内科”。场景复杂多变、动作差异化大、需要捕捉连续动作和长时间动作,这些对行为识别和分析都有着巨大的挑战,也就需要算法对行为本身有更精准的分析推理能力,甚至还能通过既定的场景推算未曾见过的场景。
依图方面介绍,在比赛中,依图算法的指标达到了wf-mAP@avg 0.26,将以往学术界中的基准算法提升了近3倍。与举办了多次的国际竞赛不同,这次竞赛是首届,参赛队伍在赛前也无法了解识别的类别、数据集的大小和识别的具体需求,要在短短一个多月的时间内,设计出最优的算法。
首先,视频相较于图像的行为识别更加复杂,且如何建模、视频帧之间的相关性仍是学术界一直存在的难题。当应用场景明确后,在已知分析的对象是人体且明确知道要识别的类别后,就可以针对性的进行算法优化,通过算法定制化来提升算法性能,解决以往不能很好解决的问题。
与此同时,依图此次创新性地将算法与场景进行了深度结合。一方面从视频中自动提取到了准确丰富的场景信息,结合先进的行人检测、行人重识别算法,全面构建了人与人、人与场景、人与物之间在视频中的关系;另一方面,借助多年来的算法积淀和对行业场景的理解,依图对比赛中要求的特定的14类任务进行了深度算法优化。
值得关注的是,不同于其他参赛队伍,依图此次没有使用复杂的多模型融合策略,仅用单模型,借助背景提取和分割算法,将行为的解析与场景结合,大大降低了问题难度,这也意味着仍可以进一步通过融合多个模型提升算法性能。