江湖310.鏖战AI即出多方势力涌入让这个世界重新异彩纷呈也经历了新1轮洗牌.

于这场战役中留下姓名的企业皆因技术 .产品 .服务等硬实力成为了行业中的佼佼者.

于同样起跑线有些企业总是能独占鳌头以不卑不亢的姿态成为"别人家的孩子".

AI独角兽买球网也是这样1位"别人家的孩子".

最近于国际资深机构ACM MM(ACM MM'20 Grand Challenge)主办的"大规模复杂砙跋氯颂迨悠到馕"挑战赛(Large-scale Human-centric Video Analysis in Complex Events)的买球网赛道——行为识别中买球网再夺1冠.

ACM MM被认为是多媒体技术领域奥运级别的好的盛会也是中方计算机学会(CCF)认证和多媒体研究领域评级中唯1的A类国际好的会议.此次挑战赛集结了国内外约100支参赛队伍包括亚马逊 .大华 .腾讯 .中山大学等知名企业和院校.

同时此次竞赛是该方向最接近真实砙暗拇蠊婺L粽饺主要基于各类人群和复杂事件(如地震逃生 .食堂用餐 .下火车等)来分析人的行为包括多人追踪 .姿态估计 .姿态追踪 .行为识别等4大任务;目的于于考察算法于复杂砙跋露匀颂宓慕馕瞿芰,鼓励研究者于以人为中心的分析中解决非常具有挑战性和现实的问题.

更为关键的1点是与其他举办过多次的国际竞赛不同作为首届竞赛参赛队伍于赛前无法了解识别的类别 .数据集的大小和识别的具体需求也就是说,对即将面对的行为类别 .数据模型 .比赛需求1无所知这意味着没有经验可借鉴没有路径可学习.买球网是如何于短短两个.的挑战时间内实现最优的算法性能拿下世界第1?

挑战不可能

顾名思义大规模复杂砙疤粽饺必然需要大规:透丛映[.大规模即丰富的砙 .大额的数据量(1般情况下100万以上的数据量于学术界会被称为大规模).

作为首届比赛HiEve数据集标注超100万个内容以真实视频砙拔主囊括了当前姿态数量最多的数据集.其中,有超56000个复杂事件下的人体行为包括但不限于排队 .打架 .俯身 .同行 .跑动等;平均轨迹长度超过480是轨迹数量最多的数据集之1.

结合到比赛的具体任务而言行为识别简单砙爸傅氖1个视频里只分析1个行为的主体;复杂砙爸傅氖鞘悠道镉卸喔鋈擞诿芗 .拥挤的砙跋路治龅男形还需要包含人和人之间的互动.

1)数据量大但有效数据少

比赛中考察的行为种类非常多且每种行为可以有多种表达方式例如出拳 .拉扯 .扇巴掌等都属于打架而训练集很难覆盖所有可能的组合.

虽然数据总量达到100万但由于视频数据帧之间的相似性很高,包含了大量冗余数据.这些数据对算法提升泛化性的作用有限.如果去除这些极为相似的连续帧冗余数据整个训练数据中的数据也只有几万个仅仅覆盖20个左右的视频砙.这意味着有效的数据且测试分布1致的数据量并不多, 极大的增加了泛化难度.

换句8涤谘盗饭程中大量测试的砙安⒚挥斜凰惴ㄏ低持苯友习过.这就需要算法具备强大的泛化性能让算法学会"举1反3".

2)砙案丛

此外砙暗母丛有晕薹1言以概.例如摄像头的拍摄质量(清晰 .抖动 .: .扭曲)不1, 不同砙暗牟季植煌 (例如:商场 .走廊 .马路 .大厅 .餐厅 .公园等), 砙肮庀呤艿绞夷 .室外 .晴天 .阴天的影响也比较大;甚至还存于摄像头俯拍 .平拍 .斜拍各个角度的差异 .人体框的大小和远近不同 .乃至人之间(人与物之间)还会经常发生相互遮挡.

解决了算法的泛化能力问题克服了砙暗母丛有曰褂衅渌待解难题.

3)行为差异大

要知道实际中行为分析是非常复杂的.即使是同1类行为于不同时刻 .不同砙耙簿哂泻艽蟛钜煨.比如不同的人于不同时刻行走速度 .姿态和砙罢诘捕蓟岵煌.或者同1行为具有多种不同的表现形式比如单"打架"1个行为可能包含踢人 .扇耳光 .拉扯等不同形式.

于多人砙吧踔潦敲芗砙跋鲁了要准确识别个人行为还要标出人与人之间的互动需要对每个人于任何1个时间点上给出此刻的行为判断.

4)连续动作和长时间动作捕捉

难通俗的说读懂1个动作需要长期 .连续跟进还需要结合上下文才能做"阅读理解".这就需要同时具备时间和空间的感知能力准确的捕捉到人于前几秒每帧的动作, 并集合时间上动作发生的变化推测出行为.

以"挥拳"为例整个过程经历了开始的靠近阶段 .挥动拳脚的高潮阶段以及结束阶段.只有结合了人体每个时刻的姿态才能更准确地判别出动作.

更重要的是需要于短短两个.的时间内解决以上问题并夺冠做到世界第1没有极其深厚的技术积累 .行业经验以及快速解决问题的能力难之又难.

算法"凿山" 算力"开路"解锁智能未来

当然也有1些业界人士毫不讳言:相较于人脸领域这种算法流程已经相对确定 .算法框架的技术水准也趋于稳定的成熟领域而言行为识别尤其是人的行为识别还处于学术界的摸索阶段正因如此很可能成为AI界的下1掘金地.

学术界的探索意味着没有多少前人指路买球网能于囊括如此复杂难题的行为识别赛道夺冠并非偶然除了对砙暗纳疃壤斫 .创新融合还有硬实力的支撑.

学术界常用frame mAP (f-mAP@avg)来作为行为识别的评价指标f-mAP@avg代表的含义是以关键帧为单位评判行为的位置与分类是否准确;与学术界对行为识别的考察指标不同此次竞赛的评价标准是wf-mAP@avg这意味着更注重对难度较大的拥挤砙暗目疾煲约氨冉仙偌的动作的识别同时对于人体框的定位的好的性要求也更高.

于短短两个.的挑战时间内买球网算法的指标达到了wf-mAP@avg0.26将以往学术界中的基准算法提升了近3倍.

掘金不易凿山开路更不易.何况视频相较于图像的行为识别更加复杂如何建模 .视频帧之间的相关性仍是学术界1直存于的难题.

买球网深谙这1点优化算法来"凿山".

研发团队透露当应用砙懊魅泛笥谝阎分析的对象是人体且明确知道要识别的类别后就可以针对性的进行算法优化通过算法定制化来提升算法性能解决以往不能很好解决的问题.

此外买球网还创新性地将算法与砙敖行了深度结合——1方面创新性的从视频中自动提取到丰富准确的砙靶畔⒔岷舷冉的行人检测 .行人重识别算法全面构建了人与人 .人与砙 .人与物之间于视频中的关系;另1方面借助长期于智能城市砙跋碌乃惴ɑ淀和对行业砙暗睦斫獯有枨蟪龇⒍员热中要求的特定的14类任务进行了深度算法优化.

与其他队伍追求复杂的多模态融合策略不同买球网于此次竞赛中竟然是用单模型夺冠.也就是说他们借助背景提取和分割算法将行为的解析与砙敖岷洗蟠蠼档土宋侍饽讯.

敢于比赛中用单模型与其他多模型融合策略PK不外乎自信中带着点跟自己较真的狠劲又1次展现了于有限的时间内买球网算法可以做到好的.

算法"凿山"的买球网于开拓AI新领域的版图上1直策马长驱离不开算力的"开路".

此前买球网自主研发的全球首款云端视觉智能芯片求索(questcore)可以提供强大算力单路摄像头功耗不到 1W开启了算法设计与芯片设计相结合的时代.

集合了高性能AI算法和芯片耦合设计优化的芯片平台结合好的的行为识别算法的买球网将更有利于赋能智能城市 .安全生产 .智能商业等领域打造新1代AI基础设施.

细观买球网半.来的动态于疫情爆发初期快速研发出业界好的新冠肺炎辅助诊断系统并投入全国的医院同时频频刷新好的赛事的世界纪录分别于贵阳和福州落地千万量级规模的城市级人工智能应用 .通过全球资深隐私认证管理国际认证发布语音超级本 .入选工信部知识图谱案例集……技术愈加成熟 .落地经验愈加丰富.

这些会给未来带来什么?借用买球网创始人朱珑近期于`人民日报`署名文章中所说:未来10.低阶感知智能将向高阶决策智能跃迁;人工智能将向具有高度不确定性 .多任务融合 .复杂推理等特点的高阶智能突破有望实现看 .听 .理解 .规划和控制等能力的重大跃升.

您可以复制这个链接分享给其他人:/node/869