今日应用
今日话题
还得是抖音,字节推出竖屏视频理解数据集,入选CVPR2024
重点标签 竖屏视频、数据集、技术方案、视频分类、CVPR2024
文章摘要
字节跳动技术团队针对竖屏视频理解发布了新数据集,并提出了多个技术点和一个初始方案。这项研究有助于竖屏视频的准确理解和基础技术架构的发展,论文已入选CVPR2024。竖屏视频在社交媒体平台上广受欢迎,但目前研究较少。团队提出的PortraitMode-400数据集包含400个结构化的类别标签,涵盖多个领域。通过实验,团队发现竖屏和横屏视频在数据特性上有显著差异,竖屏数据对预处理有不同倾向。此外,时间信息和音频模态的引入可提升竖屏数据准确率。这些发现推动了竖屏视频领域的研究和技术发展。
详细总结:
字节跳动技术团队关注到竖屏视频在社交媒体上的主导地位,并注意到传统视频处理技术主要针对横屏视频。为了解决这一问题,团队发布了专注于竖屏视频理解的数据集,并提出了多个技术点和一个初始方案。这项研究对于竖屏视频的准确理解和基础技术架构具有重要意义,相关论文已被CVPR2024接收。
竖屏视频作为社交媒体平台上的主导短视频格式,受到用户的广泛青睐。然而,目前的研究很少关注竖屏视频分类技术。为了激发这一领域的研究,团队提出了一个专用的数据集PortraitMode-400,其中包含真实的视频数据和400个结构化的类别标签。
通过自建数据和公开数据子集的实验,团队展示了横屏数据和竖屏数据之间的不同特性和独特的先验分布。他们从公开数据Kinetics-700中抽取了竖屏视频子集S100-PM,并对应地抽取了同等数量的横屏视频S100-LM。在相同的测试集上进行公平测试后,发现竖屏和横屏视频在准确率空间分布上有显著差异。
为了进一步推动领域研究,团队提出了包含400个显著动作内容类别的数据集PortraitMode-400。这些类别涵盖了从饮食运动到休闲娱乐等多个领域,每个类别至少包含100个公开的竖屏视频链接。团队还针对竖屏视频数据的不同特性进行了实验,以期提出一套合理有效的技术方案。
实验发现,竖屏数据对数据预处理有不同于横屏数据的倾向。例如,在CNN模型下,倾向于Inception-style方案,而在Transformer类模型下,倾向于shorter-side resize方案。保持原始视频在训练时的长宽比,可以获得更好的准确率。
此外,团队还在时间信息显著性、音频模态重要性等方面进行了实验。结果显示,时间信息的加入和音频模态的引入都可以显著提升竖屏数据的准确率,展示了相关领域的研究空间和可能性。
应用落地和展望:
竖屏视频的专门研究可以推动相关技术的发展,增强内容推荐等关键能力,并进一步激发竖屏领域的其他类型研究,如视频生成等。这些研究成果将为社交媒体平台和内容创作者提供更强大的技术支持,提高用户体验和内容质量。
文章来源
原文地址: 点我阅读全文
原文作者: 机器之心