(通讯员 刘明君 王书琪)近日,由我校信息与通信工程学院广播电视工程系史萍教授指导,2023级通信与信息系统专业硕士研究生亓泽鲁、王书琪,2024级信息与通信工程专业博士研究生张朝阳组成的学生团队,在计算机视觉国际顶级会议——国际计算机视觉与模式识别会议(CVPR)2025 NTIRE Workshop主办的AI生成视频质量评价挑战赛中荣获亚军。
CVPR举办的NTIRE挑战是智能图像复原与增强领域具有重要影响力的国际赛事之一。本届CVPR NTIRE Workshop设置的XGC Quality Assessment挑战赛设立了多个子赛道,其中,AI生成视频质量评价赛道聚焦于对AI生成视频质量的多维度评估 ,旨在推动AI生成视频的内容理解与质量建模方法的研究。本次大赛吸引了包括北京理工大学、中国科学技术大学及上海交通大学在内的全球百余支高校、科研机构及企业团队参赛。
CVPR 2025 AI生成视频质量评价挑战赛榜单(前六名)
AI生成视频质量评价赛道任务旨在基于提示词-视频对及其主观质量评价标签(MOS分),预测AI生成视频的感知质量分数。比赛结果以参赛方案预测结果与MOS分的一致性为准。比赛数据集规模达34,029个视频,涵盖14种主流视频生成模型,视频涵盖了多种失真类型,对于质量评测任务而言具较强挑战性。
数据集中AI生成视频的失真类型示例
我校学生团队针对AI生成视频中常见的时空失真提出了多分支编码器架构,将视觉质量分解为技术质量、运动质量、语义内容三个维度,进行全面建模。团队设计了多模态提示词工程框架,将上述三类视觉特征对齐至语言空间,同时引入语义锚点,辅助大语言模型建立三类特征的关联推理。在训练阶段,采用LoRA微调技术对大语言模型进行任务定向微调,显著提升质量预测准确性。我校团队方案为本赛道中在测试集上与MOS分一致性超过60%的两个方案之一,展示了优秀的建模能力与实际性能。相关研究成果将以论文形式由CVPR 2025 Workshop发表。
方案整体架构图
中国传媒大学信息与通信工程学院紧紧围绕国家人工智能发展战略,在视频质量评价技术领域持续开展原创性研究,探索视频理解与生成的有效评估方法,为AI生成技术的规范化发展贡献了智慧与方案。