多模态视频异常理解任务,又有新突破!
“异常理解”是指在视频监控、自动驾驶等场景中,利用模型发现视频中的异常内容,从而预判危险,以便及时做出决策。
来自华中科大等机构的研究人员,提出了新的视频异常理解模型Holmes-VAU,以及相关数据集。
与通用多模态大模型对比,Holmes-VAU在各种时序粒度的视频异常理解上都展现出显著优势。
为了实现开放世界的多模态视频异常理解(VAU),已有的VAU benchmark只有短视频的caption标注或长视频的instruction标注,忽略了视频异常事件的时序复杂性。