阿里云视频生成技术Tora，将亮相国际计算机视觉顶会CVPR

2025-03-12 40896

阿里云论文“Tora:Trajectory-oriented Diffusion Transformer for Video Generation”被国际计算机视觉与模式识别顶会CVPR长文录用。该大会被中国计算机学会（CCF）列为A类会议，将于2025年6月11日至15日在美国田纳西州纳什维尔召开。

在这篇论文中，阿里云分享了新一代轨迹可控的视频生成技术Tora，支持轨迹、文本和图像这三种模态的融合输入架构。该技术通过创新的运动控制架构，适配各时长、分辨率及宽高比的视频生成需求，支持直线、曲线及复合轨迹的智能解析，从而实现镜头调度、物体位移的精准规划。

事实上，在AI生成技术蓬勃发展的当下，不少视频生成模型的动态效果已接近“以假乱真”，然而不可否认的是，由于在准确度和指令遵循能力上仍有局限性，传统生成过程常类似于“抽卡”，存在动态效果不可控、多次试错的计算与时间成本高等痛点，更会让创作者的创意无法完美落地。

该项技术的突破，正是为了解决这类问题，使得AI视频创作，像动画制作一样，严格遵照轨迹执行，从"概率游戏"升级为"更确定性工程"。

目前，该视频生成技术Tora 已被阿里云“智作工坊”平台集成，并封装为标准工作流节点。用户在生成视频时只需增加一个运动轨迹，便可让视频更贴近于逼真效果，同时，“智作工坊”作为专门面向ToB领域的生图产品，支持API或H5形式的一键部署，方便企业将其高效集成至业务系统中，缩短开发周期。

在具体的技术实现上，Tora引入了两个新型运动处理模块：轨迹提取器（Trajectory Extractor）和运动引导融合器（Motion-guidance Fuser），用于将提供的轨迹编码为多级时空运动补丁（Motion Patches）。

Tora技术的代码已在Github全面开源，其模块化设计支持无缝迁移到各类Transformer视频模型。目前，集成Tora技术的阿里云“智作工坊”平台，已在文化传媒-影视制作、出版社/教育-数字作品等场景广泛应用，据使用者长期实测对比验证，与纯文字描述生成的视频相比，通过Tora的轨迹控制功能，其创作效率大幅提升。Tora让创作更高效、作品更有灵性。

TAG：视频轨迹技术阿里架构动态效果论文国际