腾讯携手清华大学和香港科技大学发布全新图生视频模型“Follow-Your-Click”

注:本文为腾讯混元结合多家新闻媒体文章生成

一、摘要

今天(2024年3月15日),腾讯与清华大学、香港科技大学联合推出一款名为“Follow-Your-Click”的全新图生视频模型,用户仅需点击图片相应区域并输入少量提示词,即可实现静态图片动态化,一键生成视频。这款模型通过技术创新,解决了传统图像生成视频技术在精准度和灵活性上的不足,为用户带来了更为便捷的操作体验。

在传统的图生视频模型中,用户需要在提示词中详细描述运动区域和运动指令,操作过程相对繁琐。而现有的图像生成视频技术在移动图像指定部分方面存在局限,往往需要移动整个场景,而非图像上的某个区域。针对这些问题,“Follow-Your-Click”模型应运而生,旨在提供更实用、可控的图像到视频生成解决方案。

据悉,这款联合项目组的团队成员来自腾讯混元大模型团队、清华大学和香港科技大学。他们共同研发出了一种基于输入模型的图片生成视频方法,用户只需简单点击图片中的相应区域,并输入少量提示词,便可实现静态图片的动态化,一键生成视频。这一创新技术的诞生,让图片“一键点,万物动”成为了现实。

二、模型效果

以下为官方公布的模型效果图:

"Tune the head"
"Flap the wings"
"Storm"
"Smile"
"Sad"
"Launch"
"Drift"
"Dancing"
"Drive back and forward"

从生成的视频来看,涉及了物体、动物以及环境等,整体效果还是比较不错的,值得期待!

目前该模型还没有进行开源,不过根据团队核心成员在github的描述来看,会在4月份开源这份模型:

🕹 We are cleaning the code and creating a demo. We really want everybody to try it!

😊 The code and checkpoints will be released in April!

💗 Thanks for your attention! If you are interested in our work, please give us a star ⭐️⭐️⭐ to let us know.

🚀 We will speed up the development!

三、评价

图像到视频生成技术在多个行业的AIGC应用中具有广泛的应用前景,如电影内容制作、增强现实、游戏制作以及广告等。作为2024年最热门的AI技术之一,腾讯混元大模型团队在此领域展现出了强大的实力。在此之前,腾讯混元大模型作为技术合作伙伴,支持《人民日报》打造了原创视频《江山如此多娇》,成功生成了展示中国大美河山的精美视频片段,充分展示了其在内容理解、逻辑推理和画面生成等方面的优势。

此次腾讯与清华大学、香港科技大学的强强联手,无疑为图生视频模型领域的发展注入了新的活力。未来,随着技术的不断进步和应用场景的不断拓展,相信这款“Follow-Your-Click”模型将为更多行业带来革命性的变革。

四、参考

Follow-Your-Click: Open-domain Regional Image Animation via Short Promptsopen in new window

Github - FollowYourClickopen in new window

腾讯联合清华、香港科技大学推出全新图生视频模型“Follow-Your-Click”open in new window

Last Updated:
Contributors: 编程我只用CPP