腾讯携手清华大学和香港科技大学发布全新图生视频模型“Follow-Your-Click”

注：本文为腾讯混元结合多家新闻媒体文章生成

一、摘要

今天（2024年3月15日），腾讯与清华大学、香港科技大学联合推出一款名为“Follow-Your-Click”的全新图生视频模型，用户仅需点击图片相应区域并输入少量提示词，即可实现静态图片动态化，一键生成视频。这款模型通过技术创新，解决了传统图像生成视频技术在精准度和灵活性上的不足，为用户带来了更为便捷的操作体验。

在传统的图生视频模型中，用户需要在提示词中详细描述运动区域和运动指令，操作过程相对繁琐。而现有的图像生成视频技术在移动图像指定部分方面存在局限，往往需要移动整个场景，而非图像上的某个区域。针对这些问题，“Follow-Your-Click”模型应运而生，旨在提供更实用、可控的图像到视频生成解决方案。

据悉，这款联合项目组的团队成员来自腾讯混元大模型团队、清华大学和香港科技大学。他们共同研发出了一种基于输入模型的图片生成视频方法，用户只需简单点击图片中的相应区域，并输入少量提示词，便可实现静态图片的动态化，一键生成视频。这一创新技术的诞生，让图片“一键点，万物动”成为了现实。

二、模型效果

以下为官方公布的模型效果图：

"Tune the head"

"Flap the wings"

"Storm"

"Smile"

"Sad"

"Launch"

"Drift"

"Dancing"

"Drive back and forward"

从生成的视频来看，涉及了物体、动物以及环境等，整体效果还是比较不错的，值得期待！

目前该模型还没有进行开源，不过根据团队核心成员在github的描述来看，会在4月份开源这份模型：

🕹 We are cleaning the code and creating a demo. We really want everybody to try it!
😊 The code and checkpoints will be released in April！
💗 Thanks for your attention! If you are interested in our work, please give us a star ⭐️⭐️⭐ to let us know.
🚀 We will speed up the development!

三、评价

图像到视频生成技术在多个行业的AIGC应用中具有广泛的应用前景，如电影内容制作、增强现实、游戏制作以及广告等。作为2024年最热门的AI技术之一，腾讯混元大模型团队在此领域展现出了强大的实力。在此之前，腾讯混元大模型作为技术合作伙伴，支持《人民日报》打造了原创视频《江山如此多娇》，成功生成了展示中国大美河山的精美视频片段，充分展示了其在内容理解、逻辑推理和画面生成等方面的优势。

此次腾讯与清华大学、香港科技大学的强强联手，无疑为图生视频模型领域的发展注入了新的活力。未来，随着技术的不断进步和应用场景的不断拓展，相信这款“Follow-Your-Click”模型将为更多行业带来革命性的变革。

四、参考

Follow-Your-Click: Open-domain Regional Image Animation via Short Promptsopen in new window

Github - FollowYourClickopen in new window

腾讯联合清华、香港科技大学推出全新图生视频模型“Follow-Your-Click”open in new window