2024-04-30 开云官方网站公告
家人们,火爆全球的魔性舞蹈《科目三》,谁能料到,就连兵马俑也开端跳上了!
热度还居高不下,瞬间被轰上了热搜,小伙伴们纷繁惊掉了下巴表明“闻所未闻,见所未见”。
本来,是有人凭借了阿里之前走红的AI技能AnimateAnyone,生成出来了这个舞蹈片段。
技能圈的盆友对这个技能都不生疏,“出道”至今只是1个月时刻,这一个项目便现已在GitHub上斩获了超1.1万个star。
并且“进口”还直接被嵌进了阿里通义千问APP名曰:通义舞王。
很快,各种作用、各种玩法、各种人物,都动了起来例如微博网友“Simon_阿文”,让拿破仑表演了一把
或许在输入框内敲“通义舞王”或“全民舞王”等关键词,就可以跳转到相应界面了:
现在通义千问APP供给了12个模板,这次咱们就挑选二次元独爱、宅舞《极乐净土》测验一下~
需求阐明的是,在挑选相片的时分,仍是需求一点“技巧”的,“通义舞王”也有相应提示:
在此之后,直接点击“当即生成”,静候几分钟,贝佐斯大跳《极乐净土》的视频,就诞生了:
是不是作用还行?尽管还不能讲“真假难辨”,但首富都能这样为你跳一曲了,还要什么自行车。
总而言之,现在你想让任何人跳舞一张全身照就够了。
不过有一说一,尽管“通义舞王”现已成功招引了很多网友前来游玩,反应火爆,但它也还没到完美无瑕的境地。
例如等候时长,现在均匀时刻大约在10分钟左右(有点久,但毕竟是免费的,还要啥自行车啊)。
还有便是从视频作用来看,假如相片视点欠好或许清晰度不行也会影响AI关于人物手部的处理。
但在仅靠一张相片就生成视频这件事上,它还面临着许多的应战,例如人物形象一致性(consistency)的问题。
简略来说,便是怎么确保相片人物在动起来的过程中,各种细节可以和原相片坚持一致。
为此,阿里团队在分散模型的根底之上,提出了一个新的算法,也便是咱们方才说到的AnimateAnyone。
例如在一致性方面,阿里团队引进的是ReferenceNet,用于捕捉和保存原图画信息,可高度复原人物、表情及服装细节。
详细而言,在参阅图特征提取上,ReferenceNet选用的是与去噪UNet相似的结构,但没有包括时刻层;它承继了原始分散模型的权重,并独立进行权重更新。
在将ReferenceNet的特征融合到去噪UNet时,首要将来自ReferenceNet的特征图x2仿制t次,并与去噪UNet的特征图x1沿w维度衔接;接着进行自注意力处理,并提取特征图的前半部分作为输出。
尽管ReferenceNet引进了与去噪UNet适当数量的参数,但在根据分散的视频生成中,一切视频帧都需求屡次去噪,而ReferenceNet只需在整一个完好的过程中提取一次特征,因而在推理过程中不会导致明显地添加核算开支。
Pose Guider姿态引导器选用的是一个轻量级规划,而不是引进一个额定的操控网络。
详细来说,使用了四个卷积层(卷积核巨细为4 x 4,步幅为2×2,通道数分别为16、32、64、128),这些卷积层用于将姿态图画对齐到与噪声潜变量相同的分辨率。
处理后的姿态图画会被加到噪声潜变量上,然后一同输入到去噪UNet中,从而在不明显添加核算杂乱性的情况下,为去噪UNet供给姿态操控。
时序层的规划创意来源于AnimateDiff,经过在特征图上执行时刻维度的自注意力,以及经过残差衔接,其特征被整合到原始特征中。
相同的,这个模块的作用之下,满意了在坚持时刻连续性和细节滑润性的一起,减少了对杂乱运动建模的需求。
终究,在AnimateAnyone的加持之下,从作用上来看,确保了图画与视频中人物的一致性。
但是,阿里之所以不断在AnimateAnyone上攻坚优化,并非彻底出于技能很帅很有潜力,还藏着一颗引领视频生成技能的野心。
What is the Next?实际上,在AnimateAnyone火了之后,阿里还有另一项视频生成技能在一起出圈。
它叫DreaMoving,只需一张脸部相片、一句话描绘,就能让你在任何地方跳舞!
并且跟着prompt的改动,人物布景和身上的衣服也会随之产生改动。例如咱们再换两句:
和AnimateAnyone相同的,它也是真人、卡通、动漫人物通通都能hold住。
这些都是阿里在视频生成上的“沿途下蛋”,都是“勇攀珠峰”死磕AI视频生成技能的证明和成果。
由于纵观上一年一整年的AIGC开展的头绪,AI视频生成的迸发趋势好像越来越清晰了。
2022年末以来,从开始ChatGPT引爆大言语模型,全球科学技能巨子甚至草创企业纷繁入局,到后来各家不只限于自然言语技能,更是将文生图、文生音频、文生视频、图生视频等多模态技能“玩”出了新高度。
因而,多模态大模型、AI视频生成范畴,正是现如今AIGC这波顶流中的顶流,阿里一再在此发力,也就不难理解了。
不只如此,在岁末年初之际,更是有很多AI大佬将2024年的猜测押注于此。
例如Meta研究院Martin Signoux十分直接地表态“再会LLM,你好LMM”,这个猜测也得到了LeCun的转发和点赞。
但假如问下一个ChatGPT会从哪个赛道来?AI视频生成,便是自带鼓风机的那一个,而在这个赛道里,阿里现已抢占了先机。