【48812】兵马俑跳《科目三》是我万没想到的_开云官方网站公告_开云体育网页版登录

【48812】兵马俑跳《科目三》是我万没想到的

2024-04-30 开云官方网站公告

家人们，火爆全球的魔性舞蹈《科目三》，谁能料到，就连兵马俑也开端跳上了！

热度还居高不下，瞬间被轰上了热搜，小伙伴们纷繁惊掉了下巴表明“闻所未闻，见所未见”。

本来，是有人凭借了阿里之前走红的AI技能AnimateAnyone，生成出来了这个舞蹈片段。

技能圈的盆友对这个技能都不生疏，“出道”至今只是1个月时刻，这一个项目便现已在GitHub上斩获了超1.1万个star。

并且“进口”还直接被嵌进了阿里通义千问APP名曰：通义舞王。

很快，各种作用、各种玩法、各种人物，都动了起来例如微博网友“Simon_阿文”，让拿破仑表演了一把

或许在输入框内敲“通义舞王”或“全民舞王”等关键词，就可以跳转到相应界面了：

现在通义千问APP供给了12个模板，这次咱们就挑选二次元独爱、宅舞《极乐净土》测验一下~

需求阐明的是，在挑选相片的时分，仍是需求一点“技巧”的，“通义舞王”也有相应提示：

在此之后，直接点击“当即生成”，静候几分钟，贝佐斯大跳《极乐净土》的视频，就诞生了：

是不是作用还行？尽管还不能讲“真假难辨”，但首富都能这样为你跳一曲了，还要什么自行车。

总而言之，现在你想让任何人跳舞一张全身照就够了。

不过有一说一，尽管“通义舞王”现已成功招引了很多网友前来游玩，反应火爆，但它也还没到完美无瑕的境地。

例如等候时长，现在均匀时刻大约在10分钟左右（有点久，但毕竟是免费的，还要啥自行车啊）。

还有便是从视频作用来看，假如相片视点欠好或许清晰度不行也会影响AI关于人物手部的处理。

但在仅靠一张相片就生成视频这件事上，它还面临着许多的应战，例如人物形象一致性（consistency）的问题。

简略来说，便是怎么确保相片人物在动起来的过程中，各种细节可以和原相片坚持一致。

为此，阿里团队在分散模型的根底之上，提出了一个新的算法，也便是咱们方才说到的AnimateAnyone。

例如在一致性方面，阿里团队引进的是ReferenceNet，用于捕捉和保存原图画信息，可高度复原人物、表情及服装细节。

详细而言，在参阅图特征提取上，ReferenceNet选用的是与去噪UNet相似的结构，但没有包括时刻层；它承继了原始分散模型的权重，并独立进行权重更新。

在将ReferenceNet的特征融合到去噪UNet时，首要将来自ReferenceNet的特征图x2仿制t次，并与去噪UNet的特征图x1沿w维度衔接；接着进行自注意力处理，并提取特征图的前半部分作为输出。

尽管ReferenceNet引进了与去噪UNet适当数量的参数，但在根据分散的视频生成中，一切视频帧都需求屡次去噪，而ReferenceNet只需在整一个完好的过程中提取一次特征，因而在推理过程中不会导致明显地添加核算开支。

Pose Guider姿态引导器选用的是一个轻量级规划，而不是引进一个额定的操控网络。

详细来说，使用了四个卷积层（卷积核巨细为4 x 4，步幅为2×2，通道数分别为16、32、64、128），这些卷积层用于将姿态图画对齐到与噪声潜变量相同的分辨率。

处理后的姿态图画会被加到噪声潜变量上，然后一同输入到去噪UNet中，从而在不明显添加核算杂乱性的情况下，为去噪UNet供给姿态操控。

时序层的规划创意来源于AnimateDiff，经过在特征图上执行时刻维度的自注意力，以及经过残差衔接，其特征被整合到原始特征中。

相同的，这个模块的作用之下，满意了在坚持时刻连续性和细节滑润性的一起，减少了对杂乱运动建模的需求。

终究，在AnimateAnyone的加持之下，从作用上来看，确保了图画与视频中人物的一致性。

但是，阿里之所以不断在AnimateAnyone上攻坚优化，并非彻底出于技能很帅很有潜力，还藏着一颗引领视频生成技能的野心。

What is the Next？实际上，在AnimateAnyone火了之后，阿里还有另一项视频生成技能在一起出圈。

它叫DreaMoving，只需一张脸部相片、一句话描绘，就能让你在任何地方跳舞！

并且跟着prompt的改动，人物布景和身上的衣服也会随之产生改动。例如咱们再换两句：

和AnimateAnyone相同的，它也是真人、卡通、动漫人物通通都能hold住。

这些都是阿里在视频生成上的“沿途下蛋”，都是“勇攀珠峰”死磕AI视频生成技能的证明和成果。

由于纵观上一年一整年的AIGC开展的头绪，AI视频生成的迸发趋势好像越来越清晰了。

2022年末以来，从开始ChatGPT引爆大言语模型，全球科学技能巨子甚至草创企业纷繁入局，到后来各家不只限于自然言语技能，更是将文生图、文生音频、文生视频、图生视频等多模态技能“玩”出了新高度。

因而，多模态大模型、AI视频生成范畴，正是现如今AIGC这波顶流中的顶流，阿里一再在此发力，也就不难理解了。

不只如此，在岁末年初之际，更是有很多AI大佬将2024年的猜测押注于此。

例如Meta研究院Martin Signoux十分直接地表态“再会LLM，你好LMM”，这个猜测也得到了LeCun的转发和点赞。

但假如问下一个ChatGPT会从哪个赛道来？AI视频生成，便是自带鼓风机的那一个，而在这个赛道里，阿里现已抢占了先机。

上一条: 【48812】海底捞服务员跳“科目三”擦玻璃舞被指低俗手掌紧贴女顾客摆臀扭动

下一条: 【48812】边擦玻璃边跳舞以色列美人擦窗工变网红

【48812】兵马俑跳《科目三》是我万没想到的

开云官方网站公告

相关新闻

推荐产品

【48812】兵马俑跳《科目三》 是我万没想到的

开云官方网站公告

相关新闻

推荐产品

【48812】兵马俑跳《科目三》是我万没想到的