文章
  • 文章
搜索
热话题
更多

热话题

热点
更多
  • 让中国大市场成为世界大机遇

      11月4日晚,国家主席习近平以视频方式出席在上海举行的第五届中国国际进口博览会开幕式并发表题为《共创开放繁荣的美好未来》的致辞。 新华社发  新华社北京11月4日电 11月4日晚,国家主席习近平以视频方式出席在上海举行的第五届中国国际进口博览会开幕式并发表题为《共创开放繁荣的美好未来》的致辞。  习近平指出,5年前,我宣布举办进博会,就是要扩大开放,让中国大市场成为世界大机遇。现在,进博会已经成为中国构建新发展格局的窗口、推动高水平开放的平台、全球共享的国际公共产品。  习近平强调,开放是人类文明进步

  • 深圳地铁14号线今日开通 40分钟从福田可抵达坪山区

    2022年10月28日10时58分,随着深圳地铁14号线首班载客列车缓缓驶入岗厦北站台,标志着市民翘首以盼的两线三枢纽拉开神秘面纱,正式开门迎客。至此,深圳城市轨道交通线网规模达到14条,运营里程483公里。此次同时开通的有深圳地铁14号线、11号线福岗区间以及岗厦北枢纽、黄木岗枢纽、大运枢纽。作为连接深圳市中心区与深圳东部地区的重要交通走廊,深圳地铁“两线三枢纽”的开通运营,对深圳实施“东进战略”、促进区域经济提速、实现高质量发展注入了强劲的交通动力,同时也让更多市民享受到“轨道上的城市”带来的出行便利。深圳地铁14号

  • 短短两周企业门口垃圾站换新貌 深圳企业给专项服务小组点赞

    设置围挡、撤除厨余回收点、提高转运和清扫保洁次数,污水没了,臭味没了……位于宝安松岗潭头西部工业区的阿不凡科技有限公司的员工惊喜地发现,公司门口不久前还散发着臭味、流淌着污水的垃圾中转站已经焕然一新。近日,“助企行”市直属第54专项服务小组(以下简称第54服务小组)收到企业反映“门口垃圾中转站环境简陋,污水臭气长期产生恶臭,影响企业运营”的诉求。短短两周,这个垃圾中转站已经焕然一新,企业负责人在接受记者采访时情不自禁地给专项服务小组点赞。(垃圾站整改前后对比供图 /市直属第54专项服务小组)10月14日,记

  • 观澜湖智能化捐血站揭牌

    市民在智能化捐血站内完成献血。10月25日上午,全市首个以捐血站为载体的新时代文明实践阵地——观澜湖捐血站正式揭牌,为龙华开展文明实践活动提供新阵地、注入新活力。全透明的玻璃屋内,人脸识别、电子签名、电子屏呈现血滴初检结果等流程均由5G+AI智能化技术完成,红外线血管成像技术植入智能采血系统,可解决高难度静脉血管穿刺难题……上午9点多,记者在现场看到,血站内已有不少市民在进行智能化采血,仅几分钟,就可完成整个献血流程。“把捐血站纳入新时代文明实践阵地,是志愿者之城的价值导向,也是创建全国文明典范城市的生动

  • 新桥风物志④:看,这座“森”系街区有多美

    50来源: 深圳新闻网人工智能朗读:分享到:「开栏语」:千年古镇,历史悠悠,坐落于宝安西北部的新桥街道,立足深圳西部市级中心标杆城区定位,持续打造“古镇新韵、智造新城、绿美新桥”,物丰民阜,万象更新。深圳市宝安区新桥街道办事处联合深圳新闻网推出《新桥风物志》微专栏,更立体、生动地挖掘新桥辖区的人文自然“风物”,以风物为纽带,触摸街区肌理和脉动,发现美好,思量文明,印证时代,期许未来,勾勒出独有的新桥记忆、新桥印象。今年以来,新桥街道以助力深圳争创全国文明典范城市为契机,持续深化城市有机更新和科学绿化

  • 开车穿越海底!深圳首条跨海隧道最快明年底建成

    深圳首条跨海隧道妈湾通道建设又传捷报!记者10月24日从深圳市交通运输局获悉,目前妈湾通道左线盾构掘进已超过800米,右线盾构掘进已经超过1600米,预计最快于明年底建成通车。妈湾跨海通道起于前海妈湾港区的妈湾大道与月亮湾大道交叉处,与沿江高速大铲湾收费站及金湾大道——西乡大道交叉口对接。全长8.05公里,分为地面道路和地下道路两部分。地下道路为城市快速路,双向六车道,设计时速80公里;地面道路为城市主干路,双向六车道,设计时速40公里。项目由2台直径为15米级的泥水平衡式盾构机——“鹏城号”和“妈湾号”,分别从前海

  • 深圳资管行业形成“聚宝盆”效应 金融活水持续流向实体经济

    发达的资本市场为深圳带来充沛的资金流动,活跃的科技创新更吸引着创投资金积极流向实体经济领域。正是在这样的双向激荡下,深圳资产管理行业迎风而起。数据显示,截至2021年底,深圳银行、证券、保险、基金(含私募)、期货等各类财富管理机构资产管理规模达到26万亿元,占全国比重超过1/5。《欧洲养老金与投资》最新发布的“2022全球资管500强”榜单中,深圳拥有8家。深圳金融机构密度全国居前改革开放之初,深圳街头便有“银行多过米铺”之说。时至今日,深圳金融机构的数量、规模和密度仍稳居大中城市前列,而且资产管理规模稳步提升,

  • 深圳森林火险黄色预警升级为橙色

    ▲10月20日15时00分深圳全市陆地森林火险黄色预警升级为橙色。图为深圳园博园提醒游客严禁火种,注意护林防火。 深圳晚报记者 王耀翠 摄降温没几天,深圳又重返晴天干燥天气了。10月21日,记者从深圳市气象台获悉,21日白天我市多云间晴天,最高气温已经达到31.9℃。周末期间深圳又要回到30℃的天气,既干燥又晴热。目前,全市森林火险黄色预警已升级为橙色。据深圳市气象台预报,22日深圳晴天间多云,空气干燥,气温22℃~31℃;23日至24日多云间阴天,其中23日偶有分散阵雨;25日至26日冷空气影响,多云,风力加大,气温下降;27日至28日

  • “走进博物馆”,走向文化的辽阔与博大

    ▲近日,“读懂历史智启未来”主题沙龙在深圳博物馆(古代艺术馆)举行。本版图片均由深圳晚报记者 刘楚君 摄▲唐际根向市民讲解“理解三星堆”展览。郭学雷 深圳博物馆副馆长 博物馆创新要抓住核心内容 博物馆的创新必须要抓住核心内容。博物馆的展览也不仅仅是声光电的简单展现,造几个场景这么简单,缺少有意味的内容所支撑,声光电很容易变成光污染。真正的创新是内容的创新、学术的创新和突破。深圳博物馆近几年来策划的几个大型展览,引发了市民好评和喜爱,主要原因就是我们尝试从不同角度更好地切入,展现了文物本身的文化价值。包

  • 跨界云导赏 曲终人不散 深博三星堆特展落下帷幕

    通过“答题闯关”筛选出来的20位“幸运儿”来到了活动现场,与多位嘉宾和学者进行交流互动,展开了一场从三星堆文明到当代设计的奇妙旅行。10月23日,深圳博物馆《理解三星堆——祭祀场景中的铜器、玉器与象牙、虎牙》展览即将“下架”。从7月29日至10月23日,火爆了近3个月的深博三星堆特展至此落下帷幕。难说再见!短暂的近3个月展期,还有大量没来得及去看展的观众。为此,《深圳特区报》读特新闻客户端特别联合深圳博物馆、汕头大学长江工业设计中心、南方科技大学文化遗产研究中心共同策划、举办了《天马行空想象无边——从“外星文明

详细内容

爆火的兵马俑跳“科目三”是如何做出来的?

时间:2024-01-09     【转载】   来自:界面新闻
文章内容

人类已经不满足于让AI把照片中的人物变得更美,还要让他们跟着音乐舞动起来。

近段时间以来,兵马俑和马斯克跳“科目三”的视频刷爆了朋友圈,也在微博上成为了热门词条。

这些由一张图片制成的舞蹈视频,来自阿里大模型应用通义千问APP最新上线的功能“全民舞王”。用户只需上传一张全身照(包括真人与动漫角色等),十分钟左右即可让照片中的主角跳上一小段热门舞蹈,包括科目三、蒙古舞、鬼步舞等等。这项功能目前免费,所生成的舞蹈视频大约在10秒左右,高于同类产品Runway Gen-2和Pika的4秒时限。

“全民舞王”应用目前提供12种热门舞蹈模板,包括科目三、蒙古舞、鬼步舞、DJ慢摇、划桨步、兔子舞等。

阿里巴巴通义实验室XR负责人薄列峰告诉界面新闻,全民舞王源自阿里通义千问团队去年9月发布的自研视频生成模型Animate Anyone,目标是做可控的人物视频生成。由于没有提供demo和源代码,外界一直无法感知其实际效果。

到了12月,该实验室在arxiv上公开了Animate Anyone的论文和主页,此后又把它集成到通义千问APP中。全民舞王由此成为Animate Anyone落地的首款产品

Animate与海外同类模型的性能对比结果。
Animate Anyone与其他视频生成模型的对比。

AI图片生成的应用已日臻成熟,但AI视频生成仍是大模型领域的难题之一。当前文生视频技术处在早期阶段,更不用说以图片来生成视频,这造成了图片-视频-3D模态落地难度依次增加的现状。

过往,视频生成方案在生成效果上饱受诟病,色彩、音频和字幕难以整体做到最优,视频的细粒度控制也一直做得不好。此外,之前一些驱动方案在以人为主题的视频生成中,无法同时保证泛化性和一致性的能力。所谓泛化性,是指模型不仅在训练数据上表现好,还能对未见过的新数据做出准确有效的预测。而一致性是指模型在处理同类问题的不同实例时,保持输出结果一致和稳定。

Animate Anyone延续了主流视频生成模型采取的扩散模型路线。这类模型被广泛运用到图像、视频生成领域,像OpenAI的DALLE-2、Stable Diffusion都是以扩散模型为基础。

为保证视频生成的一致性、稳定性和可控性,阿里团队采取了几项措施解决了可控视频存在的一些技术问题,包括ReferenceNet参考网络的引入,Pose Guider姿态引导器的使用,同时融合了一种时间建模方法。薄列峰称,这些技术可更好地实现对角色运动的控制,人物和表情细节的还原,以及视频帧间的流畅性。

此外,Animate Anyone还采用了分阶段训练策略,希望在不同阶段关注不同目标。这一思路在OpenAI训练ChatGPT时也有展现。

从全民舞王的呈现效果来看,相比同类的DisCo和谷歌推出的模特换装模型DreamPose,Animate Anyone在生成视频内容的连贯性上表现较好,例如能捕捉到原人物的衣服、头发、鞋子等细节,并适配到人物的体型上,但在处理一些背景复杂的图片时,难免出现幻影等问题。

纵观海内外整个AI视频生成领域,曾在去年底迎来突变,Runway Gen-2、Pika1.0、字节联合新加坡国立大学推出的Magic Animate、阿里Animate Anyone等黑马均有不错的表现。阿里内部也出现了几款与Animate Anyone撞形的可控视频生成模型,12月开源的可控视频生成框架DreaMoving是其中之一。 

需要指出的是,这些视频产品的快速涌现,源于去年一整年基础大模型的持续演进,而非一时的技术突破。

虚拟人公司慧夜科技CEO渠思源曾提到,优质基座大模型对动作生成等实际应用的指导价值超乎想象,在涉及动作衔接、融合时,大模型可以驱动神经网络帮助上层小模型做出非常合适的数据配比,以指导小模型更丝滑地完成动作状态切换,而这只需要接入大模型就可完成,甚至不需要了解小模型的具体细节。

数据资源则是保障视频生成效果的另一护城河。“当前动作生成视频的一大痛点在于3D高质量数据集的稀缺。”渠思源指出。

根据阿里团队公开的论文Animate Anyone是在5000个角色视频剪辑的内部数据集上训练而成。这样的数据量级显然有赖于互联网大厂多年积累的资源。

全民舞王是阿里云继妙鸭相机之后,在AIGC应用赛道的又一试探性动作,也符合全行业“卷应用”的趋势。薄列峰告诉界面新闻,全民舞王目前没有收费计划,未来会继续迭代算法,包括增加舞蹈类型、减少等待时长、表情更自然以及美颜美体

但和妙鸭一样,该应用很快会面临用户拉新留存难题。2023年7月上线的妙鸭相机原为9.9元收费版,当时吸引了大量用户花数个小时排队尝鲜。此后尽管妙鸭增加了免费版,也提供了更多人物模版,却始终没有找到真正可持续的应用场景。七麦数据显示,在iOS端,妙鸭相机已从去年高峰时的下载量第一,下滑至200名开外,已不计入统计。

而在妙鸭之前,有很多红极一时的现象级应用,如小咖秀、脸萌、魔漫相机、足记等等,都在瞬息万变的互联网市场中从爆火走向了没落。即使初期能迅速吸引大量用户使用,但因无法持续提供独特价值,难以适应市场需求变化和激烈的竞争,最终被新的应用潮流所取代。全民舞王想要解决“短命”魔咒并不容易。

通义千问团队上线的一键试衣模型Outfit Anyone

值得注意的是,全民舞王之外,通义千问团队基于Animate Anyone还上线了一款名为Outfit Anyone的一键试衣模型。用户给出一张模特图和衣服图片,就能实现上下装试穿。虽然偶尔出现视觉瑕疵,模特选择有限,这款模型或许会是马云所看重的“AI电商”的隐藏拼图之一。


  • 电话直呼

    • 188 2461 8512
  • 微信咨询合作

seo seo