人工智能
一种能真实将人物插入图片的模型
演示模型的能力,以现实的方式将个人插入不同的场景。 挑战包括在给定的场景背景下推断一个合理的姿势,重新设置人的姿势,以及协调插入与光照和阴影的关系。
该模型能够将人物真实地插入各种场景中。挑战包括根据场景背景推断合理的姿势,重新摆放人物,并使插入的人物在光线和阴影方面和谐。
生成模型的近期出现为创意产业带来了有趣的新可能性。例如,它们可以让艺术家和数字内容创作者轻松地制作将不同图像或视频元素整合在一起的真实媒体内容。
受到这些最新进展的启发,斯坦福大学、加州大学伯克利分校和Adobe研究所的研究人员开发了一种新模型,可以将特定人物真实地插入不同场景,例如在健身房锻炼、在海滩上观看日落等。
展示模型在推理时的辅助任务,包括产生与场景兼容的人的幻觉,生成适合于给定人的场景,以及在虚拟试穿设置中交换衣服。
他们提出的基于扩散模型的架构,在arXiv服务器上的预发布论文中介绍,并将于今年6月在温哥华举行的计算机视觉和模式识别会议(CVPR)上展示。
该研究的主要目标是将生成模型应用于可供性感知任务,希望获得更可靠、真实的结果。在他们的最新论文中,专注于将人物真实地插入给定场景的问题。
模型的输入包括一个人物图像和一个场景图像,输出是包含该人物的真实场景图像。该生成模型通过自监督训练方法训练,表现出了一系列有趣的辅助功能,如人物产生和虚拟试衣。
自我监督训练方案。 提取两个随机帧,第一帧中的人被屏蔽掉。 然后,第二帧中的人被用作调节元素以补绘图像。
研究人员使用自监督训练方法训练了一个扩散模型,这是一种可以将“噪声”转换成期望图像的生成模型。扩散模型通过“破坏”训练数据、向其添加“噪声”,然后通过逆过程恢复部分原始数据来实现。
经过一系列初步测试,研究人员发现模型表现出色,生成了相当真实的图片。他们的模型预测的可供性比过去非生成模型产生的可供性更好,适用范围更广。
未来,这种模型可以应用于创意软件工具和照片编辑智能手机应用,支持艺术家和媒体创作者的工作,让用户轻松、真实地将人物插入照片。
未来研究方向包括增加生成姿势的可控性,扩展系统生成人物在场景中移动的真实视频,研究模型效率,以及将本文方法应用于所有对象。
本文译自 techxplore,由 BALI 编辑发布。