这项绘图机器人技术完成了他和他的同事在过去五年中,探索过的计算机视觉和自然语言处理的交叉学科研究。他们从自动编写照片字幕 —— CaptionBot ——的技术开始,然后转向另外一种技术,回答人类对图像提出的问题,例如对象的位置或属性,这点对盲人特别有用。
这些研究工作需要训练机器学习模型来识别对象,完成行为和自然语言间的交互。
“现在我们要用文字来生成图像,”该组织的博士后研究员,论文合著者 Qiuyuan Huang 表示, “所以,这就是一个循环。”
图像生成是一个比图像字幕更具挑战性的任务,团队中的副研究员 Pengchuan Zhang 补充说,因为这个过程需要绘图机器人想像没有包含在标题中的细节。他说:“这意味着你需要运行人工智能的机器学习算法来想象一些图像中的缺失部分。”
细致的图像生成
微软绘图机器人的核心是一种被称为“生成对抗网络”(Generative Adversarial Network,GAN)的技术。网络由两个机器学习模型组成,一个从文本描述生成图像,另一个称为鉴别器,使用文本描述来判断生成图像的真实性。发生器试图通过假照片骗过鉴别器,同时鉴别器进行判断。二者一同作用,将发生器不断完美。
微软的绘图机器人在包含对应图像和标题的数据集上进行了训练,这些允许模型学习如何将单词与这些单词的可视化图片表示相匹配。例如, GAN 学会在标题说鸟的时候生成鸟的图像,并且同样学习鸟的图像应该是什么样的。他说:这是我们相信机器可以学习的根本原因。
当从简单的文字描述(例如蓝鸟或常青树)产生图像时, GAN 可以很好地工作,但在更复杂的文本描述中效果不佳,例如具有绿色的冠,黄色的翅膀和红色腹部的鸟。这是因为整个句子作为发生器的单一输入。其中详细的信息发生了丢失。因此,生成的图像是一种模糊的带绿色和微黄色的鸟,而不是与描述中紧密匹配。