在人类的绘画过程中,我们反复提到文本,并密切关注描述我们正在绘制的图像区域和单词描述。为了捕捉这种人的特质,研究人员创建了他们所谓的 attentional GAN或 AttnGAN,它们在数学上模拟了人类关注的概念。它是通过将输入文本分解为单个单词并将这些单词与图像的特定区域相匹配来实现的。
“注意是一个人的概念,我们用数学来进行计算。”他解释说。
该模型还从训练数据中学习到人类称为常识的东西,并且利用这个学习的概念来填充留在想象中图像的细节。例如,由于训练数据中的许多鸟类图像显示了坐在树枝上的鸟, AttnGAN 通常使鸟栖息在树枝上,除非文本另有规定。
“从数据来看,机器学习算法学习鸟站在树枝上应该属于这类常识,”Zhang 说。作为一项测试,该团队为漫画图像提供了绘图机器人所需的字幕,例如“一辆红色的双层巴士漂浮在湖面上”。它生成了一个模糊的,飘逸的双层巴士图像,类似于两层甲板船或双层甲板船,漂浮在群山环绕的湖上。该图像表明,关于船只能漂浮在湖泊上和公共汽车的文本描述之间,机器人内部有一个争斗。
“我们可以控制我们描述的东西,看看机器如何作出反应。” 他解释说,“我们可以干涉和测试机器到底学到了什么东西。这台机器已经具有一些背景常识,但它仍然可以按照你所要求的运行,有时候,这似乎有点荒谬可笑。”
实际应用方面
这项文本到图像的生成技术可以运用到实际应用中,可以作为画家和室内设计师的草图助手,或作为语音控制的照片美化工具。伴随更强大的计算能力,他想象这项技术可以生成基于电影剧本的动画电影,为电影制作人减少一些需要人工的成本。
但就目前来看,这项技术还不完善。对图像进行仔细检查后,几乎总能发现瑕疵,例如蓝鸟喙,而不是黑色的,水果和基因突变的香蕉长在一起。这些缺陷清楚地表明,是电脑而不是人类创造了这些图像。尽管如此, AttnGAN 图像的质量比以前最好的 GAN 图像质量提高了近 3 倍,并且这是通往增强人类自身能力的类人工智能道路上的一个里程碑 。
“因为人工智能和人类生活在同一个世界,他们之间必须找到一种互相交流的方式。”他解释道,“语言和视觉是人类与机器交流的两个最重要的途径。”
除了微软的 Xiaodong He, Pengchuan Zhang and Qiuyuan Huang,合作者还包括前微软实习生利理海大学的Tao Xu和杜克大学的 Zhe Gan,罗格斯大学的 Han Zhang,理海大学的 Xiaolei Huang。