当前位置:文化 > 艺文 > 正文

人工智能的想象力在哪里?微软机器人画家告诉你

2018-01-23 09:13:06    雷锋网  参与评论()人

这项绘图机器人技术完成了他和他的同事在过去五年中,探索过的计算机视觉和自然语言处理的交叉学科研究。他们从自动编写照片字幕 —— CaptionBot ——的技术开始,然后转向另外一种技术,回答人类对图像提出的问题,例如对象的位置或属性,这点对盲人特别有用。

这些研究工作需要训练机器学习模型来识别对象,完成行为和自然语言间的交互。

“现在我们要用文字来生成图像,”该组织的博士后研究员,论文合著者 Qiuyuan Huang 表示, “所以,这就是一个循环。”

图像生成是一个比图像字幕更具挑战性的任务,团队中的副研究员 Pengchuan Zhang 补充说,因为这个过程需要绘图机器人想像没有包含在标题中的细节。他说:“这意味着你需要运行人工智能的机器学习算法来想象一些图像中的缺失部分。”

细致的图像生成

微软绘图机器人的核心是一种被称为“生成对抗网络”(Generative Adversarial Network,GAN)的技术。网络由两个机器学习模型组成,一个从文本描述生成图像,另一个称为鉴别器,使用文本描述来判断生成图像的真实性。发生器试图通过假照片骗过鉴别器,同时鉴别器进行判断。二者一同作用,将发生器不断完美。

微软的绘图机器人在包含对应图像和标题的数据集上进行了训练,这些允许模型学习如何将单词与这些单词的可视化图片表示相匹配。例如, GAN 学会在标题说鸟的时候生成鸟的图像,并且同样学习鸟的图像应该是什么样的。他说:这是我们相信机器可以学习的根本原因。

当从简单的文字描述(例如蓝鸟或常青树)产生图像时, GAN 可以很好地工作,但在更复杂的文本描述中效果不佳,例如具有绿色的冠,黄色的翅膀和红色腹部的鸟。这是因为整个句子作为发生器的单一输入。其中详细的信息发生了丢失。因此,生成的图像是一种模糊的带绿色和微黄色的鸟,而不是与描述中紧密匹配。

 

云南白族扎染:“布里生花”展新韵

24-09-29 10:40:50云南白族扎染

2024年戏曲百戏(昆山)盛典闭幕

24-09-25 17:29:18戏曲百戏

《黑神话:悟空》引发海外“西游热”

24-09-13 10:04:26《黑神话:悟空》

巧手制美饰 银辉耀苗乡(匠心)

24-09-10 10:14:41苗族银饰

传承千年文脉 厚植家国情怀

24-09-03 09:53:33眉山三苏祠博物馆

先人们是怎么给动物字定型的?

24-08-27 09:32:27动物定型

吉他赋能文旅发展(深观察)

24-08-19 10:29:29吉他文化,文旅

第十一届乌镇戏剧节公布特邀剧目

24-08-08 11:12:56第十一届乌镇戏剧节

北京中轴线:一条擘画了七百多年的文明线

24-08-05 09:38:00北京中轴线文化遗产

当“齐天大圣”遇见奥运盛会

24-08-02 09:25:26奥运会,国产动画短片《奔赴热爱》

中国电影迎来“火热”夏季 多题材致敬优秀传统文化

24-07-23 10:13:16中国电影,优秀传统文化

101座博物馆托起“博物馆之城”

24-07-19 10:07:57博物馆之城,太原

谁是史上第一个“吃瓜群众”?

24-07-17 09:24:02夏天,西瓜

“探秘古蜀文明”展览亮相北京大运河博物馆

24-07-05 10:15:24北京大运河博物馆,三星堆

相关新闻