当前位置:文化 > 艺文 > 正文

人工智能的想象力在哪里?微软机器人画家告诉你

2018-01-23 09:13:06    雷锋网  参与评论()人

这项绘图机器人技术完成了他和他的同事在过去五年中,探索过的计算机视觉和自然语言处理的交叉学科研究。他们从自动编写照片字幕 —— CaptionBot ——的技术开始,然后转向另外一种技术,回答人类对图像提出的问题,例如对象的位置或属性,这点对盲人特别有用。

这些研究工作需要训练机器学习模型来识别对象,完成行为和自然语言间的交互。

“现在我们要用文字来生成图像,”该组织的博士后研究员,论文合著者 Qiuyuan Huang 表示, “所以,这就是一个循环。”

图像生成是一个比图像字幕更具挑战性的任务,团队中的副研究员 Pengchuan Zhang 补充说,因为这个过程需要绘图机器人想像没有包含在标题中的细节。他说:“这意味着你需要运行人工智能的机器学习算法来想象一些图像中的缺失部分。”

细致的图像生成

微软绘图机器人的核心是一种被称为“生成对抗网络”(Generative Adversarial Network,GAN)的技术。网络由两个机器学习模型组成,一个从文本描述生成图像,另一个称为鉴别器,使用文本描述来判断生成图像的真实性。发生器试图通过假照片骗过鉴别器,同时鉴别器进行判断。二者一同作用,将发生器不断完美。

微软的绘图机器人在包含对应图像和标题的数据集上进行了训练,这些允许模型学习如何将单词与这些单词的可视化图片表示相匹配。例如, GAN 学会在标题说鸟的时候生成鸟的图像,并且同样学习鸟的图像应该是什么样的。他说:这是我们相信机器可以学习的根本原因。

当从简单的文字描述(例如蓝鸟或常青树)产生图像时, GAN 可以很好地工作,但在更复杂的文本描述中效果不佳,例如具有绿色的冠,黄色的翅膀和红色腹部的鸟。这是因为整个句子作为发生器的单一输入。其中详细的信息发生了丢失。因此,生成的图像是一种模糊的带绿色和微黄色的鸟,而不是与描述中紧密匹配。

 

殷墟博物馆新馆 穿越三千年 探寻商文明

24-04-09 11:18:28殷墟博物馆新,商文明

中国农业博物馆:展示博大精深的农业文明

24-03-26 09:42:23中国农业博物馆,农业文明

文心寻画境 天然得真趣

24-03-19 10:47:40吴兴河,湖州

微短剧为何能集中“收割”大学生?

24-03-14 10:41:50​《我在八零年代当后妈》,短视频

旅拍火 游客乐 文旅融合 古城更美

24-03-11 10:14:16文旅融合,平遥古城

丝绸古道声悠扬 陇原文旅欢歌唱

24-02-28 09:52:10“一带一路”,甘肃文旅

“文字之都”文旅“上新”

24-02-26 10:00:52中国文字博物馆,殷墟

春节大鱼大肉吃腻了?快来跟宋人学做清淡养生粥!

24-02-23 10:02:51《东京梦华录》,食疗养生,宋代

北京的“龙脉”在哪里?

24-02-19 10:13:40北京“龙脉”

新春旅游玩法“上新”

24-02-01 09:57:40文旅,春节旅游

纪录片《智在匠心》 彰显中华非遗之美

24-01-29 09:52:01中华非遗,纪录片《智在匠心》

多彩文化 辉映红山(你所不知道的一级馆)

24-01-23 09:56:15赤峰博物馆,红山良渚文化展”

尺寸藏万象 抚简阅千年

24-01-17 09:49:23甘肃简牍博物馆,简牍

汉籍合璧 文脉赓续

24-01-15 10:04:16中华古籍,数字化利用

数字技术赋予千年壁画无限生机

24-01-08 10:08:14太原北齐壁画博物馆,文物活化利用

專訪方力鈞:探索面孔与陶瓷

23-12-29 15:47:31方力鈞,陶瓷艺术

“无文物”体验展体验如何?

23-12-27 10:09:16北京遇见博物馆,三星堆文化

生肖舞蹈:引领“新国潮” 探索民族风

23-12-20 10:30:45杨丽萍,生肖舞蹈系列艺术片《舞龙》

相关新闻