总部位于旧金山的研究公司OpenAI开发了一种名叫DALL-E的新系统,该系统可根据简短的文字说明生成图像。OpenAI此前曾开发突破性的人工智能语言生成器GPT-3。
OpenAI在一篇博文中表示,DALL-E一名融合了艺术家萨尔瓦多·达利(Salvador Dalí)和皮克斯(Pixar)电影中的机器人男主角瓦力(Wall-E)这两个名字,DALL-E展示了为“各种概念”生成图像的能力。在其众多示例图片中,有一幅是一把形似鳄梨的扶手椅。
神经网络(一种可以识别模式的机器学习)生成图像并不新鲜。依赖于一对神经网络——一个创建内容,另一个评估该内容与期望的输出内容有多大差距——的生成对抗网络(GANs),已被用于生成真实的人类、猫、出租屋和零食的图像。
但DALL-E值得一提的是它能够基于文本输入生成图像。该系统基于文本生成系统GPT-3,GPT-3已被用于编写诗歌、新闻文章和文字冒险游戏。
利用由成对的文本和图像组成的训练数据集,DALL-E系统可以根据提示生成新图像。它的作品包括一个穿着芭蕾舞裙遛狗的小萝卜,一个由豪猪组成的立方体。它还展示了用多种艺术风格生成图像的能力。
OpenAI还推出了一款名叫Clip的图像识别系统,与各种主要针对某一种任务的现有系统相比,Clip通用性更高。它是通过网上公开的一对对文本和图像进行训练的。
不过这项技术还需要改进。OpenAI指出,DALL-E目前还不能稳定地数到3以上,碰到多义词(比如glasses)有时会犯迷糊。研究人员还发现,不同措辞的文本说明可能产生不同的结果。
还有更深层次的问题有待解决。OpenAI表示:“我们意识到,涉及生成模型的技术有可能产生重大、广泛的社会影响。”它补充称,未来可能进行的步骤包括研究对专业人士的经济影响、生成结果的偏见以及该技术的长期伦理挑战。
长期以来,人们一直担心人工智能生成的媒体被滥用,例如利用神经网络生成虚假视频、音频和图像,服务于各种不道德的目的——从散布政治谣言到欺诈。