2023年十大突破性技术（二）：文字变图片，普通人变画师

5 月 7, 2023

你是否曾经想过，只要输入一段文字，就能让电脑生成一幅你心目中的图片？这听起来像是科幻小说里的情节，但现在，这已经成为了现实。

一种叫作文本到图像的人工智能模型，可以根据简单的文字描述，生成令人惊叹的图片，从而成为了强大的创意和商业工具。这项技术被《麻省理工学院技术评论》杂志评选为2023年十大突破性技术之一。

文本到图像模型的发展

文本到图像模型的出现并不是一夜之间的事情。早在2021年，OpenAI就发布了一个名为DALL-E的文本到图像模型，它可以根据几乎任何东西的简短描述，快速地生成一幅图片。DALL-E 2在2022年4月推出，是一个巨大的进步。谷歌也推出了自己的文本到图像模型，Imagen。

然而，最大的变革者是Stable Diffusion，一个由英国初创公司Stability AI在8月免费发布的开源文本到图像模型。

Stable Diffusion不仅能够产生迄今为止最惊艳的图片，而且还被设计成可以在（性能良好的）家用电脑上运行。通过让文本到图像模型对所有人都可用，Stability AI为已经燃起的创意和创新火上浇油。数百万人在短短几个月内创造了数千万张图片。

文本到图像模型不仅仅是一种娱乐工具，它也有着广泛的应用前景。例如，它可以被嵌入到商业软件中，如Photoshop。

视觉效果艺术家和视频游戏工作室正在探索如何利用它来加快开发流程。而且，文本到图像技术已经发展到文本到视频。

谷歌、META等公司在过去几个月里展示了由人工智能生成的视频片段，虽然只有几秒钟长，但这也会改变。有一天，电影可能只需要通过把剧本输入电脑就能制作出来。

当然，文本到图像模型也面临着一些问题。艺术家们正处于十年来最大的一次动荡之中。而且，就像语言模型一样，文本到图像生成器也可能放大埋藏在从互联网上抓取的训练数据中的偏见和有毒的联系。

文本到图像模型是人工智能领域中最引人注目的技术之一。它不仅展示了人工智能在创造力方面的潜力，也提出了关于版权、伦理和社会影响等方面的重要问题。

我们还不知道这些工具对创意产业和整个人工智能领域会产生什么样的持久影响。但我们可以肯定的是，文本到图像模型将会改变我们与视觉媒体的互动方式，并开启一个全新的视觉时代。