生成式AI：一个创造性的新世界

时间：2022-09-20 来源：

AIGC（AI-Generated Content 人工智能生成内容）是最近一个热门的话题，伴随着大量应用的落地，AI生成图片、文字、音频甚至视频等内容也渐渐走入了人们的日常。刚刚几个小时前，红杉美国官网发表了最新一篇题为《Generative AI: A Creative New World》的文章，这会代表新一轮Paradigm shift（范式转移）的开始吗？

让我们一同来看看这篇文章吧，原文作者是红杉的两位合伙人：Sonya Huang和Pat Grady，有意思的是在文章作者一栏，赫然还写着GPT-3的大名，并且文章插图也是用Midjourney生成的，这篇文章本身就是AIGC的一个落地表现。以下是原文的翻译，希望可以给大家带来新的发现和思考。

人类擅长分析事物，而机器在这方面甚至做得就更好了。机器可以分析一组数据，并在其中找到许多用例（use case）的模式，无论是欺诈还是垃圾邮件检测，预测你的发货时间或预测该给你看哪个TikTok视频，它们在这些任务中变得越来越聪明。这被称为“分析型AI（Analytical AI）”，或传统AI。

但是人类不仅擅长分析事物，我们也擅长创造。我们写诗，设计产品，制作游戏，编写代码。直到最近，机器还没有机会在创造性工作上与人类竞争——它们被降格为只做分析和机械性的认知工作。但最近，机器开始尝试创造有意义和美丽的东西，这个新类别被称为“生成式AI（Generative AI）”，这意味着机器正在生成新的东西，而不是分析已经存在的东西。

生成式AI正在变得不仅更快、更便宜，而且在某些情况下比人类创造的更好。从社交媒体到游戏，从广告到建筑，从编程到平面设计，从产品设计到法律，从市场营销到销售，每一个原来需要人类创作的行业都等待着被机器重新创造。某些功能可能完全被生成式AI取代，而其他功能则更有可能在人与机器之间紧密迭代的创作周期中蓬勃发展。但生成式AI应该在广泛的终端市场上解锁更好、更快、更便宜的创作。人们期待的梦想是：生成式AI将创造和知识工作的边际成本降至零，产生巨大的劳动生产率和经济价值，以及相应的市值。

生成式AI可以处理的领域包括了知识工作和创造性工作，而这涉及到数十亿的人工劳动力。生成式AI可以使这些人工的效率和创造力至少提高10%，它们不仅变得更快和更高效，而且比以前更有能力。因此，生成式AI有潜力产生数万亿美元的经济价值。

01 为什么是现在？

生成式AI与更广泛的AI有着相同的“为什么是现在（Why now）”的原因：更好的模型，更多的数据，更多的算力。这个类别的变化速度比我们所能捕捉到的要快，但我们有必要在大背景下回顾一下最近的历史。

第1波浪潮：小模型（small models）占主导地位（2015年前）

小模型在理解语言方面被认为是“最先进的”。这些小模型擅长于分析任务，可以用于从交货时间预测到欺诈分类等工作。但是，对于通用生成任务，它们的表达能力不够。生成人类级别的写作或代码仍然是一个白日梦。

第2波浪潮：规模竞赛（2015年-至今）

Google Research的一篇里程碑式的论文（Attention is All You Need https://arxiv.org/abs/1706.03762）描述了一种用于自然语言理解的新的神经网络架构，称为transformer，它可以生成高质量的语言模型，同时具有更强的并行性，需要的训练时间更少。这些模型是简单的学习者，可以相对容易地针对特定领域进行定制。

果不其然，随着模型越来越大，它们开始可以输出达到人类水平的结果，然后是超人的结果。从2015年到2020年，用于训练这些模型的计算量增加了6个数量级，其结果在书写、语音、图像识别、阅读和语言理解方面超过了人类的表现水平。OpenAI的GPT-3表现尤其突出：该模型的性能比GPT-2有了巨大的飞跃，并且从代码生成到笑话编写的任务中都提供了出色的Twitter demo来证明。

尽管所有的基础研究都取得了进展，但这些模型并不普遍。它们庞大且难以运行(需要特别的GPU配置)，不能被更多人广泛触达使用（不可用或只进行封闭测试），而且作为云服务使用成本昂贵。尽管存在这些限制，最早的生成式AI应用程序也已经开始进入竞争。

第3波浪潮：更好、更快和更便宜（2022+）

算力变得更便宜，新技术，如扩散模型（diffusion models），降低了训练和运行所需的成本。研究人员继续开发更好的算法和更大的模型。开发人员的访问权限从封闭测试扩展到开放测试，或者在某些情况下扩展到开源。

对于那些渴望接触LLMs（Large Language Model 大语言模型）的开发人员来说，探索和应用开发的闸门现在已经打开，应用开始大量涌现。

第4波浪潮：杀手级应用出现（现在）

随着平台层的稳固，模型继续变得更好、更快和更便宜，模型的获取趋于免费和开源，应用层的创造力已经成熟。

正如移动设备通过GPS、摄像头和网络连接等新功能释放了新类型的应用程序一样，我们预计这些大型模型将激发生成式AI应用程序的新浪潮。就像十年前移动互联网的拐点被一些杀手级应用打开了市场一样，我们预计生成式AI的杀手级应用程序也会出现，比赛开始了。

02 市场格局

下面是一个示意图，说明了为每个类别提供动力的平台层，以及将在其上构建的潜在应用程序类型。

1. 模型

文本（Text）是最先进的领域，然而，自然语言很难被正确使用并且质量很重要。如今，这些模型在一般的中短篇形式的写作中相当出色(但即便如此，它们通常用于迭代或初稿)。随着时间的推移，模型变得越来越好，我们应该期望看到更高质量的输出、更长形式的内容和更好的垂直领域深度。

代码生成（Code generation）可能会在短期内对开发人员的生产力产生很大的影响，正如GitHub CoPilot所表现的那样。此外，代码生成还将使非开发人员更容易创造性地使用代码。

图片（Images）是最近才出现的现象，但它们已经像病毒一样传播开来。在Twitter上分享生成的图片比文本有趣得多！我们正在看到具有不同美学风格的图像模型和用于编辑和修改生成图像的不同技术在陆续出现。

语音合成（Speech synthesis）已经出现一段时间了，但消费者和企业应用才刚刚起步。对于像电影和播客这样的高端应用程序来说，听起来不机械的，具有人类质量的语音是相当高的门槛。但就像图像一样，今天的模型为进一步优化或实现应用的最终输出提供了一个起点。

视频和3D模型则远远落后，人们对这些模型的潜力感到兴奋，因为它们可以打开电影、游戏、虚拟现实、建筑和实物产品设计等大型创意市场。我们应该期待在未来1-2年内看到基础的3D和视频模型的出现。

还有很多其他领域，比如从音频和音乐到生物和化学等等，都在进行基础模型的研发。下面这张图是基本模型进展和相关应用程序成为可能的时间表，其中2025年及以后的部分只是一个猜测

生成式AI：一个创造性的新世界

上一篇：华为内置打车服务，能改变网约车现有格局吗？

下一篇：产品经理，你知道如何提炼B端产品价值吗？

常见问题

全国统一热线

4000-163-301

联系在线客服