最近,吴恩达在最新一期人工智能周讯《The Batch》(Oct 19,2022)撰文,聊了关于Prompt engineering(提示工程)的看法,下面是中文编译的要点内容,点击这里阅读英文全文:

亲爱的朋友们:

Prompt engineering(提示工程)——即编写文本提示以生成想要的输出的人工智能系统的艺术)是否会成为人工智能的主导用户界面?随着文本生成器(如GPT-3和Jurassic)和图像生成器(如DALL·E、Midtridge和Stable Diffusion)的兴起(需要输入文本并生成匹配的输出),人们对如何创建提示以获得想要的输出越来越感兴趣。例如,在生成熊猫图像时,添加诸如“beautiful”之类的形容词或诸如“trending on artstation”之类的短语将如何影响输出?对特定提示的响应可能很难预测,并且会因系统而异。

那么,prompt engineering是人工智能的一个重要方向,还是一种黑客行为呢?

为什么会这样想:

✴大量文本或文本-图像数据的可用性使研究人员能够训练文本-文本或文本-图像模型。

✴因此,我们的模型期望将文本作为输入。

✴因此,许多人开始尝试使用更为复杂的提示。

一些人预测,未来会出现大量prompt engineering工作。我确实相信,文本提示将是告诉机器我们想要什么的一种重要方式——毕竟,它是告诉其他人我们需要什么的主要方式。但我认为,prompt engineering只是构成这个谜团的一小部分,关于专业提示工程师即将崛起的令人兴奋的预测也并不明朗。

正如电视遥控器上的转换键可以让你精确控制图像的亮度和对比度,这比试图用语言描述你想要的图像质量更方便。我期待会有一个用户界面(UI),它使我们能够以更直观和可控的方式告诉计算机我们想要什么。

图片
合成(也称为文本-语音)为例。研究人员开发了一种系统,允许用户指定句子的哪个部分应该用什么样的情感说话。虚拟旋钮允许你调高或调低不同情绪的程度。这提供了对难以用语言表达的输出的精细控制。通过检查输出,然后微调控件,我们可以反复改进输出直到获得所需的效果。

因此,虽然我希望文本提示仍然是我们与图像生成器通信的重要组成部分。但我希望我们能找到更高效、更容易理解的方法来控制它们的输出。例如,一组虚拟旋钮是否可以生成一个30%是吉卜力工作室(知名日本动画工作室)风格,70%是迪斯尼风格的图像?绘制草图是另一种很好的交流方式,使用img-img UIs将草图转换为绘图的方式也令我感到兴奋。

同样,控制大型语言模型仍然是一个重要问题。如果你想产生感同身受的、简洁的或其他类型的散文,有没有比在不同的提示中进行搜索(有时随意)更简单的方法,直到你找到一个合适的提示?

当我只是在试用这些模型时,我发现prompt engineering是一项富有创造性和有趣的活动;但当我试图得到一个具体的结果时,却发现它令人沮丧地不够透明。文本提示可以很好地指定一个松散的概念,例如“熊猫吃竹子的图片”,但新的UI可以更容易地获得我们想要的结果。这将有助于将生成算法扩展到更多的应用程序;例如,可以将一段文字调整为特定样式的文本编辑器,或者可以将图像调整为某种形式的图形编辑器。

未来还将有许多令人兴奋的研究出现!我期待着UI能够补充编写文本提示。

请不断学习!

吴恩达