吴恩达来信：Prompt engineering的现状与未来

最近，吴恩达在最新一期人工智能周讯《The Batch》（Oct 19,2022）撰文，聊了关于Prompt engineering（提示工程）的看法，下面是中文编译的要点内容，点击这里阅读英文全文：

亲爱的朋友们：

Prompt engineering（提示工程）——即编写文本提示以生成想要的输出的人工智能系统的艺术）是否会成为人工智能的主导用户界面？随着文本生成器（如GPT-3和Jurassic）和图像生成器（如DALL·E、Midtridge和Stable Diffusion）的兴起（需要输入文本并生成匹配的输出），人们对如何创建提示以获得想要的输出越来越感兴趣。例如，在生成熊猫图像时，添加诸如“beautiful”之类的形容词或诸如“trending on artstation”之类的短语将如何影响输出？对特定提示的响应可能很难预测，并且会因系统而异。

那么，prompt engineering是人工智能的一个重要方向，还是一种黑客行为呢？

为什么会这样想：

✴大量文本或文本-图像数据的可用性使研究人员能够训练文本-文本或文本-图像模型。

✴因此，我们的模型期望将文本作为输入。

✴因此，许多人开始尝试使用更为复杂的提示。

一些人预测，未来会出现大量prompt engineering工作。我确实相信，文本提示将是告诉机器我们想要什么的一种重要方式——毕竟，它是告诉其他人我们需要什么的主要方式。但我认为，prompt engineering只是构成这个谜团的一小部分，关于专业提示工程师即将崛起的令人兴奋的预测也并不明朗。

正如电视遥控器上的转换键可以让你精确控制图像的亮度和对比度，这比试图用语言描述你想要的图像质量更方便。我期待会有一个用户界面（UI），它使我们能够以更直观和可控的方式告诉计算机我们想要什么。

合成（也称为文本-语音）为例。研究人员开发了一种系统，允许用户指定句子的哪个部分应该用什么样的情感说话。虚拟旋钮允许你调高或调低不同情绪的程度。这提供了对难以用语言表达的输出的精细控制。通过检查输出，然后微调控件，我们可以反复改进输出直到获得所需的效果。

因此，虽然我希望文本提示仍然是我们与图像生成器通信的重要组成部分。但我希望我们能找到更高效、更容易理解的方法来控制它们的输出。例如，一组虚拟旋钮是否可以生成一个30%是吉卜力工作室（知名日本动画工作室）风格，70%是迪斯尼风格的图像？绘制草图是另一种很好的交流方式，使用img-img UIs将草图转换为绘图的方式也令我感到兴奋。

同样，控制大型语言模型仍然是一个重要问题。如果你想产生感同身受的、简洁的或其他类型的散文，有没有比在不同的提示中进行搜索（有时随意）更简单的方法，直到你找到一个合适的提示？

当我只是在试用这些模型时，我发现prompt engineering是一项富有创造性和有趣的活动；但当我试图得到一个具体的结果时，却发现它令人沮丧地不够透明。文本提示可以很好地指定一个松散的概念，例如“熊猫吃竹子的图片”，但新的UI可以更容易地获得我们想要的结果。这将有助于将生成算法扩展到更多的应用程序；例如，可以将一段文字调整为特定样式的文本编辑器，或者可以将图像调整为某种形式的图形编辑器。

未来还将有许多令人兴奋的研究出现！我期待着UI能够补充编写文本提示。

请不断学习！

吴恩达

内容中包含的图片若涉及版权问题，请及时与我们联系删除

吴恩达来信：Prompt engineering的现状与未来

评论列表

评论