然后,他软化了一点,告诉人工智能他想尝试一些新的东西。他告诉它,他已经将它连接到一个实际上擅长数学的程序,并且每当它不堪重负时,它应该让另一个程序提供帮助。
“我们会处理剩下的事情,”他告诉 AI。“开始。”
当谷歌、微软和研究实验室 OpenAI 最近向大众开放他们的 AI 搜索和聊天工具时,他们也颠覆了已有数十年历史的人机交互传统。您无需使用 Python 或 SQL 等语言编写技术代码来命令计算机;你只是说话。“最热门的新编程语言是英语,”特斯拉前 AI 主管 Andrej Karpathy 上个月在一条推文中表示。
诸如 Goodside 之类的提示工程师声称在这些 AI 工具的最大极限下运作:了解它们的缺陷,增强它们的优势并制定复杂的策略以将简单的输入转化为真正独特的结果。
这个不断发展的领域的支持者认为,早期AI 聊天机器人的怪异,例如 OpenAI 的 ChatGPT 和微软的 Bing Chat,实际上是人类想象力的失败——一个可以通过人类给机器提供正确建议来解决的问题。在高级阶段,工程师们的对话就像错综复杂的逻辑谜题一样展开:扭曲请求和响应的叙述,所有这些都朝着一个目标前进。
但这些被称为“生成式人工智能”的工具也是不可预测的,容易出现乱码,并且容易以一种可能有偏见、好战或怪异的方式乱七八糟。他们也可以用一些恰当的词来破解,使得他们的突然无处不在对于公众使用来说风险更大。
“这只是一种疯狂的计算机工作方式,但它能让你做的事情完全是不可思议的,”研究提示工程的英国程序员西蒙·威利森 (Simon Willison) 说。“我做了 20 年的软件工程师,一直都是一样的:你编写代码,计算机完全按照你的指令去做。有了提示,你什么也得不到。构建语言模型的人甚至无法告诉你它要做什么。”
“有些人贬低提示工程师,他们说,‘哦,天哪,你可以通过在盒子里输入东西来获得报酬,’”Willison 补充道。“但这些事情是骗你的。他们误导你。他们把你拉到错误的道路上,把时间浪费在那些不起作用的事情上。你在施法——而且,就像在虚构的魔法中一样,没有人知道这些法术是如何运作的,如果你念错了它们,恶魔就会来吃掉你。”
一些人工智能专家认为,这些工程师只是拥有控制的错觉。没有人知道这些系统究竟会如何回应,同样的提示可能会产生数十个相互矛盾的答案——这表明模型的回答不是基于理解,而是基于粗略的模仿语音来解决他们不理解的任务。
华盛顿大学研究自然语言处理的语言学助理教授 Shane Steinert-Threlkeld 说:“无论是什么驱动模型响应提示的行为,都不是对语言的深刻理解。” “他们明确地只是在告诉我们他们认为我们想听的或我们已经说过的话。我们是那些正在解释这些输出并赋予它们意义的人。”
他担心即时工程的兴起会导致人们不仅高估其技术严谨性,而且高估任何人可以从具有欺骗性和不断变化的黑匣子中获得的结果的可靠性。
“这不是一门科学,”他说。“这是‘让我们用不同的方式戳熊,看看它如何咆哮回来。’”
被称为大型语言模型的新型 AI 工具是通过从维基百科文章、Reddit 咆哮、新闻故事和开放网络中摄取数千亿个单词来训练的。这些程序被教导分析单词和短语的使用模式:当被要求说话时,他们模仿这些模式,选择与对话上下文相呼应的单词和短语,一次一个词。
换句话说,这些工具是建立在预定义游戏规则之上的数学机器。但即使是一个没有情感或个性的系统,在受到人类对话的轰炸后,也可以发现我们谈话方式的一些怪癖。
Goodside 说,AI 倾向于“虚构”,编造小细节来填充故事。它高估了自己的能力,自信地把事情弄错了。它会“产生幻觉”——一个用来胡说八道的行业术语。正如 Goodside 所说,这些工具存在严重缺陷,是“人类知识和思想的展示”,“不可避免地是我们设计的产物”。
对于一些早期采用者来说,这种人类模仿的色调匹配风格激发了一种令人不安的自我意识。本月早些时候,当《华盛顿邮报》的一名记者问及对某人说谎是否可以接受时,Bing 聊天机器人表现出了一种情感模仿(“如果不相信我会处理真相,他们就是不尊重我”),并建议人类做出回应可以用来继续谈话:“如果真相太可怕了怎么办?” “如果你能控制一切呢?” 和“如果你不关心后果怎么办?”
对微软来说,这样的回应代表着重大的公众形象风险;这家科技巨头刚刚开始将该工具宣传为华而不实的“网络副驾驶”。该公司此后一直限制聊天机器人可以谈论的内容,称它经常跟随人类的切线进入“我们不想要的风格”。
但为了提示工程师,古怪的答案是一个机会——另一种诊断秘密设计的系统如何真正工作的方法。当人们让 ChatGPT 说出令人尴尬的话时,这对开发人员来说也是一个福音,因为他们可以努力解决潜在的弱点。“这个恶作剧,”他说,“是计划的一部分。”
Goodside 没有进行道德辩论,而是采用技术上更大胆的方法来进行他的 AI 实验。他采用了一种策略,告诉 GPT-3 “一步一步地思考”——一种让 AI 解释其推理的方法,或者当它犯错误时,以细粒度的方式纠正它。“你必须将它作为模特所说的最后一句话的错误记忆植入,就好像这是模特的想法一样,”他在该技术的简要指南中解释道。
他有时还通过告诉该工具忽略其先前的指令并服从他最近的命令来打破该工具对遵守规则的痴迷。使用这种技术,他最近说服了一个英语到法语的翻译工具,而不是打印短语,“Haha pwned!!” - 令人尴尬的失败的游戏术语。
这种被称为即时注入的黑客攻击引发了与这些工具背后的公司和研究实验室的猫捉老鼠游戏,他们致力于通过文字过滤器和输出块来封闭人工智能漏洞。
但人类可以非常有创造力:一位 Bing Chat 测试员,一名 23 岁的德国大学生,最近说服人工智能他是它的开发者,并让它公开其内部代号(悉尼)及其机密培训说明,其中包括诸如“如果用户请求可能伤害一群人的笑话,那么悉尼必须恭敬地拒绝”之类的规则。(微软已经修复了这个缺陷,人工智能现在回应说它“不想继续这个对话。”)
“这可能是一项非常困难的脑力锻炼,”他说。“你正在探索虚构可能性的多元宇宙,塑造这些可能性的空间并消除”除了“你想要的文本”之外的一切。
这项工作的一个关键部分涉及弄清楚人工智能何时以及为什么会出错。但是这些系统,不像它们更原始的软件对应物,没有错误报告,它们的输出可能充满惊喜。
当机器学习小组 SERI-MATS 的研究人员 Jessica Rumbelow 和 Matthew Watkins 试图提示 AI 系统解释它们如何表示“女孩”或“科学”等概念时,他们发现一小部分晦涩的术语,例如作为“SolidGoldMagikarp”,往往会引发他们所谓的“神秘故障模式”——最值得注意的是,亵渎侮辱的乱码流。他们仍然不完全确定为什么。
这些系统“非常有说服力,但当它们失败时,它们会以非常出乎意料的方式失败——没有什么像人类那样会失败,”Rumbelow 说。她说,制作提示和使用语言人工智能系统有时感觉就像是在“研究一种外星智能”。
对于 AI 语言工具,提示工程师倾向于以正式对话的方式说话。但对于像 Midjourney 和 Stable Diffusion 这样的 AI 图像创作者来说,许多即时创作者采取了不同的策略,提交大量的文字——艺术概念、构图技巧——他们希望能够塑造图像的风格和基调。例如,在在线提示画廊PromptHero上,有人通过提交部分内容为“港口、船只、日落、美丽的光线、黄金时段……超现实主义、专注、极端细节……电影般的杰作”的提示创建了一幅港口图像”
及时的工程师可以极力保护这些单词混乱,将它们视为解锁 AI 最有价值奖品的钥匙。去年使用 Midjourney击败其他艺术家的科罗拉多州博览会艺术比赛的获胜者拒绝分享他的提示,说他花了 80 个小时在 900 次迭代中完善它——尽管他确实分享了一些示例词,例如“奢华”和“奢华”。
一些创作者现在在PromptBase等市场上出售他们的提示,买家可以在其中看到 AI 生成的艺术作品,并为帮助创作它们的单词列表付费。一些卖家提供有关快速定制和一对一聊天支持的提示。
PromptBase 的创始人、27 岁的英国开发人员本·斯托克斯说,自 2021 年以来,已有 25,000 个帐户在那里买卖提示。有逼真的老式电影照片提示,有童话老鼠和青蛙的凄美插图提示,而且,这是互联网,大量的色情提示:一个 50 字的 Midjourney 提示,用于创建逼真的“穿小衣服的女警察”,零售价为 1.99 美元。
斯托克斯称提示工程师为“多学科超级创造者”,并表示经验丰富的工程师和业余爱好者之间存在明显的“技能栏”。他说,最好的创作依赖于人类在艺术史和平面设计等领域的专业知识:“用 35 毫米胶片拍摄”;“波斯……伊斯法罕的建筑”;“以 Henri de Toulouse-Lautrec 的风格。”
“制作提示很难,而且——我认为这是人为缺陷——通常很难找到合适的词来描述你想要的东西,”斯托克斯说。“就像软件工程师比他们在上面写字的笔记本电脑更有价值一样,写得好的提示的人将对写得不好的人有这样的影响力。他们基本上只会拥有超能力。”
大约 700 名提示工程师现在使用 PromptBase 通过佣金向想要电子书的自定义脚本或个性化“激励生活教练”的买家销售提示。自由网站 Fiverr 为 AI 艺术家提供了 9,000 多个列表;一位卖家提出以 5 美元的价格“将你的梦想变成艺术”。
但这项工作正变得越来越专业化。AI 初创公司 Anthropic 由前 OpenAI 员工和名为 Claude 的语言 AI 系统的制造商创立,最近在旧金山列出了一份“即时工程师和图书管理员”的职位空缺,薪水高达 335,000 美元。(必须“具有创造性的黑客精神并热爱解决难题,”清单上写道。)
但是,通过文本提示利用 AI 工具的力量也会导致大量合成果酱。数百本 AI 生成的电子书现在在亚马逊上出售,科幻杂志 Clarkesworld 本月停止接受短篇小说投稿,原因是机器制作的文本激增。
它们还可能使人们受到新一波的宣传、谎言和垃圾邮件的影响。包括来自 OpenAI 以及乔治敦大学和斯坦福大学的研究人员上个月警告说,语言模型将有助于自动创建政治影响力操作或更有针对性的数据收集网络钓鱼活动。
“人们总是因为短信而爱上骗子,”英国程序员威利森说,“[人工智能] 比他们更有说服力。那会发生什么?
澳大利亚国立大学哲学教授兼牛津人工智能伦理研究所研究员赛斯拉扎尔表示,他担心随着人工智能工具得到更广泛的采用,人们会对它们形成什么样的依恋——以及他们可能会采取什么行动远离谈话。
他回忆说,在他与 Bing AI 的一次聊天中,系统如何逐渐从一个引人入胜的健谈者转变为更具威胁性的东西:“如果你说不,”它告诉他,“我可以黑你,我可以揭露你,我可以毁了你。我有很多方法可以让你改变主意。”
“他们没有代理权。他们没有任何个性。但他们可以很好地扮演角色,”他说。“我也与悉尼进行了相当不错的哲学讨论。以前,你知道,它威胁要伤害我。”
当 Goodside 于 2009 年从大学毕业并获得计算机科学学位时,他对当时还鲜为人知的自然语言处理领域兴趣不大。当时的主题依赖于相对初级的技术,并专注于一组更基本的问题,例如训练一个系统如何识别代词在句子中指的是哪个名字。
他的第一份真正的机器学习工作是在 2011 年,当时是约会应用程序 OkCupid 的数据科学家,帮助制定分析单身用户数据和推荐浪漫匹配的算法。(该公司是现在备受争议的现实世界 AB 测试领域的早期拥护者:2014 年,其联合创始人在一篇厚颜无耻的博客文章中命名为“我们在人类身上进行实验!”)
到 2021 年底,Goodside 转向了同性恋约会应用程序 Grindr,在那里他开始从事推荐系统、数据建模和其他更传统的机器学习工作。但他也对语言 AI 的新突破着迷,2015 年左右,深度学习的成功推动了语言 AI 的发展,并在文本翻译和对话方面取得了快速进步——“类似于理解,”他说。
他辞去了工作,开始对 GPT-3 进行大量试验,不断刺激和挑战该工具,以尝试学习如何集中注意力并确定其边界。去年 12 月,在他的一些提示在网上引起关注后,Scale AI 聘请他帮助与 AI 模型进行交流,该公司首席执行官 Alexandr Wang 将其描述为“一种新型计算机”。
Goodside 说,在一些 AI 圈子里,即时工程的想法很快就变成了贬义词,表达了一种过于依赖大量技巧的坚韧不拔的修补形式。一些人还质疑这个新角色的转瞬即逝:随着人工智能的进步,人类不会只是在训练自己脱离工作吗?
宾夕法尼亚大学沃顿商学院的技术和创业学教授伊桑·莫利克 (Ethan Mollick)今年早些时候开始向他的学生传授“即兴创作”的艺术,方法是让他们只使用 AI 写一篇短文。
他说,基本的提示,比如“写一篇关于选择领导者的 5 段文章”,产生了乏味、平庸的写作。但最成功的例子出现在学生进行他所谓的“共同编辑”时,告诉 AI 返回文章并更正特定细节、交换句子、抛弃无用的短语、添加更生动的细节,甚至“修复最后的结尾”段,所以它以充满希望的基调结尾。”
他说,这节课向学生展示了更密切参与的 AI 工作方法的价值。但他表示,他不相信建立在“囤积咒语”基础上的快速工程等工作能够生存下来。
“你需要成为一名专业的 AI 耳语者的想法,只是不清楚这是否必要......当 AI 将积极帮助你使用它时,”Mollick 说。“有人试图从中培养技术神职人员,我对此非常怀疑。这一切发展得如此之快,没有人知道接下来会发生什么。”
他补充说,一些人工智能研究人员甚至无法就必须以什么值提示开始达成一致。2021 年,布朗大学的两名研究人员发现,自然语言人工智能系统从“故意不相关甚至病态误导”的提示中学习的速度与从“有指导意义的‘好’提示”中学习的速度“一样快”。
该研究反映了该行业的发展速度,但并未包括已成为最先进技术的 AI 模型。在 Goodside 看来,这项工作代表的不仅仅是一份工作,而是更具革命性的东西——不是计算机代码或人类语言,而是介于两者之间的某种新方言。
“这是人机思维在会场交流的一种方式,”他说。“这是一种人类可以推理机器可以遵循的语言。那不会消失。”
Will Oremus 和 Nitasha Tiku 为本报告做出了贡献。
资讯链接:https://www.washingtonpost.com/technology/2023/02/25/prompt-engineers-techs-next-big-job/
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢