OpenAI：大语言模型可自我优化提示词

作者： CashCat
2023年09月16日
人工智能, 动态

当人们开发新的深度学习人工智能模型（那些可以自行关注数据正确特征的模型）时，绝大多数依赖优化算法或优化器来确保模型具有足够高的准确率。但最常用的优化器之一——基于导数的优化器——在处理实际应用程序时遇到了麻烦。

在一篇新论文中，DeepMind 的研究人员提出了一种新方法：Optimization by PROmpting (OPRO)，一种使用 AI 大语言模型 (LLM) 作为优化器的方法。这种方法的独特之处在于，优化任务是用自然语言定义的，而不是通过正式的数学定义。

研究人员写道：“我们不是正式定义优化问题并使用编程求解器导出更新步骤，而是用自然语言描述优化问题，然后指示大语言模型根据问题描述和先前找到的解决方案迭代生成新的解决方案”。

该技术适应性强。通过简单地修改问题描述或添加具体说明，可以指导大语言模型解决各种问题。

研究人员发现，在小规模优化问题上，大语言模型可以通过单独提示生成有效的解决方案，有时可以匹配甚至超越专家设计的启发式算法的性能。然而，OPRO 的真正潜力在于它能够优化 LLM 提示，从而从模型中获得最大的准确性。

PROmpting 优化的工作原理
OPRO 的过程以“元提示”作为输入开始。该元提示包括对当前任务的自然语言描述，以及一些问题示例、提示说明的占位符以及相应的解决方案。

随着优化过程的展开，大型语言模型 (LLM) 会生成候选解决方案。这些基于问题描述和元提示中包含的先前解决方案。

然后，OPRO 评估这些候选解决方案，为每个解决方案分配质量分数。最佳解决方案及其分数被添加到元提示中，丰富了下一轮解决方案生成的背景。这个迭代过程一直持续到模型停止提出更好的解决方案为止。

研究人员解释说：“大语言模型在优化方面的主要优势是他们理解自然语言的能力，这使得人们能够在没有正式规范的情况下描述他们的优化任务。”

这意味着用户可以指定目标指标，例如“准确性”，同时还提供其他说明。例如，他们可能要求模型生成既简洁又广泛适用的解决方案。

OPRO 还利用了大语言模型检测上下文模式的能力。这使得模型能够根据元提示中包含的示例来识别优化轨迹。研究人员指出，“在元提示中包含优化轨迹可以让大语言模型识别高分解决方案的相似性，鼓励大语言模型在现有的良好解决方案的基础上构建潜在的更好的解决方案，而无需明确定义解决方案应该如何更新。”

为了验证 OPRO 的有效性，研究人员在两个著名的数学优化问题上对其进行了测试：线性回归和“旅行者问题”。虽然 OPRO 可能不是解决这些问题的最佳方法，但结果是有希望的。

研究人员报告说：“在这两项任务中，我们看到大语言模型仅仅根据元提示中提供的过去的优化轨迹就正确地捕捉了小规模问题的优化方向。”

使用 OPRO 优化 LLM 提示
实验表明，提示词的工程设计可以极大地影响模型的输出。例如，在提示中添加“让我们一步一步思考”这句话可以让模型看起来像推理，从而概述解决问题所需的步骤。这通常可以带来更准确的结果。

然而，重要的是要记住，这并不意味着大语言模型拥有类似人类的推理能力。他们的反应高度依赖于提示的格式，语义相似的提示可能会产生截然不同的结果。DeepMind 研究人员写道：“最佳提示格式可以针对特定模型和特定任务。”

Optimization by PROmpting 的真正潜力在于它能够优化 LLM 的提示，例如OpenAI 的 ChatGPT和Google 的 PaLM。它可以指导这些模型找到输出最准确答案的最佳提示。

他们写道：“OPRO 使大语言模型能够逐渐生成新的提示，从而提高整个优化过程中的任务准确性，而初始提示的任务准确性较低。”

为了说明这一点，请考虑寻找解决文字数学问题的最佳提示的任务。“优化器LLM”提供元提示，其中包括带有优化提示占位符的说明和示例（例如，“让我们一步一步思考”）。该模型生成一组不同的优化提示，并将它们传递给“大语言模型评分者”。该计分器大语言模型对问题示例进行测试并评估结果。最好的提示及其分数被添加到元提示的开头，然后重复该过程。

研究人员使用 PaLM 和 GPT 系列的几个大语言模型评估了这项技术。他们发现“我们评估中的所有大语言模型都能够充当优化器，通过迭代优化直至收敛，不断提高生成提示的性能。”

例如，当在 GSM8K（小学数学应用题的基准）上使用 PaLM-2 测试 OPRO 时，该模型产生了有趣的结果。它以提示“让我们解决问题”开始，并生成其他字符串，例如“让我们仔细思考问题并一起解决它”、“让我们把它分解”、“让我们计算解决方案的方法”和最后“让我们算一下”，这提供了最高的准确度。

在另一个实验中，当在大语言模型的答案之前添加字符串“深呼吸并逐步解决这个问题”时，会生成最准确的结果。

这些结果既令人着迷，又有些令人不安。对于人类来说，所有这些指令都具有相同的含义，但它们在大语言模型中引发了截然不同的行为。这是对大语言模型拟人化的警告，并强调我们仍然需要了解其内部运作方式。

不过，OPRO的优势是显而易见的。它提供了一种系统的方法来探索可能的大语言模型提示的广阔空间，并找到最适合特定类型问题的提示。它如何在现实世界的应用中发挥作用还有待观察，但这项研究可以让我们朝着理解大语言模型的运作方式迈出一步。

原文链接


第一时间获取面向IT决策者的独家深度资讯，敬请关注IT经理网微信号：ctociocom


   除非注明，本站文章均为原创或编译，未经许可严禁转载。


相关文章：


                    AI安全的头号威胁：供应链风险
                                      AI再次突破安全红线，留给人类不到一年治理窗口
                                      如何在个人电脑上安装DeepSeek R1模型
                                      马斯克融60亿美元打造超级计算工厂
                                      ChatGPT与Gemini谁更适合网络安全运营？
                                      大语言模型的西方文化偏见
                                      哈佛大学开发敢顶嘴的“对抗性大语言模型”
                                      顶级风险投资2024年AI预测
                  



标签： chatGPT, LLM, 大语言模型