查看“WikiEdge:ArXiv-2401.14423”的源代码

* '''标题'''：Prompt Design and Engineering: Introduction and Advanced Methods
* '''中文标题'''：提示设计与工程：介绍和高级方法
* '''发布日期'''：2024-01-24 06:20:18+00:00
* '''作者'''：Xavier Amatriain
* '''分类'''：cs.SE, cs.LG
*'''原文链接'''：http://arxiv.org/abs/2401.14423v4
'''摘要'''：提示设计和工程已迅速成为最大化大型语言模型潜力的关键。在本文中，我们介绍了核心概念，如链式思考和反思等高级技术，以及构建基于LLM的代理的原则。最后，我们提供了提示工程师的工具调查。

== 问题与动机 ==
作者面对的研究问题包括：
* 如何设计有效的[[提示（prompt）]]来最大化[[大型语言模型（LLMs）]]的潜力？
* 如何通过高级提示技术如“[[思维链（Chain-of-Thought）]]”和“[[反思（Reflection）]]”提升LLMs的性能？
* 如何构建基于LLMs的[[智能代理]]，并理解其背后的原理？
* 如何通过工具来支持[[提示工程师]]的工作？
* LLMs在处理复杂问题时存在哪些限制，如何通过高级提示设计技巧来克服这些限制？
* 如何通过自动化的[[提示工程（APE）]]提高提示设计的效率和准确性？
* 如何利用[[检索增强生成（RAG）]]技术来扩展LLMs，以访问实时或特定领域的信息？
* 如何通过工具和框架来增强LLMs的功能和应用范围？

== 背景介绍 ==
这篇文献的研究背景主要集中在以下几个方面：
* 提示设计与工程
** [[提示]]（Prompt）在[[生成式AI模型]]中是用户输入的文本，用于指导模型的输出，可以是简单的问题或详细的描述。
** [[提示工程]]（Prompt Engineering）是指导AI模型输出的新兴学科，涉及构建最佳提示以实现特定目标。
** 随着[[大型语言模型]]（LLMs）的发展，提示设计和工程变得至关重要，以最大化这些模型的潜力。
* 大型语言模型（LLMs）及其局限性
** LLMs在[[自然语言处理]]方面取得了显著进展，但它们受到固有限制的约束，如瞬态状态、概率性质、过时信息、内容编造和资源密集性。
** 这些限制强调了高级提示工程和专门技术的必要性，以提高LLM的效用并减轻固有限制。
* 高级提示设计技巧和策略
** 包括链式思考（Chain of Thought）提示、使用工具、自我一致性、反思等，这些技术旨在优化LLM在特定限制内的性能。
** 这些技术通过将隐含的推理步骤转化为明确的、引导的序列，从而增强了模型在复杂问题解决环境中基于逻辑推理产生输出的能力。
* 工具、连接器和技能的集成
** 工具、连接器和技能的集成显著扩展了LLMs的功能和应用范围，使它们能够与外部数据源交互并执行特定任务。
** 例如，[[Toolformer]]训练LLM决定何时使用工具，甚至确定API需要什么参数，包括两种不同的搜索引擎或计算器。
* 自我一致性和反思
** [[自我一致性]]（Self-Consistency）方法通过产生多个答案并评估它们的一致性来提高LLM输出的准确性和可靠性。
** [[反思]]（Reflection）概念使LLM能够进行自我改进，通过自我评估其输出来提高输出的准确性、逻辑一致性和相关性。
综上所述，这篇文献的背景强调了随着LLMs和[[生成式AI]]的发展，提示设计和工程的重要性日益增加，以及如何通过高级技术来克服LLMs的固有限制。

== 章节摘要 ==
这篇论文是关于[[大型语言模型（LLM）]]的提示设计和工程的介绍和高级方法的研究，论文的主要内容可以概括如下：
* '''引言'''
** 提出了[[提示（prompt）]]在生成式AI模型中的作用，它是用户用来指导模型输出的文本输入。
** 通过简单的例子展示了基本的提示构造方法，包括指令、问题、输入数据和示例。
* '''提示工程'''
** 讨论了提示工程的重要性，它涉及构建最佳提示以实现与生成模型的特定目标。
** 强调了提示工程超越了简单的提示构造，需要领域知识、对AI模型的理解以及系统化的方法。
* '''LLM及其限制'''
** 描述了大型语言模型（LLM）的关键能力和它们在[[自然语言处理]]中的重要性。
** 讨论了LLM的固有限制，如瞬态状态、概率性质、过时信息、内容捏造、资源密集和领域特异性。
* '''高级提示设计技巧和窍门'''
** 介绍了链式思考提示等高级提示设计技巧，鼓励模型通过一系列步骤来确保输出的准确性。
** 讨论了其他鼓励模型成为事实的方法，如引用可靠来源。
* '''工具、连接器和技能'''
** 讨论了工具、连接器和技能在高级提示工程中的应用，这些元素扩展了LLM的功能和应用范围。
* '''自动多步推理和工具使用（ART）'''
** 描述了ART技术，它结合了自动化的链式思考提示和外部工具的使用。
* '''通过自我一致性提高可靠性'''
** 讨论了自我一致性方法，通过产生多个答案并评估这些答案之间的一致性来提高LLM输出的准确性和可靠性。
* '''反思'''
** 引入了反思概念，使LLM能够通过自我评估其输出来实现自我改进。
* '''专家提示'''
** 讨论了专家提示方法，通过模拟专家级响应来增强LLM的效用。
* '''使用链处理复杂任务'''
** 描述了链（Chains）方法，它通过将复杂任务分解为可管理的段来利用LLM。
* '''引导LLM输出的Rails'''
** 讨论了Rails框架，它使用一系列规则或模板来指导LLM的输出，确保其相关性、安全性和事实完整性。
* '''自动提示工程'''
** 介绍了自动提示工程（APE），它自动化了创建提示的过程，以优化提示设计过程。
* '''通过外部知识增强LLM - RAG'''
** 讨论了检索增强生成（RAG）方法，它通过动态结合外部知识来扩展LLM。
* '''LLM代理'''
** 描述了基于LLM的代理的概念，这些代理能够自主地执行复杂任务。
* '''提示工程技术和框架'''
** 讨论了支持这些高级提示工程技术的工具和框架的发展。
* '''结论'''
** 强调了随着LLM和生成式AI的发展，提示设计和工程将变得更加重要。

== 研究方法 ==
这篇论文通过深入探讨[[提示设计]]和[[工程]]的核心技术与高级方法，分析了如何最大化[[大型语言模型]]（LLMs）的潜力。以下是该研究方法论的主要组成部分：
* 提示设计
** 定义了[[提示]]的概念，并区分了[[基本提示]]和[[高级提示]]的结构。
** 通过示例展示了如何构建包含[[指令]]、[[问题]]、[[输入数据]]和[[示例]]的提示。
** 讨论了[[提示工程]]在[[生成性AI模型]]中的重要性，以及如何通过优化提示来实现特定目标。
* 高级提示技巧
** 引入了[[链式思考]]（Chain of Thought）和[[自我反思]]（Reflection）等高级技巧，这些技巧通过引导模型遵循[[逻辑推理]]过程来提高输出的准确性。
** 探讨了如何通过明确结束提示指令、使用[[强制语言]]、[[自我纠正]]等手段来提高模型的响应质量。
** 分析了如何利用[[AI]]生成不同观点，并通过更高级的提示工程技术来利用这些观点。
* 工具与框架
** 介绍了用于提示工程的工具和框架，如[[Langchain]]、[[Semantic Kernel]]、[[Guidance library]]等，这些工具有助于实现复杂的LLM应用。
** 讨论了这些工具如何帮助研究人员和实践者更有效地利用提示工程技术。
* 外部知识增强
** 探讨了[[检索增强生成]]（RAG）技术，该技术通过动态整合外部知识来克服LLMs在访问实时或特定领域信息方面的限制。
** 分析了RAG感知提示技术（如[[FLARE]])如何通过预测潜在内容并使用这些预测来指导信息检索，从而提高LLM性能。
* LLM代理
** 讨论了基于LLM的代理的概念，这些代理能够自主执行复杂任务，通过集成[[决策制定]]和[[工具使用]]能力来超越简单的响应生成。
** 分析了为代理设计的提示工程技术，如[[ReWOO]]、[[ReAct]]和[[DERA]]，每种技术都旨在增强LLM代理的自主功能。
* 结论
** 强调了随着LLMs和[[生成性AI]]的发展，提示设计和工程将变得更加关键。
** 讨论了[[自动提示工程]]（APE）等创新技术可能成为未来标准实践的潜力。
这篇论文的方法论分析结果表明，通过高级提示设计和工程，可以显著提高LLMs的性能和应用范围，特别是在需要复杂推理和决策的任务中。

== 研究结论 ==
根据提供的文献内容，这篇论文的主要结论可以概括如下：
* 提示设计和工程的重要性
** 随着[[大型语言模型]]（LLMs）和[[生成性AI]]的发展，[[提示设计]]和工程变得日益重要。它们是实现[[智能应用]]的关键工具。
* 高级提示设计技术
** 介绍了高级提示设计技术，如[[链式思考]]（Chain-of-Thought）和[[自我反思]]（Reflection），这些技术可以显著提升LLMs的性能和输出质量。
* LLMs的局限性和优化策略
** 讨论了LLMs的固有局限性，例如瞬态状态、概率性质、过时信息、内容编造、资源密集和领域特异性，并提出了通过高级提示工程和专门技术来增强LLM实用性和减轻这些限制的方法。
* 工具、连接器和技能的集成]]''' ==
** 强调了工具、连接器和技能在提升LLMs功能方面的重要性，这些元素使LLMs能够与外部数据源交互并执行特定任务。
* 自我一致性
** 作为提高LLMs输出准确性和可靠性的关键技术，自我一致性方法通过产生多个答案并评估它们的一致性来增强LLMs的可信度。
* 反思的概念
** 反思是LLMs自我改进能力的重要步骤，通过自我评估初始响应，LLMs能够识别潜在的不准确或不一致之处，并生成更可靠和连贯的修订响应。
* 专家提示
** 专家提示通过赋予LLMs模拟专家级回应的能力，增强了LLMs在多个领域的实用性，这涉及到从多个专家视角整合洞察力。
* 链式处理复杂任务
** 链式方法通过将复杂任务分解成可管理的部分，并确保各部分的输出成为下一部分的输入，从而实现复杂多步骤任务的处理。
* 引导LLM输出的Rails
** Rails框架通过预定义的规则或模板（称为规范形式）来指导LLMs的输出，确保它们的相关性、安全性和事实完整性。
* 自动提示工程
** 自动提示工程（APE）通过自动化提示创建过程，利用LLMs自身的能力来生成、评估和完善提示，以优化提示设计过程。
* 通过外部知识增强LLMs
** 检索增强生成（RAG）通过动态整合外部知识来扩展LLMs，从而丰富模型的响应。
* LLM代理的概念
** LLM代理是增强LLMs的专门实例，设计用于自主执行复杂任务，通常通过合并决策制定和工具使用能力来超越简单的响应生成。
* 提示工程技术和框架的发展
** 随着高级提示工程技术的发展，出现了一系列工具和框架，旨在简化这些方法的实施并增强它们的功能。
这些结论为理解LLMs在[[AI]]领域的应用提供了重要的背景信息，并指出了提示设计和工程在实现智能应用中的重要作用。

== 术语表 ==
这篇文章的术语表如下：
* [[提示]]（Prompt）：在生成式AI模型中，提示是用户提供的文本输入，用于引导模型的输出。这可以是从简单的问题到详细的描述或特定任务的各种内容。
* [[链式思考]]（Chain-of-Thought）：一种高级提示技术，通过引导模型遵循逻辑推理过程来明确鼓励模型提供事实性/正确的答案。
* [[工具]]（Tools）：工具是大型语言模型（LLMs）可以利用的外部函数或服务，这些工具扩展了LLMs可以执行的任务范围。
* [[链]]（Chains）：链是一种转换方法，通过将大型语言模型（LLMs）用于复杂、多步骤的任务，通过顺序链接不同组件，每个组件设计用于执行特殊功能。
* [[自动提示工程]]（Automatic Prompt Engineering, APE）：自动提示工程通过利用LLMs自身的能力来生成、评估和完善提示，自动化了复杂的提示创建过程。
* [[检索增强生成]]（Retrieval Augmented Generation, RAG）：RAG通过动态整合外部知识，扩展了LLMs，从而丰富了模型的响应。
* [[自我一致性]]（Self-Consistency）：一种技术，通过集合策略，涉及提示LLM产生对同一问题的多个答案，这些响应之间的一致性作为其可信度的衡量。
* [[反思]]（Reflection）：反思是LLMs进行自我改进的能力，涉及对输出进行内省审查的过程。
* [[专家提示]]（Expert Prompting）：专家提示是一种通过提示LLMs来模拟专家级响应的方法。
* [[树状思考]]（Tree of Thought, ToT）：树状思考提示技术，通过考虑一系列可能的解决方案，然后推导出最合理的一个。
* [[工具使用]]（Tool-use）：工具使用是ART技术的一部分，结合了自动化链式思考提示和使用外部工具。
* [[推理无观察]]（Reasoning without Observation, ReWOO）：推理无观察使LLMs能够在没有即时访问外部数据的情况下构建推理计划。
* [[推理与行动]]（Reason and Act, ReAct）：推理与行动通过交错推理痕迹和可操作步骤，增强了LLMs的问题解决能力。
* [[对话启用解决代理]]（Dialog-Enabled Resolving Agents, DERA）：对话启用解决代理引入了一个协作代理框架，多个代理通过对话解决查询和做出决策。
* [[语言模型]]（Large Language Models, LLMs）：基于Transformer架构的预训练模型，用于预测接下来的标记，展现出卓越的语言能力。
* [[提示工程]]（Prompt Engineering）：提示工程是指导AI模型响应的文本接口的构建和优化过程。
* [[提示链]]（PromptChainer）：PromptChainer是一个工具，它提供了一个可视化编程环境，使用户能够直观地设计和调整链。
* [[领域特定]]（Domain Specificity）：尽管本质上是通用的，但LLMs通常需要特定领域的数据才能在专业任务中表现出色。
* [[资源密集]]（Resource Intensity）：LLMs的庞大规模意味着计算和财务成本显著，影响其可扩展性和可访问性。
* [[内容构造]]（Content Fabrication）：LLMs可能生成看似合理但事实上不正确的信息，这种现象通常被称为“幻觉”。
* [[瞬态状态]]（Transient State）：LLMs固有地缺乏持久的内存或状态，需要额外的软件或系统来保持和管理工作上下文。