上下文工程: 大语言模型的新范式

  • 2025-07-26 01:10:48
  • 697

大语言模型不止靠参数“大”,更靠“上下文”聪明。本文系统性拆解上下文工程的设计逻辑与调用策略,从提示构造、状态保持到信息注入,揭示当下LLM开发正从模型调参,走向“上下文编排”的工程新范式。

论文导读:

《ASurveyofContextEngineeringforLargeLanguageModels》(大型语言模型上下文工程综述)是一篇非常全面的学术论文,提出[上下文工程]这一全新的概念来统一我们与AI交互的各种高级方法。

本文将为你拆解这篇论文的结构,并用通俗易懂的方式把它“教”给你,希望可以从中获得启发,帮我们更好的构建设计自己的AI产品。

总结一下,这篇论文对AI产品经理的整体启发是:

我们的角色正在从一个“功能设计师”演变为一个“AI系统架构师”和“信息生态的构建者”。需要用更宏观、更系统的视角去思考产品的形态、价值和边界,交付物将从“需求文档”扩展为包含上下文策略、处理规范和多维度评估体系的“产品白皮书”。

核心思想:从“提示工程”到“上下文工程”

你可能很熟悉“提示词工程”(PromptEngineering)。你可以给大模型下达一个具体的指令。比如:“请帮我总结一下这份报告。”

但这篇论文说,我们现在与AI的交互已经远远超出了“下达一个指令”的范畴。我们不再只是给AI一个简单的文本提示,而是为它构建了一个完整的信息生态系统。

举个例子:

1)提示工程:给实习生一张写着任务的便条。

2)上下文工程:为这位实习生配备一个完整的办公室!这包括:

一个图书馆(外部知识库,比如维基百科或公司内部文档)。

一部可以随时上网的手机(外部工具,比如搜索引擎、计算器)。

一个记忆笔记本(长期和短期记忆系统)。

一本工作手册(系统指令和规则)。

甚至一个可以协同工作的团队(其他AI智能体)。

“上下文工程”(ContextEngineering)就是这篇论文提出的核心概念:它是一门研究如何系统性地设计、管理和优化所有这些提供给AI的“信息装备”,从而让AI发挥出最大潜能的正式学科。

论文的整体结构:四步走

这篇论文把“上下文工程”分成了四个主要部分,循序渐进:

第一部分:基础组件(FoundationalComponents)–AI办公室里的“基础设备”是什么,以及如何准备它们。

第二部分:系统实现(SystemImplementations)–如何把这些基础设备组装成强大的“高级工作站”。

第三部分:评估(Evaluation)–如何衡量这位装备齐全的“超级实习生”工作得好不好。

第四部分:未来方向(FutureDirections)–这门科学未来会遇到哪些挑战,又有哪些激动人心的可能性。

第一部分:基础组件(TheBuildingBlocks)

这一部分是上下文工程的基石,它探讨了我们为AI准备信息时要做的三件核心事情:

获取信息、处理信息、管理信息。

1.上下文的检索与生成(ContextRetrievalandGeneration)–“寻找和准备材料”

这是第一步,确保AI有正确的材料来完成任务。它包括三个方面:

提示工程与上下文生成:这是我们最熟悉的领域,即如何写出清晰、有效的指令。论文提到了一些高级技巧,比如“思维链”(Chain-of-Thought),就是教AI像人一样“一步一步地思考”,而不是直接给出答案。后来还发展出了更复杂的“思维树”(Tree-of-Thoughts)和“思维图”(Graph-of-Thoughts),让AI能够探索多种推理路径,就像画思维导图一样。

外部知识检索:AI模型内部的知识是有限的,而且可能过时。这一步就是让AI能够从外部获取最新的、特定的知识。最核心的技术叫做检索增强生成(RAG),你可以理解为AI在回答问题前,先去一个巨大的数据库(比如百度百科)里搜索相关的资料,然后结合这些资料来生成答案。

动态上下文组装:把上面获取到的所有信息(指令、外部知识、用户问题等)巧妙地组合在一起,形成一个最终的、最优化的“信息包”喂给AI。

2.上下文处理(ContextProcessing)–“编辑和整理材料”

拿到了原始材料后,还需要进行处理,让它们更容易被AI理解和使用。

长上下文处理:AI的“注意力”是有限的,一次能处理的信息长度(即“上下文窗口”)有限。当面对一本很厚的书或一份超长的报告时,AI很容易“读到后面忘了前面”,这被称为“迷失在中间”现象(lost-in-the-middle)。这个领域的研究就是为了解决这个问题,比如通过架构创新或优化注意力机制,让AI能处理上百万字的超长文本。

上下文自我优化和适应:让AI变得更“聪明”,能够自己检查和修改自己的答案。比如“Self-Refine”框架,就是让AI生成答案后,自己扮演批评家的角色,提出修改意见,然后再根据意见进行修改,如此循环,直到答案变得更好。

多模态及结构化上下文:除了纯文本,AI还需要理解图片、音频、视频,甚至是表格和知识图谱这样的结构化数据。这个部分就是研究如何将这些不同类型的信息转换并整合到AI的上下文中。

3.上下文管理(ContextManagement)–“归档和压缩材料”

AI的“办公桌”(上下文窗口)是有限的,所以必须高效地管理信息。

基本约束:首先要认识到AI有“上下文窗口大小”这个根本限制,它既影响性能,也带来巨大的计算成本。

记忆层次与存储架构:为AI建立像电脑一样的记忆系统,分为快速读取但容量小的“短期记忆”(在上下文窗口内)和容量大但读取稍慢的“长期记忆”(存储在外部数据库中)。

上下文压缩:顾名思义,就是把信息“压缩”一下,用更少的文字表达同样多的信息,这样就能在有限的“办公桌”上放下更多东西。

第二部分:系统实现(SystemImplementations)

学习了基础组件后,这一部分将展示如何将它们组装成先进的AI系统,真正解决现实世界的问题。

1.检索增强生成系统(RAG)–“为AI配一个超级图书馆”

这是最主流的应用之一,核心是连接外部知识。

模块化RAG:把RAG系统设计得像乐高积木一样,可以灵活地替换和组合不同的检索、生成模块,以适应不同任务。

智能体RAG(AgenticRAG):这是一种更高级的RAG。普通的RAG是被动地“先搜后答”,而AgenticRAG中的AI会像一个侦探一样,主动思考“我需要什么信息?”、“我应该去哪里搜?”,然后自主地执行检索操作。

图增强RAG:使用“知识图谱”这种网络状的结构化知识来代替纯文本数据库。这样做的好处是信息之间的关联性更强,AI可以进行更复杂的“多跳推理”,比如从“A认识B”和“B认识C”推断出A和C的间接关系。

2.记忆系统(MemorySystems)–“为AI装上大脑”

这个系统致力于解决AI“健忘”的问题,让它能记住过去的对话和经验。通过构建短期和长期记忆机制,AI可以进行持续性的、个性化的互动,而不会在每次对话时都像一个“失忆的陌生人”。

3.工具集成推理(Tool-IntegratedReasoning)–“为AI配一个工具箱”

这让AI不再只是一个“聊天机器人”,而是一个可以与世界互动的“行动者”。

函数调用(FunctionCalling):这是实现工具集成的核心机制。AI可以生成一段特定格式的指令(比如JSON),来调用外部的应用程序接口(API),比如查询天气、订机票、控制智能家居等。这标志着AI从一个“文本生成器”向一个“世界交互器”的转变。

4.多智能体系统(Multi-AgentSystems)–“为AI组建一个团队”

这是目前最前沿、最复杂的系统。它不是让一个AI单打独斗,而是让多个拥有不同专长和角色的AI智能体协同工作,解决单个AI无法完成的复杂任务。

通信协议:为了让AI们能够有效沟通,需要制定一套统一的“语言”和“规则”,就像人类开会需要遵循议程一样。

编排机制(Orchestration):需要一个“项目经理”角色的AI来分解任务、分配工作、协调进度,确保整个团队高效运作。

第三部分:评估(Evaluation)

有了这些强大的系统,我们如何客观地评价它的好坏?这是一个巨大的挑战。传统的AI评估指标(如准确率)已经不够用了。

评估的复杂性:我们需要评估的不再是单一任务的成败,而是整个系统的推理过程、工具使用是否合理、记忆是否准确、团队协作是否高效。

新的评估基准:论文提到了一系列新的、更贴近现实世界的评估基准(Benchmarks),比如WebArena(评估AI操作网页的能力)、GAIA(评估通用AI助手的能力)等。

性能差距:评估结果显示,尽管这些系统很强大,但在许多真实世界的复杂任务上,它们与人类的表现仍有巨大差距。

第四部分:未来方向与结论

最后,论文展望了未来,并指出了一个核心的、根本性的挑战。

最大的挑战:理解与生成的不对称性(Comprehension-GenerationAsymmetry)

这是整篇论文最深刻的洞见之一,论文指出,当前的AI模型,在先进的上下文工程加持下,理解复杂信息的能力非常强(比如读懂一份上千页的财报),但生成同样复杂的长篇输出的能力却非常有限(比如让它自己写一份上千页的、逻辑严密、事实准确的财报)。这个“理解强,生成弱”的不对称性,是未来研究需要攻克的关键难题。

结论

“上下文工程”将AI研究的焦点从简单地“设计提示词”转向了系统性地“设计信息后勤系统”。它提供了一个统一的框架,帮助我们理解和构建下一代更强大、更可靠、更能解决实际问题的AI系统。

启发

未来AI产品经理的工作,将从传统的“功能设计”系统性地转向“上下文生态设计”。这篇论文可以被看作是下一代AI产品经理的“工作手册”。

核心职责的转变:从定义“功能”到定义“上下文”

过去,PM定义的是“用户点击这个按钮会发生什么”。现在,PM的核心工作之一是定义AI完成任务所需的完整“信息装备”。

定义上下文的构成要素:PM需要像设计产品功能列表一样,设计产品的“上下文清单”。这包括:

系统指令:产品的核心定位、行为准则和个性是什么?

外部知识:产品需要连接哪些数据库或知识库?是需要实时新闻,还是公司内部的保密文档?

可用工具:产品需要具备哪些“超能力”?是需要调用计算器、搜索引擎,还是接入公司内部的审批API?

记忆:产品需要“记住”用户多久?是仅限于单次对话的短期记忆,还是需要跨越数周乃至数月的长期个性化记忆?这对用户体验至关重要。

动态状态:产品需要感知哪些动态变化?比如用户的情绪状态、团队协作

衡量标准的重塑:从“功能可用”到“系统可靠”

论文用整整一章(第6章)来探讨“评估”(Evaluation)的复杂性,这对PM如何定义产品成功至关重要。

定义更复杂的KPIs:过去,PM可能只关心功能的点击率或任务成功率。现在,需要定义更深层次的、面向过程的指标。论文指出,评估需要深入到组件层面和系统层面。例如:

检索质量:RAG系统检索到的信息相关性、准确性如何?

工具使用效率:AI是否在最合适的时机调用了最合适的工具?

记忆保真度:AI的长期记忆是否会出错或“遗忘”关键信息?

协作效率:在多智能体系统中,AI之间的沟通成本和协作效果如何

我们的角色正在从一个“功能设计师”演变为一个“AI系统架构师”和“信息生态的构建者”。需要用更宏观、更系统的视角去思考产品的形态、价值和边界,交付物将从“需求文档”扩展为包含上下文策略、处理规范和多维度评估体系的“产品白皮书”。