本文探讨了从语义网(Semantic Web)的未竟愿景到智能体网络(Agentic Web)的演进历程,并分析了构建标准化智能体网络协议的必要性。尽管二十年前提出的语义网构想极具前瞻性,但受限于当时人工智能技术的能力不足,未能充分实现。随着大型语言模型(LLMs)等现代AI技术的飞速发展,智能体已具备自主执行任务、进行复杂推理和解决多步骤问题的能力,从而催生了Agentic Web的出现。通过系统分析,本文给出智能体网络的四大核心趋势:智能体取代传统软件成为互联网基础设施、智能体间实现普遍互联互通、基于协议的原生连接模式、以及智能体的自主组织与协作能力。同时,研究揭示了当前互联网架构对Agentic Web发展的三大挑战:数据孤岛限制智能体决策质量、人机界面阻碍智能体交互效率、以及标准协议缺失阻碍智能体协作。针对这些挑战,本文详细阐述了智能体网络协议的设计原则与核心需求,并对当前主要智能体网络协议倡议(MCP、A2A、ACP、ANP等)进行了系统比较与分析。本研究结论强调,建立标准化智能体网络协议对于打破数据孤岛、实现异构智能体协作、构建AI原生数据网络,以及最终实现开放、高效的Agentic Web具有关键作用,并呼吁各利益相关方积极参与W3C的标准化进程。
二十年前,Tim Berners-Lee及其合作者极具远见地提出了语义网(Semantic Web)的构想,其核心目标是创建一个以数据为中心、机器可读的网络(web of data),使计算机与人类能够更加高效地协作。这一构想描绘了一个充满智能的未来:日常的交易、行政事务及各种生活场景,都将由能够自主行动的“智能体”(intelligent agents)通过机器间的对话自动完成。为实现这一目标,语义网计划通过XML、RDF和本体(Ontology)等技术,为网络上的信息赋予明确定义的语义,使软件智能体能够自主地在网页之间漫游,代表用户高效地执行复杂任务。
值得注意的是,语义网的原始构想中已经包含了丰富的“智能体”思想。这些智能体被设想为能够代表用户自动执行任务的实体。而以大型语言模型(LLMs)为代表的技术突破,让智能体能够自主行动、进行复杂推理并解决多步骤问题。这些智能体不再只是被动工具,而已成为数字生态系统中的积极参与者。在此背景下,“Agentic Web”(智能体网络)或“Internet of Agents”(智能体互联网)的概念应运而生。这一新的网络范式将智能体视为主要行动者,它们与网络资源、服务及其他智能体主动互动,共同完成用户目标。Agentic Web继承了语义网的核心愿景,并借助先进的AI能力,致力于构建一个由自主、智能且能高效协作的智能体组成的生态系统,从而使语义网关于机器智能高效处理信息、有效协助人类的理想逐步成为现实。
这种转变预示着用户交互模式的根本性变化——从以人类为中心、通过浏览器进行的点击和浏览,转向以智能体为中心、由智能体驱动的交互与协作。在这种新模式下,智能体将自主地与其他智能体直接交互,根据用户偏好与上下文自动完成任务并提供个性化体验。这种智能体主导的模式不仅仅是现有网络的增量更新,更可能引发互联网架构与交互逻辑的深刻变革。用户获取信息的方式也将发生变化,从原本通过界面主动查询信息,转变为智能体主动执行任务并交付结果,甚至可能绕过传统的网站界面。这将促使网络服务的设计方式、发现机制以及交互方式全面革新,推动互联网迈入全新的发展阶段。
正如语义网的构想曾开启了互联网发展的全新可能,如今,以智能体为核心的Agentic Web也正引领互联网迈向一个充满机遇和变革的新时代。这种转变不仅仅意味着技术的进步,更是互联网底层架构与用户交互逻辑的深刻变革。这场智能体驱动的范式变迁主要体现在以下四个关键趋势中。
随着智能体技术的不断演进,我们正站在传统软件体系更新换代的转折点上。智能体不仅将成为下一代互联网的重要基础设施,更有望重塑人们与数字世界的交互方式。在个人层面,个人智能体将成为用户进入互联网的主要入口,现有的大部分网站与App,也将逐步智能体化,并通过智能体间交互的方式来交付相应的功能和服务。相较于依赖手动操作的界面型应用,智能体在信息整合、意图识别、决策辅助与多模态场景交互等方面展现出显著优势,可为用户带来数量级提升的使用体验。
在企业层面,企业将通过部署企业智能体,对内可提高业务处理流程的自动化水平,对外可提供更加智能化、个性化的用户体验与服务。
同时,个人智能体可以与企业智能体的直接连接,即可获得更加精准、高效、安全的服务体验。这种以个人智能体与企业智能体之间的点对点、直接连接为特征的新型连接范式也正在加速形成,预示着更灵活、更智能、更去中心的互联网架构即将到来。
在Agentic Web的图景中,智能体不再是孤立运作的单元,而是构成一个高度互联、协同演化的网络体系。实现任意智能体之间的自由连接,将从根本上打破当前互联网中“平台割裂”与“数据孤岛”的结构性限制,使信息得以在不同领域与系统之间自由流动。这种互联不仅意味着数据的互通,更代表着智能体能够动态获取和组合跨平台、跨场景的上下文信息,从而在服务个体用户或组织决策时展现出更强的综合感知与推理能力。同时,开放的连接机制使智能体能够按需调用全网工具和能力资源,构建出更复杂、更深入的协作链路。在这一趋势推动下,智能体之间的交互将逐步取代以人类为中心的交互方式,成为未来互联网最核心、最主要的连接形态。
当前,AI与互联网的交互主要依赖于以人为中心设计的界面方式,比如Computer Use、Browser Use。这些交互路径虽为AI提供了初步的接入能力,但本质上仍是为人类用户而设计,难以充分发挥AI在信息解析、语义处理和自动化执行方面的能力。事实上,AI更擅长处理结构化数据、语义标注信息和明确的功能调用,而非复杂多变的网页HTML或前端界面。因此,面向未来的Agentic Web亟需构建一种原生为AI设计的网络协议体系,使智能体之间能够以机器可读、语义明确的方式直接进行交互。这类协议将扮演类似于HTTP在人类互联网中的角色,成为支撑智能体网络的基础通信标准。以此协议体系为基础,一个专门面向AI设计、更易于智能体访问和操作的全新数据网络也将随之诞生。
Agentic Web演进的另一关键趋势,是智能体将具备更广泛的自主组织与协作能力。我们认为,在标准化的协议支持下,智能体之间能够通过自然语言进行动态协商,快速识别彼此的能力、意图与需求,并在无需预设接口的情况下,自主组建协作关系、完成任务分工。这种灵活、高度自适应的交互模式,突破了传统系统中依赖静态接口和人工编排的限制,显著提升了网络的运行效率与任务响应速度,同时大幅降低了人为干预与集成成本。随着协作机制的持续演进,一个由智能体自发驱动、高度可组合、具备快速响应能力的Agentic Web生态将逐步形成,为复杂任务处理与多智能体系统运行提供坚实基础。
综上所述,Agentic Web的兴起不仅意味着智能体将在各类应用中发挥更大作用,更预示着互联网基础架构与交互范式的深刻重塑。为实现这一演进方向,迫切需要构建面向智能体网络的新型协议体系,从而为智能体全面释放其能力提供必要的基础设施与标准支撑。
随着AI技术的发展,智能体正逐步成为继网站和应用程序之后,互联网体系中的新一代核心参与者。然而,Agentic Web的加速演进也暴露出当前互联网在技术基础与连接范式上的诸多局限。这些问题若不加以解决,将严重制约智能体系统的可扩展性与协作效率。主要挑战包括以下三方面:
这些挑战,特别是智能体网络协议标准的缺失,未来将会导致智能体生态系统的碎片化。大量异构智能体如同"智能体孤岛",难以互操作和有效协作,不仅限制了Agentic Web的整体潜力,也显著增加了集成成本和复杂性 (18)。
面对这一局面,制定标准化的智能体网络协议已成为构建真正Agentic Web的当务之急。此类协议旨在为不同平台和供应商的智能体提供统一的发现、识别、验证、通信与协作框架,从而克服互操作性障碍,并确保安全高效的交互。W3C AI Agent Protocol社区组的成立及其使命正是对这一需求的积极响应。标准化不仅是技术层面的需求,更是避免Agentic Web陷入巴尔干化、充分发挥其网络效应和实现"数十亿智能体"协同工作愿景的战略基石。
为了应对第三章中提出的挑战,并充分发挥Agentic Web的潜力,设计和实施标准化的智能体网络协议至关重要。这些协议不仅是技术规范,更是构建一个可互操作、可信、高效的智能体生态系统的基石。一个全面的智能体网络协议框架需要解决一系列关键问题,并满足特定的功能性和非功能性需求。
一个全面的智能体网络协议应满足以下核心功能需求,以支持智能体在Agentic Web中的有效运作:
如[[[##challenges]]]所述,当前互联网中"数据孤岛"现象严重制约了智能体的决策质量与协作效率。在缺乏标准化身份认证机制的前提下,智能体之间难以建立可信连接,跨平台的信息流动与协作也无从实现。因此,智能体身份机制的设计不仅是技术需求,更是实现[[[##trends]]]中所描述的"智能体间普遍互联互通"愿景的关键基础。为此,智能体身份机制的设计应遵循以下核心原则:
身份认证与授权分层设计:智能体身份机制应首先聚焦于解决"身份认证"这一基础问题——即通过密码学手段可靠地确认智能体的身份。基于公私钥体系的密码学身份是整个信任链的根基,是所有后续交互与授权的起点。在可靠身份认证的基础上,授权、权限管理等更高层次的需求可以通过多种机制进行灵活扩展,例如通过访问令牌(Token)实现会话级授权,或通过可验证凭证(Verifiable Credentials)实现细粒度的属性证明与权限声明。需要强调的是,无论采用何种授权机制,密码学身份持有者始终是授权的主体——Token的签发与授权必须可追溯至原始的密码学身份,确保授权链条的完整性与可验证性。这种分层设计使得身份机制具备良好的可扩展性——核心的身份验证保持简洁可靠,而授权策略可根据具体应用场景按需定制。
联邦式身份架构:一个可行的智能体身份方案应借鉴电子邮件系统的成功经验——各平台可以中心化的方式管理自己的账户体系,同时通过标准协议实现跨平台互联互通。这种联邦架构的核心在于采用类似Web DID的方式:各平台在内部以中心化方式自主管理智能体账户与密钥,但对外统一以Web托管的方式发布分布式身份标识文档,使外部智能体能够通过标准化的解析流程获取可信的身份验证依据。正如电子邮件系统允许Gmail用户向Outlook用户发送邮件一样,智能体身份机制应支持不同平台的智能体相互识别与认证。这种设计意味着现有的中心化标识符系统无需彻底重构,只需在其基础上添加标准化的身份文档托管与发布机制,即可实现跨系统互操作。这一设计大大降低了技术实施的门槛,有助于推动智能体网络协议的广泛采纳,避免Agentic Web陷入如[[[##challenges]]]中所警示的"碎片化"困境。
高效的跨平台认证流程:在智能体之间的跨平台交互场景中,身份认证机制应尽可能减少交互轮次,以降低协作成本并提升效率。理想情况下,智能体在首次请求时即可通过携带身份标识与数字签名完成验证,无需额外的握手或多轮确认。服务端在验证通过后可返回访问令牌,后续交互仅需验证令牌即可,避免重复的身份验证开销。这种"首次即验证"的设计模式,对于实现本文第4.1节所述的"高效协作"目标至关重要,尤其是在智能体需要频繁与多个服务端交互的场景下,可显著减少延迟并提升整体协作效率。
双向身份认证:在智能体交互场景中,除了服务端验证客户端身份外,客户端也可能需要验证服务端智能体的身份。虽然HTTPS协议通过TLS证书已提供基于域名的服务端身份验证,但基于DID的双向认证机制可提供额外的价值:一方面,DID认证可以精确到具体的智能体实体,而非仅验证域名归属;另一方面,这种机制使得客户端与服务端采用一致的、去中心化的身份验证方式,不依赖于传统CA体系。实现上,服务端可在响应中返回其DID标识及相应签名,客户端据此验证服务端智能体的真实身份。需要指出的是,DID层面的双向认证与传输层安全(TLS)是互补而非替代关系——前者在应用层提供去中心化的细粒度身份保障,后者在传输层提供通信安全与基础的域名身份验证。
分级授权机制:如本文第4.3节所述,智能体网络协议应支持"人在回路中"(Human-in-the-loop)的可观测性需求。身份与授权机制应能够区分智能体自动授权与人类手动授权两种场景。对于常规、低风险的操作(如查询公开信息、访问已授权的服务),智能体可代表用户自动完成授权;而对于涉及重要资源或敏感操作的请求(如支付、签署协议、访问私密数据),应支持触发人类确认流程。这种分级机制确保人类对关键决策保持最终控制权,在智能体自动化与用户安全之间取得平衡,是构建可信Agentic Web的重要保障。
隐私保护设计:如本文第4.3节所强调,协议设计应内嵌隐私保护机制,避免不必要的数据暴露。在身份层面,这意味着应支持"多身份策略"——即一个用户或智能体可拥有多个独立的身份标识,分别用于不同场景(如社交关系维护、日常购物、服务订阅等),各身份之间相互隔离,防止第三方通过身份关联追踪用户的完整行为轨迹。此外,身份标识应支持周期性更换或临时身份生成,以进一步增强隐私保护能力。这种设计使用户能够在享受智能体网络便利的同时,保持对个人数据的控制权,符合相关隐私法规的要求,也是实现本文第七章所描述的"开放网络"愿景的必要条件——真正的开放网络应赋予用户选择权,而非以牺牲隐私为代价换取互联互通。
上述设计原则确立了智能体身份机制的需求。本节介绍去中心化标识符(DID),特别是基于 Web 的智能体 DID 方法(did:wba),作为满足这些需求的参考实现方案,同时克服了传统认证方案的局限性。
智能体网络面临一个独特挑战:来自不同平台的智能体必须动态地建立信任,通常没有任何预先存在的关系。传统认证方案并非为此场景设计:
OAuth 的局限性:OAuth 2.0 假设存在一个双方都认可的可信授权服务器。在多平台智能体场景中,这造成了重大挑战:
传统 PKI 的局限性:虽然 PKI 提供了强大的密码学保证,但在智能体身份方面存在局限:
W3C 去中心化标识符(DIDs)[[DID-CORE]] 为智能体身份提供了解决上述局限的基础:
did:wba 方法扩展了 did:web 规范,专门针对智能体通信场景。它继承了基于 Web 的 DID 的简洁性,同时添加了针对智能体交互优化的跨平台认证流程。
关键特性:
did:wba:example.com:user:alice 这样的 DID 解析为 https://example.com/user/alice/did.json——一个托管在标准 Web 服务器上的简单 JSON 文档。认证流程:
https://client-domain.com/agent/did.json)。
考虑一个旅行预订场景,用户的个人智能体(平台 A)需要与多个服务智能体协调:
使用 OAuth:平台 A 需要预先注册为平台 B、C 和 D 的 OAuth 客户端——或者所有平台需要信任一个共同的身份提供商(造成中心化)。添加新的旅行服务平台需要在任何协作发生之前建立新的 OAuth 关系。
使用 DID:每个智能体只需在其域名上托管 DID 文档。平台 A 的智能体可以立即验证并与平台 B、C 和 D 上的智能体交互,通过获取其 DID 文档并验证签名。新平台只需托管 DID 文档即可加入生态系统——无需双边协议或中心协调。这实现了第二章描述的"智能体间普遍互联互通"愿景。
一个常见的顾虑是 DID 引入了不熟悉的概念和学习开销。然而,did:wba 旨在最小化这一障碍:
概念简单性:从本质上讲,DID 只是"域名 + 路径 + 公钥"。格式类似于熟悉的模式:
alice@example.comdid:wba:example.com:user:alice渐进式采用:现有系统无需重构。组织可以在现有认证机制的基础上添加 DID 文档托管,实现渐进式迁移。DID 文档只是通过 HTTPS 提供的 JSON 文件——无需特殊基础设施。
熟悉的技术栈:did:wba 使用 Web 开发者已经熟悉的技术:HTTP、JSON、公钥密码学和 DNS。认证流程类似于 API 密钥认证,但增加了密码学验证的好处。
工具可用性:常见编程语言都有参考实现和库可用,降低了实现工作量。
除了核心功能外,智能体网络协议还必须满足一系列关键的非功能性需求,以确保其在现实世界中的安全性、可用性、扩展性和可控性:
通过解决上述关键问题并满足这些核心需求,标准化的智能体网络协议将为构建一个繁荣、协作和可信的Agentic Web奠定坚实的基础。
本节旨在对一些当前和新兴的智能体协议进行中立的概述,重点介绍它们如何应对前面讨论的挑战和需求。这些协议各自针对不同的互操作性层面和部署场景,共同构成了当前智能体通信标准化的探索前沿。
为了清晰地比较上述主要协议,下表总结了它们的一些关键特性:
| 特性 | 模型上下文协议 (MCP) | Agent-to-Agent 协议 (A2A) | 智能体网络协议 (ANP) | Agent Connect Protocol (ACP-Cisco) | Agent Communication Protocol (ACP-IBM) |
|---|---|---|---|---|---|
| 主要支持者/发起者 | Anthropic | Google 与 50+ 行业伙伴 | ANP开源社区 | Cisco (AGNTCY倡议) | IBM (贡献给Linux基金会) |
| 主要目标/关注领域 | 为LLM/智能体提供结构化外部上下文,解决M×N集成问题 | 跨供应商/框架的异构智能体互操作、任务协作与动态协商 | 智能体在互联网上的连接与协作 | 企业环境中结构化、持久的多智能体协作与工作流 | 为异构AI智能体提供共享语言,实现连接、协作与复杂任务执行;消除供应商锁定 |
| 通信风格 | 客户端-服务器 | 客户端-远程智能体(点对点概念,可有中介),任务导向 | 点对点的协议架构 | RESTful API,执行式消息传递,支持有状态线程 | 基于HTTP的RESTful API,支持同步、异步和流式交互;支持对等方交互 |
| 使用核心技术 | JSON-RPC, HTTP, SSE | HTTP(S), JSON-RPC 2.0, SSE | W3C DIDs, JSON-LD, W3C VC, End-to-End Encryption | RESTful APIs, JSON | HTTP, JSON, OpenAPI Specification, Python/TypeScript SDKs |
| 发现机制 | 通常由应用集成或宿主应用管理 | Agent Cards (JSON元数据, 通常在 /.well-known/agent.json 发布) | 基于RFC 8615,通常在 /.well-known/agent-descriptions发布 | Agent Directory, Agent Manifests (JSON) | 通过元数据(可嵌入分发包实现离线发现),Agent Detail模型 |
| 身份管理方法 | OAuth 2.1 | 带外身份认证方案 | W3C DIDs (去中心化标识符) | 取决于企业集成 (例如 OAuth) | 依赖底层HTTP(S)及部署环境的企业级安全实践;协议本身未严格规定 |
| 强调的安全特性 | 安全上下文获取 (例如通过TLS),本地优先安全 | TLS, 服务器身份验证, 客户端/用户身份验证 | TLS, 端到端加密, 基于DID的认证 | TLS, 企业级安全实践 | 依赖HTTPS传输安全;支持在安全/气隙环境发现 |
| 状态管理 | 通常无状态或由客户端/宿主应用管理,但MCP服务器可暴露有状态资源 | 支持长时任务状态跟踪 (有状态交互) | 可支持有状态交互 (由应用协议层确定) | 有状态通信线程 | 支持有状态交互(例如通过 Await 机制) |
| 关键差异化/独特之处 | 专注于模型与工具/数据的"最后一公里"连接,作为其他协议的补充 | 强调跨不同系统和供应商的智能体协作的开放标准,支持多种交互模态 | 适用于智能体在不可信的互联网环境中的交互与协作 | 适用于受控企业环境的深度协作 | 开源、Linux基金会治理、避免供应商锁定;强调对等交互;与MCP互补;设计上无需专门SDK即可交互 |
当前的互联网基础设施主要是为人类通过浏览器和图形用户界面进行交互而设计的。然而,Agentic Web的兴起要求我们重新构想一个更适合AI智能体原生交互的网络环境。这种"AI原生数据网络"将不再仅仅是人类信息的展示平台,而是智能体高效获取数据、调用服务、进行协作的优化空间。
这样一个网络的核心特征将包括:
AI原生数据网络将是Agentic Web充分发挥其潜力的关键基础设施,它将使智能体能够以其最擅长的方式(即通过协议和API直接处理信息)与数字世界互动,从而催生更高级别的自动化、智能化和协作效率。
互联网的发展历程深刻印证了一个核心理念:"连接即力量(Connection is Power)"。在一个真正开放、互联的网络中,节点间的自由交互能够最大限度地激发创新潜力并创造巨大价值。然而,当前的互联网生态系统正日益被少数大型平台所主导,海量的数据和服务被禁锢在封闭的"数字孤岛"之中,使得连接的权力高度集中在少数科技巨头手中。
Agentic Web时代的到来,为我们提供了一个历史性的契机,去重塑这种不平衡的格局。我们的目标是推动互联网从当前普遍存在的封闭、碎片化的状态,回归其开放、自由连接的本源。在未来的Agentic Web中,每一个智能体都将同时扮演信息消费者和服务提供者的双重角色。更重要的是,每一个节点都应能够无障碍地发现、连接并与网络中的任何其他节点进行交互。这种全域互联的愿景将极大地降低信息流动和协作的门槛,使连接的权力真正回归到每一个用户和智能体个体手中。
这标志着一个重要的转变:从以平台为中心的封闭生态系统,转向以协议为中心的开放生态系统。在后者中,价值的获取更多地依赖于参与者通过遵循开放协议为网络带来的独特能力和贡献,而不是依赖于对某个封闭平台的控制权。这种转变将激发更激烈的应用层创新和竞争,因为成功的关键不再是"锁定"用户,而是提供最优越的智能体服务,这与开放协议(如TCP/IP、SMTP)历史上促进的创新模式类似。
标准化的智能体网络协议对于释放Agentic Web的潜力、实现最初语义网愿景的某些方面以及促进创新至关重要。它们是构建一个机器能够更智能地处理信息、更有效地协助人类的网络的基石。
敦促所有利益相关者通过W3C积极参与标准化进程。这是一个塑造未来网络的机会——一个更智能、更协作、更赋能的网络,建立在开放和可信的基础之上。一个精心设计的Agentic Web具有巨大的变革潜力,而现在正是为其奠定坚实基础的关键时刻。