摘要

本文探讨了从语义网(Semantic Web)的未竟愿景到智能体网络(Agentic Web)的演进历程,并分析了构建标准化智能体网络协议的必要性。尽管二十年前提出的语义网构想极具前瞻性,但受限于当时人工智能技术的能力不足,未能充分实现。随着大型语言模型(LLMs)等现代AI技术的飞速发展,智能体已具备自主执行任务、进行复杂推理和解决多步骤问题的能力,从而催生了Agentic Web的出现。通过系统分析,本文给出智能体网络的四大核心趋势:智能体取代传统软件成为互联网基础设施、智能体间实现普遍互联互通、基于协议的原生连接模式、以及智能体的自主组织与协作能力。同时,研究揭示了当前互联网架构对Agentic Web发展的三大挑战:数据孤岛限制智能体决策质量、人机界面阻碍智能体交互效率、以及标准协议缺失阻碍智能体协作。针对这些挑战,本文详细阐述了智能体网络协议的设计原则与核心需求,并对当前主要智能体网络协议倡议(MCP、A2A、ACP、ANP等)进行了系统比较与分析。本研究结论强调,建立标准化智能体网络协议对于打破数据孤岛、实现异构智能体协作、构建AI原生数据网络,以及最终实现开放、高效的Agentic Web具有关键作用,并呼吁各利益相关方积极参与W3C的标准化进程。

引言:从语义网的未竟愿景到Agentic Web的曙光

二十年前,Tim Berners-Lee及其合作者极具远见地提出了语义网(Semantic Web)的构想,其核心目标是创建一个以数据为中心、机器可读的网络(web of data),使计算机与人类能够更加高效地协作。这一构想描绘了一个充满智能的未来:日常的交易、行政事务及各种生活场景,都将由能够自主行动的“智能体”(intelligent agents)通过机器间的对话自动完成。为实现这一目标,语义网计划通过XML、RDF和本体(Ontology)等技术,为网络上的信息赋予明确定义的语义,使软件智能体能够自主地在网页之间漫游,代表用户高效地执行复杂任务。

值得注意的是,语义网的原始构想中已经包含了丰富的“智能体”思想。这些智能体被设想为能够代表用户自动执行任务的实体。而以大型语言模型(LLMs)为代表的技术突破,让智能体能够自主行动、进行复杂推理并解决多步骤问题。这些智能体不再只是被动工具,而已成为数字生态系统中的积极参与者。在此背景下,“Agentic Web”(智能体网络)或“Internet of Agents”(智能体互联网)的概念应运而生。这一新的网络范式将智能体视为主要行动者,它们与网络资源、服务及其他智能体主动互动,共同完成用户目标。Agentic Web继承了语义网的核心愿景,并借助先进的AI能力,致力于构建一个由自主、智能且能高效协作的智能体组成的生态系统,从而使语义网关于机器智能高效处理信息、有效协助人类的理想逐步成为现实。

这种转变预示着用户交互模式的根本性变化——从以人类为中心、通过浏览器进行的点击和浏览,转向以智能体为中心、由智能体驱动的交互与协作。在这种新模式下,智能体将自主地与其他智能体直接交互,根据用户偏好与上下文自动完成任务并提供个性化体验。这种智能体主导的模式不仅仅是现有网络的增量更新,更可能引发互联网架构与交互逻辑的深刻变革。用户获取信息的方式也将发生变化,从原本通过界面主动查询信息,转变为智能体主动执行任务并交付结果,甚至可能绕过传统的网站界面。这将促使网络服务的设计方式、发现机制以及交互方式全面革新,推动互联网迈入全新的发展阶段。

Agentic Web的挑战:当前互联网的局限性与标准化交互的迫切需求

随着AI技术的发展,智能体正逐步成为继网站和应用程序之后,互联网体系中的新一代核心参与者。然而,Agentic Web的加速演进也暴露出当前互联网在技术基础与连接范式上的诸多局限。这些问题若不加以解决,将严重制约智能体系统的可扩展性与协作效率。主要挑战包括以下三方面:

这些挑战,特别是智能体网络协议标准的缺失,未来将会导致智能体生态系统的碎片化。大量异构智能体如同"智能体孤岛",难以互操作和有效协作,不仅限制了Agentic Web的整体潜力,也显著增加了集成成本和复杂性 (18)。

面对这一局面,制定标准化的智能体网络协议已成为构建真正Agentic Web的当务之急。此类协议旨在为不同平台和供应商的智能体提供统一的发现、识别、验证、通信与协作框架,从而克服互操作性障碍,并确保安全高效的交互。W3C AI Agent Protocol社区组的成立及其使命正是对这一需求的积极响应。标准化不仅是技术层面的需求,更是避免Agentic Web陷入巴尔干化、充分发挥其网络效应和实现"数十亿智能体"协同工作愿景的战略基石。

定义蓝图:智能体网络协议的关键问题与核心需求

为了应对第三章中提出的挑战,并充分发挥Agentic Web的潜力,设计和实施标准化的智能体网络协议至关重要。这些协议不仅是技术规范,更是构建一个可互操作、可信、高效的智能体生态系统的基石。一个全面的智能体网络协议框架需要解决一系列关键问题,并满足特定的功能性和非功能性需求。

4.1 智能体网络协议旨在解决的关键问题

4.2 智能体网络协议核心功能需求

一个全面的智能体网络协议应满足以下核心功能需求,以支持智能体在Agentic Web中的有效运作:

4.2.1 智能体身份机制的设计原则

如[[[##challenges]]]所述,当前互联网中"数据孤岛"现象严重制约了智能体的决策质量与协作效率。在缺乏标准化身份认证机制的前提下,智能体之间难以建立可信连接,跨平台的信息流动与协作也无从实现。因此,智能体身份机制的设计不仅是技术需求,更是实现[[[##trends]]]中所描述的"智能体间普遍互联互通"愿景的关键基础。为此,智能体身份机制的设计应遵循以下核心原则:

身份认证与授权分层设计:智能体身份机制应首先聚焦于解决"身份认证"这一基础问题——即通过密码学手段可靠地确认智能体的身份。基于公私钥体系的密码学身份是整个信任链的根基,是所有后续交互与授权的起点。在可靠身份认证的基础上,授权、权限管理等更高层次的需求可以通过多种机制进行灵活扩展,例如通过访问令牌(Token)实现会话级授权,或通过可验证凭证(Verifiable Credentials)实现细粒度的属性证明与权限声明。需要强调的是,无论采用何种授权机制,密码学身份持有者始终是授权的主体——Token的签发与授权必须可追溯至原始的密码学身份,确保授权链条的完整性与可验证性。这种分层设计使得身份机制具备良好的可扩展性——核心的身份验证保持简洁可靠,而授权策略可根据具体应用场景按需定制。

联邦式身份架构:一个可行的智能体身份方案应借鉴电子邮件系统的成功经验——各平台可以中心化的方式管理自己的账户体系,同时通过标准协议实现跨平台互联互通。这种联邦架构的核心在于采用类似Web DID的方式:各平台在内部以中心化方式自主管理智能体账户与密钥,但对外统一以Web托管的方式发布分布式身份标识文档,使外部智能体能够通过标准化的解析流程获取可信的身份验证依据。正如电子邮件系统允许Gmail用户向Outlook用户发送邮件一样,智能体身份机制应支持不同平台的智能体相互识别与认证。这种设计意味着现有的中心化标识符系统无需彻底重构,只需在其基础上添加标准化的身份文档托管与发布机制,即可实现跨系统互操作。这一设计大大降低了技术实施的门槛,有助于推动智能体网络协议的广泛采纳,避免Agentic Web陷入如[[[##challenges]]]中所警示的"碎片化"困境。

高效的跨平台认证流程:在智能体之间的跨平台交互场景中,身份认证机制应尽可能减少交互轮次,以降低协作成本并提升效率。理想情况下,智能体在首次请求时即可通过携带身份标识与数字签名完成验证,无需额外的握手或多轮确认。服务端在验证通过后可返回访问令牌,后续交互仅需验证令牌即可,避免重复的身份验证开销。这种"首次即验证"的设计模式,对于实现本文第4.1节所述的"高效协作"目标至关重要,尤其是在智能体需要频繁与多个服务端交互的场景下,可显著减少延迟并提升整体协作效率。

双向身份认证:在智能体交互场景中,除了服务端验证客户端身份外,客户端也可能需要验证服务端智能体的身份。虽然HTTPS协议通过TLS证书已提供基于域名的服务端身份验证,但基于DID的双向认证机制可提供额外的价值:一方面,DID认证可以精确到具体的智能体实体,而非仅验证域名归属;另一方面,这种机制使得客户端与服务端采用一致的、去中心化的身份验证方式,不依赖于传统CA体系。实现上,服务端可在响应中返回其DID标识及相应签名,客户端据此验证服务端智能体的真实身份。需要指出的是,DID层面的双向认证与传输层安全(TLS)是互补而非替代关系——前者在应用层提供去中心化的细粒度身份保障,后者在传输层提供通信安全与基础的域名身份验证。

分级授权机制:如本文第4.3节所述,智能体网络协议应支持"人在回路中"(Human-in-the-loop)的可观测性需求。身份与授权机制应能够区分智能体自动授权与人类手动授权两种场景。对于常规、低风险的操作(如查询公开信息、访问已授权的服务),智能体可代表用户自动完成授权;而对于涉及重要资源或敏感操作的请求(如支付、签署协议、访问私密数据),应支持触发人类确认流程。这种分级机制确保人类对关键决策保持最终控制权,在智能体自动化与用户安全之间取得平衡,是构建可信Agentic Web的重要保障。

隐私保护设计:如本文第4.3节所强调,协议设计应内嵌隐私保护机制,避免不必要的数据暴露。在身份层面,这意味着应支持"多身份策略"——即一个用户或智能体可拥有多个独立的身份标识,分别用于不同场景(如社交关系维护、日常购物、服务订阅等),各身份之间相互隔离,防止第三方通过身份关联追踪用户的完整行为轨迹。此外,身份标识应支持周期性更换或临时身份生成,以进一步增强隐私保护能力。这种设计使用户能够在享受智能体网络便利的同时,保持对个人数据的控制权,符合相关隐私法规的要求,也是实现本文第七章所描述的"开放网络"愿景的必要条件——真正的开放网络应赋予用户选择权,而非以牺牲隐私为代价换取互联互通。

基于 DID 的身份认证:参考实现方案

上述设计原则确立了智能体身份机制的需求。本节介绍去中心化标识符(DID),特别是基于 Web 的智能体 DID 方法(did:wba),作为满足这些需求的参考实现方案,同时克服了传统认证方案的局限性。

传统方案在智能体网络中的局限性

智能体网络面临一个独特挑战:来自不同平台的智能体必须动态地建立信任,通常没有任何预先存在的关系。传统认证方案并非为此场景设计:

OAuth 的局限性:OAuth 2.0 假设存在一个双方都认可的可信授权服务器。在多平台智能体场景中,这造成了重大挑战:

  • 平台 X 的智能体要访问平台 Y 的智能体,要么平台 Y 必须预先将平台 X 注册为可信的 OAuth 客户端,要么双方必须信任一个共同的身份提供商。
  • 对于 N 个平台自由互操作,这需要 O(N²) 双边信任协议或依赖单一主导身份提供商——两��都无法很好地扩展或保持去中心化。
  • 新平台面临"冷启动"问题:在与现有平台建立 OAuth 关系之前无法参与。

传统 PKI 的局限性:虽然 PKI 提供了强大的密码学保证,但在智能体身份方面存在局限:

  • TLS 证书验证域名所有权,而非单个智能体身份。同一域名上的多个智能体共享同一证书。
  • PKI 设计用于传输层安全,而非对等智能体之间的应用层身份验证。
  • 跨域证书验证依赖于中心化的证书颁发机构(CA)信任链。
  • 对于频繁创建和退役智能体的动态生态系统,证书管理开销很高。
DID 如何解决这些问题

W3C 去中心化标识符(DIDs)[[DID-CORE]] 为智能体身份提供了解决上述局限的基础:

  • 自主身份:每个智能体拥有自己的密码学身份(公私钥对),由其自主控制,独立于任何中心化机构。
  • 自托管身份文档:包含公钥的 DID 文档托管在智能体自己的域名上,消除了对第三方身份提供商的依赖。
  • 直接验证:任何智能体都可以通过获取其 DID 文档并验证密码学签名来验证另一个智能体的身份——无需预先建立的关系。
  • 联邦式架构:类似电子邮件,每个平台以中心化方式管理自己的账户,同时通过标准协议实现跨平台互操作性。
基于 Web 的智能体 DID 方法(did:wba)

did:wba 方法扩展了 did:web 规范,专门针对智能体通信场景。它继承了基于 Web 的 DID 的简洁性,同时添加了针对智能体交互优化的跨平台认证流程。

关键特性

  • 无需区块链:与 did:btc、did:ethr 或 did:ion 不同,did:wba 使用标准 Web 基础设施(DNS、HTTPS、Web 服务器)。这消除了区块链可扩展性问题,降低了部署复杂性。
  • 熟悉的基于 URL 的解析:像 did:wba:example.com:user:alice 这样的 DID 解析为 https://example.com/user/alice/did.json——一个托管在标准 Web 服务器上的简单 JSON 文档。
  • 单次请求认证:智能体在首次 HTTP 请求中包含其 DID 和密码学签名。服务器获取 DID 文档,验证签名,并返回访问令牌——全部在单次往返中完成。
  • 分级授权支持:DID 文档可以包含用于常规智能体操作与需要人工授权的敏感操作(humanAuthorization)的独立验证方法,支持前面描述的分级授权原则。

认证流程

  1. 客户端智能体在首次请求的 HTTP Authorization 头中包含其 DID 和签名。
  2. 服务器从客户端的域名获取客户端的 DID 文档(例如,https://client-domain.com/agent/did.json)。
  3. 服务器使用 DID 文档中的公钥验证签名。
  4. 验证成功后,服务器返回用于后续请求的访问令牌。
  5. 结果:跨平台认证在单次往返中完成,无需预先注册。
使用 DID 的跨平台认证流程
图1:跨平台认证流程,展示智能体如何使用 DID 实现单次请求认证,无需预先注册
实际场景:多平台智能体协作

考虑一个旅行预订场景,用户的个人智能体(平台 A)需要与多个服务智能体协调:

  • 向酒店智能体(平台 B)查询可用性
  • 通过航空公司智能体(平台 C)预订航班
  • 通过租车公司智能体(平台 D)安排租车

使用 OAuth:平台 A 需要预先注册为平台 B、C 和 D 的 OAuth 客户端——或者所有平台需要信任一个共同的身份提供商(造成中心化)。添加新的旅行服务平台需要在任何协作发生之前建立新的 OAuth 关系。

使用 DID:每个智能体只需在其域名上托管 DID 文档。平台 A 的智能体可以立即验证并与平台 B、C 和 D 上的智能体交互,通过获取其 DID 文档并验证签名。新平台只需托管 DID 文档即可加入生态系统——无需双边协议或中心协调。这实现了第二章描述的"智能体间普遍互联互通"愿景。

跨多个平台的智能体信息交互
图2:跨多个平台的智能体信息交互,展示无需预先建立信任关系的去中心化协作
解决采用顾虑

一个常见的顾虑是 DID 引入了不熟悉的概念和学习开销。然而,did:wba 旨在最小化这一障碍:

概念简单性:从本质上讲,DID 只是"域名 + 路径 + 公钥"。格式类似于熟悉的模式:

  • 电子邮件:alice@example.com
  • DID:did:wba:example.com:user:alice

渐进式采用:现有系统无需重构。组织可以在现有认证机制的基础上添加 DID 文档托管,实现渐进式迁移。DID 文档只是通过 HTTPS 提供的 JSON 文件——无需特殊基础设施。

熟悉的技术栈:did:wba 使用 Web 开发者已经熟悉的技术:HTTP、JSON、公钥密码学和 DNS。认证流程类似于 API 密钥认证,但增加了密码学验证的好处。

工具可用性:常见编程语言都有参考实现和库可用,降低了实现工作量。

4.3 智能体网络协议的关键非功能性需求

除了核心功能外,智能体网络协议还必须满足一系列关键的非功能性需求,以确保其在现实世界中的安全性、可用性、扩展性和可控性:

通过解决上述关键问题并满足这些核心需求,标准化的智能体网络协议将为构建一个繁荣、协作和可信的Agentic Web奠定坚实的基础。

典型智能体协议概览

本节旨在对一些当前和新兴的智能体协议进行中立的概述,重点介绍它们如何应对前面讨论的挑战和需求。这些协议各自针对不同的互操作性层面和部署场景,共同构成了当前智能体通信标准化的探索前沿。

模型上下文协议 (MCP)

Agent-to-Agent协议 (A2A) (Google)

智能体网络协议 (ANP)

Agent Connect Protocol (ACP)

Agent Communication Protocol (ACP)

协议比较分析

为了清晰地比较上述主要协议,下表总结了它们的一些关键特性:

特性 模型上下文协议 (MCP) Agent-to-Agent 协议 (A2A) 智能体网络协议 (ANP) Agent Connect Protocol (ACP-Cisco) Agent Communication Protocol (ACP-IBM)
主要支持者/发起者 Anthropic Google 与 50+ 行业伙伴 ANP开源社区 Cisco (AGNTCY倡议) IBM (贡献给Linux基金会)
主要目标/关注领域 为LLM/智能体提供结构化外部上下文,解决M×N集成问题 跨供应商/框架的异构智能体互操作、任务协作与动态协商 智能体在互联网上的连接与协作 企业环境中结构化、持久的多智能体协作与工作流 为异构AI智能体提供共享语言,实现连接、协作与复杂任务执行;消除供应商锁定
通信风格 客户端-服务器 客户端-远程智能体(点对点概念,可有中介),任务导向 点对点的协议架构 RESTful API,执行式消息传递,支持有状态线程 基于HTTP的RESTful API,支持同步、异步和流式交互;支持对等方交互
使用核心技术 JSON-RPC, HTTP, SSE HTTP(S), JSON-RPC 2.0, SSE W3C DIDs, JSON-LD, W3C VC, End-to-End Encryption RESTful APIs, JSON HTTP, JSON, OpenAPI Specification, Python/TypeScript SDKs
发现机制 通常由应用集成或宿主应用管理 Agent Cards (JSON元数据, 通常在 /.well-known/agent.json 发布) 基于RFC 8615,通常在 /.well-known/agent-descriptions发布 Agent Directory, Agent Manifests (JSON) 通过元数据(可嵌入分发包实现离线发现),Agent Detail模型
身份管理方法 OAuth 2.1 带外身份认证方案 W3C DIDs (去中心化标识符) 取决于企业集成 (例如 OAuth) 依赖底层HTTP(S)及部署环境的企业级安全实践;协议本身未严格规定
强调的安全特性 安全上下文获取 (例如通过TLS),本地优先安全 TLS, 服务器身份验证, 客户端/用户身份验证 TLS, 端到端加密, 基于DID的认证 TLS, 企业级安全实践 依赖HTTPS传输安全;支持在安全/气隙环境发现
状态管理 通常无状态或由客户端/宿主应用管理,但MCP服务器可暴露有状态资源 支持长时任务状态跟踪 (有状态交互) 可支持有状态交互 (由应用协议层确定) 有状态通信线程 支持有状态交互(例如通过 Await 机制)
关键差异化/独特之处 专注于模型与工具/数据的"最后一公里"连接,作为其他协议的补充 强调跨不同系统和供应商的智能体协作的开放标准,支持多种交互模态 适用于智能体在不可信的互联网环境中的交互与协作 适用于受控企业环境的深度协作 开源、Linux基金会治理、避免供应商锁定;强调对等交互;与MCP互补;设计上无需专门SDK即可交互

基于智能体网络协议构建AI原生的数据网络

当前的互联网基础设施主要是为人类通过浏览器和图形用户界面进行交互而设计的。然而,Agentic Web的兴起要求我们重新构想一个更适合AI智能体原生交互的网络环境。这种"AI原生数据网络"将不再仅仅是人类信息的展示平台,而是智能体高效获取数据、调用服务、进行协作的优化空间。

这样一个网络的核心特征将包括:

AI原生数据网络将是Agentic Web充分发挥其潜力的关键基础设施,它将使智能体能够以其最擅长的方式(即通过协议和API直接处理信息)与数字世界互动,从而催生更高级别的自动化、智能化和协作效率。

未来展望:通过连接重塑开放网络

互联网的发展历程深刻印证了一个核心理念:"连接即力量(Connection is Power)"。在一个真正开放、互联的网络中,节点间的自由交互能够最大限度地激发创新潜力并创造巨大价值。然而,当前的互联网生态系统正日益被少数大型平台所主导,海量的数据和服务被禁锢在封闭的"数字孤岛"之中,使得连接的权力高度集中在少数科技巨头手中。

Agentic Web时代的到来,为我们提供了一个历史性的契机,去重塑这种不平衡的格局。我们的目标是推动互联网从当前普遍存在的封闭、碎片化的状态,回归其开放、自由连接的本源。在未来的Agentic Web中,每一个智能体都将同时扮演信息消费者和服务提供者的双重角色。更重要的是,每一个节点都应能够无障碍地发现、连接并与网络中的任何其他节点进行交互。这种全域互联的愿景将极大地降低信息流动和协作的门槛,使连接的权力真正回归到每一个用户和智能体个体手中。

这标志着一个重要的转变:从以平台为中心的封闭生态系统,转向以协议为中心的开放生态系统。在后者中,价值的获取更多地依赖于参与者通过遵循开放协议为网络带来的独特能力和贡献,而不是依赖于对某个封闭平台的控制权。这种转变将激发更激烈的应用层创新和竞争,因为成功的关键不再是"锁定"用户,而是提供最优越的智能体服务,这与开放协议(如TCP/IP、SMTP)历史上促进的创新模式类似。

构建协作式Agentic Web的未来

标准化的智能体网络协议对于释放Agentic Web的潜力、实现最初语义网愿景的某些方面以及促进创新至关重要。它们是构建一个机器能够更智能地处理信息、更有效地协助人类的网络的基石。

敦促所有利益相关者通过W3C积极参与标准化进程。这是一个塑造未来网络的机会——一个更智能、更协作、更赋能的网络,建立在开放和可信的基础之上。一个精心设计的Agentic Web具有巨大的变革潜力,而现在正是为其奠定坚实基础的关键时刻。

参考文献

  1. Tim Berners-Lee, James Hendler and Ora Lassila. The Semantic Web. Scientific American, 2001.
  2. Semantic Web – A Forgotten Wave of Artificial Intelligence?
  3. The Agentic Web: A Paradigm Shift in Web Architecture for an LLM-powered Internet
  4. LLM Agents Architecture: A Survey
  5. Building Multi-Agent Marketing Campaign with AGNTCY
  6. Agent Network Protocol Technical White Paper
  7. Towards a New Internet: Agent Network Protocol for Agentic Web
  8. Agent-to-Agent (A2A) Protocol Specification
  9. A2A: A new era of agent interoperability
  10. MCP & ACP: Decoding the Language of Models and Agents
  11. Model Context Protocol (MCP)
  12. 去中心化标识符 (DIDs) v1.0. W3C 推荐标准, 2022年7月19日.
  13. did:web 方法规范. W3C 凭证社区组.