开云体育官网当数据毁坏者变成 Agent: 数据基础步骤的下一个治理挑战

发布日期：2026-05-26 20:20 点击次数：158

导读本文整理自 DACon Shanghai 2026 主题演讲。

今天想跟内行聊一件正在发生、但好多企业还没信得过准备好的事：

数据的毁坏者，正在从东说念主变成机器，变成 AI Agent。

这件事听起来像一个布景变化，但对数据基础步骤来说，它改变的是最中枢的前提假定。

我想解释明晰三件事：第一，Agent 的到来为什么会再行界说数据基础步骤；第二，在 Agent 期间，数据语义和数据治理为什么反而变得更难；第三，为什么从元数据、到语义层、再到 Agent 打听层，咱们需要再行界说一套圆善的数据本事栈。

分享嘉宾｜堵俊平 Datastrato 创举东说念主兼 CEO，Apache Gravitino 共同发起东说念主

数据毁坏者正在换东说念主

往常几十年，咱们构建数据基础步骤时，有一个从来没被明说过的前提：数据是给东说念主用的。

默许使用者是分析师、工程师、产物司理，以及 BI 器具背后的业务团队。但今天，一个越来越真实的新脚色出现了——它会我方发现数据、领路 schema、生成查询、触发 pipeline，以致尝试回写系统。这个脚色，即是 AI Agent。

回头看往常三年 AI 的演化旅途，其实很澄澈：

2022 年底：ChatGPT 引爆这波创新，内行关注的是大模子自身，本质是在处置「恢复问题」这件事

2024 年：RAG 兴起，模子运行联结企业常识库和高下文来作答

2025 年：从 Manus 到 OpenClaw，种种智能 Agent 走到舞台正中央，AI 从「恢复问题」走向「履行任务」

这看似只是一步变化，但本质统统不同。恢复问题，只需要生成一个像样的谜底；履行任务，意味着要盘算、调用器具、深度交互、连气儿决策、对服从负责。

Agent 正在成为新一代的软件操作家。它不再只是聊天窗口里的恢复器，而是一个信得过能操作操作系统、数据平台、基础软件的履行者。它不错是展当今用户眼前的智能助手，也不错是企业里面自主运转的就业流，以致是在后台静默运行、用户毫无感知的自主系统。

当 AI 从恢复走向履行，通盘软件架构也在随之变化。传统架构里，东说念主通过 UI 使用哄骗；Copilot 期间，AI 是扶助者；Agent 期间，东说念主给标的，Agent 自行调用器具和 API，操作底层数据与系统。改日，Agent 将成为软件最主要的使用进口。

幸运彩app官方网站下载

这改变的不单是哄骗层，而是会重塑通盘基础步骤层和数据平台层。以往「为东说念主类操作优化」的想象想路，在 Agent 期间仍是不再适用了。咱们必须讨论的问题，从「何如让东说念主用得顺」，变成了「怎样让 Agent 或者高效、安全、可管控地使用种种系统」。

信得过的瓶颈，不在模子

以往的数据使用者，大多是企业分析师、检察报表的业务东说念主员、数据科学家和哄骗开发者；如今越来越多的数据使用者，正在变成 AI 助手、自动化就业流智能体、自主数据运维表率，以及多智力推理系统。

这并非只是新增一类用户，而是绝对改变了全体的数据毁坏模式。东说念主类分析师翻开 dashboard，看几个主见，提几个问题；Agent 会握续地发现、搜索、推理和履行——二者在打听频次、行动方式和容错模式上，统统不同。

毁坏者仍是变了，数据基础步骤就必须随着变。淌若底层如故按东说念主类交互逻辑想象，干与 Agent 期间就会出现多数能力断层和治理间隙。

这一年，我在各式场地被问烂了合并个问题：「咱们的 Agent 在测试环境跑得很顺，为什么一上业务系统就出问题？」

第一响应险些都是换模子、重写领导词。这不是内行不灵巧——模子的问题径直体当今输出上，让你看到；数据层的问题更遮拦，Agent 会平稳地出错，你根蒂不知说念它作念了什么。

信得过的瓶颈，早已不在模子自身，而是数据平台性能和数据打听能力。去看一个 Agent 在企业里真实干活的全历程：发现可用数据资源、领路 schema、检索高下文、履行查询、更新数据、触发卑劣 pipeline……它大部分时辰并不花在「想考」，而是花在「和数据打交说念」。

今天绝大多数数据平台，本质上是为「东说念主类编写 SQL」想象的，不是为「Agent 操作系统」打造的。东说念主类能靠训戒和临场判断弥补系统裂缝，Agent 不行——它需要机器可读、结构澄澈、便于管控的运行环境，缺了这个基础，Agent 就很难信得过落地。

我见过太多 Agent 方式死在这里：演示很漂亮，上了坐褥就运行出问题，终末论断是「本事还不老到」。不是本事不老到，是数据层没准备好。

Agent 和东说念主类打听数据，差的不是量，是种类

东说念主类和 Agent 在数据毁坏上有四个本质隔离：

偶尔 vs 握续：分析师一天翻开姿首盘三次，Agent 可能每分钟在发苦求——数据系统任何抵御稳都会被放大到极致。

容忍暗昧 vs 将暗昧变成动作：字段界说不明晰，工程师会去问东说念主；Agent 会径直作念出一个解读并履行，这个履行可能在你不知情的情况下触发出东说念主料想的操作。

手动查验 vs 链式履行不断歇：咱们想象了好多「终末沿路东说念主眼查验」的历程，Agent 不会在那里停，它拿着上一步效鲠径直往下走。

使用器具 vs 编排系统：东说念主翻开报表是在使用器具；Agent 不错调用 API、触发 pipeline、写回数据——它在编排通盘系统。

是以在 Agent 期间，数据治理的界说必须升级。往常治理中枢是界定「谁能看哪些数据」；今天还要明确「这个 Agent 被允许臆想什么、生成什么、履行什么、修改什么」。数据治理从静态权限管控，改变为界定动态履行界限——咱们治理的，不再只是数据打听行动，而是 Agent 圆善的行动履行链路。

RBAC 管不了 Agent，不是 RBAC 不好

以往的治理对象是数据表、姿首盘、用户脚色，依靠基于脚色的静态权限体系，就能高效完成数据治理就业。但 Agent 所处的环境截然有异——它具备动态业务意图、跨系统履行、握续自主探索、生成式查询等特色。

说径直少许：传统 RBAC 在 Agent 期间仍是不够用了。

这不是品评 RBAC。它是为东说念主想象的，处置了「这个用户能不行打听这张表」这个问题，况且处置得很好。但 Agent 带来的不是更复杂版块的权限问题，而是一个统统不同的问题：这个 Agent，在这个时刻，带着这样的意图，被允许作念什么？

RBAC 只知说念「你是谁」，却不知说念「你当今想作念什么、为什么这样作念、是否适合高下文拘谨」。静态权限模子，仍是无法适配 Agent 运行过程中动态产生的种种行动与推理动作。

更深的问题：能力有，但都是散的

不少企业会说，咱们早已搭建完备的元数据、主见体系、管控政策和数据血统，落地依旧贫寒重重——为什么？

原因是这些能力大多处于散播情状：元数据洒落在多个数据系统，检索圭臬不断争；治理轨则散播部署在不同引擎，轨则难以息争；数据血统支离落空，审计链路打欠亨；打听管控轨则随平台变化，无法酿成息争的面向 Agent 的打听管控体系。

服从是一朝让 Agent 接进来，它莫得息争、真实、机器可读的齐备平面可依赖，只可退而求其次：原生 SQL、临时 API、胶水代码。这类模式仅能在演示场景中运行，KaiYun Sports2026世界杯(中国)官方网站统统无法适配企业细致业务的遥远平稳落地。

淌若莫得息争的元数据和政策原语，Agent 最终只可 hack 进去。

内行不难发现下一步是建语义层，但这件事莫得想象中疏漏。

每个企业都但愿息争种种业务主见界说——什么叫「收入」，什么叫「活跃客户」，什么叫「利润率」，什么叫「流失率」。这类息争化的遑急性世东说念主皆知，但现实是，有关界说散播存储在 BI 平台、数据开发剧本、分析 notebook 和种种报表剧本里，有多个版块，久而久之还会出现实体维度偏移、权责隔离暗昧、数据时效不一等问题。

企业并非短少业务语义，而是有太多版块的语义。

语义层的难点从来不单是建模，更深层的痛点是治理、权责隔离与业务圭臬息争。有团队想径直建骨子模子来处置这个问题——想路很好，但淌若短少息争元数据算作底层支握，骨子模子也难以顺利落地成型。莫得平稳根基，语义层最终只会沦为仅能演示、无法落入坐褥的丽都轮廓。

咱们需要什么：三层，不可偏废

要为 Agent 期间信得过想象数据栈，必须具备三层中枢能力，不可偏废。

第一层：息争元数据齐备平面厘清企业领有哪些数据、数据存储位置、包摄主体、打听权限以及治理轨则。莫得这一层，Agent 莫得平稳可靠的高下文，只可靠猜。

第二层：语义层界说数据的施行含义，息争业务主见口径，明照实体与维度之间的干系，界定巨擘的业务圭臬。莫得这一层，Agent 拿到的只是原始表和字段，无法平稳领路「净收入」和「总收入」的区别。

第三层：智能体打听层让 Agent 自主发现数据资源、核验操作意图，在合规治理范围内完成操作，并圆善留存所有行动轨迹。短少这一层，Agent 连得上，但无法受治理地履行。

改日的数据平台，不再只是存储加磋磨，而是一个面向 Agent 履行的分层系统。

Gravitino 在作念什么，以及一个被低估的判断

在这个三层架构里，Apache Gravitino 作念的是第一层——息争元数据齐备平面。

它的中枢就业，是搭建联邦式元数据体系：在多数据源、多引擎、多云之间，设立息争的元数据视图与全域治理体系。不是替代现存 catalog，而是成为「目次的目次」，提供跨系息争致的全局高下文。

这件事对 Agent 终点要道。Agent 需要的从来不是某个点状系统里的局部信息，而是一套机器可识别、跨系统圭臬息争的全局高下文环境。语义层的搭建，相似离不开踏实的元数据底座；全域数据治理，也必须依托息争的管控平面才能落地。

这里有一个被好多团队低估的判断：先有元数据，再谈语义。

完善的语义层勾引，高度依赖底层多项中枢能力：互不遏抑的定名空间、受治理的 schema、分享实体、标签、政策、血统、所有权，以及跨引擎一致性。莫得这些，语义莫得落点，很难遥远爱戴。

元数据是根基，业务语义是价值讲授。莫得底层平稳、受治理的元数据系统，语义层即是沙堡——改一次底层就碎一次。

在语义层实践上，dbt MetricFlow 给行业提供了很好的参考——把受治理的原始数据索要为圭臬化、可管控的业务语义：主见迫临管制，一次界说、全域复用；BI、分析、AI 卑劣看到合并份真相；业务逻辑从 BI 孤岛里抽离出来，千里淀到分享建模层。

这对 Agent 相称要道。Agent 需要的不单是原始表和字段，更是那些具备可解释性的圆善业务语义。淌若 Agent 只可战役到衰竭原始数据，就很难精确领路「活跃用户」「净收入」「高价值客户」这些中枢观点；依托圭臬化可复用的业务语义，Agent 输出质料会高好多。

把通盘本事栈从上至下放在一张图里：毁坏方（东说念主类 / BI / 助手 / Agent）→ 智能体打听层（MCP 通用集会 + ADP 受治理履行）→ 语义层（主见/实体/维度/业务逻辑）→ Gravitino 元数据基座（息争元数据 / 治理政策 / 血统 / 标签）→ 履行引擎（湖仓 / 数仓 / 向量存储 / 流式系统）。

Gravitino 统筹全域数据，语义层赋予业务解读，ADP 让 Agent 在安全界限内合规履行。这不是单一产物处置有磋磨，而是一套圆善的 Agent 数据本事栈勾引想路。

对于 MCP：连上不等于用好

近期行业都在热议 MCP（Model Context Protocol）。这项本事很遑急，它让 Agent 能用息争方式集会器具，格外于为 AI 生态提供了通用可插拔接口——这是一个真实且贫寒的问题，MCP 处置得很好。

但 MCP 主要处置的是「连得上」，而在企业高价值业务、敏锐数据处理和大鸿沟数据哄骗场景中，只是连通远远不够。企业信得过存眷的是：这张表谁领有？这个字段是否敏锐？这个查询是否适合政策？履行后审计纪录在那儿？跨引擎的 lineage 何如保握一致？

这类深档次的数据治理需求，仅凭通用的 MCP 条约无法绝对处置。MCP 能买通接口、串联器具，却无法承载圆善的企业级数据治理高下文。我并非含糊 MCP 的价值——正好相悖，只是在企业细致的数据哄骗场景里，MCP 还需要更弘大的元数据、语义和治理能力来补足。

这恰是 Agentic Data Protocol（ADP）要处置的中枢问题：让 Agent 从「当然言语纵贯原生 SQL」，进化到「纳入管控体系的意图式履行」。四步：

发现 — 梳理所有可调用的数据开首与资源

刻画 — 明确数据源背后承载的业务含义与圭臬操作方式

核验 — 判断操作意图与所选数据源是否匹配，证据具备合感性

履行 — 在既定治理轨则与权限界限内完成操作

不应该让 Agent 径直从当然言语跳到原生 SQL——这样作念虽快，但治理风险极高，平稳性也差。四步步骤渐进，才是信得过能在企业落地的旅途。

企业从那儿运行？三步，毋庸大跃进

这套体系协同运作，对三类团队都有径直价值：

数据团队：从服务传统 BI，顺利转向服务 AI Agent；减少重迭界说，息争跨平台数据圭臬，裁汰治理运维本钱。

AI 团队：得回更好的 Agent 数据打听底座，让查询履行旅途更安全，澄澈规则自动化操作界限。

业务团队：AI 取用数据变得真实可审计，种种业务决策也能在安全前提下，逐渐交由 Agent 系统自主处理。

改日越过的数据平台，竞争的要道不单是「谁能恢复更多问题」，而是谁能更安全地委托更多决策。

落地提议，三步走，毋庸大跃进：

第一步：先息争元数据。设立本事齐备平面，先把底座打稳。不要一上来就想处置所有 Agent 问题，底座不稳，表层全是沙堡。

第二步：圭臬化中枢语义。从最要道的 10 到 20 个业务主见运行，厘清治理轨则，对皆实体、维度与权责包摄。不要试图一次计帐所有语义债务，先管好最遑急的那几个。

第三步：引入受治理的 Agent 打听框架。让 Agent 在履行前先发现、先考证。首批落地推选从读密集型就业流运行：当然言语查询主见、受治理数据集发现、基于业务语义的数据检索服务——写回和高风险操作放在后头。

先治理后扩权：治理轨则先行，再逐渐放宽 Agent 自主操作数据的范围。

终末只说一件事

淌若今天只带走一件事，我但愿是这一句：

当毁坏者成为 Agent，数据基础步骤必须在三个维度上进化：

从衰竭孤立的元数据 → 息争元数据齐备平面；

从杂沓重迭的主见口径 → 圭臬息争、受治理的语义体系；

从轻视的原生 SQL 生成 → 政策感知、界限化的 Agent 数据打听。

Agent 期间不单是给传统数据平台加一个聊天进口，而是会再行界说数据平台的齐备平面、语义层和履行界限。

咱们在 Datastrato 正在作念的，即是把这三层买通——让企业数据基础步骤信得过具备接待 AI Agent 期间的能力。

淌若你正在企业里推这件事，或者正在为这件事头疼开云体育官网，宽宥找我聊。你们里面仍是有哪些业务数据流运行交由 Agent 继续了？你们的数据基础步骤，准备好了吗？

上一篇：开云体育2026世界杯中国官网温煦防晒儿童防晒霜怎样选? 低敏修护款实测, 适配敏锐肌宝宝

下一篇：KaiYun Sports2026世界杯(中国)官方网站 6月1日起, 拿外卖先看这个封签

开云世界杯

开云体育官网 当数据毁坏者变成 Agent: 数据基础步骤的下一个治理挑战

开云体育官网当数据毁坏者变成 Agent: 数据基础步骤的下一个治理挑战