首页 开云首页 关于开云 开云体育 开云电竞 开云棋牌 开云世界杯 开云app下载

开云世界杯

你的位置:开云体育2026世界杯中国官网 > 开云世界杯 > 开云体育官网 当数据毁坏者变成 Agent: 数据基础步骤的下一个治理挑战

开云体育官网 当数据毁坏者变成 Agent: 数据基础步骤的下一个治理挑战

发布日期:2026-05-26 20:20    点击次数:158

开云体育官网 当数据毁坏者变成 Agent: 数据基础步骤的下一个治理挑战

导读 本文整理自 DACon Shanghai 2026 主题演讲。

今天想跟内行聊一件正在发生、但好多企业还没信得过准备好的事:

数据的毁坏者,正在从东说念主变成机器,变成 AI Agent。

这件事听起来像一个布景变化,但对数据基础步骤来说,它改变的是最中枢的前提假定。

我想解释明晰三件事:第一,Agent 的到来为什么会再行界说数据基础步骤;第二,在 Agent 期间,数据语义和数据治理为什么反而变得更难;第三,为什么从元数据、到语义层、再到 Agent 打听层,咱们需要再行界说一套圆善的数据本事栈。

分享嘉宾|堵俊平 Datastrato 创举东说念主兼 CEO,Apache Gravitino 共同发起东说念主

01

数据毁坏者正在换东说念主

往常几十年,咱们构建数据基础步骤时,有一个从来没被明说过的前提:数据是给东说念主用的。

默许使用者是分析师、工程师、产物司理,以及 BI 器具背后的业务团队。但今天,一个越来越真实的新脚色出现了——它会我方发现数据、领路 schema、生成查询、触发 pipeline,以致尝试回写系统。这个脚色,即是 AI Agent。

回头看往常三年 AI 的演化旅途,其实很澄澈:

2022 年底:ChatGPT 引爆这波创新,内行关注的是大模子自身,本质是在处置「恢复问题」这件事

2024 年:RAG 兴起,模子运行联结企业常识库和高下文来作答

2025 年:从 Manus 到 OpenClaw,种种智能 Agent 走到舞台正中央,AI 从「恢复问题」走向「履行任务」

这看似只是一步变化,但本质统统不同。恢复问题,只需要生成一个像样的谜底;履行任务,意味着要盘算、调用器具、深度交互、连气儿决策、对服从负责。

Agent 正在成为新一代的软件操作家。 它不再只是聊天窗口里的恢复器,而是一个信得过能操作操作系统、数据平台、基础软件的履行者。它不错是展当今用户眼前的智能助手,也不错是企业里面自主运转的就业流,以致是在后台静默运行、用户毫无感知的自主系统。

当 AI 从恢复走向履行,通盘软件架构也在随之变化。传统架构里,东说念主通过 UI 使用哄骗;Copilot 期间,AI 是扶助者;Agent 期间,东说念主给标的,Agent 自行调用器具和 API,操作底层数据与系统。改日,Agent 将成为软件最主要的使用进口。

幸运彩app官方网站下载

这改变的不单是哄骗层,而是会重塑通盘基础步骤层和数据平台层。以往「为东说念主类操作优化」的想象想路,在 Agent 期间仍是不再适用了。咱们必须讨论的问题,从「何如让东说念主用得顺」,变成了「怎样让 Agent 或者高效、安全、可管控地使用种种系统」。

02

信得过的瓶颈,不在模子

以往的数据使用者,大多是企业分析师、检察报表的业务东说念主员、数据科学家和哄骗开发者;如今越来越多的数据使用者,正在变成 AI 助手、自动化就业流智能体、自主数据运维表率,以及多智力推理系统。

这并非只是新增一类用户,而是绝对改变了全体的数据毁坏模式。东说念主类分析师翻开 dashboard,看几个主见,提几个问题;Agent 会握续地发现、搜索、推理和履行——二者在打听频次、行动方式和容错模式上,统统不同。

毁坏者仍是变了,数据基础步骤就必须随着变。 淌若底层如故按东说念主类交互逻辑想象,干与 Agent 期间就会出现多数能力断层和治理间隙。

这一年,我在各式场地被问烂了合并个问题:「咱们的 Agent 在测试环境跑得很顺,为什么一上业务系统就出问题?」

第一响应险些都是换模子、重写领导词。这不是内行不灵巧——模子的问题径直体当今输出上,让你看到;数据层的问题更遮拦,Agent 会平稳地出错,你根蒂不知说念它作念了什么。

信得过的瓶颈,早已不在模子自身,而是数据平台性能和数据打听能力。去看一个 Agent 在企业里真实干活的全历程:发现可用数据资源、领路 schema、检索高下文、履行查询、更新数据、触发卑劣 pipeline……它大部分时辰并不花在「想考」,而是花在「和数据打交说念」。

今天绝大多数数据平台,本质上是为「东说念主类编写 SQL」想象的,不是为「Agent 操作系统」打造的。 东说念主类能靠训戒和临场判断弥补系统裂缝,Agent 不行——它需要机器可读、结构澄澈、便于管控的运行环境,缺了这个基础,Agent 就很难信得过落地。

我见过太多 Agent 方式死在这里:演示很漂亮,上了坐褥就运行出问题,终末论断是「本事还不老到」。不是本事不老到,是数据层没准备好。

03

Agent 和东说念主类打听数据,差的不是量,是种类

东说念主类和 Agent 在数据毁坏上有四个本质隔离:

偶尔 vs 握续:分析师一天翻开姿首盘三次,Agent 可能每分钟在发苦求——数据系统任何抵御稳都会被放大到极致。

容忍暗昧 vs 将暗昧变成动作:字段界说不明晰,工程师会去问东说念主;Agent 会径直作念出一个解读并履行,这个履行可能在你不知情的情况下触发出东说念主料想的操作。

手动查验 vs 链式履行不断歇:咱们想象了好多「终末沿路东说念主眼查验」的历程,Agent 不会在那里停,它拿着上一步效鲠径直往下走。

使用器具 vs 编排系统:东说念主翻开报表是在使用器具;Agent 不错调用 API、触发 pipeline、写回数据——它在编排通盘系统。

是以在 Agent 期间,数据治理的界说必须升级。往常治理中枢是界定「谁能看哪些数据」;今天还要明确「这个 Agent 被允许臆想什么、生成什么、履行什么、修改什么」。数据治理从静态权限管控,改变为界定动态履行界限——咱们治理的,不再只是数据打听行动,而是 Agent 圆善的行动履行链路。

04

RBAC 管不了 Agent,不是 RBAC 不好

以往的治理对象是数据表、姿首盘、用户脚色,依靠基于脚色的静态权限体系,就能高效完成数据治理就业。但 Agent 所处的环境截然有异——它具备动态业务意图、跨系统履行、握续自主探索、生成式查询等特色。

说径直少许:传统 RBAC 在 Agent 期间仍是不够用了。

这不是品评 RBAC。它是为东说念主想象的,处置了「这个用户能不行打听这张表」这个问题,况且处置得很好。但 Agent 带来的不是更复杂版块的权限问题,而是一个统统不同的问题:这个 Agent,在这个时刻,带着这样的意图,被允许作念什么?

RBAC 只知说念「你是谁」,却不知说念「你当今想作念什么、为什么这样作念、是否适合高下文拘谨」。静态权限模子,仍是无法适配 Agent 运行过程中动态产生的种种行动与推理动作。

05

更深的问题:能力有,但都是散的

不少企业会说,咱们早已搭建完备的元数据、主见体系、管控政策和数据血统,落地依旧贫寒重重——为什么?

原因是这些能力大多处于散播情状:元数据洒落在多个数据系统,检索圭臬不断争;治理轨则散播部署在不同引擎,轨则难以息争;数据血统支离落空,审计链路打欠亨;打听管控轨则随平台变化,无法酿成息争的面向 Agent 的打听管控体系。

服从是一朝让 Agent 接进来,它莫得息争、真实、机器可读的齐备平面可依赖,只可退而求其次:原生 SQL、临时 API、胶水代码。这类模式仅能在演示场景中运行,KaiYun Sports2026世界杯(中国)官方网站统统无法适配企业细致业务的遥远平稳落地。

淌若莫得息争的元数据和政策原语,Agent 最终只可 hack 进去。

内行不难发现下一步是建语义层,但这件事莫得想象中疏漏。

每个企业都但愿息争种种业务主见界说——什么叫「收入」,什么叫「活跃客户」,什么叫「利润率」,什么叫「流失率」。这类息争化的遑急性世东说念主皆知,但现实是,有关界说散播存储在 BI 平台、数据开发剧本、分析 notebook 和种种报表剧本里,有多个版块,久而久之还会出现实体维度偏移、权责隔离暗昧、数据时效不一等问题。

企业并非短少业务语义,而是有太多版块的语义。

语义层的难点从来不单是建模,更深层的痛点是治理、权责隔离与业务圭臬息争。有团队想径直建骨子模子来处置这个问题——想路很好,但淌若短少息争元数据算作底层支握,骨子模子也难以顺利落地成型。莫得平稳根基,语义层最终只会沦为仅能演示、无法落入坐褥的丽都轮廓。

06

咱们需要什么:三层,不可偏废

要为 Agent 期间信得过想象数据栈,必须具备三层中枢能力,不可偏废。

第一层:息争元数据齐备平面厘清企业领有哪些数据、数据存储位置、包摄主体、打听权限以及治理轨则。莫得这一层,Agent 莫得平稳可靠的高下文,只可靠猜。

第二层:语义层界说数据的施行含义,息争业务主见口径,明照实体与维度之间的干系,界定巨擘的业务圭臬。莫得这一层,Agent 拿到的只是原始表和字段,无法平稳领路「净收入」和「总收入」的区别。

第三层:智能体打听层让 Agent 自主发现数据资源、核验操作意图,在合规治理范围内完成操作,并圆善留存所有行动轨迹。短少这一层,Agent 连得上,但无法受治理地履行。

改日的数据平台,不再只是存储加磋磨,而是一个面向 Agent 履行的分层系统。

07

Gravitino 在作念什么,以及一个被低估的判断

在这个三层架构里,Apache Gravitino 作念的是第一层——息争元数据齐备平面。

它的中枢就业,是搭建联邦式元数据体系:在多数据源、多引擎、多云之间,设立息争的元数据视图与全域治理体系。不是替代现存 catalog,而是成为「目次的目次」,提供跨系息争致的全局高下文。

这件事对 Agent 终点要道。Agent 需要的从来不是某个点状系统里的局部信息,而是一套机器可识别、跨系统圭臬息争的全局高下文环境。语义层的搭建,相似离不开踏实的元数据底座;全域数据治理,也必须依托息争的管控平面才能落地。

这里有一个被好多团队低估的判断:先有元数据,再谈语义。

完善的语义层勾引,高度依赖底层多项中枢能力:互不遏抑的定名空间、受治理的 schema、分享实体、标签、政策、血统、所有权,以及跨引擎一致性。莫得这些,语义莫得落点,很难遥远爱戴。

元数据是根基,业务语义是价值讲授。莫得底层平稳、受治理的元数据系统,语义层即是沙堡——改一次底层就碎一次。

在语义层实践上,dbt MetricFlow 给行业提供了很好的参考——把受治理的原始数据索要为圭臬化、可管控的业务语义:主见迫临管制,一次界说、全域复用;BI、分析、AI 卑劣看到合并份真相;业务逻辑从 BI 孤岛里抽离出来,千里淀到分享建模层。

这对 Agent 相称要道。Agent 需要的不单是原始表和字段,更是那些具备可解释性的圆善业务语义。淌若 Agent 只可战役到衰竭原始数据,就很难精确领路「活跃用户」「净收入」「高价值客户」这些中枢观点;依托圭臬化可复用的业务语义,Agent 输出质料会高好多。

把通盘本事栈从上至下放在一张图里:毁坏方(东说念主类 / BI / 助手 / Agent)→ 智能体打听层(MCP 通用集会 + ADP 受治理履行)→ 语义层(主见/实体/维度/业务逻辑)→ Gravitino 元数据基座(息争元数据 / 治理政策 / 血统 / 标签)→ 履行引擎(湖仓 / 数仓 / 向量存储 / 流式系统)。

Gravitino 统筹全域数据,语义层赋予业务解读,ADP 让 Agent 在安全界限内合规履行。这不是单一产物处置有磋磨,而是一套圆善的 Agent 数据本事栈勾引想路。

08

对于 MCP:连上不等于用好

近期行业都在热议 MCP(Model Context Protocol)。这项本事很遑急,它让 Agent 能用息争方式集会器具,格外于为 AI 生态提供了通用可插拔接口——这是一个真实且贫寒的问题,MCP 处置得很好。

但 MCP 主要处置的是「连得上」,而在企业高价值业务、敏锐数据处理和大鸿沟数据哄骗场景中,只是连通远远不够。企业信得过存眷的是:这张表谁领有?这个字段是否敏锐?这个查询是否适合政策?履行后审计纪录在那儿?跨引擎的 lineage 何如保握一致?

这类深档次的数据治理需求,仅凭通用的 MCP 条约无法绝对处置。MCP 能买通接口、串联器具,却无法承载圆善的企业级数据治理高下文。我并非含糊 MCP 的价值——正好相悖,只是在企业细致的数据哄骗场景里,MCP 还需要更弘大的元数据、语义和治理能力来补足。

这恰是 Agentic Data Protocol(ADP) 要处置的中枢问题:让 Agent 从「当然言语纵贯原生 SQL」,进化到「纳入管控体系的意图式履行」。四步:

发现 — 梳理所有可调用的数据开首与资源

刻画 — 明确数据源背后承载的业务含义与圭臬操作方式

核验 — 判断操作意图与所选数据源是否匹配,证据具备合感性

履行 — 在既定治理轨则与权限界限内完成操作

不应该让 Agent 径直从当然言语跳到原生 SQL——这样作念虽快,但治理风险极高,平稳性也差。四步步骤渐进,才是信得过能在企业落地的旅途。

09

企业从那儿运行?三步,毋庸大跃进

这套体系协同运作,对三类团队都有径直价值:

数据团队:从服务传统 BI,顺利转向服务 AI Agent;减少重迭界说,息争跨平台数据圭臬,裁汰治理运维本钱。

AI 团队:得回更好的 Agent 数据打听底座,让查询履行旅途更安全,澄澈规则自动化操作界限。

业务团队:AI 取用数据变得真实可审计,种种业务决策也能在安全前提下,逐渐交由 Agent 系统自主处理。

改日越过的数据平台,竞争的要道不单是「谁能恢复更多问题」,而是 谁能更安全地委托更多决策。

落地提议,三步走,毋庸大跃进:

第一步:先息争元数据。设立本事齐备平面,先把底座打稳。不要一上来就想处置所有 Agent 问题,底座不稳,表层全是沙堡。

第二步:圭臬化中枢语义。从最要道的 10 到 20 个业务主见运行,厘清治理轨则,对皆实体、维度与权责包摄。不要试图一次计帐所有语义债务,先管好最遑急的那几个。

第三步:引入受治理的 Agent 打听框架。让 Agent 在履行前先发现、先考证。首批落地推选从读密集型就业流运行:当然言语查询主见、受治理数据集发现、基于业务语义的数据检索服务——写回和高风险操作放在后头。

先治理后扩权:治理轨则先行,再逐渐放宽 Agent 自主操作数据的范围。

10

终末只说一件事

淌若今天只带走一件事,我但愿是这一句:

当毁坏者成为 Agent,数据基础步骤必须在三个维度上进化:

从衰竭孤立的元数据 → 息争元数据齐备平面;

从杂沓重迭的主见口径 → 圭臬息争、受治理的语义体系;

从轻视的原生 SQL 生成 → 政策感知、界限化的 Agent 数据打听。

Agent 期间不单是给传统数据平台加一个聊天进口,而是会 再行界说数据平台的齐备平面、语义层和履行界限。

咱们在 Datastrato 正在作念的,即是把这三层买通——让企业数据基础步骤信得过具备接待 AI Agent 期间的能力。

淌若你正在企业里推这件事,或者正在为这件事头疼开云体育官网,宽宥找我聊。你们里面仍是有哪些业务数据流运行交由 Agent 继续了?你们的数据基础步骤,准备好了吗?