数据目录终于派上用场了,因为AI Agent会读取它
大楼里最贵的架子
每个大型企业都有数据目录。其中大多数是在 2018年至 2024年间构建的,当时正值数据民主化、自助式分析以及当时颇具革命性的理念(即人们应该能够查找和理解其组织产生的数据)掀起一股热潮之际。
这个方案极具吸引力。一个可搜索的目录,囊括了组织内的所有数据集、表格和列,并配有丰富的描述、所有权信息、数据沿袭、质量评分和使用统计数据。任何员工都可以通过一个统一的界面,发现现有数据、理解数据含义并评估其可信度。这将终结“部落知识”时代,开启数据素养的新纪元。
现实情况却截然不同。各机构斥资数百万元建设目录平台,聘请数据治理团队来填充数据,发起内部推广活动以推动用户采用,却眼睁睁地看着使用率停滞不前。目录更新零星,搜索量寥寥无几,维护人员也越来越少,他们感觉自己像是在管理一座无人问津的博物馆。
一项又一项调查证实了这一模式。数据目录的采用率徘徊在目标用户群的 10% 到 25% 之间。大多数搜索操作都由同一小群高级用户执行——通常是需要数据沿袭信息的数据工程师,而不是目录原本旨在服务的业务分析师。在大多数组织中,自助式数据发现的梦想悄然破灭,被人性所扼杀:人们更倾向于询问同事而不是搜索目录,他们更喜欢熟悉的数据集而不是有文档记录但陌生的数据集。
这些产品目录本身并不差。它们解决的是错误的问题——或者更准确地说,是为错误的消费者解决了正确的问题。事实证明,人类对结构化元数据的消费能力平平。他们只会浏览描述,忽略数据字典,依赖模式匹配和机构记忆,而不是系统地发现信息。
人工智能代理则恰恰相反。而这改变了一切。
完美消费者登场
大型语言模型和基于这些模型构建的代理系统具有一系列特征,使它们成为理想的目录消费者——这些特征几乎与人类行为完全相反。
人工智能代理会进行详尽的阅读。人类分析师在目录中搜索相关数据集时,通常会阅读前三个结果,快速浏览描述,然后选择名称听起来合适的那个。而人工智能代理则会阅读每个候选数据集的每一个描述、每一列注释以及附加的每一个元数据,并基于完整的信息做出选择。过去,编写详尽的列描述是一项艰巨的工作,因为当受众是不会阅读这些描述的人类时,这项工作基本上是浪费的;但当受众是会阅读所有内容的语言学习型人工智能 (LLM) 时,这项工作就变得至关重要。
人工智能代理不具备经验知识。一位在公司工作三年的分析师知道, revenue_metrics_v2某个版本的营收表才是权威的,revenue_final_BACKUP即使它的修改日期更新,也应该被忽略。人工智能代理则不具备这种知识。它完全依赖于目录中的元数据来区分权威来源和已弃用的副本。目录并非代理的便利工具,而是代理对数据格局理解的全部体现。
AI 代理以编程方式进行查询。当 AI 代理需要回答有关各产品线季度收入的问题时,它不会启动 BI 工具并浏览仪表板,而是会构建查询。为了构建正确的查询,它需要知道哪个表包含收入数据,哪一列表示净确认收入与总交易额,哪个维度表包含产品层级结构,以及如何将它们连接起来。所有这些信息(如果存在)都存储在产品目录中。代理生成正确查询的能力与产品目录元数据的质量成正比。
人工智能代理可以大规模运行。人工分析师可能每周只搜索几次目录。而一支服务于组织数据查询的人工智能代理集群,每天可能查询目录数千次,每次都会收集有关表、列、关系和质量评分的上下文信息,以制定其处理方法。目录也从偶尔查阅的参考文档转变为持续查询的关键运行时依赖项。
这种颠覆改变了数据编目的经济格局。十年来,目录的价值受限于人类的采纳率,而这一采纳率一直居高不下。如今,人工智能代理成为主要用户,目录的价值仅受限于其内容的质量——突然之间,每一条描述、每一条注释、每一条所有权和谱系元数据都会对人工智能生成的答案的准确性产生可衡量的影响。
AI代理真正需要从目录中获取什么
并非所有目录元数据对人工智能代理都同样有价值。目录供应商向人类用户推销的功能——例如可视化的谱系图、“点赞”和“关注”等社交功能、以及精美的数据质量趋势仪表盘——对LLM(生命周期管理)来说大多无关紧要。代理真正需要的是具体、结构化且出人意料地平凡的信息。
精确的列级描述。不是“客户交易金额”,而是“以美元计价的包含税金且未扣除退款的交易总额,记录于购买授权时,而非结算时”。描述越精确,代理商误用该列的可能性就越小。这正是过去十年对目录质量投入不足的弊端所在:大多数目录充其量只有表格级描述,列级描述要么缺失,要么过于笼统而毫无用处。
规范标识。对于任何业务概念——例如收入、客户数量、客户流失率——目录必须明确标识哪个表和列是权威来源。否则,代理人将面临与新员工相同的问题:一个包含十二个可能包含“收入”数据的表的仓库,却无从得知首席财务官认为哪个表才是正确的。目录中的规范标记或标签可以消除这种歧义。
关系和连接元数据。模式外键捕获结构关系。目录元数据应捕获语义关系:这两个表可以基于某个键连接customer_id,但必须先对表 B 进行筛选,以status = 'active'避免重复计数。这些连接条件是人类常记于心的“经验知识”,他们从不将其记录下来。但对于人工智能代理而言,将其记录下来是唯一的选择。
新鲜度和质量信号。构建查询的代理不仅需要知道存在哪些数据,还需要知道这些数据是否最新且可靠。能够显示新鲜度元数据(例如上次刷新时间、预期更新频率、当前质量评分)的目录,使代理能够根据这些信息做出明智的决策,判断哪些数据源值得信赖,哪些数据源需要特别注意。
使用场景和已认可的使用案例。最先进的目录实现包含关于数据集预期用途的元数据。“此表是财务报告的真实数据源”与“此表是机器学习团队使用的实验性特征存储”截然不同。理解这些使用案例的代理可以根据上下文选择合适的数据源,而不是仅仅根据列名来选择看起来最相关的表。
改变一切的反馈回路
故事真正精彩的部分来了。人工智能代理不仅会接收目录元数据,还会生成信号来改进目录。
每次人工智能代理查询目录、选择数据集、构建查询并生成结果时,都会产生丰富的反馈信号。哪些数据集被考虑在内,哪些数据集被选中?哪些描述足以让代理做出可靠的选择,哪些描述需要额外的上下文信息?代理的查询在哪些情况下由于元数据含糊不清或不完整而产生了错误结果?
这种反馈循环具有变革性意义,因为它解决了最初阻碍目录普及的维护问题。目录过时的原因在于,维护目录的成本由人工承担,而人工却几乎得不到任何直接收益。编写列描述的数据工程师是在为假想的未来用户做无偿劳动,而这些用户可能永远不会阅读这些描述。
以人工智能代理作为消费者,反馈循环是即时且可衡量的。如果缺少列描述,代理就会误解该列,从而产生错误答案,进而生成可追溯到元数据缺失的错误信号。元数据质量差的代价不再是假设性的——它会造成人工智能准确性的可量化下降。
这形成了一个良性循环:人工智能的使用会发现元数据缺口,这些缺口得到填补后,人工智能会产生更好的结果,从而推动更多的人工智能使用,进而发现更多的缺口。目录的改进并非源于雄心勃勃的管理努力,而是源于一个不知疲倦、要求苛刻的用户所带来的自然压力——当元数据出错时,用户会发出警告。
一些组织更进一步,利用生命周期管理(LLM)来帮助填充目录元数据。代理可以读取表的模式、检查示例数据、交叉引用现有文档,并生成草稿描述,供人工审核和批准。这项技术不仅使目录作为消费者更加便捷,也使目录作为贡献者更容易维护。
重新思考面向人工智能消费的目录架构
大多数现有产品目录的设计都以网页用户界面为主要界面,REST API 则是事后添加的。对于人工智能原生消费而言,这种层级结构需要颠倒过来。
目录的 API 成为主要接口。它必须支持按业务概念(“查找季度收入的权威来源”)、技 术参考(“描述订单表中的所有列”)和关系(“哪些表可以与 customer_profiles 表连接,以及在什么条件下可以连接”)进行高效查找。这些查询需要返回结构化的、LLM 友好的响应,而不是为人类阅读而设计的 HTML 页面。
响应格式至关重要。如果一个目录 API 返回一段描述表格的文字,那么它对代理来说就远不如返回结构化元数据(例如列名、类型、描述、更新时间戳、质量评分、规范标志和连接条件)的 API 有用,而且元数据必须以可解析的格式呈现。代理需要理解这些元数据,而不仅仅是读取它们。
延迟至关重要。当目录查找是人工智能代理构建查询的关键路径上的重要环节时(这种情况越来越普遍),几百毫秒的响应时间是可以接受的。但以秒为单位的响应时间则不可接受。这对目录基础设施有着深远的影响,而许多供应商尚未充分意识到这一点。
版本控制至关重要。当目录条目发生更改时——例如列描述更新或规范源标识变更——下游 AI 代理需要知晓。目录更改应进行版本控制并以事件形式发出,以便代理能够使缓存的元数据失效,避免操作过时的目录状态。这与软件系统中的缓存失效模式相同,只是应用于元数据。
令人不安的审计
如果您的组织拥有数据目录,现在是时候用全新的视角对其进行审核了——具体来说,是用人工智能代理的视角,该代理会按字面意思理解每一个描述,并且无法获取任何部落知识。
审计应回答以下五个问题:
AI 系统使用的表中,有多少比例的表包含列级描述?在大多数组织中,这个数字低得惊人。任何没有描述的列,AI 代理都会仅根据其名称进行解释——这就是为什么你cust_txn_amt_usd应该使用 `.` 时,rev_net_recognized却会进行 `.` 求和。
权威来源是否明确标示?对于每个关键业务概念——例如收入、客户数量、客户流失率、年度经常性收入 (ARR) 和净推荐值 (NPS)——目录能否明确指出其权威来源?如果需要人工解释“这取决于具体情况”,则说明该目录不完整。
连接条件是否已记录?不仅包括外键关系,还包括语义限定条件:哪些过滤器、哪些条件、哪些边界情况。这通常是最大的差距,也是对查询正确性影响最大的差距。
新鲜度元数据是否可用且准确?代理能否在使用数据集之前判断其是否为最新数据?过时的新鲜度元数据比没有新鲜度元数据更糟糕,因为它会造成虚假的信任。
目录 API 的性能和结构是否良好?人工智能代理能否以编程方式查询目录,接收结构化响应,并将其实时整合到自身的推理过程中?如果目录只能通过 Web 用户界面访问,那么对于最重要的用户群体而言,它就无法被访问。
十年投资的回报
这个故事颇具讽刺意味。十年来,数据治理团队创建了无人问津的目录,撰写了无人引用的描述,维护了无人遵循的谱系关系。他们被反复告知,目录对于数据治理和合规至关重要,但实际采用率却截然相反。
如今,他们写的每一个字都变得至关重要。每一条专栏描述都会被阅读——不是由人类分析师,而是由人工智能代理读取,它会逐字逐句地解读描述内容,并以此生成驱动业务决策的查询语句。每一个规范标签、每一个关系注释、每一个质量评分,都会被那些离不开它们的系统所依赖。
在人工智能应用普及的初期阶段,那些持续投资于目录质量的组织如今发现,它们拥有战略优势。由于元数据更加丰富,它们的AI代理能够产生更准确的结果。由于目录得到积极利用而非被动维护,它们的数据治理能力也更强。由于代理无需人工干预即可发现和理解数据,它们在新AI用例中实现价值的时间也更短。
那些任由目录数据萎缩的机构现在正忙着填补元数据空白,才能将人工智能代理连接到他们的数据上——因为他们已经惨痛地认识到,如果人工智能代理能够访问一个文档不全的数据库,那它就不是生产力工具,而是一种负担。
数据目录从来都不是一项错误的投资。这是一项超前于时代的投资——它正等待着最终使其不可或缺的消费者出现。
本文来自微信公众号“数据驱动智能”(ID:Data_0101),作者:晓晓,36氪经授权发布。