海致参编两项图智能国标背后:以工程实践筑牢智能体产业底座
近日,国家网信办、发改委、工信部联合印发的《智能体规范应用与创新发展实施意见》(以下简称“《实施意见》”),首次从国家层面划定智能体“行为管控、内生安全、工程化治理”三大核心方向。这一里程碑式政策,标志着我国AI治理从“大模型内容合规”单一维度,迈入智能体全生命周期安全治理新阶段。
就在政策框架明确之际,智能体底层技术标准化进程同步提速:《智能计算 图计算性能测试方法》、《信息技术 神经网络表示与模型压缩 第3部分:图神经网络》两项国标接连落地。两项标准由产学研多方协同编制,既回应了智能体安全治理对底层数据基础设施的刚性需求,也让技术应用与合规要求实现同频共振。
海致作为两大标准的核心起草单位,将自身在图智能领域的一线工程实践经验带入标准讨论,成为连接政策、标准与产业落地的一环。本文将从两项标准要解决的核心问题出发,分享我们在图智能国标落地过程中的技术思考与实践路径。
一、行业痛点亟待破局:标准缺失下的图智能落地困境
在两项标准正式落地前,图计算与图神经网络长期处在“各自定义、自行解读”的行业状态。市场产品看似能力完备、技术百花齐放,但客户在采购与落地过程中普遍面临一个共性问题:产品看似能力完备,但在真实落地中往往暴露出性能指标不可比、测试过程不可复现、压缩效果难评估等问题,进而增加客户选型、业务迁移和项目验收的复杂度。
这并非系统本身功能失效,而是指标口径、模型格式、测试规范缺少统一基准,直接引发选型误判与业务上线受阻。
以金融风控为例,某国有银行在选型图计算产品时,曾遭遇多家厂商的“性能虚标”难题——厂商均宣称支持百亿级点边、毫秒级查询响应,但各家测试逻辑自成一套:
有的只测缓存预热后的最优结果,有的只公布平均延迟却隐匿 P95、P99 (编者注:用来衡量系统响应时间的分布情况,即 95%、99% 的请求响应时间均小于或等于该数值。)等关键指标,还有的吞吐量统计未包含数据导入、索引构建等核心环节。
一旦银行将产品部署到真实反欺诈场景,面对千万级账户的多跳关系查询、高并发访问和超级节点扩展时,系统就频繁出现查询超时、节点漏配、关系断链等问题。原本宣称的“毫秒级响应”与生产实际严重脱节,不仅增加了业务上线成本,更埋下了风控漏洞隐患。
图神经网络领域同样面临规范缺失的困扰。图神经网络模型的训练与推理效果,强依赖上游图数据的建模质量。行业内各平台对节点类型、属性层级、关系方向、特征字段缺乏一致约定,直接导致图神经网络输入语义割裂不一致。
例如,企业地址仅以原始字符串形式存储,未做结构化层级拆分,后续依托城市、区域、行政区划开展特征聚合与关联分析时处处受限;而 “自然人控制企业” 这类核心业务关系一旦出现指向颠倒、定义不一、编码混乱等问题,会让图神经网络在消息传递过程中沿错误路径聚合邻域信息,无法精准学习真实业务结构语义,最终造成模型训练效果失真。
更棘手的是,模型压缩也缺乏统一指引。部分厂商为追求推理速度,采用激进的剪枝、量化策略,虽降低了算力消耗,却削弱了关键关系的识别能力,导致金融风险召回率下降——这些问题的根源,本质上都是缺乏统一标准导致的行业内耗。
值得注意的是,两项图智能标准定义了智能体的“事实骨架”——结构化地表达、可计算地存储知识,让大模型依托确定性事实开展严谨推理,真正推动智能体与大语言模型深度融入各类产业场景,实现规模化落地应用。
图计算性能测试标准解决“图底座稳定支撑”的核心问题,通过保障知识图谱多跳检索、邻域扩展、关系推理过程稳定可靠,避免因系统性能波动、数据缺失给大模型传递错误上下文;
图神经网络标准则通过规范模型表示与压缩信息描述,为模型迁移、压缩评估和部署复现提供统一表达基础,有助于减少模型交换和部署过程中的信息损失。
两者协同,形成“大模型负责自然语言理解与内容生成,图数据库沉淀结构化事实与关系约束,图神经网络完成图结构的预测与泛化”的闭环。
让智能体的决策过程更具可追溯性和可校验性,以此筑牢可信运行根基,助力其深度扎根实体产业、实现规模化落地应用,这正是《实施意见》所强调的 “内生安全” 与 “工程化治理” 在技术层面的具体落地路径。
两项国标出台的核心价值,在于将图智能领域从“经验驱动”推向“标准驱动”,构建了“可测试、可复现、可迁移、可验收”的工程体系,有助于缓解性能虚标、模型孤岛、黑盒推理、工程无法复用等长期行业症结,为智能体规模化落地补齐底层基础设施短板。
二、技术内核解析:海致的技术实践与标准落地
两项标准的编制落地,是产学研协同共建的成果。
作为同时参与两项标准起草的企业,海致的角色比较特殊——我们不是理论导向的研究机构,也不是纯平台导向的云厂商,而是一家长期扎根政务、金融、城市治理等复杂关系场景的企业。
这种身份决定了我们参与标准的方式:将前沿技术研究与产业一线的工程化应用充分结合。
1、图计算性能测试标准:从“单点跑分”到“全流程工程评估”
在图计算性能测试国标出台前,行业最大的痛点是关键指标缺乏统一定义。吞吐量、响应延迟、运行稳定性、系统兼容性——各家统计逻辑互不兼容,直接导致客户选型难、落地难。
吞吐量统计口径不一,有的按每秒查询数统计,有的按每秒处理边数计算;
延迟仅标注平均值,忽略冷启动、缓存失效等真实场景波动;
稳定性测试仅局限于短时间压测,无法覆盖系统长期运行的潜在隐患。
在金融反欺诈这类强实时场景中,矛盾尤为突出:业务要求交易查询P99延迟控制在百毫秒内,但部分厂商仅提供平均延迟数据,看似达标,实际尾延迟却动辄飙升至数秒,直接导致业务无法正常上线。
我们的技术思考是:性能测试不能只测“最优时刻”,而应测“真实时刻”。
在长期服务复杂关系网络的过程中,我们沉淀了一套工程化测试体系,核心逻辑不是跑单个算法分数,而是把数据生成、数据导入、索引构建、查询集合、并发压测、资源监控、异常恢复、结果校验串成完整流程。
这套体系推动我们形成了一个判断:标准不应只定义“跑多快”,而应定义“在什么条件下跑多快、能跑多稳”。
正是基于这种“全流程测试”的工程实践,我们在标准讨论中支持建立覆盖吞吐量、延迟、稳定性、兼容性四大核心指标的评估框架,既覆盖“能不能跑”的基础需求,也兼顾“能不能上生产”的实际场景——
吞吐量反映系统面对大规模点边和高并发任务时能不能吃得下;
延迟反映在线风控、实时推荐、智能运维等场景能不能等得起;
稳定性反映系统在长时间运行、热点访问、复杂查询和资源波动下能不能持续可靠;
兼容性则关系到客户已有图数据、查询语句、业务规则和上下游系统能不能平滑迁移。
2、图神经网络标准:从“模型孤岛”到“可互通、可压缩、可部署”
图神经网络标准的出台,核心要解决三大问题:模型无法互通、压缩无规范、部署无标准。
其中较难形成统一口径的,是节点、边、特征、邻接关系、消息传递过程以及压缩信息如何在不限制算法创新的前提下进行规范表达。
学术上可以把节点、边、特征、邻接矩阵、消息传递函数抽象得很简洁,但真实业务系统里,一个节点可能同时有多标签、多属性、动态特征、权限边界、时间版本和业务主键,一条边也可能包含方向、类型、权重、有效期、置信度和多重语义。
标准既不能限制算法创新,又要让产业系统能够真正互通,边界界定难度极大。
我们的技术思考是:规范不是“统一一切”,而是在“灵活性”与“互通性”之间找到可工程化的平衡点。
基于在知识图谱构建中的实际操作经验,我们认识到:
在节点表示上,必须明确区分 ID、类型、属性、特征向量的层级,避免因粒度不一导致的语义偏差;
在关系映射上,必须规范“企业投资”“自然人控制”等核心关系的方向与编码规则,明确关系与属性的划分标准——比如将“转账”这类需要追溯细节的关系,建模为中间节点而非单纯边关系,避免语义丢失,这些都是海致在实际业务中总结的可行做法。
在模型压缩方面,我们关注的问题更务实:剪枝、量化、蒸馏等技术的参数定义不统一,企业难以理性评估“加速”与“精度损失”之间的真实权衡。标准的价值在于推动厂商明确标注压缩比例、精度损失、误差边界等关键信息,让技术选型从“黑箱”走向“透明”,有效平衡了算力消耗与模型精度。
此前,部分厂商为追求推理速度,盲目压缩模型,导致关键关系识别能力下降;标准落地后,企业可理性评估模型优化的实际价值,避免“为加速而加速”的黑箱操作,这对金融风控、电信反诈等对精度要求极高的场景至关重要。
在知识图谱构建与模型部署的实际业务中,我们形成了一套关于节点表示、关系映射及模型压缩的实践思路。这些思路为相关规范的讨论提供了来自产业一线的参考视角。
3、我们的差异化能力:场景化工程实践
相较于高校的理论优势、云厂商的平台优势,海致的差异化在于一个比较“笨”的能力:在真实、不干净、高约束的生产环境中,把图智能跑稳的能力。
作为图模融合路线的代表性企业,海致长期扎根金融、政企、城市治理等复杂关系网络场景,积累了真实大图、复杂查询、长稳运行和生产验收经验,我们深知产业落地的真实约束:
数据不干净、关系不完整;
查询复杂多样、业务规则动态变化;
权限和合规要求严格;
系统要在高并发和长周期运行下保持稳定。
这些都不是实验室环境能模拟的。我们始终认为,图智能的价值不在于单一技术突破,而在于“标准化+工程化”的协同——让技术真正落地到千行百业。
在标准制定过程中,我们带去的不是“我们要写进第几条”,而是我们在复杂金融网络适配、超大规模图计算工程验证、长稳运行运维等场景中踩过的坑、补过的墙、总结出的模式。
这些经验最终转化为标准中对图计算性能测试方法设计、专业术语定义等关键条款的设计逻辑,并将 Agent Harness 工程化体系反哺到标准制定中——不是照搬某一个方案,而是为行业提供一种可验证、可复用的思考框架。
让标准不仅是简单的“指标定义”,更能贴近真实项目中的测试、迁移、压测、验收和持续优化流程,真正指导实际落地应用。
例如,针对图计算中的“超级节点”问题,海致将自身在实际项目中用到的拆分节点、关系分桶、冷热分离的实战方案,转化为标准中的兼容性与稳定性测试要点,帮助行业规避大规模图查询中的性能瓶颈。
这种“从实践中来,到标准中去”的做法,让两项国标摆脱了“纸上谈兵”的困境,真正成为产业落地的“度量衡”。
需要说明的是,标准制定过程中产学研各方在大方向上并无根本分歧。图智能领域面临的更多是术语不统一、口径不一致带来的沟通成本,而非技术路线的对立。
制定标准的核心工作,本质上是把分散的实践经验用统一的语言重新表述出来——这正是标准作为产业基础设施的真正价值。
三、未来方向:从标准到工程,从图到智能体
两项国标的发布,将重构图智能产业发展生态,在技术标准化、应用规模化、商业闭环化三层形成链式反应。
技术层面:行业将从“能力宣传驱动”转向“标准验证驱动”,进入标准量化验证新阶段,产品性能、模型能力必须在统一口径下接受评测,倒逼厂商深耕底层技术与工程化能力;
应用层面:企业可构建“数据导入——性能压测——模型部署——验收优化”的标准流程,大幅降低选型试错与系统迁移成本;
产业层面:标准将打通图数据库、知识图谱平台、图神经网络框架与智能体应用的接口壁垒,推动行业从单点产品竞争,走向图数据、图计算、图模型、智能体协同演进的产业生态。
伴随国标体系逐步完善,以及 Harness 工程成为 AI 产业新范式,行业竞争正从模型参数比拼,转向可控、可治理、可落地的系统工程能力比拼。
基于这一趋势,海致未来的技术布局将聚焦四个方向持续深耕:
第一,升级分布式图计算底座。持续提升大规模图存储、多跳查询、向量检索等核心能力,适配城市治理、金融全网关系分析等超大规模复杂关系网络场景。工程难点在于:在数据倾斜(幂律分布)条件下,如何保证 P99 延迟的稳定可控;
第二,构建智能体工程化体系。让智能体任务、轨迹、证据的可观测、可回放、可治理,这不是简单的日志系统,而是通过图结构记录任务、工具、数据、权限、证据和行为之间的关系,从行为异常检测角度定义和度量智能体行为的“正常边界”,为越权调用、异常路径、证据缺失和决策漂移提供可追溯依据;
第三,推动图模融合从 RAG 走向可验证推理。当前 RAG 的核心缺陷是“弱校验”——检索结果与大模型生成之间缺乏严格的逻辑锁链。我们的探索方向是将智能体的决策任务拆解为可执行的图查询序列,让大模型的每一步推理都能在图数据库中找到对应的事实支撑,从而让决策可追溯、可校验;
第四,将国标规范深度内化到产品与交付流程。配套打造性能测试、模型迁移、兼容性验证、压缩效果评估等工具,让标准真正贯穿产品研发、项目交付与日常运维全流程。
当大模型基础能力逐步趋于同质化,产业 AI 的核心竞争力,终将回归工程化落地与标准化治理。真正有长期价值的不是单点模型应用,而是可度量、可复用、可治理的图智能基础设施。
从参与行业标准制定,到把一线工程实践沉淀为产业通用规范,我们始终坚持以落地为先、以实践为基。
我们相信,随着两项国标的全面推广,图智能将迎来规模化发展的黄金期,图模融合将成为 AI 智能体安全治理、可信推理的核心底层支撑,而标准化的图智能基础设施,也将成为千行百业智能化转型的“底层基石”。
本文来自微信公众号“海致科技”,作者:海致,36氪经授权发布。