汽车行业高质量数据集建设调研与启示

0

王瑞莹 李 扬 陈杰浩

精华速览: 

为深入了解汽车行业高质量数据集建设现状、问题和发展诉求,笔者于2025 年9 月至11 月面向汽车行业代表企业开展调研,调研对象包括传统车企、造车新势力、汽车技术企业和数据服务商等。调研发现,领先汽车企业正加快构建覆盖研发、生产、服务全链条的高质量数据集体系,依托先进基础设施和全链路技术创新, 推动数据成为产品核心竞争力的关键支撑,初步构建起以安全、协同、跨境为重点的数据合作生态。然而,行业高质量数据集建设仍面临多重挑战,亟须加强技术攻关与设施共建,完善数据管理制度,推动行业数据集共建,培育数据协同供给生态, 助力汽车产业高质量发展。

汽车企业数据集建设现状

(一)从基础能力看,领先车企积极布局先进数据基础设施

传统整车厂中,有车企采用混合云架构构建车联网系统,实现实时数据秒级响应、离线数据低成本存入公有云, 保障PB(Petabyte,1PB=1024TB) 级车联网数据实时入湖、弹性扩容;整合离线和实时数仓、结构和非结构数据, 实现智能网联、车机应用、研发实验、供应链、销售和售后等核心业务域数据标准化,支撑数据集建设管理;自建智算中心,综合算力超20EFLOPS(指每秒进行百亿亿次浮点运算),算力规模领先。造车新势力中,有车企基于自研数据治理与开发平台,打通车联网、制造、供应链、用户运营等环节数据,数据规模超30PB ;由数据知识中心提供自研结构化工具,将研发、质量、售后等文档统一抽取、切片、向量化,形成可检索的知识空间,沉淀维修知识、座舱问答、智能驾驶FAQ(常见问题)等结构化问答对数十万条;针对图像、语音、激光雷达、毫米波雷达等多种传感数据,自研数据标注与质量管理工具链,支持自动预标注、人工复检、版本追踪,积累自动驾驶数据超100PB、智能座舱语音和驾驶员状态视频数据集数十TB。

(二)从场景应用看,数据集建设是塑造产品核心竞争力的关键基础

传统整车厂注重制造工艺。有车企为焊点质量预测、螺栓连接质量监控等场景小模型构建了专用数据集,实现模型准确率达到较高水平。新能源汽车厂商关注动力系统研发与故障排查。有车企基于动力系统电子控制单元(ECU)的报文数据, 构建了ECU 数据集、驾驶数据集、充电数据集,用于在生产到交车的各个环节识别车辆故障,进行异常拦截,并通过统计分析为产品设计和规划提供数据支持;有车企积累了5TB 电驱研发数据集,自研电驱AI 研发小助手,提升研发效率、帮助问题追溯和解决。造车新势力以智能驾驶、智能座舱为产品核心竞争力。如,有车企通过量产车传感器采集、专业驾驶员样本和模拟器生成三种数据来源,构建了真实路况端到端的训练数据集和仿真测试数据集,支撑自驾模型系统从训练、测试验证到量产落地;有车企基于智能座舱系统,构建了车载行为数据集和车载应用使用数据集,用于分析用户驾驶习惯和车机交互偏好,实现车辆的个性化适配和车载应用服务的精准推荐。商用车厂商探索开展车辆运营、汽车保险和二手车交易服务。如,有车企聚焦商用车后市场,整合车辆定位、货运轨迹、行驶路线、驾驶行为、加油与维修站点分布、车辆运营强度、故障及保养记录等多维度数据集,不仅支撑汽车保险、汽车金融、维修服务、二手车交易等业务的数字化运营,还为数十家网络货运企业提供数据服务。

(三)从技术创新看,企业研发计划涵盖数据集建设全链路

强调协同、融合、智能与安全。数据存管设施方面,有的车企基于汽车制造工厂特点,正在研发试点“云边湖仓” 一体的工厂级数据治理体系;有的车企为应对日益庞大的车联网数据量,正在研发基于湖仓一体架构的分布式存储和时序数据库, 支持Hive、Spark 等数据清洗和转换工具,希望实现历史数据压缩和便捷查询。数据采集技术方面,有车企着力研发布局端云协同的远程采集技术,对比AI 与人类驾驶决策的影子模式数据采集技术;还有车企在攻关边端数据生产工具、多源异构数据实时采集与同步技术。数据生成方面,有车企联合高校研发多模态图像– 点云联合生成技术;布局结合生成式AI 和仿真的边缘场景数据生成技术。数据处理方面,已经有2 家车企重点关注自动化智能标注技术、异构数据同步与融合这两个关键领域。数据协同与安全流通方面,有车企正在研发跨终端数据协同技术,基于信息共享专利实现多设备数据联动,通过“设备端预处理+ 脱敏传输”机制实现敏感数据安全流转;有3 家车企正在布局加密数据传输、联邦学习、隐私计算、区块链等技术。数据挖掘与分析方面,中汽创智科技有限公司正尝试通过数据挖掘,在海量驾驶数据中识别危险场景;中汽信息科技有限公司则计划通过升级数据挖掘分析技术,实现市场洞察和预测、供应链风险预测与规划。

(四)从标准需求看,数据治理、数据工程、数据流通、数据质量与价值评估等标准备受关注

已有标准方面,车企数据集建设主要依据《数据管理能力成熟度评估模型》《智能网联汽车数据安全要求》等国家和地方标准,以及《汽车数据安全管理若干规定(试行)》《人工智能高质量数据集建设指南》等行业规范和指南。标准探索方面,被调研车企及其组建的联盟都在积极推动标准研制,主要涉及数据集建设相关数据工程,如智能驾驶数据的采集、处理、标注与数据集质量评估; 数据流通方面,如数据确权、登记、价值评估,以及共享流通的标的准入、可信认证、安全检测和安全应急与争议机制;大模型测评标准,如智驾自动标注、智驾场景理解、仿真生成等大模型的测评标准。行业标准建议方面,被调研企业认为,汽车行业亟须完善数据开发利用的标准规范,包括数据架构、数据管理、数据资产化、数据流通与服务、数据安全与应用六个领域。

(五)从产业生态看,数据合作生态初步形成 

在数据安全与测试领域,中国汽车工程学会联合汽车、通信、交通等领域企业、科研机构组建“中国智能网联汽车产业创新联盟”,联合推进数据安全研究、标准制定与测试评价,解决数据合规痛点;奇安信与中汽数据合作打造智能网联汽车安全联合实验室,围绕车辆信息安全和数据安全开展合作研究。在数据共享、开源与标准制定方面,北京理工大学联合行业协会、科研机构、车企等发起“新能源汽车国家大数据联盟” 通过整合、开发新能源汽车数据资源, 服务于行业监管和技术创新;中国汽车工业协会联合蔚来汽车、博世中国等汽车企业组建众链科技有限公司,推动跨主体数据合作技术创新和模式探索,通过Coral Data 开源计划发布了高速公路和城市道路静态场景、高速公路事故场景等近20 项开源数据集;中国一汽、东风汽车、长安汽车等国有车企联合科研院所、数据服务商组建星辰数据联盟, 通过统一数据标准、联合采集与共享流通,解决智驾研发中的“数据孤岛”、成本高昂等痛点,为行业算法研发和技术迭代提供高质量数据支撑。在跨境数据合作方面,中德汽车产业数据合作联盟由中国汽车工业协会与德国汽车工业协会共同推动,联合欧洲开放协作式数据生态系统(Catena-X)等数据生态组织, 围绕智能网联汽车数据互认、合规流通、技术标准对接等开展试点合作,探索建立跨国数据交换机制。

汽车企业数据集建设面临的挑战

(一)数据技术挑战与标准有待完善, 导致数据质量不高、通用性差、融合难

一是关键场景数据完整性、可信性不高。有车企指出,在事故责任判定、保险反欺诈等关键场景,存在感知识别不全、证据链断裂、真伪难辨三大问题, 其根源在于车端传感器校准不一致、数据采集协议未统一、边缘设备时钟不同步等底层技术缺陷,难以形成高精度、准确、不可篡改的碰撞“前—中—后” 全链路数据。二是多模态数据融合技术挑战大。汽车数据呈多源异构特性,如自动驾驶和智能座舱所需数据包括车内外传感器、充电桩、地图、语音交互等, 异构数据时空和语义对齐、融合处理存在较大技术挑战。三是智能技术变革带来数据处理挑战。如自动驾驶模型技术从分布式向端到端变革,要求数据标注和处理技术快速迭代、紧密适配。四是缺乏体系化数据标准。已有标准主要涉及汽车数据安全,远未形成涵盖汽车数据全生命周期的体系化行业标准,在研汽车数据相关标准主要为企业或团体标准,亟须在行业内统一和加强引导。

(二)制度与机制有待健全,数据流通复用难、跨境合规风险高

一是产业链数据贯通难。上下游企业信息化水平不一,导致数据标准不统一、接口不兼容,难以实现有效对接。如,一车企供应链中,上游部分中小企业数字化转型滞后,数据采集与传输能力弱,制约了整体数据链的构建。二是车辆设计和性能差异导致数据难复用。车辆参数、传感器配置、车型标准差异大,使得ECU 信号数据、激光雷达感知数据难以跨企业复用,适配成本甚至高于重新采集,阻碍行业共性模型开发与长尾场景覆盖。三是数据流通收益机制有待明确。数据集建设投入大、周期长, 但收益模式尚不清晰。从车企数据交易参与情况看,尽管已有车企与数据交易所探索数据交易,尝试将部分脱密数据产品挂牌交易,但数据集估值定价、供需精准对接仍是难点。四是跨境合规风险突出。由于对于“ 驾驶行为是否属于个人敏感信息”“路侧采集数据是否涉及国家安全” 等界定有待明确, 合规不确定性大,出海企业须投入高额咨询服务费,确保企业产品符合各国法规要求。

(三)资源配置与生态培育不足,行业投资成本高、行业协作较薄弱

一是数据基础设施重复投资普遍。汽车行业数据具有“海量规模、高精度要求、分布稀疏”三重特征,存储、算力与运维成本远高于其他行业。多家车企均自研车端芯片、自建专用算力集群, 分别研发多模态数据处理平台、自动化标注平台,缺乏行业级基础设施和基础资源合作,分散了技术攻关合力,也推高了行业整体成本,加剧行业“内卷”。二是行业共性知识缺乏系统化沉淀。在电驱等零部件质量管理方面,各车企使用的工具、流程和方法论相似,这些共性知识类数据具备通用基础。但相关数据标准、分析模型和案例经验仍分散于各企业内部,缺乏系统性整合与开放共享,尚未形成行业级知识资产。三是联盟运作尚处于初级阶段。多家车企表示, 当前整车厂、零部件商、出行平台数据封闭,即便是汽车数据联盟内部,数据共享频次与量级也有限,停留在初级数据归集与简单共享阶段,有待形成可持续市场化流通模式。

推动汽车行业高质量数据集建设的政策建议

(一)支持数据技术攻关与设施共建

一是推动关键技术联合攻关。通过设立专项基金、搭建协同创新平台、建立开源社区等方式,支持汽车企业联合科技公司、科研机构等,结合端到端智能驾驶、“车路云一体化”等前沿技术方向,协同突破多源异构数据融合、自动化数据标注、高质量数据合成等关键技术瓶颈。二是支持数据基础设施共建共享。设立专项资金,支持汽车企业联合开展车端芯片研发、汽车行业集群和分布式算力体系建设,支持汽车行业多模态数据处理和可信数据空间公共服务平台建设, 推动相关数据基础设施共建共享。

(二)建立健全行业数据管理制度

一是构建汽车行业数据标准体系。组建行业数据标准组织,围绕汽车行业数据开发利用全流程,加快制定数据架构规范、数据管理标准、数据资产化指南、数据流通与服务接口标准、数据安全与隐私保护要求。优先在智能驾驶、车联网等重点领域开展标准试点,推动相关团体标准、联盟标准、行业标准和国家标准协同。二是探索制定汽车行业数据分类分级指引。明确汽车行业数据安全分类维度和分级标准,重点界定涉及国家安全、公共利益、个人隐私的敏感数据范围,配套制定数据处理活动合规清单和风险评估模板,减少汽车企业在数据使用和流通中的合规顾虑。三是建立健全汽车数据跨境流动相关制度。加快推进我国数据出境安全评估、个人信息跨境处理规则与主要汽车出口市场的制度对接。研究制定汽车行业数据跨境流动管理细则、智能网联汽车出海数据合规指引,明确不同场景下数据跨境流动合规路径。支持在自贸试验区(港) 等区域开展汽车数据跨境流动试点,探索数据海关或沙盒管理模式,为企业“走出去”提供清晰的合规路径。

(三)促进行业数据集建设与共享

一是推动行业公共数据开放。联合交通运输部、气象局等相关部门,制定汽车行业公共数据开放行动计划,推动天气数据、交通数据、充电站信息、路测感知设施等汽车相关公共数据开放。依托公共数据平台,设立汽车行业公共数据专区,提供标准化、API 数据服务接口。鼓励公共数据管理单位与汽车企业、地图服务商等合作开发,打造汽车行业公共数据集。二是行业通用数据集建设与共享。设立专项资金,通过“揭榜挂帅”“赛马机制”等方式,支持汽车企业牵头,联合科技公司、科研机构组建创新联合体,沉淀汽车行业通用工具、流程与方法论,构建汽车行业通用知识库;联合构建自动驾驶长尾场景标注数据集、汽车多传感器融合数据集等行业通用数据集,通过开源社区、联盟平台推动相关数据集共建共享。

(四)打造行业数据协同供给生态

一是支持行业数据联盟与开源社区建设。支持汽车行业数据联盟组织制定统一的数据接口规范、元数据标准和数据质量评估体系,推动汽车行业数据互联互通。支持汽车行业开源社区在数据标注工具、融合算法框架、仿真测试平台等领域发布共性技术模块,推动形成“共建、共用、共赢”的技术创新生态。二是鼓励依托可信数据空间搭建汽车行业数据平台。支持建设国家级或区域级汽车行业数据流通平台,对采用可信数据空间技术的企业给予税收优惠或专项补贴,引导形成安全可信的数据协作新模式。三是加快探索汽车行业数据交易交换机制。设立汽车行业数据交易试点, 探索建立数据确权、定价、交易、结算和监管的全流程机制。推动建立汽车行业数据资源目录和分级分类管理制度, 明确可交易数据范围与使用权限。支持发展数据经纪、数据信托等新型中介服务,促进行业数据集供需对接,加速汽车行业智能驾驶、绿色制造等技术创新和行业应用。

作者王瑞莹为中国工业互联网研究院数据管理与应用研究所工业数据工程部副主任;李扬为工业和信息化部电子第五研究所软件与系统研究院首席研究员; 陈杰浩为中国工业互联网研究院数据管理与应用研究所所长

评论被关闭。