鲁俊群 陶海青
金融数据要素分布情况
金融数据要素是金融产业发展的重要基础,构成了金融机构进行数据分析、决策制定和服务创新的关键资源。金融数据要素具有规模大、价值高、敏感性强的特点,与金融效率、金融安全和金融消费者权益紧密相关,也是数据要素流动和数据安全保护的关注重点(袁康,2024)。结合金融机构对数据要素的实际需求, 本文主要从数据来源和数据类型两个维度对金融数据要素进行划分。
(一)按数据来源划分
按照来源,金融数据可以划分为内部数据、公开数据和外购数据三大类。
1.内部数据
内部数据主要指金融机构内部所产生、拥有的各类信息和数据资料。这些数据通常包括:①机构的各类业务系统, 如交易系统、信贷系统、风险管理系统等在日常运营中产生的大量交易数据、客户信息、风险指标等;②涵盖了金融机构的日常运营、财务管理、市场营销、人力资源管理等各方面的内部运营数据;③网络安全监控、交易异常监控等,会实时收集并存储的相关监控数据等。内部数据具有高度的真实性和针对性,是金融机构进行决策分析、业务优化和战略规划的重要依据。
2.公开数据
公开数据是指通过各种公开渠道,如通过政府统计机构网站、金融网站、交易所网站、公司官方网站可以获取的数据,包括宏观经济数据、金融市场数据、金融交易数据、公司财务数据以及经济数据指标与新闻事件等。这些数据具有广泛的覆盖性和公开性,同时需要注意数据的真实性、准确性和完整性,是企业和个人进行市场分析、行业研究的重要数据来源。
3.外购数据
外购数据是指金融机构为了支持其业务运营、风险管理、市场研究等,从外部数据源购买的各类数据。这些数据可能包括但不限于宏观经济数据、行业数据、企业信用数据、市场交易数据、客户行为数据等。金融机构外购数据的来源广泛,包括但不限于政府机构、行业协会、咨询公司、数据服务公司、运营商等。金融机构根据自身的业务需求选择数据供应商和数据产品。
(二)按数据类型划分
金融数据类型包括但不限于金融专业数据、实时金融数据、多模态数据、跨领域数据。这些数据类型共同构成了金融领域数据基础,支持其在金融领域的广泛应用和深入探索。
1.金融专业数据
①金融业务数据:银行、信托、保险等金融机构业务数据,如贷款、存款、保险产品销售、理赔等数据。
②金融产品数据:股票、基金、债券等产品,包括价格、交易量、收益率、风险等级等数据。
③金融研报:包括金融机构对市场、行业、公司等的深入研究和分析报告。
2.实时金融数据
①金融市场新闻:包括财经新闻、政策变动、市场消息等,用于捕捉市场情绪和预测市场走势。
②金融交易数据:实时更新的股票、期货等行情数据、交易数据。
③社交评论数据:来自社交媒体、财经论坛等的用户评论和观点。
3.多模态数据
①图像数据:如财务报表的扫描件、图表、股票K线图等。
②语音数据:如客户服务热线的录音、视频会议记录等。
4.跨领域数据
①宏观经济数据:如GDP 增长率、通货膨胀率、失业率等,有助于理解宏观经济环境对金融市场的影响。
②行业数据:如特定行业的行业政策、销售数据、市场份额、竞争企业等,有助于分析特定行业的金融风险和机遇。
金融数据运营机构分类
2024年1月,《企业数据资源相关会计处理暂行规定》正式施行,规范了数据成本价值的计量,明确了数据作为资产的价值,数据由自然资源向经济资产跨越。数据资产化的最终目的是实现数据价值。同月,国家数据局等17个部门联合印发《“数据要素×” 三年行动计划(2024—2026 年)》,提出到2026年底,打造300个以上示范性强、显示度高、带动性广的典型应用场景,培育一批创新能力强、成长性好的数据商和第三方专业服务机构,形成相对完善的数据产业生态,数据产品和服务质量效益明显提升,数据产业年均增速超过20%。随着金融数据行业的快速发展和数字化转型以及政策支持,金融数据运营商的竞争格局呈现出多元化和日趋激烈的特点。
其一是传统金融机构, 如银行、证券公司、保险公司等,拥有庞大的客户基础和丰富的金融数据资源。它们通过数字化转型,增强自身在金融数据运营方面的能力,成为市场的重要参与者。
其二是金融科技公司,如蚂蚁集团、腾讯金融、京东科技集团以及其他一些大模型公司, 凭借强大的技术实力、丰富的用户数据、广泛的合作伙伴等优势,占据了市场的重要份额。
其三是专业金融数据信息服务商,如万得、同花顺、东方财富、大智慧、彭博社等, 专注于金融数据的收集、处理、分析和运营,为金融机构提供定制化的数据服务和解决方案。它们在数据处理和分析方面具有专业优势,满足金融机构的特定需求。
金融数据要素处理与分析
数据处理过程主要包括数据收集、数据预处理、数据存储、数据处理与分析、数据展示、数据可视化、数据应用等环节(莫祖英,2017),主要涉及数据的采集及预处理技术、数据的储存及处理技术、数据的提取及分析技术。
(一)金融数据的采集及预处理
金融数据采集指的是从各种数据源(如金融交易系统、客户关系管理系统、市场数据提供商等)收集大量的结构化和非结构化数据,包括金融交易数据、客户信息、市场行情、新闻资讯等。通常数据的收集通过爬虫技术、API接口调用、传感器采集等形式。收集到的数据要进行初步处理, 包括去除重复数据、噪声数据等,以保证数据质量。
数据预处理包括对已接收数据的辨析、清洗、变换等操作。数据清洗是指将收集到的错误的、无价值的数据通过手动、自动、人机结合等形式清理,从而得到有效数据。数据变换则是对现有的数据进行适当转换与归并,使其满足统计学方差分析的要求。这个过程可以解决多语种金融数据中存在无效、违规及重复内容的问题, 识别预训练金融语料中的低质、违规问题。
(二)数据的储存及处理
数据储存指的是使用关系型数据库、数据仓库或大数据存储平台(如Hadoop、Spark 等)来存储和管理海量金融数据。分布式文件系统是最常用的储存方式之一,其容量较大,应用对于硬件设备的要求并不高, 具有较强的灵活性和可调整性, 并且可根据用户自身实际需求对框架内容进行调整(方鹏, 2020)。此外,常用数据存储技术还有分布式缓存技术,在数据处理中被广泛应用。
数据处理的过程是,系统会预先设定分类标准和虚拟分类模型,然后对未分类处理的数据进行自动化的分类和处理,再根据不同数据之间一定的联系性将其有机结合,并在一定程度上从感性角度对数据进行情感分析处理。
(三)数据的提取及分析
数据提取指的是通过深度学习、自然语言处理以及机器学习等先进技术,构建复杂的模型和算法,实现对数据的自动识别、分类、抽取和分析。如反欺诈中,系统需要全面感知和理解大量的交易数据和客户信息,识别关键数据要素, 理解交易描述和客户背景,从而保证数据库中提取的数据具有较高的价值和利用率。
数据分析指的是对已经提取的金融数据进行分析,其中包含数据统计及分析、数据挖掘、数据建模等。对数据集中趋势、离散程度、相关性等进行统计分析,揭示金融数据的内在规律和趋势;时间序列分析可以帮助预测和解释金融数据的变动;回归分析可用于预测股票价格、利率变动等。
金融数据要素存在的问题
(一)金融数据要素存在的瓶颈
1.数据体系不完善
国内部分金融机构没有科学合理的数据管理体系与管理架构,导致存在“数据孤岛”“数据竖井”等问题,难以支撑业务敏捷迭代和规模化发展,限制了金融数据要素的有效利用和价值的充分发挥。
2.数据质量参差不齐
金融市场涉及大量数据,但数据质量往往难以保证。数据中的错误、遗漏或异常值可能直接影响分析结果的准确性,增加了数据整合和清洗的难度。
3.数据应用不充分
人工智能在金融领域的应用尚在探索阶段,技术和数据的应用不够充分,不能完全支持业务分析。金融机构缺乏高效的数据工具,线上化和自动化程度不足,数据标准、数据质量的闭环管理流程依赖人工,管理效率较低。
4.金融数据人才短缺
金融行业紧缺兼具金融业务理解和人工智能等科技能力的复合型人才。金融数据人才的短缺以及高成本一定程度上限制了金融数据要素的深度挖掘和应用创新。
(二)金融数据要素面临的风险
1.数据安全风险
金融数据如个人身份信息、交易数据等涉及大量隐私信息和敏感数据。数据泄露导致的安全事件会给金融机构带来重大损失。随着金融大发展与数据要素充分流动,数据安全防护能力需要同步提升。
2.支付安全与欺诈风险
电子支付已经成为现代社会不可或缺的部分,支付安全和欺诈风险伴随而来。金融机构需要加强金融产品和服务模式创新能力以及数据安全保障能力,以应对支付中的安全风险和欺诈行为,确保交易的真实性和安全性。
3.数据跨境流动边界风险
在金融全球化背景下, 数据跨境流动越发频繁。各国法规标准不同,导致数据跨境流动面临合规风险和隐私保护违规问题。在数据出境方面, 金融机构需关注国家和行业要求,以及进行相应的安全影响评估和防护能力评估,以避免法律风险和经济损失。
(三)金融数据要素面临的困难与挑战
1.有效获取高质量数据面临挑战
人工智能在金融场景的应用需要高质量的数据支撑。首先是数据的准确性。金融数据来源复杂,同时在获取数据的过程中存在收录错误以及数据本身不准确等问题,这直接影响到大模型的训练效果和预测准确性。其次是数据的完整性。不完整的数据导致预测结果失之偏颇,无法全面反映市场或客户的真实情况。最后是数据的时效性。快速变化的金融市场需要时刻获取动态的最新数据,有效增强整体的预测能力。
2.数据的一致性、稳定性维护要求高
金融机构数据处理方式存在差异,对数据精确度要求不同,导致数据在多次处理后会出现显著差异。在这种没有“标准答案”的环境下,金融数据的准确性也有所降低。数据的质量和一致性需要不断维护,以避免分析结果的偏差。随着业务需求不断演变,系统也需要不断更新和优化,以适应新的数据的实时处理和分析,对系统的响应速度和稳定性提出了更高的要求。
3.数据要素投入成本过大
数据的规模和复杂性不断增长,要求系统具备强大的计算能力和高效的数据处理算法。处理万亿级别tokens需要庞大的数据资源,以及高效利用这些资源。建立和维护这样的计算基础设施需要投入高昂的成本。此外,在数据处理分析过程中也需要大量投入,如数据标注与验证的语料处理环节,自动化标注准确度有限会导致手动标注成本高昂。
4.模型选择与应用成熟度问题
金融机构在选择模型时, 需要明确自身的业务需求和应用场景。不同的业务场景对模型的要求不同,如风险评估、客户画像、市场预测等,需要选择适合该场景的模型,还需要综合考虑模型的准确性、可解释性、投入成本等因素, 权衡模型的参数规模与成本效益。模型与应用深度融合过程中,有的金融机构也存在技术团队与业务团队之间的沟通不畅、技术方案与业务需求不匹配等问题,需要确保技术真正解决业务痛点,提升用户体验。
5 .高质量金融数据难以共享
不同金融机构掌握的高质量金融数据不尽相同,如果可以实现这些高质量金融数据的共享,国内金融市场的潜能可以在这种合作共赢的环境下进一步释放(高庆海、蔡张炀, 2022)。但是由于金融数据的特殊性,金融机构大多将其作为自己的敏感资源不外传。这种情况在小型金融机构中更加明显。
金融数据要素利用的相关建议
(一)推动金融业公共数据要素化基础设施建设
推动金融业公共数据要素化基础设施建设,包括存储、计算和网络等硬件设施,促进公共数据在金融业中的高效流通与利用。一方面,发挥好征信机构、金融行业协会等已有行业性机构的作用,统一开展公共数据向金融业输出的要素化工作;另一方面,尽可能与金融行业使用数据需求高的公共部门建立合作关系,减少多个金融机构面向单一公共数据源部门的“多对一”重复数据沟通合作问题,培育公共数据金融业要素化的数据生态(张嘉熙、隗樊,2023)。
(二)完善数据要素在金融领域发展的制度
依托金融业的数据密集型行业特点,结合大量实践应用数据要素和“数字中国” 发展相关内容,完善管理制度方面的短板,制订合理合规的金融安全领域的数据要素发展计划。建议金融行业在数据方面解决以下问题(赵启斌、李彪、张军等,2023):一是数据确权,即确定数据来源及权益的归属主体;二是数据标准,推动金融业务数据的标准化,建立有效的标准体系;三是数据流转,推进金融领域的数据流转,发挥存量数据的价值,促进金融数据成为活跃的资源,在合法合规的前提下, 充分发挥数据要素推动金融安全和发展的作用。
(三)金融机构要注重对数据安全风险的应对
国家相关部门陆续出台《金融数据安全 数据安全分级指南》(JR/T0197— 2020)、《银行保险机构数据安全管理办法》等,为金融机构的数据安全管理提供了重要参考。在此基础上,金融机构和金融科技公司可以对语料库数据进行分类和分级,制订数据处理环境安全保护实施方案(罗世杰,2024);制订应急计划,灵活地应对、处理和报告金融大模型应用下的金融数据处理安全突发事件;明确金融数据处理环境安全的专门负责人和管理职能部门,并对数据处理环境的安全稳定性进行监测和评估。
(四)完善金融数据治理的长效机制
相对于欧盟出台的《通用数据保护条例》《非个人数据自由流动条例》《数据治理法案》《数字市场法案》《数字服务法案》等制度规范和较为健全的组织架构,国家应该在建制立法、决策机制、管理体系和实施流程等重点领域进行优化(郑联盛、臧怡宏、李俊成,2024),明确治理主体、界定治理客体并建立相对清晰的治理标准体系。整个治理标准体系应适应数字化趋势,统筹标准化数据和非标准化数据,建立国家级统一金融数据标准体系,建设国家金融数据综合统计系统,加快建成国家统一金融基础数据库,明确界定数据权利,规范数据接口、数据处理、数据转移和数据应用等。
作者分别为清华大学人工智能国际治理研究院秘书长;杭州市萧山区之江智慧场景研究中心理事长、主任
Visits: 8