梁 正
内容提要:
本文节选自“现代化新征程丛书”(第二辑)中的《前沿人工智能:发展与治理》一书。以ChatGPT、Sora等为代表的新一代人工智能横空出世,既展现出广阔的应用前景, 也带来了潜在风险和挑战。本文从数据要素发展现状、算力要素发展现状、算法与模型发展现状等方面重点阐述了前沿人工智能的发展现状。
数据、算力、算法作为人工智能的三大基本要素,相互依存、相互支撑,共同促进人工智能快速发展。本节将从三大要素层面梳理前沿人工智能的发展现状。
数据要素发展现状
数据产量高速增长,数据要素市场潜力巨大。目前, 全球超大规模数据中心有一半位于中国和美国。根据2024年全国数据工作会议报告,经初步测算,2023年我国数据生产总量预计超过32ZB。根据Statista统计和预测,2025年全球数据量将达到174ZB,中国整体数据量将达到48.6ZB,占全球数据规模的27.9%,将超过美国成为世界最大数据生产国;2035年,全球数据量将达到2142ZB。为了支撑海量数据要素的流通和交易,我国组建国家数据局,协调推进数据基础制度建设、数据资源整合共享和开发利用等工作,并加快构建全国一体化算力网络、数据中心规模、云计算服务能力、5G基站数量等数据流通利用基础设施,大部分省份配套设立数据发展促进中心,组建数据集团。国家数据局党组书记、局长刘烈宏表示,截至2023年底,八大枢纽节点数据中心机架总规模超过105万标准机架,平均上架率达到61.9%,较2022年提升3.9个百分点。
数据成为新型生产要素, 数据驱动数字经济稳步发展。数据要素中可提炼出信息、知识、智慧,因此被看作新一代信息技术下的新的生产资源, 被广泛应用于金融、物联网、零售、医疗健康、航空航天等各领域,已快速融入生产、分配、流通、消费和社会服务管理等各环节,成为产业智能化升级、社会生产生活方式变革的重要力量及经济发展新动能。麦肯锡预测,数据流动量每增加10%,就将带动GDP增长0.2%。按照到2025年全球数据总量预计达174ZB计算, 对经济增长的贡献有望达到11万亿美元。作为数字化的知识和信息,数据要素与数字经济发展密不可分。整体来看,数字经济重地主要是美洲、亚洲和欧洲。2022年, 美国、中国、德国、日本、韩国这5个世界主要国家的数字经济总量为31万亿美元,数字经济占GDP的比重为58%, 较2016年提升约11%;数字经济规模同比增长7. 6%,高于GDP增速5.4个百分点。2022 年,中国数字经济规模达到50.2万亿元,同比名义增长10.3%,已连续11年显著高于同期GDP名义增速,数字经济占GDP的比重相当于第二产业占国民经济的比重,达到41.5%。
数据质量影响人工智能应用性能,高质量的数据有助于提高人工智能决策的解释性和透明度。数据在人工智能中扮演着至关重要的角色,主要应用体现在以下几方面。一是机器学习,数据可以用于机器学习算法的训练和优化,使人工智能系统能够从中学习并改进其性能,通过大量数据的训练,机器学习模型可以自动发现数据中的模式,并据此进行预测或决策。二是自然语言处理,数据为自然语言处理提供了丰富的语料库,用于训练模型以提高机器对语言的理解和生成能力,这使得机器能够更准确地解析人类语言,实现智能对话、文本分类、情感分析等功能。三是图像识别,大量的图像数据可以用于训练图像识别模型,使其能够识别出各种物体、场景和特征,这对于自动驾驶、安防监控、医疗影像分析等领域具有重要意义。四是推荐系统,数据在推荐系统中发挥着至关重要的作用。通过对用户行为数据的收集和分析,推荐系统能够了解用户的兴趣和偏好,从而为用户推荐个性化的内容或产品。五是智能决策,在诸多领域,如金融、医疗、制造等, 数据可以帮助人工智能系统进行智能决策。通过对大量数据的分析,系统可以发现潜在的风险和机会,为决策者提供有力支持。
与此同时,数据要素的发展仍面临以下问题。
一方面,数据瓶颈问题掣肘人工智能发展,高质量中文数据产业化程度不足。据人工智能研究机构epoch的研究预测,语言数据可能在2030年至2040年耗尽,其中能训练出更优性能的高质量语言数据甚至可能在2026年耗尽。全球数据存量的增长速度远不及数据集规模的增长速度,数据要素面临有效数据不足的发展瓶颈。另有研究显示,1900—2015 年,收录于SCI的3000多万篇文章中,92.5%的文章是以英文发表的;SSCI出版的400多万篇文章中,93%的文章是用英文发表的。在ChatGPT的训练数据中,中文语料比重不足千分之一,英文语料占比超过92.6%。这一现象反映出优质中文语料的缺失,加之高质量中文数据产业化程度不足、大数据服务盈利前景不佳、标准化的数据服务商缺乏、定制化数据服务价格高昂等因素, “让AI学会说好中文成为一件难事”。
另一方面,数据开放流通程度与驱动价值有待提高,数据要素高水平应用仍面临多重治理挑战。目前,数据采集面临碎片化、非标化困境,海量数据存储面临成本高等问题。由于数据权属关系难以界定、数据要素收益分配机制和数据交易尚不规范、缺乏统一数据标准规范和数据交换共享平台等因素,数据开放、流通、共享受限,部分领域封闭式的数据生态进一步加剧了“数据孤岛”现象,难以实现有效整合流通和深度挖掘,数据分析应用程度不足,未发挥数据深层次分析优化的驱动价值。此外,数据的广泛应用也引起了新的治理难题,如何管理规模庞大的数据要素市场、制定符合当下需求的数据要素治理规则、确保数据的代表性以避免偏见和歧视、解决数据安全与隐私保护问题等已然成为全球面临的新挑战。
算力要素发展现状
全球算力产业快速发展且竞争加剧,我国算力产业进入增长新周期。中国信息通信研究院发布的《2023年中国算力发展指数白皮书》显示, 美国、中国、欧洲、日本在全球算力规模中的份额分别为34%、33%、17%、4%。其中,美国和中国以35%、27% 的全球基础算力份额分列前两位。算力成为各国抢占发展主导权的重要手段,全球主要国家和地区纷纷加快战略布局进程。算力规模持续增长,并开始向制造、金融和电信等传统行业及政府部门渗透。工信部数据显示,截至2023年6月底,全国在用数据中心机架总规模超过760万标准机架, 算力总规模达到197EFLOPS (EFLOPS是指每秒百亿亿次浮点运算次数),位居全球第二。算力总规模近5年年均增速近30%,存力总规模超过1080EB。
算力发展推动经济数字化转型,我国多措并举推动算力“质”“量”提升。算力发展与全国一体化算力网建设已成为数字经济发展的重要支柱,对推动我国经济向数字化转型发挥着关键作用。正如中国工程院院士高文提出的,算力就是生产力,有算力就会有GDP,算力网就是要把算力像电力一样送到需要的地方。随着大数据、云计算、人工智能等技术的快速发展,我国的算力需求不断增长,尤其是生成式人工智能的出现和兴起给底层算力带来了新的挑战,与传统的判断式人工智能不同, 生成式人工智能不再依赖于人工,而是具备了学习知识、处理知识和循环迭代的能力,这带来了更高功耗和密度的算力需求。为推动算力行业高质量发展,我国政府多措并举,正式启动“东数西算”工程,完善东西部算力协同调度机制、构建全国一体化算力网、适度超前建设算力信息设施、统筹建设算力节点。
算力基础设施市场长足发展,我国算力整体布局持续优化。算力基础设施是算力的主要载体。我国在全国各个算力枢纽节点建设方面取得了显著进展。通过整合和优化全国范围内的算力资源,加速构建普惠易用、绿色安全的综合算力基础设施体系,以实现算力资源的多元集聚和协同调度,初步建构了梯次优化的算力供给体系,算力基础设施的综合能力显著提升,推动算力产业持续创新发展并赋能各行各业。工业和信息化部的数据显示,截至2023年6月底,全国在用数据中心机架总规模超过760万标准机架,算力总规模达到197EFLOPS,算力总规模近5年年均增速近30%,存力总规模超过1080EB。为持续优化算力整体布局,2023年10 月印发的《算力基础设施高质量发展行动计划》提出, 到2025年,算力规模将超过300EFLOPS,智能算力占比达到3 5 %,从计算力、运载力、存储力、应用赋能4个方面明确了2025年发展量化指标。这一系列举措有助于支持各行各业的数字化转型,推动我国数字经济快速发展,算力融合应用加速涌现。
通用算力相对充足,智能算力供给不足成为我国“算力荒”主要矛盾。我国的算力需求主要分为通用算力、智能算力和超算算力三种类型。当前,通用算力相对充足,而智能算力的供给不足成为“算力荒”的主要方面。研究机构数据显示,随着大模型训练需求的不断增长,智能算力的增长速度将远超通用算力,预计到2027年全球智能算力规模将达到1117.4EFLOPS,相当于2023年中国414.1EFLOPS 的2.7倍、2020年的15倍。算力作为大模型落地比较高的门槛,我国已在国家层面统筹部署算力网、算力中心等建设。2024年《政府工作报告》明确提出,适度超前建设数字基础设施,加快形成全国一体化算力体系,培育算力产业生态。
算力供给紧张、资源分散且利用效率不高,我国算力高质量发展仍面临挑战。一方面,我国算力核心技术创新不足,算力设施的国产化比例低,芯片、光刻机、存储器等算力核心器件几乎完全依赖进口,英伟达GPU几乎占据了全球接近80%的市场。尽管国产高端GPU发展势头迅猛,但市场认可度不高,芯片算力利用效率与先进水平相比还存在差距,且算力产业生态体系基础薄弱,大范围推广使用面临较高的迁移成本,在公平规范的算力市场、分布式算力的集约化应用等方面还需探索全体系协同、多路径互补的发展路径。另一方面,算力应用的广度和深度仍需提升,垂直行业的算力需求匹配度依然不足, 还存在标准不足、数据共享不够、资源接口不统一等壁垒, 算力应用赋能程度不足。中国信息通信研究院院长余晓晖提出,要强化顶层设计、加快标准建设、攻关核心技术、构建算力市场以及推动算力服务, 统合形成标准化可调度的算力服务、实现全国资源优化配置和算力高效服务、构建全国一体化智算平台,要发挥“集中力量办大事”的制度优势、加强绿色算力战略研究、推动算力互联与协同计算。
算法与模型发展现状
算法作为人工智能产业发展的核心要素之一,指的是强制给定的有限、抽象、有效、复合的控制结构,在一定的规则下实现特定的目的,具有神经网络、卷积神经网络、机器学习、深度学习等多种表现形态。对计算机来说,算法就是处理信息的原理与遵循。理想状态下,算法能够将人的思维过程以形式化的方式输入计算机,使其可以不停地执行命令从而实现所设定的目标。2022 年11月30日,以ChatGPT为代表的AI大模型作为算法“作品”的新兴形态火爆出圈,推动算法走向AI大模型时代。ChatGPT发布仅一周就已拥有超过100万用户,在推出仅两个月后的2023年1月末,其月活用户已经突破1亿。作为史上用户增长速度最快的消费级应用程序,ChatGPT已然成为火爆全球的一款现象级产品。
Transformer架构开启算法模型快速发展时代,多模态通用AI大模型成为发展趋势。2017年,谷歌颠覆性地提出了基于自注意力机制的神经网络结构——T r ansformer 架构,奠定了大模型预训练算法架构的基础。2018年, O p e n A I和Go o g le分别发布的GPT-1与BERT大模型, 意味着预训练大模型成为自然语言处理领域的主流。以Transformer为代表的全新神经网络架构,奠定了大模型的算法架构基础,开启了大模型发展的新纪元,经历了单语言预训练模型、多语言预训练模型及多模态预训练模型发展,多模态通用AI大模型成为发展主流趋势。
我国AI大模型数量及研制主体数量可观,为市场增长提供发展新动力。2023年5月,科技部新一代人工智能发展研究中心发布的《中国人工智能大模型地图研究报告》显示,在全球已发布的认知大模型中, 美国和中国占比超80%,中国研发的大模型数量排名全球第二,且有超过半数的大模型实现开源。国家数据局局长刘烈宏在中国发展高层论坛2024年年会上透露,截至2024年3月25 日,我国10亿参数规模以上的大模型数量超过100个,大型科技公司、科研院所和初创科技团队成为大模型研发主力军。相关数据显示,截至2023年底,我国人工智能核心产业规模接近5800亿元,已经形成了京津冀、长三角、珠三角三大集聚发展区,核心企业数量超过4400家,居全球第二位。2024年4月2日,国家互联网信息办公室发布的《生成式人工智能服务已备案信息》公告显示,截至2024年3月,我国已有117个大模型成功备案。AI大模型从专用AI作坊走向通用AI规模化工业化生产,在垂直应用领域不断深化落地,为市场增长提供发展新动力。
多而不强,我国算法大模型发展面临多重挑战。近年来,我国出台了《新一代人工智能发展规划》《关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见》等一系列政策文件以支持算法模型的发展。2024年《政府工作报告》中明确提出开展“人工智能+”行动,旨在深化人工智能在各产业领域落地应用并加速形成新质生产力。我国AI大模型发展还面临着算法模型训练依赖国外高性能AI芯片、国内算力资源相对有限、高质量且多源的中文训练数据集稀缺、算法研发的复合型人才缺失、数据安全与隐私保护不完善、公平性和可解释性不足、大模型应用场景开放不足等发展挑战。
Visits: 28