发展新质生产力背景下如何看待大模型创新中的算力问题

0

杜 创

内容提要: 

科技创新是发展新质生产力的核心要素。如何加强科技创新特别是原创性、颠覆性科技创新至关重要。本文以大模型创新为例,分析了发展新质生产力背景下算力对于相关企业的影响程度。文章认为,就技术创新本身而言,大企业与小企业各有千秋。大模型时代,真正有原创力的小企业仍然大有可为。

科技创新能够催生新产业、新模式、新动能,是发展新质生产力的核心要素。如何加强科技创新特别是原创性、颠覆性科技创新?当前方兴未艾的大模型创新或能给我们启示。

2024 年3 月11 日,位于广东韶关的华南数谷智算中心正式运营。 图/ 中新社

2022年以来,ChatGPT和SORA(文生视频)等生成式人工智能相继取得重大突破。这些模型涉及千亿级参数, 训练数据更包括几乎全部互联网上的资源及大量线下文本、图像、视频,对算力要求提高了数个量级,于是出现一种说法——大模型只是“大力出奇迹”,没有什么实质性创新, 今后没有小企业什么事了,创新只能出现在极少数掌握算力的大企业。最近美国股市的表现似乎也印证了这一点,3月5 日,美国图像芯片制造商英伟达(NVDA.US)市值达到2.13万亿美元,超越沙特阿拉伯国家石油公司(沙特阿美),成为全球第三大市值上市公司。

从底层逻辑分析,算力当然很重要,尤其在生成式人工智能技术取得重大突破之后, 对于后来的赶超者而言,尤其对于中国迅速跟进的上百家大模型企业而言,算力是主要的瓶颈。然而,回顾本轮大模型创新的路径,会发现事实不全如此。算力一直在那里等待, 等待算法上的重大创新。认为大模型只是“大力出奇迹”, 其实是一种“迷思”。 

大模型创新中的两个关键技术点

大模型的代表GPT,全称为Generative Pre-training Transformer,即生成式预训练转换器。作为一项颠覆式技术创新,大模型发展中有两个关键技术点。

一是Transformer架构及其底层逻辑——注意力机制。Transformer的核心是自注意力机制(Self-Attention)。所谓自注意力机制,简单来说就是在一句话中要分析每个单词(或汉字)与上下文的相关性。根据相关性统计可以预测最佳的翻译对应词或下一个单词出现的概率。2015年前后, 深度学习专家已经注意到了在卷积模型CNN中引入注意力机制,可以提高预测精准度。2017年,谷歌的8位专家合作发表划时代文章“Attention Is All Your Need”,表明神经网络模型加上自注意力机制就足够了,不需要CNN或LSTM就可以胜任语言翻译任务(例如英译德或德译英)。这篇文章的重要性在一段时间内并没有得到重要关注,例如没有获得当年的最佳会议论文奖;甚至是作者所属机构谷歌也错过了基于这篇文章引领时代的机会。

二是生成式自监督训练。深度学习模型中比较常见的模型训练方式是监督学习和无监督学习。监督学习需要人力加入标签,例如手写数字识别的数万条手写数据,需要首先由人工一一识别,写下答案, 以供模型训练。传统的无监督学习算法不需要加入标签,但是适用的任务是有限的,例如图片分类。监督学习需要耗费大量人力。对于海量互联网数据,全部由人工加标签从成本角度看是不可能实现的。然而文本生成模型的训练样本确实是有标签的,实际上是介于监督学习与无监督学习之间的一种“自监督模型”。例如训练数据中可能包括一句话 “猫咪饿了,在屋里走来走去”, 这句话本身是有隐藏的标签的,即11个字出现的顺序和上下文,是语言分布的一种体现,因此和传统的无监督学习不同;然而这个标签是语句(顺序)内在生成的,并不需要人工去标注,因此和传统的监督学习也有所不同。

2023 年8 月19 日, 2023 中国算力大会在宁夏银川开幕。图为参展商在算力中国创新成果展上观看AI 主播直播带货。 图/ 中新社

将Transformer框架和生成式自监督训练结合起来即GPT,当然近年来GPT本身也经历了数轮迭代,其中细节这里不作赘述。

经济学视角看大模型创新路径的特征

新一代人工智能是算法、算力与数据三者的结合。然而对于大模型这样的颠覆性技术,算法是最核心的。从经济学角度审视大模型创新路径, 我们可以总结几个特征。

第一,大模型诞生是组合创新的结果。如前所述,大模型创新来自于两个关键技术点——Transformer架构和生成式自监督预训练的组合。若只有Transformer,没有生成式预训练思路,这样的深度学习模型虽然可以用在机器翻译等任务上,但无法以自监督方式训练海量数据,生成文本、视频。这是最早提出Transformer 架构的谷歌被OpenAI超越的原因。我们还可以发现, Transformer架构本身经历了一步步的发展,生成式自监督预训练思路也是源自语言学中早已有之的语言分布模型,看起来都是一点点积累的渐变式创新,二者组合到一起却产生了颠覆式的效果。

第二,大模型创新的本质首先是降低成本的流程创新。产业组织经济学中将创新分为流程创新和产品创新。所谓流程创新,即对于既定产品降低了单位生产成本的创新;所谓产品创新,即推出新产品。大模型创新既有流程创新,也有产品创新,然而其本质首先是流程创新。参数和数据量暴涨的前提是训练成本降下来, 这当然和GPU的提升有关, 但泛泛这样说还不够准确。因为在人工标注的监督学习之下降成本难以实现,只有在算法上首先转向自监督模式才有可能。

第三,大模型的流程创新引致了产品创新。在通过各种方式降低训练成本之后,大模型将新一代人工智能从判别式智能拓展到生成式智能,可以生成文本、图像、视频等, 这样的产品形态在以前是不可想象的。生成式人工智能引发的产品创新将深度改变产业格局。如何以崭新的商业模式推出可持久盈利的爆款产品,也是后续考验想象力、考验商业生态的地方。

大模型创新的经济启示

回到本文开始提出的问题: 大模型只是“大力出奇迹”?大模型时代算力垄断,导致小企业在创新中彻底出局?这个问题要分几个层面来谈。

第一个层面,对于海量小企业来说,在应用层面的创新仍然大有可为。大模型是预训练的, 在经过微调(fine-tuning)之后可以适应于特殊的任务。因此,只要有OpenAI等创新巨头的API端口,小成本接入之后就可以实现很多落地的“微创新”。当然,这里只有正常利润。一般不可能持久站在超额利润风口,因为一旦有这样的风口, 大模型巨头自己就可能下场来做。

第二个层面,对于大企业来说,如果只是借助OpenAI、Meta Platform等大模型巨头的开源文件,做看起来“独立”但本质上只是“复制式创新”的大模型,那确实拼的是算力。

第三个层面,对于真正原创性、颠覆性创新而言,“卡脖子”的不是显卡,而是原创性想法。前面梳理的大模型创新历程本身就说明了这一点。在大模型发展中,互联网巨头Google痛失先机;OpenAI则从小企业起家,最终成为行业颠覆者。可能有人提到微软投资在OpenAI发展中的作用, 这当然重要,然而不能倒置因果关系——是OpenAI有核心竞争力才吸引了微软投资,而不是反过来。

综合来看,给定技术现状,当然是大企业有规模优势;然而就技术创新本身而言,大企业与小企业各有千秋。大模型时代,真正有原创力的小企业仍然大有可为。

作者单位:中国社会科学院经济研究所

评论被关闭。