面对AI大模型更需要冷静和定力论文

2024-06-21 10:30:47 来源: 作者:zhoudanni
摘要:国内AI大模型的发展可以追溯到2018年底,当时浪潮公司发布了一款名叫“AI芯片”系统的AI训练加速器,并在2019年顺利完成了对AI芯片的量产,标志着国内AI大模型的开始。从当前的发展来看,国内AI大模型进展迅猛,在语音识别、自然语言理解、计算机视觉等领域,包括百度、阿里、华为、腾讯等国内大型互联网公司都先后推出了自己的AI大模型,并且已经成功在多个实际应用场景中得到了应用。由于AI技术给社会发展带来了颠覆性变革,可以预见AI大模型将会受到持续关注,国内公司会进一步加大大模型研究和应用的投入,尤其是应用
国内AI大模型的发展可以追溯到2018年底,当时浪潮公司发布了一款名叫“AI芯片”系统的AI训练加速器,并在2019年顺利完成了对AI芯片的量产,标志着国内AI大模型的开始。
从当前的发展来看,国内AI大模型进展迅猛,在语音识别、自然语言理解、计算机视觉等领域,包括百度、阿里、华为、腾讯等国内大型互联网公司都先后推出了自己的AI大模型,并且已经成功在多个实际应用场景中得到了应用。
由于AI技术给社会发展带来了颠覆性变革,可以预见AI大模型将会受到持续关注,国内公司会进一步加大大模型研究和应用的投入,尤其是应用于自然语言处理、机器翻译、智能客服、人机交互等领域,从而实现更精准、更智能、更高效的处理和响应。
当前国内主要的AI大模型
当前国内对于AI大模型的研发十分火爆,各大公司都不甘居于人后,纷纷加入赛道的竞争,现今在业内知名度较高的AI大模型主要有如下几个。
一是大华三神经网络语言模型(THUNLP)。大华三神经网络语言模型(THUNLP)是由清华大学NLP实验室于2019年开发的中文语言模型,基于BERT模型,经过超600小时的预训练,包含约1.7亿个参数。THUNLP的研发历史可以追溯到2004年,自这个实验室成立以来,团队一直致力于自然语言处理的研究,目前已经成为国内具有较大影响力的自然语言处理实验室之一。THUNLP是该实验室在自然语言处理领域的一次重要探索,它有以下特点。
首先,中文化。THUNLP在BERT模型的基础上,改善了分词、词性标注等中文特有的问题,提高了中文文本分析的效果。其次,对多语言友好。THUNLP不仅支持中文文本分析,还支持多种语言,如英语、阿拉伯语、法语、西班牙语等。最后,计算效率高。THUNLP的参数量虽然较小,但是它训练后的计算效率非常高,能快速响应用户输入的自然语言请求,实现快速和准确的语义理解。
THUNLP目前已经在多个领域得到了应用和推广。例如,它被应用于智能客服领域,用于回答用户提出的问题;在金融领域,它已经被应用于众多产品中,如智能顾问、智能客服等,可以进行资讯的自动抓取和语义解析等多个任务。此外,THUNLP还被广泛应用于搜索引擎、机器翻译、文本分类以及情感分析等领域,为各种应用场景提供了有力的支持。
二是讯飞开放平台AI模型(iFLYTEK)。讯飞开放平台AI模型(iFLYTEK)由中国科学院计算技术研究所和讯飞公司联合开发,基于深层神经网络技术,拥有约19亿参数。iFLYTEK模型在语音识别、机器翻译、自然语言理解等多个领域具有卓越表现。
讯飞开放平台AI模型是基于自然语言处理、机器学习、深度学习等技术研发而成的一种AI语音技术。iFLYTEK的研发历程可以追溯至2003年,现在已经成为国内领先的智能语音技术提供商之一。
iFLYTEK的自身特点在于其高准确性和高效能。它能与人类进行自然对话,具备很高的语义理解和语音合成能力。此外,iFLYTEK还具有较高的可定制性,可以适应多种语言和行业的诉求。
在应用方面,iFLYTEK被广泛应用于语音识别、语音合成、智能客服、智能家居、智能交通、智能金融等领域。通过与其他智能设备进行连接,iFLYTEK也可以实现更多的人机交互方式,颠覆传统界面和操作体验,提供更加智能便捷的服务。
三是快手AI模型(KS-NLP)。快手AI模型(KS-NLP)由快手公司开发,基于Transformer网络结构,拥有4亿参数。模型在自然语言推理、文本分类、情感分析等任务上表现优异,并支持多语种分析。
快手AI模型(KS-NLP)是基于自然语言处理和机器学习技术研发而成的一种AI语音技术,主要应用于快手用户产生的海量短视频内容的处理分析。因为快手视频的短小精悍,充满活力和创意,给模型的开发和应用带来了一定的挑战。
快手AI模型的研发始于2017年,先后推出了多个版本,升级改进了包括语音识别、语义理解、情感分析、关键词提取、短视频目标识别和视频推荐等领域的功能。快手AI模型的自身特点在于其高效、准确和实时性。它能够实时处理庞大的视频数据流,快速分析出视频的特点,根据用户的喜好进行视频推荐。
目前,快手AI模型已经广泛应用于短视频领域,包括视频内容的生成、智能推荐和智能审核等方面。通过分析用户的行为、趋势和兴趣,快手AI模型可以自动推荐最适合用户的视频内容,帮助用户发现有趣的内容。此外,在视频审核方面,快手AI模型能够快速高效地识别和过滤不良内容,保障用户的安全使用环境。
四是华为Cloud EI服务模型(HUAWEI Cloud EI)。Cloud EI是由华为公司开发的,它基于神经机器翻译技术,拥有5 000万参数。该模型在自然语言翻译任务上表现出色,支持中、英、日、法、德、意等多语种翻译。
华为Cloud EI是华为云平台上集成了自然语言处理、计算机视觉、机器学习等多种技术的深度学习AI模型。华为Cloud EI的研发源于华为在人工智能领域多年的经验积累,旨在为用户提供更加高效、智能和定制化的服务。
华为Cloud EI的自身特点包括高效、准确和易用。它基于华为的Ascend AI芯片,拥有强大的计算性能和高速的数据传输能力,可以在短时间内快速高效地处理和分析海量数据。此外,华为Cloud EI还具备可定制性和扩展性,可以根据不同行业和客户需求进行个性化配置和定制开发。
当前,华为Cloud EI已经应用于多个领域,包括智能客服、智能安防、医疗健康、智能制造、智能零售等。其中,针对智能制造领域,华为Cloud EI可以进行工艺优化、品质控制和智能诊断等功能的应用,大幅提升产品质量和生产效率。在智能安防领域,华为Cloud EI能够实现人脸识别、车辆识别、目标追踪等功能,从而提升人员管理和安全监控的效率。
五是百度文心一言。文心一言是百度公司于2023年推出的自然语言处理产品,主要功能是提供语言情感分析服务,能够快速准确地分析文本情感,并给出相应的情感标签以及对应的情感倾向程度。文心一言的研发背后有深厚的人工智能技术积累,百度多年来曾推出多个优秀的自然语言处理技术,如百度汉语、百度百科问答等。
文心一言的特点有如下几方面。
第一,宽泛可用。文心一言支持中、英、韩、日、俄等多种语言的情感分析,可以适用于多语言场景。第二,高精度。文心一言采用了深层神经网络与机器学习算法,精度非常高,尤其擅长于中文语言的情感分析。第三,大数据支撑。文心一言对百度搜索以及用户评论等大规模语料进行了训练和实践,实现了快速高效的情感分析。目前文心一言主要应用于以下领域。首先,社交媒体。文心一言可以对社交媒体上的用户评论、留言等进行情感分析,此外还可针对具体品牌或事件进行分析,更好地评估品牌的声誉和剩余情感。其次,舆情监测和分析。文心一言可帮助了解公众对特定事件或政策的态度和情感倾向。最后,智能客服。文心一言可用于电商等领域的客服场景,精准识别用户需求,辅助人工客服提供快捷的服务。总之,百度文心一言在自然语言处理领域的情感分析有着很大的应用潜力,可以帮助实现更智能化、高效的信息分析和处理。
AI科技的泡沫化隐忧
当前人们对于AI技术无疑是狂热的,对此国内外不少人士表达了他们的担忧:很多人可能是“忘掉了过去科技泡沫带来的痛”。
众所周知,大模型的训练是一个成本极高的过程,需要大量的算力和资金支持。以OpenAI为例,GPT-3的单次训练成本就高达140万美元,对于一些更大的大模型,训练成本介于200万~1 200万美元之间。用知名计算机专家吴军的话来形容,每当ChatGPT训练一次,就相当于报废了3 000辆特斯拉汽车。
这个数字告诉人们,要想打造有竞争力的大模型,不下血本是不行的。某些体量、资金不足,却仍旧叫嚣着要“对标ChatGPT”的企业,其本身的实力,难免让人产生怀疑。例如某个在发布大模型后,自身股价暴涨3倍的国内公司,其账上的货币资金只有13亿元。然而,以ChatGPT的训练成本为例,要想使背后的智能算力集群,仅GPU显卡采购成本就超过了10亿元。国内目前能够支撑起类似基础设施的企业不超过3家。
也正因如此,在这场表面热闹的大模型竞赛中,注定有一大票公司,都只是打着大模型的名号,来实现自身利益的“陪跑者”罢了。
不过纵观人类的科技发展史,都是由泡沫中的幸存者来推动的。即使人类本身,也是物种大爆发这场生物泡沫的幸运儿。如果泡沫无法避免,从业者真正需要的是面对泡沫时的冷静和定力。
国产大模型能否达到或超越GPT这类先进模型的水平,有两个较为主要的因素:一是在数据集的获取上,如何能不断积累足够多且高质量的数据集;二是在炼制大模型的“工艺”上,如何不断探索和突破,找到新的理论和方法。
目前,在大模型的训练上,用来训练的主流数据集以英文为主,中文数据只占4.8%。之前清华计算机系教授唐杰,在对千亿模型ChatGLM-130B训练前数据准备时,就曾面临过清洗中文数据后,可用量不到2TB的情况。这就是国内所有做大模型的团队不得不面对的惨烈现状。
为解决这个问题,许多国内团队,都开始通过“众志成城”的方式,开源自身的中文数据集,从而希望弥补高质量中文数据集的不足。但是,这种通过各个团队“自觉”开源的方式,仍然存在着一定的局限性,那就是,由于数据的敏感性、隐私性和所有权等问题,很多行业和领域的数据并不容易获得或共享。
国内数据大量储存于移动端App中,于训练大模型而言比较难于抓取。同时国内互联网巨头之间的数据相互封闭,数据孤岛化情况严重。例如百度的内容生态数据、腾讯的公众号数据、阿里的电商和物流数据等,这些都属于各大企业的私有数据。虽然这些企业都在各自的行业和场景,积累了外人所不能及的优势,但由于其所有权和隐私性的问题,导致很难与外界进行共享。而这些不容易获取的数据,往往无法依赖各团队的“自愿”和“主动”进行开源。
针对这一问题,走在前列的美国AI产业,早已通过更成熟的数据共享平台、数据交易市场、数据信托等机制,促进了数据的流通和价值发现。具体来说,在这些数据交易平台中,第三方数据拥有者可以将原始数据挂到数据交易市场上公开出售,数据需求方按照约定价格购买后,可以在数据交易平台上获得离线的数据包或者实时API。若最终成功交易,平台收取一定佣金后返还销售收入给第三方数据拥有者。该类型数据交易平台的代表有RapidAPI、Streamr等。
与之相比,国内大数据交易仍处于起步阶段,数据交易主要以单纯的原始数据“粗加工”交易为主。且数据供需不对称,使得数据交易难以满足社会有效需求,数据成交率和成交额不高。此外,在数据交易过程中,国内市场也缺乏全国统一的规范体系和必要的法律保障,无法有效破解数据定价、数据确权等难题。
从长远来看,国内大模型要想在数据的数量、质量上进一步得到提升,就不能单单只靠部分团队“自愿”和“主动”的开源,而要在法律、市场机制等方面,做出更多与时俱进的改革,如此方能促进各个行业间数据的广泛共享。
除了数据集的数量、质量外,另一个决定大模型能力强弱的关键因素,就是炼制大模型的“工艺”。有专家表示:与国际同行相比,模型、数据和算力并不是中国最大的劣势,真正的短板在于对大模型“炼制”工艺的掌握,包括数据配方、数据清洗和参数设置等等。
现在有些国内大模型,动辄就对外号称“百亿”“千亿”规模,仿佛参数量越大,模型性能就越强。然而,空有庞大的规模,却缺乏先进的“工艺”,这就像一个脑容量颇大,但却掌握不到学习要领的学生,难以在学习能力上进一步“精进”。
具体来说,如果将炼制大模型的过程,类比成一座工厂中的流水线,那么数据配方就像在开始生产之前选择原材料一样,需要选择不同的数据集,确定不同领域、不同类型、不同模态数据的配比。而数据清洗就像对原材料的加工一样,对原始语料进行去噪、去重、过滤、规范化等操作,提取有用的信息;参数设置就像生产过程中的调整和优化一样,通过选择合适的超参数,如学习率、批次大小等,以达到最佳的效果。
虽然上述的每一个具体步骤,国内其实都知道怎么做,但是将它们整合在一起,总体效果和国外是存在差距的。这虽然不是0和1的区别,但却是50分和100分的区别。
所以,大模型的研制与开发,终归是一个易学难精的过程。而要想进一步提升这样的工艺,就必须在人工智能的基础理论、工程实践以及创新思维上不断积累,从而实现在关键环节上的突破和领先。
可问题是,这些反复试错、探索的过程,往往是一个需要消耗大量时间、资源,且并没有实际产出与盈利的过程。即便是创造了ChatGPT的OpenAI,目前也处于严重亏损的状态,其2022年的亏损已达5.4亿美元。这对于国内许多急功近利的企业而言,无疑是一个重大的考验。因为国内巨头们对技术性风口的追逐和热爱既不坚定也缺乏耐心。比如在全民造芯运动中,在2017年,资本对半导体的狂热达到了一个顶端,创下了至今的融资最高历史记录,单笔平均融资达到8亿元。然而,一旦察觉某类技术的研发,是一场漫长且难见收益的过程,某些企业的“浮躁”与“摇摆”就会逐渐显现。
由此可见,国内外大模型的竞争,表面上看是数据集多寡、质量高低的竞争,稍微深入来看,是大模型工艺的比拼。而再深入到底层,就变成了不同的商业文化,乃至生态的综合竞争了。
