Meta发布Llama 3,再次重回领先位置

Ai芯天下
关注

前言:

Meta在近日正式发布 Llama 3,官方号称[有史以来最强大的开源大模型]。

作者 | 方文三

图片来源 |  网 络 

8B参数碾压级别的性能优势

当地时间4月18日,Meta公司宣布推出两款开源模型——Llama 3 8B与Llama 3 70B,供外部开发者免费使用。

这两款模型预计很快将在主流云供应商平台上架。据Meta公司介绍,Llama 3 8B与Llama 3 70B在同类模型中表现出卓越的性能优势。

Llama 3的显著特点与优势如下:

*基于超过15T token的数据集进行训练,其规模远超Llama 2数据集的7倍;

*训练效率相较于Llama 2提升了3倍;

*支持处理长达8K的文本内容,其改进的tokenizer具备128K token的词汇量,从而实现了更出色的性能;

*在众多关键基准测试中展现出领先的性能表现;

在Llama 3的研发过程中有四大核心理念:模型架构的创新、预训练数据的选择、预训练过程的扩展,以及对模型进行指令微调的精细打磨。

为了高效训练Llama 3模型,Meta公司采用了数据并行、模型并行和流水线并行三种并行化技术。

当在16K个GPU上并行训练时,最高效的实现方式能够使每个GPU的计算利用率超过400 TFLOPS。

Meta已经将Meta的最新模型集成到 Meta AI 中,Meta认为这是世界上领先的AI助手。它现在采用 Llama 3 技术构建,并且可以在Meta应用的更多国家中使用。

可以在 Facebook、Instagram、WhatsApp 和 Messenger 上使用 Meta AI 来完成任务。

也可以在 Facebook、Instagram、WhatsApp 和 Messenger 中搜索。

领先其他开源模型但优势不大

Google开发出了一款拥有70亿参数的开源模型Gemma,该模型经过训练,已“阅读”过6万亿个Token(即6万亿个词汇)的文本数据。

微软投资的Mistral模型,拥有73亿参数,其训练数据量更是高达8万亿个Token。

尽管在当前行业中,使用如此大规模的数据来训练参数规模不到100亿的模型已属罕见,但从性价比角度考虑,对于如此庞大的模型,仅需要约2000亿个Token的文本数据进行训练就已足够。

在中国,一些一线创业公司的同等规模的大型模型,其训练数据量通常在1万亿至2万亿个Token之间。

相比之下,Llama 3系列的大型模型,尽管只有80亿参数,但其训练数据量却高达15万亿个Token,这不仅是Google模型的两倍,更是许多小公司产品所使用的训练数据量的十倍。

Llama 3 8B的成绩在九项测试中领先同行。但Mistral 7B(2023年9月发布)和Gemma 7B已经不算最前沿的开源模型。并且在引用的一些基准测试里,Llama 3 8B的得分,还只比这两位高一点点。

在MMLU、HumanEval和GSM-8K上,Llama 3 70B击败了Gemini 1.5 Pro。尽管无法与Anthropic性能最强的模型 Claude 3 Opus媲美,但 Llama 3 70B的性能,已经优于Claude 3系列的中杯模型Sonnet。

在Meta组织的人类反馈评分中,Llama 3 70B打败了Mistral、OpenAI、Claude发布的对应产品。

小模型竞赛正在巨头之间展开

自OpenAI通过GPT-3.5和GPT-4等大型模型证明了其实力后,许多公司都在加速追赶,并同时研究如何以更低的成本利用这些大型模型。

与传统的软件应用不同,大型模型不仅在开发阶段需要大量的资金投入,而且在运行阶段(即推理阶段)也会消耗大量的计算资源。 

例如,为了处理用户输入的问题,大型模型基本上需要逐个处理文本中的每个字,这意味着处理一个包含100个字的问题,就需要运行100次大型模型。

英伟达将大型模型视为推动GPU销量增长的重要因素,但对于那些希望通过大型模型改造业务、创造新商业机会的公司来说,大型模型的运营成本却成为了一个沉重的负担。

例如,当Meta发布Llama 3时,他们宣布将其整合到每天有数十亿人使用的Instagram、Facebook等产品中。

然而,如果使用参数规模较大的模型,其推理成本将变得无法承受。

为了降低运营成本,最直接的方法就是训练参数规模更小的模型,以便用户的手机、电脑等设备可以直接在本地运行,从而减轻平台的压力。因此,如何让更小的模型达到更好的效果,已经成为了大型模型公司之间的竞争焦点。

在过去的一年中,Google每次发布新的大型模型时,都会同时推出参数规模较小的模型。

Meta在训练Llama 3时采取了一种与众不同的方法,但这种方法却最适合他们的需求。

为了应对与TikTok的竞争,Meta在2022年采购了大量的H100芯片,用于训练更强大的内容推荐模型,从而为其在算力方面奠定优势。

开源大模型已成为众多公司竞争的关键

2023年7月,Meta宣布将LLMs引入更广泛的商业领域,以扩大其应用场景。

在新一代的Llama 2模型中,Meta显著扩大了上下文窗口,并大幅度提升了参数规模和训练数据量。

同时,该模型还针对聊天场景进行了优化,这些改进共同为免费且可用于商业的创业和企业应用提供了可能性。

随着第三代开源模型产品的推出,Meta致力于开发一款超越GPT的开源且高效的类GPT产品。

Meta的Llama 3,这一产品继续沿用了Meta一贯坚持的开源策略。

除了Meta的Llama 3外,谷歌的Gemma、马斯克旗下的xAI、Mistral AI和StabilityAI等产品也在开源模型市场占据了一席之地。

几个月前,谷歌在2月21日推出了全新的开源模型系列Gemma。相较于Gemini,Gemma更加轻量级,可视为技术的下放。

同时,Gemma保持免费可用,模型权重也开源并允许商业使用。此外,还能在笔记本电脑、台式机、物联网、移动设备和云端等多个主流设备上运行。

对于始终追求技术潮流的马斯克,他同样没有忽视开源的机遇。

xAI推出的开源模型专注于实现高效的机器学习算法。

其大模型致力于提供更快速、节能的AI解决方案,以满足不断增长的计算需求和环境友好性的挑战。

在应用方面,xAI还致力于通过优化算法和模型设计来降低大型语言模型的训练成本,从而推动更广泛的研究和应用。

同样致力于创建对话式人工智能模型的Mistral AI,其开源模型主要关注自然语言处理(NLP)任务,如文本生成、情感分析和语言理解。

Mistral AI提供的模型强调多语言支持和跨域功能,使其能够在全球范围内的不同应用场景中发挥作用。

这些模型旨在通过高度的定制能力和可扩展性,帮助企业解决复杂的NLP问题。

结尾:

自开源概念的首次提出至今,Meta公司的发展历程见证了其从先锋理念到第三代开放社区的逐步演进与多元探索。

虽然目前无法断言Meta所走之路是否完全成功,但无可否认的是,其在大型语言模型商业化方面的尝试,可能为人工智能领域开启一个更为贴近实际生活的崭新未来。

部分资料参考:Founder Park:《Llama 3 发布!目前最强开源大模型,全面登陆 Meta 系产品,即将推出 4000 亿模型》,晚点LatePost:《Llama 3 发布,亮点在于“小”模型》,智能涌现:《Meta震撼发布Llama 3,一夜重回开源大模型铁王座》

       原文标题 : AI芯天下丨热点丨Meta发布Llama 3,再次重回领先位置

声明: 本文由入驻OFweek维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。
侵权投诉

下载OFweek,一手掌握高科技全行业资讯

还不是OFweek会员,马上注册
打开app,查看更多精彩资讯 >
  • 长按识别二维码
  • 进入OFweek阅读全文
长按图片进行保存