资讯专栏INFORMATION COLUMN

Meta强势发布开源大模型Llama 3.1:打响硅谷AI保卫战

UCloud小助手 / 379人阅读

在很长一段时间内,占据大模型评测榜单最前列的大多是一些闭源模型,直到Meta再次发布了最新的开源模型。就在近日,Meta和OpenAI打响了硅谷 AI 大模型保卫战。

美国当地时间7月23日,Meta正式发布Llama 3.1。其包含8B、70B 和405B三个规模,最大上下文提升到了128k。Llama是目前开源领域中用户最多、性能最强的大型模型系列之一。

Meta 表示,他们将通过提供更多与模型协同工作的组件(包括参考系统),继续将 Llama 打造成一个系统,并希望为开发人员提供工具,帮助他们创建自己的定制智能体和新智能体行为。

此外,Meta 也将通过新的安全和保障工具(包括 Llama Guard 3 和 Prompt Guard)帮助开发者负责任地进行开发。Meta 在在官方博客中写道,“迄今为止,开源大语言模型在功能和性能方面大多落后于封闭的同类产品。如今,我们迎来了一个由开源引领的新时代。我们将公开发布 Meta Llama 3.1 405B,我们相信它是世界上规模最大、功能最强的开放基础模型。”

性能表现

与之前的 Llama 版本相比,Llama 3.1提高了用于训练前和训练后的数据的数量和质量。这些改进包括为训练前数据开发更仔细的预处理和管理流程、开发更严格的质量保证以及训练后数据的过滤方法。

另外,为了支持 405B 规模模型的大规模生产推理,团队还将模型从 16 位 (BF16) 量化为 8 位 (FP8) 数字,有效降低了所需的计算要求并允许模型在单个服务器节点内运行。

在其他场景中,Llama 3.1 405B进行了与人工评估的比较,Llama 3.1 405B在常识、可操作性、数学、工具使用和多语言翻译等一系列任务中,其总体表现优于GPT-4o和Claude 3.5 Sonnet。

作为最新版本的一部分,他们推出了 8B 和 70B 模型的升级版本。这两个版本支持多种语言,相比于同样参数大小的模型性能表现也更好。上下文长度大大增加,达到 128K,工具使用 SOTA,整体推理能力更强。

这使得 Llama 3.1 系列模型能够支持高级用例,如长文本摘要、多语言对话智能体和编码助手。值得一提的是,Meta 还修改了许可证,允许开发人员使用 Llama 模型(包括 405B 模型)的输出结果来改进其他模型,并在 llama.meta.com 和 Hugging Face 上向社区提供这些模型的下载。

模型架构

作为 Meta 迄今为止最大的模型,在超过 15 万亿个 token 上训练 Llama 3.1 405B 是一项重大挑战。为了在合理的时间内完成如此大规模的训练运行并取得这样的结果,Meta 对整个训练堆栈进行了大幅优化,并将模型训练推送到 1.6 万多个 H100 GPU 上,使 405B 成为第一个以如此规模训练的 Llama 模型。

为了解决这个问题,Meta 在设计时选择了保持模型开发过程的可扩展性和直接性(straightforward)。为了最大限度地提高训练的稳定性,他们选择了标准的仅解码器 transformer 模型架构,并作了较小的调整,而没有采用混合专家模型。

他们采用了迭代后训练程序,每一轮都使用监督微调和直接偏好优化。这使得他们能够为每一轮训练创建最高质量的合成数据,并提高每种能力的性能。与以前版本的 Llama 相比,Meta 改进了预训练和后训练所用数据的数量和质量。

这些改进包括为预训练数据开发了更细致的预处理和整理管道,为后训练数据开发了更严格的质量保证和过滤方法。正如语言模型的缩放规律所预期的那样,Llama 3.1 405B 优于使用相同程序训练的较小模型。他们还利用 Llama 3.1 405B 提高了小型模型的后期训练质量。为了支持 Llama 3.1 405B 的大规模生产推理,他们将模型从 16 位(BF16)量化为 8 位(FP8)数值,有效降低了所需的计算要求,使模型可以在单个服务器节点内运行。

开放推动创新

Meta 在官方博客中写道,与封闭的模型不同,Llama 模型权重可供下载。

开发人员可以完全根据自己的需求和应用定制模型,在新的数据集上进行训练,并进行额外的微调。

这使得更广泛的开发者社区和全世界都能更充分地发挥生成式人工智能的能力。开发人员可以根据自己的应用进行完全定制,并在任何环境中运行,包括预置环境、云环境,甚至是笔记本电脑上的本地环境,而无需与 Meta 共享数据。

Meta 也表示,虽然很多人可能会认为封闭模型更具成本效益,但根据 Artificial Analysis 的测试,Llama 模型的单位 token 成本在业内最低。正如 Mark Zuckerberg 所指出的那样,开源将确保全世界更多的人能够享受到人工智能带来的好处和机会,确保权力不会集中在少数人手中,确保这项技术能够在全社会范围内得到更均衡、更安全的部署。




文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/131141.html

相关文章

  • Llama3来袭!如何通过4090GPU云主机快速部署?

    2024年4月18日,Meta AI正式宣布推出开源大模型Llama3,这标志着开源大型语言模型(LLM)领域的又一重大突破。Llama3以其卓越的性能和广泛的应用前景,或将推动人工智能技术快速迈进新纪元。为方便AI应用企业及个人AI开发者快速体验Llama3的超高性能,近期优刻得GPU云主机上线Llama3-8B-Instruct-Chinese镜像,一键配置,快速部署模型开发环境。为客户提供开...

    UCloud小助手 评论0 收藏0
  • 超越Llama3,多模态比肩GPT4V:GLM-4智能体,新一代语言处理利器

    在人工智能领域,自然语言处理技术一直备受关注。就在昨日,今年备受关注的国内AI公司北京智谱AI发布了第四代 GLM 系列开源模型:GLM-4-9B。这是一个集成了先进自然语言处理技术的创新平台,它凭借清华大学KEG实验室提出的GLM模型结构,为智能体功能的发展带来了新的突破的同时所有大模型全部保持开源,一系列商业化成果、技术突破让人眼前一亮。让我们一起揭开GLM-4的神秘面纱,探索其在代码执行、联...

    UCloud小助手 评论0 收藏0
  • Kubernetes 2018 年度简史

    摘要:同时该版本在安全性和等关键功能上作出了改进年月日,发布。尽管谷歌这些年来是的主要贡献者,但现在其他技术人员在这个项目上的贡献量已经几乎和谷歌持平了。这些举动都在表明云计算市场的战火将继续蔓延,已经成为兵家必争之地。年月日,宣布推出。Kubernetes 在过去几年中一直是云计算领域最著名的开源项目之一。 2018 年,Kubernetes 度过了自己的 4 岁生日。从 2014 年开源...

    史占广 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<