Gradient Al最近将Llama-3 8B和7B模型通过渐进式训练方法不断将Llama-3模型的上下文长度从8k-路扩展到262k、524k
今天Gradient Al成功宣布成功地将Llama-3 系列模型的上下文长度扩展到超过1 M...并且1M上下文窗口 70B 模型在 NIAH(大海捞针)上取得了完美分数。Llama 3模型最初被训练用于处理8000个token的默认上下文长度,约相当于6,000字或10页文档。
Gradient为了解锁更长上下文的使用场景,扩展了Llama 3模型的上下文窗口到超过100万。这种扩展使得模型可以处理相当于《哈利·波特》系列前五本书的内容量。
这种扩展显著增加了模型处理长文本的能力,允许它在一个任务中考虑更多的信息,从而提高了理解和生成文本的精确度和相关性。
为了逐步适应这种大幅度增加的上下文长度,Gradient Al采用了渐进式训练方法。这意味着模型从较短的序列长度开始训练,逐渐增加到目标长度。这种方法有助于模型逐步学习处理更长文本的策略,而不是一开始就直接面对极大的挑战。
方法概述
1.渐进式训练(Progressive Training)
步骤:模型从处理较短的文本序列开始,逐步增加处理的序列长度。这种渐进式增长使模型能够适应在每个步骤中的学习挑战,从而逐步提高处理更长序列的能力。
优势:这种方法有助于避免在初期阶段由于序列长度过大而导致的训练困难,保证了训练的稳定性和效率。
2.使用 RingAttention 和 EasyContext Blockwise
技术细节:为了高效管理长序列的计算负担,采用 RingAttention 库优化注意力机制的计算,使其能够扩展到非常长的序列。同时,EasyContext Blockwise 技术被用来分块处理长文本,进一步提高处理速度和降低内存需求。
应用效果:这些技术提高了模型在长序列上的训练和推理速度,使得在大规模GPU集群中的部署和执行变得更加高效。
3.NTK-aware 插值和缩放法则
目的:利用神经切线核(NTK)理论优化模型参数的初始化和调整,以适应不同长度的文本处理
实施:通过遵循缩放法则和进行NTK-aware的参数插值,调整模型的RoPE(Rotary Positional Embeddings)theta参数,使模型在不同长度的文本上表现最佳。
训练细节
1.数据处理
数据集:使用了大规模图像-文本配对数据集和纯文本数据集,这些数据集被用来交错训练模型以平衡视觉和文本信息的处理能力。
数据增强:采用数据增强策略来丰富训练数据,提高模型对不同类型文本的适应性和鲁棒性
2.硬件配置
部署环境:模型在Crusoe Energy的高性能L40S集群上进行训练,这些集群配备了先进的GPU和高速网络连接,以支持大规模并行处理。
项目地址:https://huggingface.co/gradientai/Llama-3-70B-Instruct-Gradient-1048k
附高性能NVIDIA RTX 40 系列云服务器购买:
UCloud GPU云平台拥有A100、A800、4090、V100S、P40等海量高性能GPU显卡,灵活计费,弹性扩展,满足AI训练、推理、微调等场景需求。
https://www.ucloud.cn/site/active/gpu.html?ytag=seo
compshare算力共享平台,高性价比4090显卡,配备独立IP,支持按时、按天、按月灵活计费。适合AI推理、微调用户场景使用。
https://www.compshare.cn/?ytag=seo
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/131091.html
Llama3 中文聊天项目综合资源库,该文档集合了与Lama3 模型相关的各种中文资料,包括微调版本、有趣的权重、训练、推理、评测和部署的教程视频与文档。1. 多版本支持与创新:该仓库提供了多个版本的Lama3 模型,包括基于不同技术和偏好的微调版本,如直接中文SFT版、Instruct偏好强化学习版、趣味版等。此外,还有Phi3模型中文资料仓库的链接,和性能超越了8b版本的Llama3。2. 部...
在很长一段时间内,占据大模型评测榜单最前列的大多是一些闭源模型,直到Meta再次发布了最新的开源模型。就在近日,Meta和OpenAI打响了硅谷 AI 大模型保卫战。美国当地时间7月23日,Meta正式发布Llama 3.1。其包含8B、70B 和405B三个规模,最大上下文提升到了128k。Llama是目前开源领域中用户最多、性能最强的大型模型系列之一。Meta 表示,他们将通过提供更多与模型协...
2024年4月18日,Meta AI正式宣布推出开源大模型Llama3,这标志着开源大型语言模型(LLM)领域的又一重大突破。Llama3以其卓越的性能和广泛的应用前景,或将推动人工智能技术快速迈进新纪元。为方便AI应用企业及个人AI开发者快速体验Llama3的超高性能,近期优刻得GPU云主机上线Llama3-8B-Instruct-Chinese镜像,一键配置,快速部署模型开发环境。为客户提供开...
摘要:月日,云栖大会深圳峰会现场,阿里云发布并现场演示了阿里视频云最新互联网直播解决方案。这是全球发布的首个视频云解决方案,也是全球首次互联网视频直播。接近年后,阿里云用一只淘公仔画面,宣告了互联网直播时代的来临。 3月28日,云栖大会·深圳峰会现场,阿里云发布并现场演示了阿里视频云最新8K互联网直播解决方案。这是全球发布的首个8K视频云解决方案,也是全球首次8K互联网视频直播。 showI...
阅读 179·2024-11-07 17:59
阅读 228·2024-09-27 16:59
阅读 358·2024-09-23 10:37
阅读 405·2024-09-14 16:58
阅读 268·2024-09-14 16:58
阅读 372·2024-08-29 18:47
阅读 604·2024-08-16 14:40
阅读 324·2024-08-14 17:54