在人工智能领域,我们深感技术发展的迅速和成就的巨大。其中,法国初创公司MistralAI在这方面尤为令人瞩目。MistralAI成立于2023年5月,由DeepMind和Meta的前科学家创立,被称为“欧洲版OpenAI”。
这是一家创新而富有前景的公司,他们的雄心壮志和成绩让人叹为观止。这家公司以产生开源大型语言模型著称,其中最受人瞩目的是 Mistral 7B 和 Mixtral 8x7B。这些模型在多项基准测试中表现优异,展现了强大的自然语言处理能力和广泛的应用前景。这不仅推动了自然语言处理技术的发展,也为开发者提供了更多的选择和可能性。
而就在今天,MistralAI在其不断壮大的大语言模型(LLM)家族中增添了两名新成员:一位是名为Mathstral的基于数学的模型,另一位是基于其他研究人员去年年底开发的名为Mamba的新架构,供程序员和开发人员提供的代码生成模型。
现在,通过采用这种新架构,Mistral 新推出的 Codestral Mamba 7B的模型即使在处理较长的输入文本时也能提供快速的响应时间。Codestral Mamba非常适合代码生成,尤其是对于更本地化的编程项目。本文接下来将简单介绍一下Mamba以及MistralAI。
“Mamba”架构:大道至简,加强效率
Codestral Mamba 是一种状态空间模型架构,与 transformer架构相比具有显著优势:transformer 推理计算(通常是推理时间)与上下文/序列长度呈二次缩放,而 Mamba 架构呈线性缩放。这就是为什么 Codestral Mamba 能够提供 256k 令牌的上下文窗口,>7 倍 Mistral 7B 的上下文窗口。这也意味着在使用模型时可以更快地进行推理/速度,特别是对于RAG等大型上下文用例。
Mamba架构旨在通过简化注意力机制来提高大多数领先 LLM 使用的 transformer 架构的效率。与更常见的基于 transformer 的模型不同,基于 Mamba 的模型可以具有更快的推理时间和更长的上下文。包括 AI21 在内的其他公司和开发商已经发布了基于它的新 AI 模型。
现在,使用这种新架构,Mistral旗下恰如其名的Codestral Mamba 7B 即便输入较长的文本也能提供快速响应时间。Codestral Mamba 非常适合代码生产力用例,尤其是对于更多本地编码项目。
Mistral 测试了该模型,测试结果显示该模型可以在 Mistral 的 l a Plateforme API上免费使用,可处理多达 256,000 个令牌的输入——是 OpenAI 的 GPT-4o 的两倍。这种高效的模型对编程开发尤其重要,不受输入长度的限制意味着模型可以读取更多代码内容并根据上下文编写更适合的代码、帮助开发者构建更完整的项目。
在基准测试中,Mistral 表明 Codestral Mamba 在 HumanEval 测试中的表现明显优于竞争对手开源模型 CodeLlama 7B、CodeGemma-1.17B 和 DeepSeek。
开发人员可以从 GitHub 存储库和 HuggingFace 修改和部署 Codestral Mamba。它将采用开源 Apache 2.0 许可证。
Mistral 声称Codestral 的早期版本优于其他代码生成器,如 CodeLlama 70B 和 DeepSeek Coder 33B。
需要说的是,Codestral Mamba 同样是一个指导模型,开发者可以根据自己的需要使用 mistral-inference 进行微调训练,打造适合自己或特定领域的版本。
代码生成和编码助手已经成为人工智能模型广泛使用的应用程序,其中由 OpenAI 提供支持的GitHub 的 Copilot、亚马逊的 CodeWhisperer和Codenium等平台越来越受欢迎。
“Mathstral”模型:兼顾数学与推理
Mistral 推出的第二款模型是Mathstral 7B,这是一种专为数学推理和科学发现而设计的人工智能模型。Mistral 与 Project Numina 合作开发了 Mathstral。
Mathstral 拥有 32K 上下文窗口,将采用 Apache 2.0 开源许可。Mistral 表示,该模型的表现优于所有为数学推理设计的模型。它可以在具有更多推理时间计算的基准测试中实现“明显更好的结果”。用户可以按原样使用它,也可以对模型进行微调。
Mistral 在一篇博客文章中表示:“Mathstral 是构建特定用途模型时实现的出色性能/速度权衡的另一个例子——这是我们在 la Plateforme 中积极推广的开发理念,尤其是其新的微调功能。”
MistralAI:坚持开源的新兴独角兽
Mistral AI 是一家法国人工智能公司。它于 2023 年 4 月由曾受雇于 Meta 和 Google 的研究人员创建,包括:Arthur Mensch、Timothée Lacroix 和 Guillaume Lample。截至 2023 年 12 月,该公司已融资 6.6 亿美元。2023 年 12 月,该公司的估值超过 20 亿美元,晋身独角兽。
Mistral AI的技术架构建立在数据层、算法层和模型层之上,通过运用深度学习等先进算法,实现对数据的智能分析、处理和应用。
与具有讽刺意味的名字 OpenAI 不同,Mistral AI 产生开源大型语言模型,这意味着这些模型可以免费用于商业用途。开发人员还可以更改、复制或更新源代码,并将其与许可证副本一起分发。正因如此,Mistral AI的成立和发展在法国乃至欧洲都引起了广泛关注。其开源的人工智能大模型在欧洲向封闭的OpenAI发起了挑战,被视为法国挑战美国科技巨头的一个机遇。
官网:https://mistral.ai/
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/131135.html
摘要:并且,越是临近项目截止日期,越是需要工作更长的时间。真正优秀的程序员善于与人交往,但大多数程序员缺乏这些能力。项目经验以上的内容如果都精通了,也算是个比较厉害的程序员了。但是对程序员来说,项目经验更加重要。 无论做什么工作, 都希望能做到最好, 就像参与一款游戏, 每个人都希望能赢到最后.程序员工作自然也会有其秘籍, 让我们更快的实现目标。 身体 身体看似最不重要, 其实不...
在最近的大模型战争中,OpenAI似乎很难维持霸主地位。虽然没有具体的数据统计,但Claude3.5出现后,只是看网友们的反响,就能感觉到OpenAI订阅用户的流失:既然Claude3.5比GPT-4o好用,为什么我们不去订阅Claude呢?而这长达数月的批评声中,OpenAI似乎尽显颓势,除了GPT-4o mini这个小模型以外,似乎再也没有什么创新点。甚至就在前几日,GPT-4o还被开源的大模...
摘要:我们在西雅图举行的活动年月日至日,是我们规模最大的,提前几周售罄,共有名与会者。巴塞罗那的联合主席是的和的。年的新优化,我们安排提供一个分钟的会议。巴塞罗那提交的提案包括一个标题和最多个英文字符的描述,如果获选为演讲,会在时间表中使用。 KubeCon + CloudNativeCon从2015年开始的500名与会者,扩展到成为有史以来规模最大,最成功的开源会议之一。随着这种增长带来了...
阅读 149·2024-11-07 17:59
阅读 211·2024-09-27 16:59
阅读 347·2024-09-23 10:37
阅读 370·2024-09-14 16:58
阅读 246·2024-09-14 16:58
阅读 356·2024-08-29 18:47
阅读 580·2024-08-16 14:40
阅读 316·2024-08-14 17:54