它根据真正的开源许可证 Apache 2.0 发布

suchona.kani.z · Post by **suchona.kani.z** » Wed Jan 29, 2025 4:29 am

LLaMA 和 LLaMA 2 代表了 Facebook/Meta AI 开发的新一代法学硕士。这些模型接受了来自各种来源的数万亿代币的训练，包括 CommonCrawl、C4、Github、维基百科、Books、ArXiv 和 Stack Exchange。 LLaMA 模型的大小在 70 亿到 650 亿个参数之间变化，可以与现有的 LLM 竞争，在某些情况下甚至超过 GPT-3、Gopher、Chinchilla 和 PaLM 等。 LLaMA 2 是 Meta 开源语言模型系列的最新开发成果，与 Llama1 不同，可以免费用于研究目的和商业应用。还有用于编码和聊天的微调模型。经过微调的模型基于超过一百万个人工注释。 Llama 1 和 Llama 2 在发布时都是最先进的。

经过微调的 LlaMA 2 Chat 模型使用公开可用的数据集和超过 100 万条人工注释。 Code LLaMA 是基于 LLaMA 2 的代码生成模型，经过 5000 亿个代码令牌的训练。它支持Python、C++、Java、PHP、Typescript（Javascript）、C#和Bash等常见编程语言。

米斯特拉尔-7B
Mistral 7B 是专为优化性能和效率而设计的 70 亿参数法学硕士。在涵盖逻辑、数学和代码生成等领域的各种基准测试中，Mistral 7B 的性能优于现有模型。此外，还开发了一个特殊版本 Mistral 7B - Instruct，专门针对以下指令。

允许任何人和任何组织进行商业和个人使用。强大的微调聊医疗保险线索电子邮件列表天模型 Zephyr 和 Notus 已经提供了出色的聊天模型。 Mistral 的背后是法国初创公司 Mistral AI，一家专门开发生成式人工智能模型的公司。 Mistral AI 由谷歌 DeepMind 和 Meta 的前员工创立，总部位于巴黎。尽管该公司成立于 2023 年，但已经取得了令人瞩目的成功，在很短的时间内获得了超过 1.13 亿欧元的种子资金，并在短短三个月后推出了拥有 70 亿个参数的全新尖端模型。

这张图显示了新型号的尺寸，来源：Life Architect

披
Microsoft 在这一年中发布了多种语言模型：6 月发布了 Phi-1，几个月后发布了 Phi 1.5，最近发布了 11 月的 Phi-2。有趣的是，尽管这些模型的参数规模相对较小，只有 13 亿到 27 亿个参数，但它们的性能几乎与两倍大的模型相当。这些模型的功能范围从编写代码到分析图像。

在他们的论文“教科书就是你所需要的”中，微软研究团队解释了如何从如此小的模型实现高性能。训练过程的一个关键方面是使用高质量数据，这些数据比互联网上常见的非结构化数据更像教科书。作者认为，这种方法提高了模型的性能，同时最大限度地减少了训练的成本和环境影响。所使用的数据一部分是由另一种语言模型GPT-3.5综合生成的，另一部分是从预先存在的代码数据集中过滤出来的。为了进一步完善和扩展模型的功能，作者还使用了一个小型的代码练习合成数据集。