它根据真正的开源许可证 Apache 2.0 发布

Connect Asia Data learn, and optimize business database management.
Post Reply
suchona.kani.z
Posts: 192
Joined: Sat Dec 21, 2024 5:24 am

它根据真正的开源许可证 Apache 2.0 发布

Post by suchona.kani.z »

LLaMA 和 LLaMA 2 代表了 Facebook/Meta AI 开发的新一代法学硕士。这些模型接受了来自各种来源的数万亿代币的训练,包括 CommonCrawl、C4、Github、维基百科、Books、ArXiv 和 Stack Exchange。 LLaMA 模型的大小在 70 亿到 650 亿个参数之间变化,可以与现有的 LLM 竞争,在某些情况下甚至超过 GPT-3、Gopher、Chinchilla 和 PaLM 等。 LLaMA 2 是 Meta 开源语言模型系列的最新开发成果,与 Llama1 不同,可以免费用于研究目的和商业应用。还有用于编码和聊天的微调模型。经过微调的模型基于超过一百万个人工注释。 Llama 1 和 Llama 2 在发布时都是最先进的。

经过微调的 LlaMA 2 Chat 模型使用公开可用的数据集和超过 100 万条人工注释。 Code LLaMA 是基于 LLaMA 2 的代码生成模型,经过 5000 亿个代码令牌的训练。它支持Python、C++、Java、PHP、Typescript(Javascript)、C#和Bash等常见编程语言。

米斯特拉尔-7B
Mistral 7B 是专为优化性能和效率而设计的 70 亿参数法学硕士。在涵盖逻辑、数学和代码生成等领域的各种基准测试中,Mistral 7B 的性能优于现有模型。此外,还开发了一个特殊版本 Mistral 7B - Instruct,专门针对以下指令。

允许任何人和任何组织进行商业和个人使用。强大的微调聊 医疗保险线索电子邮件列表 天模型 Zephyr 和 Notus 已经提供了出色的聊天模型。 Mistral 的背后是法国初创公司 Mistral AI,一家专门开发生成式人工智能模型的公司。 Mistral AI 由谷歌 DeepMind 和 Meta 的前员工创立,总部位于巴黎。尽管该公司成立于 2023 年,但已经取得了令人瞩目的成功,在很短的时间内获得了超过 1.13 亿欧元的种子资金,并在短短三个月后推出了拥有 70 亿个参数的全新尖端模型。


这张图显示了新型号的尺寸,来源:Life Architect


Microsoft 在这一年中发布了多种语言模型:6 月发布了 Phi-1,几个月后发布了 Phi 1.5,最近发布了 11 月的 Phi-2。有趣的是,尽管这些模型的参数规模相对较小,只有 13 亿到 27 亿个参数,但它们的性能几乎与两倍大的模型相当。这些模型的功能范围从编写代码到分析图像。

在他们的论文“教科书就是你所需要的”中,微软研究团队解释了如何从如此小的模型实现高性能。训练过程的一个关键方面是使用高质量数据,这些数据比互联网上常见的非结构化数据更像教科书。作者认为,这种方法提高了模型的性能,同时最大限度地减少了训练的成本和环境影响。所使用的数据一部分是由另一种语言模型GPT-3.5综合生成的,另一部分是从预先存在的代码数据集中过滤出来的。为了进一步完善和扩展模型的功能,作者还使用了一个小型的代码练习合成数据集。
Post Reply