Adept AI开源8亿参数语言模型Persimmon-8B

发布时间:2023-09-13 浏览量:191

Anthropic公司最近开源了Persimmon-8B,这是目前参数量少于10亿的完全免许可使用的最强大语言模型。该模型采用Apache许可证发布,代码和权重已在GitHub上开源。Anthropic的目标是开发一个可以协助用户完成各种计算机操作的AI助手。他们并不专注于开发独立的语言模型,但Persimmon-8B是他们模型扩展计划的早期产出,可以给社区提供一个更强大的8亿参数语言模型以进行各
豆绘AI(douhuiai.com)09月13日 消息:

Anthropic公司最近开源了Persimmon-8B,这是目前参数量少于10亿的完全免许可使用的最强大语言模型。该模型采用Apache许可证发布,代码和权重已在GitHub上开源。

Anthropic的目标是开发一个可以协助用户完成各种计算机操作的AI助手。他们并不专注于开发独立的语言模型,但Persimmon-8B是他们模型扩展计划的早期产出,可以给社区提供一个更强大的8亿参数语言模型以进行各种创新应用的开发。8亿参数量的模型可以在单个GPU上进行微调,在现代笔记本电脑上以合适的速度运行,甚至可以容纳在移动设备上。

Persimmon-8B具有几个突出特点:

1、这是目前开源的、完全免许可使用的参数量少于10亿的最强大语言模型

2、使用16K的上下文长度进行从头训练,远超过LLaMA2的4K和GPT-3等模型的2K

3、基础模型的性能甚至超过了LLaMA2,尽管训练数据量只有后者的37%

4、模型保留了70K个词向量以进行多模态扩展,并采用了稀疏激活

5、提供了灵活快速的推理代码实现,可以在一块A100GPU上达到每秒生成56个token的速度

通过直接长序列训练,Persimmon-8B能够捕捉更长的上下文关系,这为各种应用带来了独特优势。Anthropic希望社区可以在该模型的基础上进行更多创新,同时也乐于听到用户的反馈。这只是一个早期小规模的开源,他们未来还计划开源更多内容。


声明: 本站所有文章,如无特殊说明或标注,均为网友发布。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

最新热文 7天