99科技给大家分享各类生活学习资讯!
您现在的位置是: 首页 > 人工智能 > B站开源轻量级Index-1.9B系列模型:2.8T训练数据

B站开源轻量级Index-1.9B系列模型:2.8T训练数据

6月20日消息,B站昨日再度展现了其在人工智能领域的创新实力,开源了轻量级Index-1.9B系列模型。这一系列的模型不仅涵盖了基座模型、对照组等基础版本,还特别加入了对话模型、角色扮演模型等多个版本,为开发者提供了更为丰富和灵活的选择。

附官方简介:

Index-1.9B base : 基座模型,具有 19 亿非词嵌入参数量,在 2.8T 中英文为主的语料上预训练,多个评测基准上与同级别模型比处于领先。

Index-1.9B pure : 基座模型的对照组,与 base 具有相同的参数和训练策略,不同之处在于严格过滤了该版本语料中所有指令相关的数据,以此来验证指令对 benchmark 的影响。

Index-1.9B chat :基于 index-1.9B base 通过 SFT 和 DPO 对齐后的对话模型,由于预训练中引入了较多互联网社区语料,聊天的趣味性明显更强。

Index-1.9B character :在 SFT 和 DPO 的基础上引入了 RAG 来实现 fewshots 角色扮演定制。

据介绍,该模型在预训练阶段使用了 2.8T 规模的数据,中英比例为 4:5,代码占比 6%。目前,角色扮演模型内置了角色“三三”,用户也可以按需创建自己的角色。

努比亚N60S Pro通过Wi-Fi联盟认证,支持卫星通信与5G网络

2024/6/20 9:36:25

苹果在Hugging Face平台发布20个新Core ML模型

2024/6/20 9:39:20