Shisa 7B (shisa-7b-v1) 是一款双语日语/英语 (JA/EN) 通用聊天模型,旨在通过合成数据驱动的方法,在保持强大的英语能力的同时实现卓越的日语表现。
该模型基于 Mistral 7B 构建,采用了专门针对日语优化的扩展分词器,其日语分词效率是 Mistral 原生分词器的 2 倍以上。基础模型额外进行了 80 亿 token 的日语预训练。随后,该模型使用扩展并经机器翻译的 airoboros-3.1 数据集、来自 ultrafeedback_binarized 的高分样本集以及针对目标语言新生成的 airoboros 数据进行了微调。
我们以宽松的 Apache 2.0 许可证发布了基础模型、数据集和流水线代码,可用于任何商业或其他用途。此外,我们正在项目 Wiki 上发布更详尽的撰写内容,包括消融实验结果、测试方法论和关键发现,供研究人员参考。
News
全部文章 更多新闻
研究
Shisa-Gamma-7b-v1 下载量突破 100 万次
在作为演化模型合并的核心底座发布一年后,我们的模型达成这一重要里程碑。
阅读全文 研究
Shisa.AI 开发出具备行业领先性能的多语言大语言模型
发布了一款参数规模达 405B 的开源大语言模型,在日语任务中表现超越 GPT-4。
阅读全文