Stable Vicuna

打开网站

训练模型 AI训练模型 Stability AI

StableVicuna，这是第一个通过人类反馈强化学习（RHLF）训练的大规模开源聊天机器人。StableVicuna是Vicuna v0 13b的进一步指令微调和RLHF训练版本，它是一个指令微调的LLaMA 13b模型。

同样，这里有一些基准，显示了与其他类似规模的开源聊天机器人相比，StableVicuna的整体性能。

为了实现StableVicuna的强大性能，我们利用Vicuna作为基础模型，并遵循Steinnon等人和Ouyang等人概述的典型的三阶段RLHF管道。使用三个数据集，通过监督微调（SFT）进一步训练基础Vicuna模型：

替代工具

欢迎访问AI工具网 Ai138.com，我们致力于为AI专业人士和人工智能爱好者提供全面的AI工具和资源。在我们的平台上，您可以找到涵盖AI聊天、自然语言处理、图像与绘画处理、机器学习以及视频和音频制作等领域的顶尖工具。探索AI，深入了解AI技术如何赋能创新和效率提升，让我们一起步入AI技术的未来世界！

关于我们收录申请免责声明

Stable Vicuna

替代工具

ChatGLM

Civitai

LLaMA

Lobe

PaLM2

讯飞星火