360智脑团队发布开源模型Light-R1-14B-DS
360智脑团队成功复现Deepseek强化学习效果,推出开源推理模型Light-R1-14B-DS。该模型在14B参数规模下显著提升数学推理能力,超越多个32B级别模型。在AIME竞赛中,Light-R1-14B-DS表现突出,分别提升4.3分和10分。模型采用渐进式监督微调和强化学习训练方法。
GitHub链接🔗 https://github.com/Qihoo360/Light-R1
360智脑团队成功复现Deepseek强化学习效果,推出开源推理模型Light-R1-14B-DS。该模型在14B参数规模下显著提升数学推理能力,超越多个32B级别模型。在AIME竞赛中,Light-R1-14B-DS表现突出,分别提升4.3分和10分。模型采用渐进式监督微调和强化学习训练方法。
GitHub链接🔗 https://github.com/Qihoo360/Light-R1