DAPO

DAPO

免费编程助手

DAPO是一款开源的大语言模型强化学习训练系统,基于verl框架构建。它通过动态采样与解耦裁剪等核心算法,显著提升模型训练效率与稳定性,并在数学推理任务中表现优异。项目完全开源算法、数据集及训练脚本,助力AI研究与开发。

访问官网
DAPO

我们的评价

AI 正在分析...

像谁在用

🎓学生友好

核心功能

完全开源算法、数据集与模型权重
动态采样策略提升训练效率
解耦裁剪技术避免熵崩溃
提供开箱即用的训练脚本
支持大规模GPU集群高效训练

适用场景

大语言模型强化学习训练数学推理能力专项优化AI算法研究与实验复现

适合人群

AI研究人员大模型算法工程师开源技术开发者

定价

免费

相似工具

相关推荐