LiveCodeBench

LiveCodeBench

免费编程助手

LiveCodeBench是一个面向代码大语言模型的全面且无污染的评估基准。它持续收集最新编程竞赛题目,支持代码生成、自我修复、执行与测试预测等多场景评测,帮助研究者客观衡量模型的泛化能力与真实水平。

访问官网
LiveCodeBench

我们的评价

AI 正在分析...

像谁在用

personas.forDevelopers🎓学生友好

核心功能

持续收集最新竞赛题目,杜绝训练数据污染
覆盖代码生成、自我修复、执行与测试预测等多维度
提供按时间划分的模型泛化能力动态评估
开源提交机制,支持自定义模型接入与排行榜更新
深度对比开源与闭源模型在复杂代码任务中的表现

适用场景

评估大语言模型在未见编程题目上的真实泛化能力对比不同代码模型在生成、修复与执行任务中的性能差异检测并分析模型在传统基准测试中的潜在过拟合问题

适合人群

AI大模型研究人员代码大模型开发者算法竞赛与编程教育从业者

定价

免费

相似工具

相关推荐