HyperAIHyperAI

Command Palette

Search for a command to run...

大语言模型能否生成高质量的算法问题测试用例? TestCase-Eval:故障覆盖率和暴露的系统性评估

Zheyuan Yang Zexi Kuang Xue Xia Yilun Zhao

Abstract

我们介绍了TestCase-Eval,这是一个用于系统评估大型语言模型(LLMs)在测试用例生成方面表现的新基准。TestCase-Eval 包含了来自 Codeforces 平台的 500 个算法问题及其 100,000 个人工编写的解决方案。该基准重点关注两个关键任务:(1) 故障覆盖(Fault Coverage),衡量 LLM 生成的测试集对各种输入场景的探测能力以及对潜在故障模式的广泛覆盖程度;(2) 故障暴露(Fault Exposure),评估 LLM 是否能够设计出特定的测试输入以揭示某个具体的错误代码实现。我们对 19 种最先进的开源和专有 LLM 在 TestCase-Eval 上进行了全面评估,提供了关于它们在生成有效算法问题测试用例方面的优势和局限性的见解。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供