wanng-ide-arxiv-agentic-verifier

TotalClaw 作者 totalclaw

基于 ArXiv 论文的智能体验证器:分析代码逻辑、生成判别性测试用例并执行验证,用于竞赛编程场景的代码正确性检查。

安装 / 下载方式

TotalClaw CLI推荐
totalclaw install totalclaw:totalclaw~wanng-ide-arxiv-agentic-verifier
cURL直接下载,无需登录
curl -fsSL https://skills.taituai.com/api/skills/totalclaw%3Atotalclaw~wanng-ide-arxiv-agentic-verifier/file -o wanng-ide-arxiv-agentic-verifier.md
## 概述(中文)

基于 ArXiv 论文的智能体验证器:分析代码逻辑、生成判别性测试用例并执行验证,用于竞赛编程场景的代码正确性检查。

## 技能正文

# ArXiv 智能体验证器

**来源论文:** [Scaling Agentic Verifier for Competitive Coding](https://arxiv.org/abs/2602.09012)(ID:4a4c4dae6a5145ebc4d62eb2d64b0f0f)
**类型:** 代码验证 / 测试生成

## 描述

本技能实现了一种「智能体验证器」(Agentic Verifier),通过生成有针对性的「判别性」测试用例,主动推理代码正确性。它不再随机采样,而是分析问题约束与代码逻辑,以发现边界情况或逻辑缺陷。

## 功能特性

- **分析代码:** 理解 Python/JS 代码逻辑。
- **生成测试:** 创建特定输入以暴露代码缺陷。
- **执行与验证:** 针对生成的测试运行代码(生产环境建议使用沙箱)。

## 用法

```javascript
const AgenticVerifier = require('./index');
const verifier = new AgenticVerifier(process.env.OPENAI_API_KEY);

const problem = "Given two integers A and B, output their sum.";
const code = "print(int(input().split()[0]) + int(input().split()[1]))";

verifier.verify(problem, code, 'python')
  .then(result => console.log(result))
  .catch(err => console.error(err));
```

## 配置

- **OPENAI_API_KEY:** LLM 推理所必需。

## 安全警告

本技能会执行传入的代码。请在受限环境或沙箱中使用。