wanng-ide-arxiv-agentic-verifier

TotalClaw 作者 totalclaw

基于 ArXiv 论文的智能体验证器：分析代码逻辑、生成判别性测试用例并执行验证，用于竞赛编程场景的代码正确性检查。

安装 / 下载方式

TotalClaw CLI推荐

totalclaw install totalclaw:totalclaw~wanng-ide-arxiv-agentic-verifier

cURL直接下载，无需登录

curl -fsSL https://skills.taituai.com/api/skills/totalclaw%3Atotalclaw~wanng-ide-arxiv-agentic-verifier/file -o wanng-ide-arxiv-agentic-verifier.md

## 概述（中文）

基于 ArXiv 论文的智能体验证器：分析代码逻辑、生成判别性测试用例并执行验证，用于竞赛编程场景的代码正确性检查。

## 技能正文

# ArXiv 智能体验证器

**来源论文：** [Scaling Agentic Verifier for Competitive Coding](https://arxiv.org/abs/2602.09012)（ID：4a4c4dae6a5145ebc4d62eb2d64b0f0f）
**类型：** 代码验证 / 测试生成

## 描述

本技能实现了一种「智能体验证器」（Agentic Verifier），通过生成有针对性的「判别性」测试用例，主动推理代码正确性。它不再随机采样，而是分析问题约束与代码逻辑，以发现边界情况或逻辑缺陷。

## 功能特性

- **分析代码：** 理解 Python/JS 代码逻辑。
- **生成测试：** 创建特定输入以暴露代码缺陷。
- **执行与验证：** 针对生成的测试运行代码（生产环境建议使用沙箱）。

## 用法

```javascript
const AgenticVerifier = require('./index');
const verifier = new AgenticVerifier(process.env.OPENAI_API_KEY);

const problem = "Given two integers A and B, output their sum.";
const code = "print(int(input().split()[0]) + int(input().split()[1]))";

verifier.verify(problem, code, 'python')
  .then(result => console.log(result))
  .catch(err => console.error(err));
```

## 配置

- **OPENAI_API_KEY：** LLM 推理所必需。

## 安全警告

本技能会执行传入的代码。请在受限环境或沙箱中使用。