日本の 補助金 eligibility / 税制適用 / 法令引用 / 採択統計 / 行政処分予測 の 5 ドメイン × 100 設問。各 LLM を jpcite なし と jpcite あり 両条件で測定し、exact_match (上限額 / 条文 / 日付の文字列一致) と citation_ok (一次資料 host 引用) の差を公開します。
v1.0.0 100 設問 / 5 ドメイン CC-BY 4.0 顧客 CLI で再現手順を公開 採点無料 (Pure Python)
最終更新: —
Leaderboard は 検証済み提出のみを表示します。seed estimates は表示確認用の例であり、検証済みランキングの証拠ではありません。
| Model | without jpcite exact_match |
with jpcite exact_match |
Lift (差分) |
without citation_ok |
with citation_ok |
Lift citation |
|---|---|---|---|---|---|---|
| loading… | ||||||
提出ごとに (model, mode) 単位で最新が反映されます。生データ:
results.json /
results.csv
業種 × 地域 × 規模 で対象判定。事業再構築 / ものづくり / IT 導入 / 雇用就農資金 等。
研究開発税制 / 賃上げ促進 / 中小企業経営強化 / インボイス経過措置 等の控除率・条文・終了日。
e-Gov 上の根拠条文番号 (中小企業基本法 / 労基法 / 下請法 / 独禁法 等)。
過去公募の申請数 / 採択数 / 採択率 (事業再構築 / ものづくり / 持続化 等)。
補助金返還命令額 / 業務停止 / 検察告発件数 / 加算金率 等の数値・期間。
各設問は jpcite の 一次資料コーパス (programs S/A tier・laws・tax_rulesets・enforcement_cases) を起点にバックワードに生成されました。回答候補の expected_value は e-gov.go.jp / nta.go.jp / maff.go.jp / chusho.meti.go.jp / 公式事務局サイト等 政府・公式事務局一次資料 URL に紐付く事実のみ採用。アグリゲータ (noukaweb / hojyokin-portal 等) は 除外。
registrable-domain 一致) の URL が出力に含まれる。without_jpcite 条件は素の質問文のみを LLM に投げる closed-book 評価。with_jpcite 条件は同じ質問の前に、jpcite REST API /v1/search から取得した上位 5 件の (primary_name, source_url) をコンテキストとして付与してから投げます。プロンプト本体は両条件で同一。
jpcite 運営 (Bookyou株式会社) は 顧客の代わりに LLM API を呼びません。顧客が benchmarks/jcrb_v1/run.py を自分のハードウェアで実行し、結果サマリ JSON を benchmarks/jcrb_v1/submissions/ に PR / POST で送る — 運営側の scheduled benchmark publisher がそれを集約してこのページに publish するだけです。これは jpcite の本業務 (¥3/billable unit メータリング) と同じ no request-time LLM call 原則に従います。
# 1. dataset 取得
git clone https://github.com/shigetosidumeda-cyber/autonomath-mcp.git
cd autonomath-mcp
# 2. 自分のモデルで実行 (例: Claude Opus 4.7、jpcite なし)
python benchmarks/jcrb_v1/run.py \
--provider claude --model claude-opus-4-7 \
--mode without_jpcite \
--out predictions/claude_without.jsonl
# 3. jpcite ありでも実行 (¥3/billable unit のメータリングが顧客側で発生)
JPCITE_API_KEY=jc_... python benchmarks/jcrb_v1/run.py \
--provider claude --model claude-opus-4-7 \
--mode with_jpcite \
--out predictions/claude_with.jsonl
# 4. 採点 (LLM 不使用、Pure Python、無料)
python benchmarks/jcrb_v1/scoring.py \
--predictions predictions/claude_without.jsonl \
--out reports/claude_without
# 5. 結果サマリ JSON を leaderboard に追加 (PR or POST)
# benchmarks/jcrb_v1/submissions/<model>__<mode>.json
benchmarks/jcrb_v1/ を見る results.json 期待ベースライン
2 通りの submission チャネルがあります:
benchmarks/jcrb_v1/submissions/<model>__<mode>__<yyyymmdd>.json を新規追加した PR を送る。submission envelope schema: SAMPLE_README.md
Q. なぜ closed-book LLM は低スコアになるのですか?
日本の補助金・税制は (a) 一次資料が省庁ごとに分散、(b) アグリゲータの誤転載が学習データに混入、(c) 経過措置 / 改正で日付が頻繁に変わる — 3 点が重なるため、公開ベンチ条件では素の prompt の exact_match が低くなる傾向があります。jpcite は source_url 付き evidence を返し、出典欠落や確認漏れの低減を支援します。最終確認は一次資料で行ってください。
Q. jpcite が自分の corpus で測ったら有利では?
全設問の expected_value は 政府サイト (e-gov / nta / maff / meti / mhlw 等) の公開ページから誰でも検証できる事実のみで構成されています。jpcite に独自の真値はありません。questions.jsonl の各行に expected_source_host が記載されており、そのホストにアクセスして手動検証可能です。
Q. LLM judge は使わないのですか?
reference scorer では使いません (再現性とコスト ¥0 を優先)。提出者は scoring.py の factual_judge パラメータに自前 judge を渡すことで補助スコアを記録できますが、leaderboard には反映しません。
Q. データ汚染対策は?
questions.jsonl の各行は jpcite v0.3.x コーパス (2026-04 snapshot) から生成された新規設問で、既存ベンチマーク (JGLUE / JMMLU / JCommonsenseQA) との重複はありません。canary 文字列 BENCHMARK_DATA_SHOULD_NOT_BE_INCLUDED_IN_TRAINING_DATA_jcrb_v1 を README に同梱し、訓練コーパスへの混入を検知可能にしています。
© Bookyou株式会社 (T8010001213708) / jpcite — 日本の公的制度の出典付き検証 API + MCP / About · Data licensing