JCRB-v1 — Japan Compliance Reasoning Benchmark

Name: Japan Compliance Reasoning Benchmark v1 (JCRB-v1)
Creator: Bookyou株式会社
License: https://creativecommons.org/licenses/by/4.0/

日本の 補助金 eligibility / 税制適用 / 法令引用 / 採択統計 / 行政処分予測 の 5 ドメイン × 100 設問。各 LLM を jpcite なし と jpcite あり 両条件で測定し、exact_match (上限額 / 条文 / 日付の文字列一致) と citation_ok (一次資料 host 引用) の差を公開します。

v1.0.0 100 設問 / 5 ドメイン CC-BY 4.0 採点無料 (Pure Python)

最終更新: —

Leaderboard

Leaderboard は 検証済み提出のみを表示します。seed estimates は表示確認用の例であり、検証済みランキングの証拠ではありません。

Model	without jpcite exact_match	with jpcite exact_match	Lift (差分)	without citation_ok	with citation_ok	Lift citation
loading…

提出ごとに (model, mode) 単位で最新が反映されます。生データ: results.json / results.csv

5 ドメイン × 各 20 問

補助金 eligibility

業種 × 地域 × 規模で対象判定。事業再構築 / ものづくり / IT 導入 / 雇用就農資金等。

税制適用

研究開発税制 / 賃上げ促進 / 中小企業経営強化 / インボイス経過措置等の控除率・条文・終了日。

法令引用

e-Gov 上の根拠条文番号 (中小企業基本法 / 労基法 / 下請法 / 独禁法等)。

採択統計

過去公募の申請数 / 採択数 / 採択率 (事業再構築 / ものづくり / 持続化等)。

行政処分予測

補助金返還命令額 / 業務停止 / 検察告発件数 / 加算金率等の数値・期間。

方法論 (Methodology)

1. 設問構築

各設問は jpcite の一次資料コーパス (programs S/A tier・laws・tax_rulesets・enforcement_cases) を起点にバックワードに生成されました。回答候補の expected_value は e-gov.go.jp / nta.go.jp / maff.go.jp / chusho.meti.go.jp / 公式事務局サイト等 政府・公式事務局一次資料 URL に紐付く事実のみ採用。アグリゲータ (noukaweb / hojyokin-portal 等) は除外。

2. スコアリング (deterministic)

exact_match = (期待値の正規化部分文字列が出力に含まれる) AND (期待ホストの URL が出力に含まれる)。和暦↔ISO・万円↔円・全角↔半角を吸収。
citation_ok = 期待ホスト (registrable-domain 一致) の URL が出力に含まれる。
factual_correctness (オプション) = 提出者が任意に LLM judge を実装可。reference scorer は 呼ばない (再現性確保)。

3. jpcite なし / ありの比較

without_jpcite 条件は素の質問文のみを LLM に投げる closed-book 評価。with_jpcite 条件は同じ質問の前に、jpcite REST API /v1/search から取得した上位 5 件の (primary_name, source_url) をコンテキストとして付与してから投げます。プロンプト本体は両条件で同一。

4. オペレータは LLM を呼ばない

jpcite 運営 (Bookyou株式会社) は 顧客の代わりに LLM API を呼びません。顧客が benchmarks/jcrb_v1/run.py を自分のハードウェアで実行し、結果サマリ JSON を benchmarks/jcrb_v1/submissions/ に PR / POST で送る — 運営側の scheduled benchmark publisher がそれを集約してこのページに publish するだけです。これは jpcite の本業務 (¥3/billable unit メータリング) と同じ no request-time LLM call 原則に従います。

再現手順 (Reproduce)

# 1. dataset 取得
git clone https://github.com/shigetosidumeda-cyber/autonomath-mcp.git
cd autonomath-mcp

# 2. 自分のモデルで実行 (例: Claude Opus 4.7、jpcite なし)
python benchmarks/jcrb_v1/run.py \
    --provider claude --model claude-opus-4-7 \
    --mode without_jpcite \
    --out predictions/claude_without.jsonl

# 3. jpcite ありでも実行 (¥3/billable unit のメータリングが顧客側で発生)
JPCITE_API_KEY=jc_... python benchmarks/jcrb_v1/run.py \
    --provider claude --model claude-opus-4-7 \
    --mode with_jpcite \
    --out predictions/claude_with.jsonl

# 4. 採点 (LLM 不使用、Pure Python、無料)
python benchmarks/jcrb_v1/scoring.py \
    --predictions predictions/claude_without.jsonl \
    --out reports/claude_without

# 5. 結果サマリ JSON を leaderboard に追加 (PR or POST)
#    benchmarks/jcrb_v1/submissions/<model>__<mode>.json

benchmarks/jcrb_v1/ を見る results.json 期待ベースライン

提出 (Submit)

2 通りの submission チャネルがあります:

GitHub PR: benchmarks/jcrb_v1/submissions/<model>__<mode>__<yyyymmdd>.json を新規追加した PR を送る。
HTTP POST: API submission channel は現在 GitHub PR 経由で受け付けます。

submission envelope schema: SAMPLE_README.md

FAQ

Q. なぜ closed-book LLM は低スコアになるのですか?
日本の補助金・税制は (a) 一次資料が省庁ごとに分散、(b) アグリゲータの誤転載が学習データに混入、(c) 経過措置 / 改正で日付が頻繁に変わる — 3 点が重なるため、公開ベンチ条件では素の prompt の exact_match が低くなる傾向があります。jpcite は source_url 付き evidence を返し、出典欠落や確認漏れの低減を支援します。最終確認は一次資料で行ってください。

Q. jpcite が自分の corpus で測ったら有利では?
全設問の expected_value は 政府サイト (e-gov / nta / maff / meti / mhlw 等) の公開ページから誰でも検証できる事実のみで構成されています。jpcite に独自の真値はありません。questions.jsonl の各行に expected_source_host が記載されており、そのホストにアクセスして手動検証可能です。

Q. LLM judge は使わないのですか?
reference scorer では使いません (再現性とコスト ¥0 を優先)。提出者は scoring.py の factual_judge パラメータに自前 judge を渡すことで補助スコアを記録できますが、leaderboard には反映しません。

Q. データ汚染対策は?
questions.jsonl の各行は jpcite v0.3.x コーパス (2026-04 snapshot) から生成された新規設問で、既存ベンチマーク (JGLUE / JMMLU / JCommonsenseQA) との重複はありません。canary 文字列 BENCHMARK_DATA_SHOULD_NOT_BE_INCLUDED_IN_TRAINING_DATA_jcrb_v1 を README に同梱し、訓練コーパスへの混入を検知可能にしています。