コンテンツにスキップ

jpcite 合理的根拠 (Ground Truth) v1 — コスト比較・品質ベンチマーク

Status: canonical 公開 substantiation doc(景表法 §7-2 合理的根拠資料) Last updated: 2026-05-26 Brand: jpcite(Bookyou 株式会社) Scope: 公開面(pricing / why-jpcite-over-opus / stats / benchmark)に表示する 「API fee delta(コスト削減率)」および「品質ベンチマーク」表記の算定根拠と前提条件。

本書の数値はすべて 明示前提下の設計値(projection) であり、特定顧客の請求額削減・ 売上・利益・業務削減・採否などの 成果を保証するものではありません。jpcite は 一次情報を構造化した素材(ingredient)を返すのみで、最終判断(finishing)は利用者責任です。 jpcite は行政書士業務(書類作成代行・代理申請)を行いません。


1. コスト削減率("saving %" = 94.4%)の根拠

公開面(why-jpcite-over-opus)に表示する saving % = 94.4%年間 API fee delta = ¥612,000 は、以下の 明示 baseline と workload の下での API 利用料金の差分 です。請求額・成果の削減ではありません。

前提(site/.well-known/jpcite-justifiability.jsonpricing_assumptions と一致)

項目
比較対象 external model Claude Opus 4.7
external 入力トークン単価 $5.00 / 1M tokens
external 出力トークン単価 $25.00 / 1M tokens
external web 検索単価 $10.00 / 1,000 searches(Anthropic web search)
為替 reference USD/JPY = 150
jpcite 単価 ¥3 / billable unit(税抜、税込 ¥3.30)
workload calculator の use case と各々の token/search/request 件数

saving % = (external 料金 − jpcite 料金) / external 料金。同一 workload を external model に直接投げた 場合の API 料金(設計値)に対する、jpcite メータ料金(¥3/unit)の差分率です。

注: 料金計算機(calculator)の既定 baseline は Claude Sonnet 4.5($3/$15 per Mtok)です。 why-jpcite-over-opus ページの 94.4% は Opus 4.7 baseline を用いており、ページ内に baseline を明示しています。 用途別の reference delta(14 audience、¥3,994〜¥39,988)は cost_saving_examples.md を参照。

限界・条件

  • workload(token/search/request 件数)依存。利用者の実トラフィックで変動します。
  • USD/JPY 為替に感応します(150 を基準)。
  • external model の価格改定で変動します。
  • 「API fee delta」のみを指し、請求額削減・売上・利益・業務削減・成果は含みません。

2. 品質ベンチマーク(JCRB-v1)の根拠

「Opus 同等/Opus を上回る」系の品質表記は、コスト削減率(94.4%)とは別軸の指標です。

JCRB-v1(Japan Compliance Reasoning Benchmark v1)

項目
query 総数 250(5 cohort × 50 query)
rubric 上限 8 点
Opus 4.7 単独 平均(設計値) 3.22 / 8
Opus 4.7 + jpcite envelope 平均(設計値) 6.66 / 8
delta 平均(設計値) +3.44
ratio(設計値) 2.07x
populate 進捗 5 / 250 query(スモーク段階、2026-05-26 時点)
license CC BY 4.0
再現スクリプト scripts/bench/run_jpcite_baseline_2026_05_17.py

jpcite の JPCIR envelope(Evidence + OutcomeContract + citations + known_gaps)を文脈に付与した Opus 4.7 が、envelope なしの Opus 4.7 単独に対して rubric 平均で 2.07 倍を 狙う設計値(projection) です。 本日時点(2026-05-26)では 5/250 Opus fixture populate 済のスモーク段階であり、完了した empirical 測定値ではありません。フル populate 完了次第 empirical 値へ更新します(進捗は https://jpcite.com/benchmark/、CC BY 4.0)。 汎用品質の優劣ではなく、本ベンチマークの rubric 下での設計目標値です。公開面(why-jpcite-over-opus)でも 同じスモーク段階・設計値の framing を明示しています。

限界・条件

  • JCRB-v1 の 5 cohort(日本のコンプライアンス推論領域)に限定。かつ本日時点は 5/250 populate のスモーク段階の設計値(empirical 未完了)です。
  • rubric・採点は本ベンチマーク固有で、他ベンチマークへの一般化は保証しません。
  • envelope の鮮度・カバレッジ(known_gaps)に依存します。

3. 再現性(景表法 §7-2 提出資料)

  • machine-readable 前提: site/.well-known/jpcite-justifiability.jsonpricing_assumptions / benchmark_summary
  • コスト SOT: cost_saving_examples.md
  • 品質再現: repo clone → scripts/bench/run_jpcite_baseline_2026_05_17.py(出力 manifest: data/p5_benchmark/jpcite_outputs/_manifest.json、side-by-side 差分)
  • 公開検証ページ: https://jpcite.com/why-jpcite-over-opus / https://jpcite.com/benchmark/

上記により、表示中の数値は明示前提下で第三者が再現可能です。前提が変われば数値も変わります。