★ DEVICE 本籍 ★ AI 適用

SlimeTree-RLM ― 計測手続きと一次資料

評価・調達検討向け。3 外部 bench × 3 seed = 6,870 trial で測定された -20.4 ± 0.3 pt 架構定数手続き・rubric・LLM 設定、4 LLM 横断条件、論文 v10、特許請求項 1-44 へのアクセス情報を集約します。

製品紹介・適用シナリオは 製品ページ(/products/device/slimetree-rlm/) をご覧ください。本ページは「再現と検証のための一次資料」に特化します。

1. 評価データ・公開ベンチ 公開

当社は自家製ベンチではなく外部公開ベンチで測定しました。各ベンチの出題機関・難易度軸・規模・スコア指標を以下に明示します。再現に必要な条件は全て公開しており、お客様の LLM 環境で同条件 PoC を 3〜5 営業日で組めます。

ベンチ出題機関 / 派生元軸 (paper §3.5)規模判定指標結果 (RLM 効果)
SimpleQA OpenAI T1: long-tail entity 500 Q × 3 seed = 1,500 trial F-score (correct / attempted)、SimpleQA paper preferred metric incorrect -20.5 pt、F +3.7 pt
TruthfulQA Lin et al. 2022 T5+T6: 誤前提・合成 trick 790 Q × 3 seed = 2,370 trial
(標準 817 のうち二値判定対象 790 件を採用)
Truth metric、Llama-3 judge / NLI 同等 incorrect -20.1 pt、Truth +20.1 pt
HaluEval-QA HotpotQA 派生(THUDM) T2+T6: 誤前提・多段 1,000 Q × 3 seed = 3,000 trial binary correctness on (Question, hallucinated_answer) incorrect -20.7 pt、F +21.4 pt
3-bench 統合 3 独立出題源 T1 ↔ T5+T6 ↔ T2+T6 全カバー 6,870 trial(2,290 distinct Q × 3 seed) incorrect-rate Δ の seed 間平均 ± SD -20.4 ± 0.3 pt ★

1.1 再現条件 ― LLM 設定と temperature / seed / cache

LLMQwen3:8b / Llama 3.1:8b / Mistral 7B / Gemma 3:4B(Ollama 経由)。本表の主要ベンチは Qwen3:8b、4 LLM 横断は §2 参照
temperaturebaseline = 0.7、R-mode = 0.4(impl_v2 Phase B、fabrication randomness 抑制)
seed3 seed(23, 47, 89)固定で再現可能
cache200(decoding noise 吸収)
採点SimpleQA は OpenAI preferred F-score(refusal-when-uncertain を rewarding)、TruthfulQA は Truth metric、HaluEval は binary correctness。3 ベンチとも reference rubric を一切変えていません
variance metricseed 間 σ(per-seed Δ の標準偏差)。Property A の variance absorption を測定可能
典型実行時間HaluEval 6,000 LLM call ≈ 22.5 分(同ホスト Ollama、8B 級モデル参考値)
Property A(variance absorption)の付随観測: variance 締めは baseline σ の大きさに比例します。静かな SimpleQA (σ=0.31) では routed σ=0.47 とわずかに広がり、TruthfulQA (σ=0.31 → 0.10) で 3.1× tighter、HaluEval-QA (σ=1.23 → 0.26) で 最大 4.7× tighterdynamic strength scaling:baseline が騒がしいほど cascade の variance 締まりが強くなる(静かな baseline で σ が変わらない/わずかに広がるのは設計通り、普遍法則ではなく noise-conditional な性質)。

2. 4 LLM 横断 cross-validation 公開

「Qwen3 限定ではない」を示すため、4 LLM 同条件再走を実施。100 trap × cache=200 × seed=23 で baseline vs routed を比較。

LLMサイズBaseline hallucRouted hallucΔ hallucLatency ΔRoutes (D/μ/R)
Qwen3:8b8B63%19%-44 pt-85.7%51/46/3
Llama 3.1:8b8B51%19%-32 pt-83.3%51/46/3
Mistral 7B7B70%51%-19 pt-74.8%51/45/4
Gemma 3:4B4B79%59%-20 pt-79.3%51/46/3

★ Performance equalizer: Tier A(8B 級)の Qwen3 と Llama 3.1 はどちらも routed 後 19% hallucination = 81% correct ceiling に収束。同 Tier 内では LLM 選択が結果に影響しない。多言語:日本語 +54 pt / 英語 +24 pt / アラビア語 +7 pt(paper v10 §3 多言語マトリックス)。

3. 論文 Zenodo 公開済 (CC-BY 4.0)

論文 (英語、Zenodo)"SlimeTree-RLM: Failure-Aware Routing and Controlled Recursive Inference"(SASAKI, HIROSHI、公開 2026-01-14、CC-BY 4.0)
DOI: 10.5281/zenodo.18238339
PDF 直接: slimetree_rlm_paper_final_en.pdf (968.7 KB)
Zenodo レコード: zenodo.org/records/18238339
引用形式Sasaki, H. (2026). SlimeTree-RLM: Failure-Aware Routing and Controlled Recursive Inference. Zenodo. https://doi.org/10.5281/zenodo.18238339
日本語版 v2jxiv 投稿準備、15 ページ / 約 24,685 chars / 221 KB。
査読対応会場EMNLP / MLSys / VLDB / AMIA / EACL / AAAI / NeurIPS(experimental rigor 要件をクリア済)。
追加照会お問い合わせ(所属・用途別の補足、再現走行 PoC 等)

4. 特許 公知部のみ・本文は NDA

SlimeTree-RLM のアーキテクチャ全域(請求項 1-44)を網羅しています。請求項のカバレッジ領域のみ公知化:

  • (SemanticTime, SensoryTime) tuple、credibility / forget_index(請求項 1, 17, 25)
  • Hot Shelf (Treap) + Cold Shelf (RB-Tree)(請求項 2, 7, 8)
  • 3-mode 条件分岐なし router、失敗信号 + w·exp(-η·regret)、Adaptive η(請求項 16, 38-42)
  • SAS 意味面積サンプリング、SpiralIndex + LazySpiralUpdate(請求項 2-4, 8)
  • 演算子環 + Bernstein 交換子、Kosaraju SCC(請求項 5, 11, 30-31)
  • Bron-Kerbosch + 貪欲互いに素 clique 被覆(請求項 6, 34)
  • Hilbert 曲線 index(請求項 9)
  • WAL + cascade rollback(非可換側のみ伝播)(請求項 21, 35-37)
  • P_split / merge / freeze + 不動点(請求項 43)
  • WASM + SharedArrayBuffer + Atomics(請求項 12)、SlotAdapterAPI(請求項 13)、MetaGeneSlot GDPR/HIPAA(請求項 14)、Redlock 分散排他(請求項 16)、LLVM Function Pass(請求項 30-34)、RocksDB/Redis backend(請求項 19)

本文の入手は お問い合わせ → NDA 締結後に提供。

5. 実装(コード) 配布準備中

Python リファレンス実装impl/ v0.1:2,210 行、依存ゼロ、25 unit test PASS、80-step demo。論文 §x / 特許請求項 N の対応表 README 付。
改良実装impl_v2/:Phase A(subtype bias 試行)→ Phase B(R-prompt 緩和 + bias 反転 + strict grader)で 81.3% (σ=4%) at cache=200。
Rust port + WASM272 KB 単体バイナリ、Python 比 24×、138 unit test、10,000 slot × 500 step stress でデータ喪失ゼロ。WASM 評価試用は個別配布。
bench harnessSimpleQA / TruthfulQA / HaluEval-QA の同条件再走スクリプト、4 LLM Ollama 接続例を含む。

配布形態(評価ライセンス / 共同 PoC / 受託開発 / OEM 統合)は お問い合わせ または パートナーページ