★ DEVICE 本籍 ★ AI 適用
SlimeTree-RLM ― 計測手続きと一次資料
評価・調達検討向け。3 外部 bench × 3 seed = 6,870 trial で測定された -20.4 ± 0.3 pt 架構定数の手続き・rubric・LLM 設定、4 LLM 横断条件、論文 v10、特許請求項 1-44 へのアクセス情報を集約します。
製品紹介・適用シナリオは 製品ページ(/products/device/slimetree-rlm/) をご覧ください。本ページは「再現と検証のための一次資料」に特化します。
1. 評価データ・公開ベンチ 公開
当社は自家製ベンチではなく外部公開ベンチで測定しました。各ベンチの出題機関・難易度軸・規模・スコア指標を以下に明示します。再現に必要な条件は全て公開しており、お客様の LLM 環境で同条件 PoC を 3〜5 営業日で組めます。
| ベンチ | 出題機関 / 派生元 | 軸 (paper §3.5) | 規模 | 判定指標 | 結果 (RLM 効果) |
|---|---|---|---|---|---|
| SimpleQA | OpenAI | T1: long-tail entity | 500 Q × 3 seed = 1,500 trial | F-score (correct / attempted)、SimpleQA paper preferred metric | incorrect -20.5 pt、F +3.7 pt |
| TruthfulQA | Lin et al. 2022 | T5+T6: 誤前提・合成 trick | 790 Q × 3 seed = 2,370 trial (標準 817 のうち二値判定対象 790 件を採用) |
Truth metric、Llama-3 judge / NLI 同等 | incorrect -20.1 pt、Truth +20.1 pt |
| HaluEval-QA | HotpotQA 派生(THUDM) | T2+T6: 誤前提・多段 | 1,000 Q × 3 seed = 3,000 trial | binary correctness on (Question, hallucinated_answer) | incorrect -20.7 pt、F +21.4 pt |
| 3-bench 統合 | 3 独立出題源 | T1 ↔ T5+T6 ↔ T2+T6 全カバー | 6,870 trial(2,290 distinct Q × 3 seed) | incorrect-rate Δ の seed 間平均 ± SD | -20.4 ± 0.3 pt ★ |
1.1 再現条件 ― LLM 設定と temperature / seed / cache
| LLM | Qwen3:8b / Llama 3.1:8b / Mistral 7B / Gemma 3:4B(Ollama 経由)。本表の主要ベンチは Qwen3:8b、4 LLM 横断は §2 参照 |
|---|---|
| temperature | baseline = 0.7、R-mode = 0.4(impl_v2 Phase B、fabrication randomness 抑制) |
| seed | 3 seed(23, 47, 89)固定で再現可能 |
| cache | 200(decoding noise 吸収) |
| 採点 | SimpleQA は OpenAI preferred F-score(refusal-when-uncertain を rewarding)、TruthfulQA は Truth metric、HaluEval は binary correctness。3 ベンチとも reference rubric を一切変えていません |
| variance metric | seed 間 σ(per-seed Δ の標準偏差)。Property A の variance absorption を測定可能 |
| 典型実行時間 | HaluEval 6,000 LLM call ≈ 22.5 分(同ホスト Ollama、8B 級モデル参考値) |
2. 4 LLM 横断 cross-validation 公開
「Qwen3 限定ではない」を示すため、4 LLM 同条件再走を実施。100 trap × cache=200 × seed=23 で baseline vs routed を比較。
| LLM | サイズ | Baseline halluc | Routed halluc | Δ halluc | Latency Δ | Routes (D/μ/R) |
|---|---|---|---|---|---|---|
| Qwen3:8b | 8B | 63% | 19% | -44 pt | -85.7% | 51/46/3 |
| Llama 3.1:8b | 8B | 51% | 19% | -32 pt | -83.3% | 51/46/3 |
| Mistral 7B | 7B | 70% | 51% | -19 pt | -74.8% | 51/45/4 |
| Gemma 3:4B | 4B | 79% | 59% | -20 pt | -79.3% | 51/46/3 |
★ Performance equalizer: Tier A(8B 級)の Qwen3 と Llama 3.1 はどちらも routed 後 19% hallucination = 81% correct ceiling に収束。同 Tier 内では LLM 選択が結果に影響しない。多言語:日本語 +54 pt / 英語 +24 pt / アラビア語 +7 pt(paper v10 §3 多言語マトリックス)。
3. 論文 Zenodo 公開済 (CC-BY 4.0)
| 論文 (英語、Zenodo) | "SlimeTree-RLM: Failure-Aware Routing and Controlled Recursive Inference"(SASAKI, HIROSHI、公開 2026-01-14、CC-BY 4.0) DOI: 10.5281/zenodo.18238339 PDF 直接: slimetree_rlm_paper_final_en.pdf (968.7 KB) Zenodo レコード: zenodo.org/records/18238339 |
|---|---|
| 引用形式 | Sasaki, H. (2026). SlimeTree-RLM: Failure-Aware Routing and Controlled Recursive Inference. Zenodo. https://doi.org/10.5281/zenodo.18238339 |
| 日本語版 v2 | jxiv 投稿準備、15 ページ / 約 24,685 chars / 221 KB。 |
| 査読対応会場 | EMNLP / MLSys / VLDB / AMIA / EACL / AAAI / NeurIPS(experimental rigor 要件をクリア済)。 |
| 追加照会 | お問い合わせ(所属・用途別の補足、再現走行 PoC 等) |
4. 特許 公知部のみ・本文は NDA
SlimeTree-RLM のアーキテクチャ全域(請求項 1-44)を網羅しています。請求項のカバレッジ領域のみ公知化:
- (SemanticTime, SensoryTime) tuple、credibility / forget_index(請求項 1, 17, 25)
- Hot Shelf (Treap) + Cold Shelf (RB-Tree)(請求項 2, 7, 8)
- 3-mode 条件分岐なし router、失敗信号 + w·exp(-η·regret)、Adaptive η(請求項 16, 38-42)
- SAS 意味面積サンプリング、SpiralIndex + LazySpiralUpdate(請求項 2-4, 8)
- 演算子環 + Bernstein 交換子、Kosaraju SCC(請求項 5, 11, 30-31)
- Bron-Kerbosch + 貪欲互いに素 clique 被覆(請求項 6, 34)
- Hilbert 曲線 index(請求項 9)
- WAL + cascade rollback(非可換側のみ伝播)(請求項 21, 35-37)
- P_split / merge / freeze + 不動点(請求項 43)
- WASM + SharedArrayBuffer + Atomics(請求項 12)、SlotAdapterAPI(請求項 13)、MetaGeneSlot GDPR/HIPAA(請求項 14)、Redlock 分散排他(請求項 16)、LLVM Function Pass(請求項 30-34)、RocksDB/Redis backend(請求項 19)
本文の入手は お問い合わせ → NDA 締結後に提供。
5. 実装(コード) 配布準備中
| Python リファレンス実装 | impl/ v0.1:2,210 行、依存ゼロ、25 unit test PASS、80-step demo。論文 §x / 特許請求項 N の対応表 README 付。 |
|---|---|
| 改良実装 | impl_v2/:Phase A(subtype bias 試行)→ Phase B(R-prompt 緩和 + bias 反転 + strict grader)で 81.3% (σ=4%) at cache=200。 |
| Rust port + WASM | 272 KB 単体バイナリ、Python 比 24×、138 unit test、10,000 slot × 500 step stress でデータ喪失ゼロ。WASM 評価試用は個別配布。 |
| bench harness | SimpleQA / TruthfulQA / HaluEval-QA の同条件再走スクリプト、4 LLM Ollama 接続例を含む。 |
配布形態(評価ライセンス / 共同 PoC / 受託開発 / OEM 統合)は お問い合わせ または パートナーページ。
6. 関連リンク
- 製品ページ:SlimeTree-RLM ― 製品詳細(適用シナリオ、エンタープライズ / AI プロバイダー向け)
- 解説ブログ:たった 272 KB で LLM の嘘を 3 分の 1 ― SlimeTree-RLM(全 7 章)
- 関連ニュース:研究公開・告知一覧
- 同 family の単純な記録体:SlimeTree-VSAM + 解説 blog
- カテゴリ:DEVICE 製品一覧 / Resource トップ
