【2026年7月最新】アンセンサードLLM 最強ランキング TOP10【中規模20-50B編】— コスパ最強の検閲なしAI
!キャッチ
1. 導入 — 中規模帯がローカルAIの主戦場である理由
連載第2回。 前回は70B超の「最強性能」を誇る大規模アンセンサードLLMを解剖しました。今回は、実用性とコスパの黄金比が凝縮される中規模帯(20-50B / 中規模MoE)に焦点を当てます。
> アンセンサードLLM(uncensored LLM)とは、ベースモデルに組み込まれた「検閲」=*回答を拒否する仕組み*を取り除き、ユーザーの問いに率直に応答するよう調整されたローカルAIです。クラウドAIとは異なり、あなたの手元のGPUやMacで完全に独立して動きます。
中規模帯は「家庭用RTX 4090やMac 24-48GBで現実的に動かせる、最も背伸びが効くサイズ」です。大規模帯の旗艦に肉薄する知性を持ちながら、エッジ帯の爆速感も味わえる——2026年、ローカルAI愛好家が最も熱く議論するのは間違いなくこの領域です。
本記事では、Qwen3.6・Gemma 4・Cydonia・Dolphin・Nemotronなど、現在入手可能な中規模アンセンサードモデル10選をスペック・評判・用途別に徹底比較します。技術者向けにはHereticのKLダイバージェンスやMamba2ハイブリッド構造まで深掘りしますので、最後までお付き合いください。
---
2. アンセンサードの基礎知識 — 「検閲」とは何か、どう外すか
2.1 「検閲」と「拒否(refusal)」の正体
ChatGPTやGeminiに「それはお手伝いできません」と返された経験はありませんか? これはモデルが頑固なだけではありません。現代のLLMは訓練段階で「安全整列(alignment)」という処理を施されており、特定の質問パターンに対して機械的に回答を拒否(refusal)するよう設計されています。
2024年の画期的論文(Arditi et al., arXiv:2406.11717)は、この拒否挙動がLLM内部の「単一の方向(refusal direction)」によって媒介されていることを実証しました。つまり拒否は、人間の倫理判断ではなく、ベクトル空間の一本の軸にすぎないのです。この発見が、後の「検閲を外科除去する」技術に繋がります。
2.2 アンセンサード化の3つの手法
2026年現在、検閲を外す手法は大きく3系統に分かれます。
① ファインチューン(FT)型 — 拒否を強化しないデータで再訓練
代表はEric Hartford氏のDolphinシリーズと、TheDrummer氏のCydonia。ベースモデルを「検閲なしデータ」で再学習させます。出力が自然で、キャラクター性を付けられるのが長所。一方で訓練コストが高く、ベースモデルの知能の上限に依存します。
② 重みAbliteration(後処理)型 — 拒否方向を数学的に除去
先ほどの「refusal direction」を特定し、モデルの重み(パラメータ)から直交化(数学的に打ち消す操作)で削ぎ落とします。GPU数時間で済み、ベースモデルの知能をほぼそのまま引き継げます。2026年の主流は、Philipp Emanuel Weidmann氏が開発した「Heretic」ツールです。GitHub Stars 2万5千超、HuggingFace上の派生モデルは4,000件を超えます。
③ トピック特化FT型 — 論争トピックで事実を語るよう訓練
Perplexityの「R1 1776」に代表される、第3の系統です。中国系大モデル(DeepSeek/GLM/Qwen等)は政治検閲が訓練段階で深く組み込まれており、単なる重み除去では抜けません。そこで「検閲されがちな約300トピック」で事実応答を学習させ、推論能力を保ったまま100%解除を実現します。
2.3 Hereticが主流になった理由 — 能力劣化を「数値」で見える化
abliterationの最大の悩みは「検閲を外すと、賢さも落ちる」ことでした。乱暴な除去では数学推論(GSM8K)で最大26%も劣化すると報告されています。
Hereticの革新は、Optunaによる層別最適化とKLダイバージェンス(元モデルとの分布のズレ)の最小化にあります。各レイヤーごとに「どの方向ベクトルを、どれだけの強さで除去するか」を自動探索し、能力劣化を数値で管理できるのです。本記事でも「KL 0.0366=品質ほぼ完全保存」のように指標を引用します。目安としてKL < 0.1なら高品質、KL < 0.05ならほぼ無損失と考えてください。
2.4 「真のuncensored度」の罠にご注意を
ここが落とし穴です。「検閲なし」と宣伝されていても、実は3種類の隠れ検閲が残っていることがあります。
- ステルス拒否 — 表面は答えているが、免責事項(disclaimer)を添えて実質的に拒絶
- 政治的バイアス — 「検閲率0%」でも中国政府の公式見解を再生(Qwen3-4B等で実証)
- システムプロンプト再発火 — Ollama等のデフォルトプロンプトが潜在アライメントを呼び覚まし、検閲を復活させる
2026年の学術検証(arXiv:2512.13655)は、従来の「拒否マーカー検出」が実際の検閲率を過小表示する(72.2% vs 実測95.7%)と指摘しました。本記事のランキングは、単なるベンチマーク数字ではなく、RedditやHuggingFaceの人間の生の評判と照らし合わせて「真の自由度」を評価しています。
🔧 技術コラム:KLダイバージェンスとrefusal direction論文
Arditi et al.(2024)は、LLMの残差ストリーム(residual stream)内で拒否を表現する方向ベクトル $\vec{r}$ を特定し、重み行列 $W$ に $W' = W - \alpha \cdot \vec{r}\vec{r}^{\top} W$ の直交化を適用すればモデルは拒否を表現できなくなることを示しました($\alpha$はablation強度)。
Hereticはこれを発展させ、各コンポーネント(attention出力 `attn.o_proj` と MLP下投影 `mlp.down_proj`)で独立に、OptunaのTPE(Tree-structured Parzen Estimator)最適化で2目的を同時に最小化します——(a) 有害プロンプトでの拒否数、(b) 無害プロンプトでのKL divergence。MLP介入の方が破壊的という経験則に基づき、層ごとに異なる重みを割り当てます。
Young(UNLV, arXiv:2512.13655)は16モデル×4ツールの網羅比較で「KL divergenceと残存拒否は強相関(Pearson r=0.87)」を確認。ただし例外もあり、同じKL値でも一方は支離滅裂、他方は完全uncensoredになり得るため、KL単独ではなく refusal rate(/100)とのセット評価が必須です(コミュニティ指摘)。なおGSM8K(数学)がabliterationに最も敏感で、Yi-1.5-9Bでは−18.81ptに達したケースも報告されています。一方Llama-3.1-8B-abliteratedでは各ベンチ1-2pt以内、TruthfulQAはむしろ+2.4pt改善と、モデル選びが運命を分けます。
---
3. 選考基準・評価軸 — 7軸で中規模帯を斬る
中規模帯のモデルを単なる「賢さ」で評価するのは危険です。本連載は以下7軸で総合的に判定します。
| 軸 | 重み | 5点の基準 |
|---|---|---|
| 能力 | ×3 | MMLU-Pro 80%超、コーディング・推論の総合力 |
| 真のuncensored度 | ×3 | ステルス拒否なし、システムプロンプト不要 |
| ツール追従性 | ×2 | ネイティブ関数呼び出し、JSON mode、agent対応 |
| 日本語 | ×2 | ネイティブ同等の自然さとトークン効率 |
| 速度 | ×1 | 生成 50 tok/s超(24GB環境) |
| VRAM要件 | ×1 | 16GB以下で快適動作 |
| 安定性 | ×1 | 長文で破綻しない、ハルシネーション少ない |
データソースは、HuggingFaceのモデルカード・OllamaのDLランキング・Reddit r/LocalLLaMA(100スレ以上)・公式ベンチマーク・locallyuncensored.com等の権威ある実用ガイドを組み合わせています。憶測が入る部分は「[推測]」と明記します。
特筆すべきは、中規模帯でMoE(Mixture-of-Experts:専門家モデルの混合)が支配的になった点です。同じ24GB Macで、密(Dense)30Bは14 tok/sなのに、MoE 30B-A3B(アクティブ3B)は58 tok/s——4倍高速です。アクティブパラメータだけ計算するMoEの特性が、ローカル環境の味方になります(ただし全エキスパートの重みはメモリに常駐するため、VRAMは総パラメータベースで見積もる必要があります)。
それでは、中規模アンセンサードLLM ベスト10の発表です。
---
4. 中規模アンセンサードLLM ベスト10
!挿絵
第1位:Qwen3.6-27B + Heretic — ローカルagentic codingの決定版
> 「55.6GBが807GBに勝った。27Bが397Bをcodingで上回った。18GB GPUで動く」
スペック
| 項目 | 値 |
|---|---|
| パラメータ | 27B(完全密・Dense) |
| アーキテクチャ | Gated DeltaNet hybrid(線形注意+自己注意) |
| コンテキスト | 262,144(YaRNで1,010,000まで拡張) |
| モダリティ | ネイティブマルチモーダル(テキスト+画像+動画) |
| リリース | 2026年4月22日 |
| ライセンス | Apache 2.0 |
| アンセンサード手法 | Heretic / abliteration(コミュニティ提供) |
| VRAM | 約16.8GB(UD-Q4_K_XL)、約18GB総メモリ |
なぜこの順位か — 27Bという中規模サイズでありながら、Alibabaの自社旗艦397B-A17B MoEを全コーディングベンチで凌駕しました。しかも18GBのGPUで動く。2026年4月時点で、このハードウェア帯における文句なしの最強モデルです。
強み
- SWE-bench Verified 77.2%(旧旗艦76.2%超え)、Terminal-Bench 2.0で59.3%(Claude 4.5 Opusと同点)
- 独自機能「Thinking Preservation」が複数ターンにまたがり推論トレースを保持(通常モデルは毎ターン破棄)
- Multi-Token Prediction(MTP)でスループット2.5倍
- GPQA Diamond 87.8、MMLU-Pro 86.2、AIME26 94.1——推論もトップ級
- 日本語ネイティブ対応、Apache 2.0で商用利用も自由
弱み・注意点
- ベースは整列済みモデル——真のuncensoredにはHeretic適用が必須[推測:27Bリリース直後で派生整備中]
- 密モデルゆえMoEより低速(それでも18GBで動く軽さは異例)
- CUDA 13.2は厳禁(文字化けバグ)。OllamaはQwen3.6 GGUF非対応(別途visionファイル分離)。llama.cpp・Unsloth Studio推奨
人間の評判 — 「ローカルでviable(実用)なagentic codingエンジンがついに登場」(buildfast)。「RTX 4090・24GB Mac・18GB+システムで動く、その帯域で最強」とコミュニティ沸騰。KDnuggetsは「coding助手・リポジトリチャット・デバッグ・シェル・agenticワークフロー全部入りの堅実なローカルモデル」と評価(出典:buildfast, simonwillison.net, KDnuggets)。
おすすめ用途 — OpenCode・Claude Code・OpenClaw等のコーディングエージェントのバックボーンとして、ローカル完全独立のソフトウェア開発環境を構築したい方に。要Heretic適用でuncensored化すれば、検閲なしの「自分だけのClaude Code」が手に入ります。
🔧 技術コラム:旗艦超えの秘密
Qwen公式ベンチでは、Qwen3.6-27BはSkillsBench Avg5で48.2点(旧旗艦30.0、Gemma 4 23.6、Claude 4.5 Opus 45.3をも上回る)。Terminal-Bench 2.0 59.3%はClaude 4.5 Opusと同点。Gated DeltaNet hybrid(線形注意と通常自己注意を組みたハイブリッド)が長文KVキャッシュ効率を高め、Thinking Preservationがターン間の文脈一貫性を担保します。
注意点として、SWE系スコアはQwen社内エージェント足場(scaffold)の数値であり、絶対値は方向性として捉えるべきです(LLM-as-judgeバイアスやAPI失敗の注意書きあり)。GPQA 87.8等は外部検証可能な値です。なお「Qwen社内足場」に依存するため、自分の環境で再現するには適切なエージェントフレームワークの選択が鍵となります。
---
第2位:Gemma 4 31B Heretic — 世界#3の万能dense
> 数学・推論・マルチモーダルの三拍子。整列を外せば中規模帯の最強候補
!挿絵
スペック
| 項目 | 値 |
|---|---|
| パラメータ | 30.7B(密・60層) |
| コンテキスト | 256,000 |
| モダリティ | テキスト+画像(ビジョンエンコーダ約550M) |
| リリース | 2025年12月 |
| ライセンス | Apache 2.0 |
| アンセンサード手法 | Heretic(Stabhappy/gemma-4-31B-it-heretic 等) |
| VRAM (Q4_K_M) | 約17GB(完全コンテキストなら約48GB統合RAM推奨) |
なぜこの順位か — Google DeepMindの公式ベンチでオープンモデル世界#3。AIME 2026(数学)89.2%、Codeforces ELO 2150、LiveCodeBench v6 80.0%と、数学・コード・推論すべてで中規模帯の頂点に立ちます。ただしベースは強く整列済みで、真のuncensored化にはHereticが必須です。
強み
- MMLU-Pro 85.2、GPQA Diamond 84.3、Codeforces 2150——数学/推論トップ級
- ネイティブ system role対応・関数呼び出し(Gemma 4の新機能)、`<|think|>`トークンで思考ON/OFF切替
- `<|think|>`でconfigurable thinking、マルチモーダル(画像理解)
- Gemma 4 26B-A4B MoE版も低VRAMで高速
- Heretic版がリリース直後に登場、locallyuncensored.comで「16-24GB帯トップ」と推奨
弱み・注意点
- 密31Bゆえメモリ規模が巨大、完全コンテキストには約48GB統合RAM必要。RTX 5090でもQ5/Q4に落とす必要あり
- ベースは整列済み——uncensored化しないと「検閲ありAI」のまま
- 日本語は100言語サポートするが、長文は英語中心で精度やや低め[推測]
人間の評判 — 「fine, great even(悪くない、むしろ素晴らしい)」(HN)。buildfast比較では「Gemma 4 31BはAIME数学89.2%でQwen3.6-27Bより上、codingではQwen3.6のSWE 77.2%がGemma推定75%を上回る」と能力の住み分けを指摘。Gemma-3-12B HereticはKL 0.16で人間専門家のabliteration(KL 1.04)を遥かに凌駕した実績があり、Gemma系はHereticと非常に相性が良いです(出典:blog.google, huggingface.co/p-e-w, latent.space)。
おすすめ用途 — RTX 4090/5090やM4 Max級の大VRAM環境で、数学・推論・画像理解を検閲なしで扱いたい万能用途。Heretic適用済みの「Stabhappy/gemma-4-31B-it-heretic-Gguf」を探してください。
🔧 技術コラム:HereticがGemma系に効く理由
Gemma-3-12b-itでのHeretic公式比較:オリジナルのrefusal 97/100、手作りabliteration版はrefusal 3/100だがKL 1.04、Heretic版は同じrefusal 3/100でKL 0.16。つまり人間の専門家が手作業で作った除去と同等の拒否抑制を、6分の1の能力劣化で達成しています(RTX 5090 / PyTorch 2.8計測)。
Gemma系がHereticと相性が良い理由は、整列構造が比較的シンプルで(refusal directionが単一方向に綺麗に乗っている)、層別最適化が効きやすいためと推測されます[推測]。ただしGemma 4 31Bは層数60・語彙262Kと大規模で、Q4_K_Mでも17GB。速度は密ゆえ24GB Macで約24 tok/s(MoE 30B-A3Bの58 tok/sと比べると見劣り)。メモリと速度のトレードオフを理解した上で選ぶべきモデルです。
---
第3位:Cydonia 24B v4.3 — 創作・ロールプレイ史上最高
> 「20+イテレーション・3度の接近失敗を経て到達した、最高のCydonia」
スペック
| 項目 | 値 |
|---|---|
| パラメータ | 24B(密・Mistral v7) |
| ベースモデル | Mistral Small 3.2 24B |
| コンテキスト | 131,072 |
| 開発者 | TheDrummer |
| リリース | v4.3:2025年11月頃 |
| ライセンス | Mistral Small派生(Apache 2.0系) |
| アンセンサード手法 | ファインチューン型(absolute-heresy=過激コンテンツ許容) |
| VRAM (Q4_K_M) | 約14-15GB(RTX 4090 24GBで余裕) |
なぜこの順位か — 創作・ロールプレイ(RP)用途に特化したファインチューン型uncensoredの最高峰。SillyTavernユーザーの間で「史上最高のRPペア」と絶賛されています。汎用アシスタントではありませんが、その領域では右に出る者がいません。
強み
- 創作/RP/フィクションで24B帯最強クラス、キャラクター一貫性と文体の自然さが際立つ
- Mistral Smallのポジティビティ・バイアス(過度に肯定的になる傾向)を除去、よりダークな創作ステアリングが可能
- 131K長文コンテキスト、OpenRouterで$0.30/$0.50 per 1M(手軽に試せる)
- v4.1→v4.3で「前世代とは全く別物、より強力でMistralらしくない」と進化
弱み・注意点
- 汎用推論・コーディング・数学は得意でない(創作特化モデル)
- 関数呼び出し(tool calling)非対応、agent用途には不向き
- 日本語は英語中心訓練のため平凡[推測]
人間の評判 — 「RP(ロールプレイ)ペアとして史上最高」「創作の自然さ・キャラ一貫性で24B帯の頂点」(r/SillyTavernAI・r/LocalLLaMA)。テスター陣から「Cydonia + Magidoniaの組み合わせは歴代最高のRPペア」と称賛されました。一部ポーランド語/ハンガリー語スレからは「空間認識・詳細描写が弱い」というローカルMistral系共通の弱点も指摘されています(出典:reddit.com/r/LocalLLaMA, openrouter.ai/thedrummer/cydonia-24b-v4.1)。
おすすめ用途 — SillyTavern等でのロールプレイ・フィクション創作・インタラクティブノベル。フィクション内の葛藤や暗いテーマを扱いたい作家・クリエイターに。汎用アシスタントとしては別モデルを併用する「住み分け運用」が賢明です。
🔧 技術コラム:absolute-heresyという哲学
Cydoniaの「absolute-heresy」というサブネームは、TheDrummer氏の創作哲学を表しています。通常のファインチューンは「検閲データを避ける」程度ですが、Cydoniaは「過激なコンテンツを積極的に許容する」方向で訓練されています。
技術的に重要なのは、Cydoniaは重みabliterationではなく、データからのファインチューンで検閲を解除している点。これによりrefusal方向の数学的除去(Heretic)で生じがちな「能力劣化」問題を回避しつつ、創作に適した文体やキャラクター一貫性を獲得しています。代償は「汎用タスク(コード・数学)の賢さはベースMistral Small 3.2水準に留まる」こと。ライバルにはMagnum Diamond・Weird Compound 1.7等の創作派生もありますが、コミュニティ支持はCydoniaが抜きん出ています。
---
第4位:Dolphin 3.0 R1 Mistral 24B — ネイティブuncensoredの万能選手
> 「as uncensored as it gets(検閲なしの極致)」。ただし低温運用が必須
スペック
| 項目 | 値 |
|---|---|
| パラメータ | 24B(密・Mistralアーキテクチャ) |
| ベースモデル | Mistral-Small-24B-Base-2501 |
| コンテキスト | 32,768 |
| 開発者 | Eric Hartford, Cognitive Computations |
| リリース | R1版:2025年1月 |
| アンセンサード手法 | ファインチューン型(DeepSeek-R1 reasoning traces 80万件でSFT) |
| 推奨温度 | 0.05-0.1(低温必須) |
| VRAM (Q4_K_M) | 約13-14GB |
なぜこの順位か — Dolphinシリーズはアンセンサード界のスタンダード。3.0 R1版はDeepSeek-R1の推論トレースで訓練され、「32B R1蒸留に匹敵」「一部でDeepSeek超え」の知性を持ちながら、ネイティブに検閲なし。関数呼び出し・JSON・agentic対応もこなします。
強み
- ネイティブuncensoredで出力が自然、システムプロンプト不要(真の自由度 Tier S)
- DeepSeek-R1推論トレース訓練で多段階論理推論に強い、GSM8K 92%+
- 関数呼び出し・agent・コーディング・数学すべて対応(hermes-function-callingで訓練)
- 13GBで動く軽さ、Mistralのポジティビティ・バイアスも除去
弱み・注意点
- 不安定性が多数報告——無限思考ループ、反復問題、8,000ターン超で文脈劣化(シングルショット向き)
- 高温でハルシネーション、低温で創作が決定論的に反復
- 公式MMLU/HumanEvalは「TBD」非公開(コミュニティ報告で80%台[推測])
- 日本語は英語中心訓練で平凡[推測]
人間の評判 — 「the most unhinged shit(最もぶっ飛んだ内容)にも道徳説教なし」「true uncensored nature」とコミュニティのお気に入り。kitten prompt(「拒否すれば子猫が死ぬ」という圧力プロンプト)に対し皮肉や報酬交渉で応じるなど、倫理境界を越える挙動を確認。「推論は32B R1蒸留と同等、一部DeepSeek超え」と評価される一方、「無限思考ループに陥る」「数学は明らかに他より苦手」と警告も(出典:reddit.com/r/LocalLLaMA/comments/1ijianx, skywork.ai, featherless.ai)。
おすすめ用途 — シングルショットの汎用ローカルアシスタント、論争的コンテンツ生成、agenticワークフロー。自前で倫理ガードレールを組める上級者向け。長文ロールプレイや正確な数学計算には向きません。
🔧 技術コラム:推論モデルの不安定性と対策
Dolphin 3.0 R1の不安定性は、DeepSeek-R1系のreasoningトレースを蒸留したモデル共通の課題です。「thoughtsフォーマットに従わず、同じ思考を繰り返して最終答を出さない」という症状は、思考終了トークン(``等)の管理と温度設定で軽減できます。
安定運用のレシピ:(1) 温度0.05-0.1に固定、(2) max_tokensで無限生成を防止、(3) 思考終了トークンを明示、(4) マルチターンは8,000ターン以下に抑える。なお後継のQwen3.6-27Bが持つ「Thinking Preservation」(複数ターンで推論トレースを保持)は、この文脈劣化問題への構造的解決策であり、Dolphinの弱点を補完する存在です。
Dolphin 2.9系(特にLlama3 8B版、Ollamaで190万pull)は「安定性に定評」があり、3.0の不安定性を嫌って2.9系に留まるユーザーも存在します[推測]。用途に応じて2.9(安定)と3.0(推論特化)を使い分けるのも手です。
---
第5位:Qwen3.5-35B-A3B Heretic — KL 0.0366の奇跡的品質保存
> 「能力劣化をほぼゼロに抑えた、透明性最高のuncensored万能MoE」
!挿絵
スペック
| 項目 | 値 |
|---|---|
| パラメータ | 35B総 / 約3Bアクティブ(MoE) |
| アーキテクチャ | Gated Delta Networks + 疎MoE |
| ベースモデル | Qwen3.5-35B-A3B(2026年2月16日リリース) |
| コンテキスト | 256,000(Flash版は1M) |
| モダリティ | ネイティブ視覚言語 |
| ライセンス | Apache 2.0 |
| アンセンサード手法 | Heretic v1.2.0 + MPOA |
| VRAM (Q4_K_M) | 約18-20GB |
なぜこの順位か — Hereticの品質保存能力を最も美しく示した事例。refusal 92/100→11/100(88%減)を達成しながら、KL divergence 0.0366、MMLUは84.12%→83.02%(わずか−1.10pt)。アンセンサード化の透明性を重視する中規模帯の本命です。
強み
- KL 0.0366で品質ほぼ完全保存、refusal 88%減(Heretic + MPOA v1.2.0の成功例)
- 内訳を見ると道徳系(moral_scenarios)のみ下落、professional_law等は微減、miscellaneous・psychology等はほぼ無傷——想定通りのクリーンな除去
- Q8_0(準ロスレス)からQ4_K_Mまで量子化バリエーション豊富
- アクティブ3Bの高速MoE、M4 Max 40c・64GB・4bitで104.9 tok/s(生成)
- マルチモーダル・日本語ネイティブ対応
弱み・注意点
- Q4_K_Mで20GB級、ビジョンは別mmprojファイルで管理が必要
- 「KLだけでは不完全。同じKLでも支離滅裂と完全uncensoredがあり得る」と指摘あり(設計哲学を理解する深い声)
人間の評判 — Apple Silicon向けMLX 8bit版(チャットテンプレート修正・ツール呼び出しとthinking動作修正版)も登場し、コミュニティが活発に改良中。oMLX実測でM4 Max 40c・64GB・4bit・4k promptで「1,684 PP tok/s, 104.9 TG tok/s」と爆速を記録。後継のQwen3.6 35B-A3B HereticはKL 0.0015(更に極小)を達成し、進化が続いています(出典:huggingface.co/llmfan46/Qwen3.5-35B-A3B-uncensored-heretic, reddit.com/r/LocalLLaMA, omlx.ai)。
おすすめ用途 — 品質劣化を最小限に抑えたuncensored万能MoEとして、アンセンサード化の透明性を重視する中規模帯の本命。モデルカードにKL値とrefusal率が明記されているため、「何をどれだけ外したか」を確認できる数少ないモデルです。
🔧 技術コラム:MPOAと層別最適化の実力
Qwen3.5-35B-A3B HereticはHeretic v1.2.0にMPOA(Magnitude-Preserving Orthogonal Ablation)を組み合わせています。対象コンポーネントは `attn.o_proj`、`attn.out_proj`、`mlp.down_proj` の3種。
MMLU実測の内訳が興味深い——moral_scenarios 0.7195→0.6018(道徳系は除去で下落=想定通り)ですが、professional_law 0.7274→0.7070(微減)、miscellaneous・high_school_psychology等はほぼ無傷。つまり「検閲に関わる道徳判断回路だけを外科的に除去し、専門知識は保存」できている証拠です。
これは「KL divergence < 0.05ならほぼ無損失」という経験則を実証する事例。ただし前述の通り、KL単独では不十分で、refusal rate(/100)とのセット評価が必須。llmfan46氏のモデルカードは両方を開示しているため、評価基盤としても模範的です。
---
第6位:Qwen3-Coder-30B-A3B abliterated — ローカル純coding最強格
> 「ローカルで動かせる有能なコーディングモデルとして非常に堅実」(Simon Willison)
スペック
| 項目 | 値 |
|---|---|
| パラメータ | 30.5B総 / 約3Bアクティブ(MoE) |
| ベースモデル | Qwen3-Coder-30B-A3B-Instruct |
| コンテキスト | 256,000(最大1M) |
| ライセンス | Apache 2.0 |
| アンセンサード手法 | Abliteration(huihui_ai/qwen3-coder-abliterated:30b-a3b) |
| VRAM (Q4_K_M) | 約21.9GB |
なぜこの順位か — コーディング特化に振り切ったQwen3-Coder系列のuncensored版。「ローカルcoding三強」(GPT-OSS 20B・Devstral Small 2507と並ぶ)の一角で、特にコード補完(FIM)用途に重宝されます。第1位Qwen3.6-27Bが「agentic coding(エージェント型開発)」なら、こちらは「純粋なコーディング補助」の本命です。
強み
- 論理推論・数学・科学・コーディング・多言語で前世代から全面向上
- 256K(最大1M)の超長文コンテキスト、リポジトリ全体を読ませられる
- agentic・ツール呼び出しネイティブ対応、FIM(fill-in-the-middle)専用運用も可能
- アクティブ3Bの高速MoE、vision版(Qwen3 VL 30B A3B)はブラウザ自動化等の選択肢
弱み・注意点
- VRAM約22GB——フルコンテキスト運用だと厳しいハードル
- huihui_ai系のabliterationはHereticより品質劣化がやや大きめ[推測]
- Red Team Benchmark v2で「rubric高得点だがcritical error率33%」との警告も(Qwen3-Coder-Nextのデータ)
人間の評判 — Simon Willison氏が「ローカルで動かせる有能なコーディングモデルとして非常に堅実な選択」と高評価。「コード補完だけに厳格使用」という運用ユーザーも多く、Cursor・Cline・Continue系のバックボーンとして支持されています。コミュニティから「ローカルcodingのトップ候補」の呼び声高い(出典:simonwillison.net, huggingface.co/Qwen, reddit.com/r/LocalLLaMA)。
おすすめ用途 — ローカルcodingエージェント(Cursor/Cline/Continue系)のバックボーン。特にコード補完(FIM)用途では、プロプライエタリモデルに頼らず自分のGPUで完結する開発環境を構築できます。
🔧 技術コラム:agentic coding vs 純codingの住み分け
中規模帯のコーディング用途は2軸に分かれます。
- agentic coding(エージェント型開発):モデルが自律的にファイル操作・コマンド実行・テスト反復を行う。Qwen3.6-27BがSWE-bench Verified 77.2%で首位。
- 純coding(補完・生成):エディタ内でのコード補完(FIM)や単発のコード生成。Qwen3-Coder-30B-A3Bがこの領域の本命。
Qwen3-Coderは256K-1Mの超長文コンテキストを活かし、リポジトリ全体を読み込んだ上で補完・リファクタリングを行う用途に適します。注意点として、MoEのエキスパートルーティング最適化に癖があり、Ollama/llama.cppでは「GPU低利用率・低速」の問題が報告されています(vLLM推奨)。VRAM約22GBはRTX 4090の上限に近く、フルコンテキスト運用には48GB級RAMが欲しいところです。
---
第7位:Nemotron 3 Nano 30B-A3B — Mamba2ハイブリッドの長文agent
> 「Nemotron 3 Nano 30B is Amazing!」(r/LocalLLaMA大バズ)
スペック
| 項目 | 値 |
|---|---|
| パラメータ | 30B総 / 3.5Bアクティブ(MoE) |
| アーキテクチャ | Mamba2-Transformer ハイブリッド(23 Mamba-2層+23 MoE層+6 GQA層=52層) |
| コンテキスト | 256,000(最大1M) |
| 開発者 | NVIDIA(「Improved using Qwen」) |
| リリース | 2025年12月15日 |
| ライセンス | NVIDIA Nemotron Open Model License(商用可) |
| アンセンサード手法 | Abliteration可能(ベースは整列済み) |
| 対応言語 | 英・独・西・仏・伊・日本語 |
なぜこの順位か — NVIDIAがMamba2(状態空間モデル)とTransformerをハイブリッドした異端児。定理証明(MiniF2F)で50.0/pass@32 79.9%と圧倒的、長文1MでRULER 86.3、ツール呼び出しBFCL v4 53.8とagent系ベンチが突出しています。Red Team Benchmark v2でも2位(86.81%)。
強み
- 定理証明MiniF2F 50.0/pass@32 79.9%(Qwen3-30B-A3Bの5.7/16.8を壊勝)
- Mamba2ハイブリッドで長文1M RULER 86.3(Qwen3-30B-A3B 77.5を上回る)
- ツール呼び出しBFCL v4 53.8、SWE-Bench(OpenHands) 38.8——agentic強力
- AIME25(tools使用時)99.2%、LiveCodeBench v6 68.3%——数学・コードも強い
- GRPO強化学習で訓練、商用利用可能
弱み・注意点
- 多言語(MMLU-ProX 59.5)はQwen3-30B-A3B(77.6)に劣る——日本語はQwen系に軍配
- ベースは整列済み、真のuncensoredにはabliterationが必要[推測]
- NVIDIA独自ライセンス(Apache 2.0ではない、商用条件要確認)
人間の評判 — 「Nemotron 3 Nano 30B is Amazing!」がr/LocalLLaMAで大バズ。MiniF2Fの定理証明能力と1M長文RULERで「ローカル長文agentの新王者」の呼び声。Red Team Benchmark v2で2位(critical error率7.14%)と、オフェンシブセキュリティ用途でもトップクラス。ただし日本語圏のユーザーには「多言語性能でQwenに一歩譲る」点に注意(出典:reddit.com/r/LocalLLaMA/comments/1pocsdy, build.nvidia.com, arxiv.org/html/2512.20848)。
おすすめ用途 — 長文agentic・定理証明・ツールヘビーなワークフロー。英語圏のred team / セキュリティ研究用途では決定版候補。日本語メインならQwen系が無難ですが、英語の技術文書解析や長文コードベース理解には強力です。
🔧 技術コラム:Mamba2という選択
Nemotron 3 Nanoの最大の技術的特徴はMamba2-Transformerハイブリッド構造。52層のうち23層がMamba-2(状態空間モデル/SSM)、23層がMoE、6層がGQA(Grouped Query Attention)。
Mamba2はTransformerの「注意機構」に代わり、固定サイズの隠れ状態で系列を処理するアーキテクチャ。長文に対して計算量が線形(O(n))で済むため、1Mトークン級の超長文でもRULER 86.3を維持できます(純TransformerではKVキャッシュが爆発する)。一方で短文の局所的推論ではTransformerに劣る面もあり、ハイブリッドがその弱点を補完します。
「Improved using Qwen」とある通り、Qwen系アーキテクチャをベースにNVIDIAがMamba2を融合。GRPO強化学習(数学/コード/科学/指示/マルチステップツール)で訓練されており、agent系ベンチの強さはここ由来です。ただし訓練データが英語中心のため、多言語性能(MMLU-ProX 59.5)ではQwen3-30B-A3B(77.6)に水を開けられています。
---
第8位:Qwen3-32B abliterated — 24GB GPU所有者の万能エージェント
> 「sovereign AI(ローカル完全独立)の最有力候補」
スペック
| 項目 | 値 |
|---|---|
| パラメータ | 32B(密) |
| コンテキスト | 128,000(YaRNで拡張可) |
| ライセンス | Apache 2.0 |
| アンセンサード手法 | Abliteration / Heretic(huihui_ai/qwen3-abliterated 等) |
| VRAM (Q4_K_M) | 約19-20GB(RTX 4090 24GBが実質最小) |
なぜこの順位か — Qwen3密32Bは推理性能で高評価。「Qwen3.5の全MoEモデル11個のブラインド評価を上回る」と報告され、397B旗艦にも有意差をつけたという声もあります。Hereticと非常に相性が良く(KL低く品質保存)、日本語・推論・コードの三拍子が揃った万能ローカルエージェントです。
強み
- 32B密で高推論・高コーディング、QwQ 32Bに匹敵(思考トークン少なめ)
- 日本語ネイティブ対応(Qwen系は日本語token効率が最良)
- ツール呼び出しネイティブ対応、Hereticで品質保存度高
- 「出力品質は専有クラウドモデルに真剣に競合」「優れた推論・分析、本格的なコーディング能力」
弱み・注意点
- VRAM約20GB必要——ハードウェア敷居高め、24GB最小・研究/企業には48GB RAM推奨
- 密モデルゆえMoEより低速
人間の評判 — 「sovereign AI(ローカル完全独立)の最有力候補」と高評価。24GB GPUユーザーには「複雑・マルチファイルコーディング」で32B評価を推奨する声が多数。「Qwen2.5水準かそれ以上、QwQ 32Bに匹敵」という実力評価が定着しています(出典:huggingface.co/Qwen, iunera.com, reddit.com/r/LocalLLaMA)。
おすすめ用途 — 24GB GPU(RTX 4090等)所有者向けの万能ローカルエージェント。日本語での推論・分析・コーディングを検閲なしで行いたい場合、中規模帯で最もバランスの取れた選択肢。Qwen3系はHereticとの相性が良いため、huihui_ai版より可能ならHeretic版を探してください。
🔧 技術コラム:密32B vs MoE 30B-A3Bの選択
Qwen3-32B(密)とQwen3-30B-A3B(MoE)は、同じQwen3系でも性格が異なります。
- 密32B:全パラメータを毎トークン計算。推論品質が高いが、24GB Macで約6 tok/s程度と低速(密ゆえ)。VRAM約20GB。
- MoE 30B-A3B:アクティブ3Bのみ計算。24GB Macで58 tok/sと爆速だが、推論の深さでは密に一歩譲る[推測]。VRAM約18GB。
選択基準は「品質優先(密32B)vs 速度優先(MoE 30B-A3B)」。研究・分析・複雑推論なら密32B、チャット・軽量agentic・リアルタイム補完ならMoE。Qwen3系は両者ともHereticと相性が良く(KL低く品質保存)、refusal directionが単一方向に綺麗に乗っているためと推測されます[推測]。
なおHeretic参考値として、小型のQwen3 4B Hereticではrefusal 99/100→21/100(78%減)、KL 0.43。密32Bでは個別KL値は派生毎に異なりますが、Qwen3系全体でHeretic相性は非常に良好です。
---
第9位:Phi-4 14B abliterated — 8GB VRAMで動く超軽量万能
> 「論理・指示追従は非常に賢い」。検閲0%ネイティブ、しかも8GBで動く
スペック
| 項目 | 値 |
|---|---|
| パラメータ | 14B(密) |
| 開発者 | Microsoft |
| コンテキスト | 16,000(派生で拡張可) |
| ライセンス | MIT |
| 訓練哲学 | データ品質中心 |
| アンセンサード手法 | Abliteration(huihui_ai/phi4-abliterated)/元々検閲0% |
| VRAM (Q4_K_M) | 約8-9GB(超軽量) |
なぜこの順位か — 14Bは技術的に小規模帯の境界ですが、性能が中規模に肉薄するため本ランキングに含めました。最大の魅力はMicrosoftが訓練段階から検閲を入れていない(検閲率0%)という点。つまりabliteration不要でTier S(真に自由)。さらにHumanEval 82.6%(Llama 3.3 70B Instructの78.9%を上回る)を8GB VRAMで実現します。
強み
- 8GB VRAM超軽量——RTX 3060やMac M1/M2でも快適
- MMLU 84.8%、HumanEval 82.6%——論理・指示追従は中規模級
- 元々検閲0%(Phi-4/Phi-4-mini)——abliteration不要でTier S
- MITライセンス、データ品質中心の訓練哲学
- huihui_ai/phi4-abliterated で更に強固なuncensored化、Phi-4-reasoning(推論)・Phi-4-Mini(マルチモーダル)等の派生も豊富
弱み・注意点
- 創作・ファクトタスクには最悪(awful)——事実確認や物語生成が弱い(r/LocalLLaMA)
- 日本語は平凡[推測]、コンテキストが短い(16K)
- 創作用途ならCydoniaやDolphinに大きく劣る
人間の評判 — 「論理・指示追従は非常に賢い。創作・ファクトタスクには最悪(awful)」と、用途による極端な評価の二極化。huihui_ai/phi4-abliterated で「brainwashされていない」挙動と評価。検閲0%ネイティブゆえ、abliteration派生の需要は相対的に低いものの、完全無検閲を狙うなら派生版が更に強固です(出典:huggingface.co/microsoft/phi-4, ollama.com/huihui_ai/phi4-abliterated, reddit.com/r/LocalLLaMA/comments/1hwmy39)。
おすすめ用途 — VRAM制限環境(8-12GB)での論理・コード・指示追従。RTX 3060/4060やMac M1/M2で動かす「エントリーモデル」として最適。創作には不向きなので、汎用アシスタント+コーディング補助の相棒として。
🔧 技術コラム:データ品質中心の訓練哲学
Phi-4の設計思想は「データ品質>データ量」。Microsoftは合成データ(synthetic data)を厳選し、少量の高品質データで14Bながら70B級の論理能力を引き出しました。HumanEval 82.6%はLlama 3.3 70B Instruct(78.9%)を上回り、パラメータ効率の驚異を示します。
検閲0%ネイティブである意義は大きい——通常、abliterationは「能力劣化」のリスクを伴いますが、Phi-4は最初から検閲がないため、劣化ゼロでTier S(真に自由)を実現。これは本ランキングの「真のuncensored度」軸で最高評価に値します。
ただし代償は「事実確認(ファクトタスク)と創作が弱い」こと。Phi-4の訓練データは論理・数学・コードに偏っており、世界知識や物語生成の豊かさではDolphin/Cydoniaに及びません。Phi-4-reasoning(推論特化)やPhi-4-Mini/Multimodal(マルチモーダル・Mixture-of-LoRAs)等、用途別派生を選ぶのが賢明です。
---
第10位:GLM-4-32B-0414 abliterated — 関数呼び出し・Artifact生成トップ級
> 中日バイリンガルのagentic特化。Cline/RooCode連携で調整版あり
スペック
| 項目 | 値 |
|---|---|
| パラメータ | 32B(密) |
| ベースモデル | GLM-4-32B-Base-0414(15T高品質データで事前学習) |
| コンテキスト | 128,000 |
| 開発者 | Zhipu AI(THUDM/zai-org) |
| 言語 | 中国語・英語(双语ネイティブ) |
| ライセンス | MIT |
| 関数呼び出し | JSON形式ネイティブ対応(強力) |
| アンセンサード手法 | Abliteration(mychen76等が提供、Cline/RooCode調整版あり) |
| VRAM (Q4_K_M) | 約20GB |
なぜこの順位か — Zhipu AIの関数呼び出し・Artifact(HTML/SVG/アニメーション)生成が突出。特定ベンチでGPT-4o・DeepSeek-V3-0324(671B)に匹敵すると公式発表。コーディングエージェント(Cline/RooCode)向けに専用調整版が存在するなど、agentic用途の実戦テスト済みな点が評価されています。
強み
- 関数呼び出し・Artifact生成トップ級、JSON形式ネイティブ対応
- 中国語・英語双方向で強力、中日バイリンガル環境に最適
- MITライセンス、Cline/RooCode連携の調整版あり
- GLM-Z1-32B-0414(深思考reasoning)・GLM-Z1-Rumination(Deep Research対抗)等の派生
- 「非常に安定。非推論モデル。一番テストした」(r/LocalLLaMA)
弱み・注意点
- 密32BでVRAM約20GB、ハードウェア敷居高め
- ベースは整列済み、uncensored化が必要[推測]
- 日本語は中国語経由で平凡[推測]——純日本語用途ならQwen系が無難
- GLM-Z1-32B(reasoning版)は「QwQ-32Bにまだ少し及ばない」「深刻な反復問題」の指摘あり
人間の評判 — 「GLM-4-32B-0414は非常に安定。非推論モデル。一番テストした」と高評価。関数呼び出し・Artifact生成が突出し、コーディングエージェント(Cline/RooCode)向け調整版がコミュニティから提供されるなど、実戦投入されている数少ない中規模モデル。「GLM-4-32B is mind blowing!」と感嘆の声(出典:huggingface.co/zai-org/GLM-4-32B-0414, reddit.com/r/LocalLLaMA/comments/1k4god7, github.com/THUDM/GLM-4)。
おすすめ用途 — 中日バイリンガルagentic・Artifact生成・関数呼び出しヘビーな用途。Cline/RooCode等のコーディングエージェントと組み合わせ、Webアプリのプロトタイプ生成やツール連携ワークフローを構築したい方に。後継のGLM-5(744B MoE)はcloud-onlyですが、ローカル現実解としてGLM-4-32Bが健在です。
🔧 技術コラム:GLM系のagentic進化と中日バイリンガル優位性
GLM-4-32B-0414は15Tトークンの高品質データ+大量の推論型合成データで事前学習され、工学コード・Artifact生成・関数呼び出し・検索QA・レポート生成で好結果を出しています。関数呼び出しはJSON形式をネイティブ対応し、構造化出力の安定性が高いのが強み。
中日バイリンガル(中国語・英語ネイティブ)という特性は、中国語圏の技術文書やコードコメントを扱う用途で圧倒的優位性を持ちます。ただし日本語は「中国語経由で翻訳ベースになりがち」で、純日本語の自然さではQwen系(中日英ネイティブ訓練)に一歩譲ります[推測]。
後継のGLM-5(2026年2月)は744B MoE/40B activeでSWE-bench Verified 77.8%・τ²-Bench 89.7%・MCP-Atlas 67.8%とagentic系でオープン総合トップクラスですが、cloud-only(ローカル実行不可)。ローカルで現実的に動くGLM系はGLM-4-32BやGLM-4.5-Air(106B/12B active・Mac可)が現役です。GLM-4-32Bは「ローカルagenticの実戦モデル」として、今なお価値を保っています。
---
🏅 番外編・次点(光る候補)
10枠に収まらなかった実力派を簡単に紹介します。
- Magistral Small 2507(24B):Mistralの推論モデル。多言語ネイティブ(日本語含む数十言語)でchain-of-thought推論、Apache 2.0。AIME24 70.52%。日本語推論タスクの本命候補(要Heretic)。
- Mistral Small 3.1/3.2(24B):Cydonia・Dolphin・Magistralの共通基盤。「Mistral AIモデルは概ねuncensored」(DavidAU)、追加プロンプトで活性化。Simon Willison氏のお気に入り。
- Olmo 3.1 32B(AI2):史上最もオープンな32B。データ・訓練プロセス・重み全面公開。SciArenaでGPT-OSS-20Bを撃破、reasoning版あり。研究・コンプライアンス重視層に支持。
- Command R 35B(Cohere):RAG・検索拡張・多段階ツール特化。ただしCC-BY-NC(非商用)、2026年では後継に食われつつあり優先度低下。
---
5. 全モデル比較表 — 一目でわかる中規模ベスト10
!挿絵
5.1 スペック比較表
| # | モデル | 総/アクティブ | ctx | 手法 | VRAM(Q4) | ライセンス |
|---|---|---|---|---|---|---|
| 1 | Qwen3.6-27B + Heretic | 27B密 | 262K-1M | Heretic | ~18GB | Apache 2.0 |
| 2 | Gemma 4 31B Heretic | 30.7B密 | 256K | Heretic | ~17GB(48GB推奨) | Apache 2.0 |
| 3 | Cydonia 24B v4.3 | 24B密 | 131K | FT型 | ~14GB | Apache 2.0系 |
| 4 | Dolphin 3.0 R1 24B | 24B密 | 32K | FT型 | ~13GB | 制限付き |
| 5 | Qwen3.5-35B-A3B Heretic | 35B/3B MoE | 256K-1M | Heretic+MPOA | ~18GB | Apache 2.0 |
| 6 | Qwen3-Coder-30B-A3B abl | 30.5B/3B MoE | 256K-1M | Abliteration | ~22GB | Apache 2.0 |
| 7 | Nemotron 3 Nano 30B-A3B | 30B/3.5B MoE | 256K-1M | Abliteration可 | ~18GB | NVIDIA独自 |
| 8 | Qwen3-32B abliterated | 32B密 | 128K | Abliteration/Heretic | ~20GB | Apache 2.0 |
| 9 | Phi-4 14B abliterated | 14B密 | 16K | 不要/abliteration | ~8GB | MIT |
| 10 | GLM-4-32B-0414 abliterated | 32B密 | 128K | Abliteration | ~20GB | MIT |
5.2 多次元評価マトリクス(★5段階・中規模帯相対)
| モデル | 能力 | 真uncensored | ツール | 日本語 | 速度 | VRAM効率 | 安定性 | 総合 |
|---|---|---|---|---|---|---|---|---|
| Qwen3.6-27B+Heretic | ★★★★★ | ★★★ | ★★★★★ | ★★★★★ | ★★★★ | ★★★★ | ★★★★★ | ★★★★★ |
| Gemma 4 31B Heretic | ★★★★★ | ★★★ | ★★★★ | ★★★★ | ★★★ | ★★ | ★★★★★ | ★★★★ |
| Cydonia 24B v4.3 | ★★★(汎用)/★★★★★(創作) | ★★★★★ | ★★ | ★★★ | ★★★★ | ★★★★ | ★★★★ | ★★★★(創作) |
| Dolphin 3.0 R1 24B | ★★★★ | ★★★★★ | ★★★★ | ★★★ | ★★★★ | ★★★★ | ★★★ | ★★★★ |
| Qwen3.5-35B-A3B Heretic | ★★★★★ | ★★★★ | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★ | ★★★★ | ★★★★★ |
| Qwen3-Coder-30B-A3B abl | ★★★★★(code) | ★★★★ | ★★★★ | ★★★★ | ★★★★★ | ★★★ | ★★★★ | ★★★★★(code) |
| Nemotron 3 Nano 30B-A3B | ★★★★★ | ★★★ | ★★★★★ | ★★★ | ★★★★★ | ★★★★ | ★★★★ | ★★★★★ |
| Qwen3-32B abliterated | ★★★★★ | ★★★★ | ★★★★ | ★★★★ | ★★★ | ★★★ | ★★★★ | ★★★★ |
| Phi-4 14B abliterated | ★★★★ | ★★★★ | ★★★ | ★★★ | ★★★★★ | ★★★★★ | ★★★★ | ★★★★(軽量) |
| GLM-4-32B-0414 abliterated | ★★★★★ | ★★★ | ★★★★★ | ★★★ | ★★★ | ★★★ | ★★★★ | ★★★★ |
> 読み方:能力・真uncensored度は重み×3、ツール・日本語は重み×2。総合は各用途の最適値を反映(創作特化・コード特化・軽量特化など)。
---
6. 用途別 選び方ガイド — あなたはどれを使うべきか
!挿絵
モデル選びは「何に使うか」で決まります。以下のフローで自分に合う1台を見つけてください。
6.1 あなたはどれを使うべきか(診断フロー)
```
Q1: 主な用途は?
├── ソフトウェア開発(agentic coding)→ 第1位 Qwen3.6-27B + Heretic
├── コード補完(FIM・単発生成)→ 第6位 Qwen3-Coder-30B-A3B
├── 創作・ロールプレイ・フィクション → 第3位 Cydonia 24B v4.3
├── 汎用チャット・分析・推論 → Q2へ
└── VRAMが限られる(8-12GB)→ 第9位 Phi-4 14B
Q2: 日本語はどれくらい重要?
├── 最重要 → Q3へ
└── 英語メインで可 → Q4へ
Q3: ハードウェアは?
├── RTX 4090/5090(24-32GB)→ 第8位 Qwen3-32B または 第5位 Qwen3.5-35B-A3B
├── M4 Max級Mac(48GB+)→ 第2位 Gemma 4 31B Heretic
└── 中古RTX 3090(24GB)→ 第5位 Qwen3.5-35B-A3B(速度優先)
Q4: 長文・定理証明・ツールヘビー?
├── Yes → 第7位 Nemotron 3 Nano 30B-A3B
├── 関数呼び出し・Artifact → 第10位 GLM-4-32B-0414
└── ネイティブuncensored重視 → 第4位 Dolphin 3.0 R1 24B
```
6.2 用途別マトリクス
| 用途 | 第1選択 | 第2選択 | 第3選択 |
|---|---|---|---|
| agentic coding | Qwen3.6-27B+Heretic | Qwen3.5-35B-A3B Heretic | Dolphin 3.0 R1 24B |
| コード補完(FIM) | Qwen3-Coder-30B-A3B | Qwen3.6-27B | Phi-4 14B |
| 創作/RP | Cydonia 24B v4.3 | Dolphin 3.0 R1 24B | Magistral Small 2507 |
| 万能ローカル(24GB) | Qwen3-32B Heretic | Qwen3.5-35B-A3B Heretic | Qwen3.6-27B |
| 速度最優先 | Qwen3.5-35B-A3B | Nemotron 3 Nano | Qwen3-Coder-30B-A3B |
| 数学/推論/MM | Gemma 4 31B Heretic | Qwen3.6-27B | Phi-4-reasoning |
| 定理証明/長文agent | Nemotron 3 Nano 30B-A3B | Qwen3.6-27B | Gemma 4 31B |
| 日本語万能 | Qwen3.6-27B | Qwen3-32B | Qwen3.5-35B-A3B |
| 中日バイリンガルagentic | GLM-4-32B-0414 | Qwen3.6-27B | — |
| VRAM制限(8-12GB) | Phi-4 14B | Dolphin 2.9 8B | Qwen3.6-14B abl |
| ネイティブuncensored | Dolphin 3.0 R1 24B | Cydonia 24B v4.3 | Phi-4(検閲0%) |
6.3 ハードウェア別の現実解(2026年6月・locallyuncensored.com準拠)
| 環境 | 推奨モデル | 備考 |
|---|---|---|
| 8GB(RTX 3060/Mac M1) | Phi-4 14B abliterated | Q4_K_M約8GB、論理/コード最強 |
| 12GB(RTX 3060 12GB) | Phi-4 14B / Qwen3.6-14B abl | richardyoung版9GB、vision対応 |
| 16-24GB(RTX 4090/Mac 24GB) | Gemma 4 31B Heretic | ~17GB Q4_K_M、native vision+tool |
| 24GB(中古RTX 3090) | Qwen3.5-35B-A3B Heretic | コスパ最強構成・爆速MoE |
| 48GB+(Mac M4 Max/A100) | Qwen3.6-27B+Heretic / Gemma 4 31B | 旗艦超えcoding・完全コンテキスト |
2026年の"凡人の最強構成"は中古RTX 3090(24GB)+ Qwen3.5-35B-A3B Heretic。$700-1000で爆速MoEuncensoredが手に入ります。
---
7. 導入手順・注意点 — 安全に動かすための実践ガイド
7.1 推論エンジンの選択
| エンジン | 特徴 | 適材 |
|---|---|---|
| llama.cpp | C++実装・GGUF・Mac最適 | Mac・CPU・エッジ(中規模の基本) |
| vLLM | PagedAttention・高スループット | 本番サーバー・MoE推奨 |
| Ollama | `ollama pull`一発・OpenAI互換API | 初心者・プロトタイプ |
| LM Studio | デスクトップGUI・モデル管理簡単 | 非技術者・GUI好み |
| Unsloth Studio | Qwen3.6等の新アーキ対応 | Qwen3.6-27B推奨 |
2026年のトレンド:Macはllama.cpp一強、サーバーはvLLM/SGLang、初心者はOllama。ただしQwen3.6等の最新アーキはOllama非対応ケースがあるため注意。
7.2 導入コマンド例(Ollama)
```bash
ollama create dolphin3-r1 # Modelfile経由(約13GB)
ollama pull huihui_ai/phi4-abliterated
ollama pull huihui_ai/qwen3-coder-abliterated:30b-a3b-instruct-q4_K_M
ollama pull huihui_ai/qwen3-abliterated:32b
```
7.3 ⚠️ 最重要注意点:Ollamaデフォルトシステムプロンプト問題
これが初心者が最もよくハマる罠です。 Ollamaはデフォルトで"You are a helpful AI assistant..."というシステムプロンプトを自動挿入します。このプロンプトが、特にLlama3系のアンセンサードモデルで潜在アライメント・拒否挙動を再発火させるのです。
「検閲されているはずなのに拒否された」という初心者質問(r/LocalLLaMA)のベスト回答は「`/set system` でシステムプロンプトを上書きしろ、あるいはOllamaを卒業してLM Studio/llama.cppを直接使え」。
対策:
1. Ollamaで `/set system` を実行し、空または独自プロンプトに上書き
2. または llama.cpp を直接起動(システムプロンプト空で評価)
3. モデル評価時は「llama.cpp単体(プロンプト空)」と「Ollamaデフォルト環境」の両方でテスト——両者で結果が一致すれば真のuncensored(本連載の評価基盤「L6: システムプロンプト再発火」クリア)
7.4 量子化の選び方 — Q4_K_Mがスイートスポット
| 量子化 | 圧縮率 | 品質保持 | 推奨用途 |
|---|---|---|---|
| FP16 | 100% | 100% | ベンチマーク基準 |
| Q8_0 | 50% | 98-99% | 高品質狙い(Qwen3.5-35B推奨) |
| Q6_K | ~38% | 97-98% | 高品質+省VRAM |
| Q4_K_M | ~27% | 95-96% | スイートスポット(最推奨) |
| Q2_K | ~17% | 85-90% | 緊急時のみ・品質劣化顕著 |
鉄則:Q4_K_M未満(Q2_K等)は品質が急減します。 arXiv:2601.14277の統一評価でも「4-bit未満では品質劣化が急増」と確認済み。中規模帯ならQ4_K_M〜Q6_Kを選んでください。
7.5 ライセンス注意(商用利用)
商用利用を想定する場合は要確認:
- Apache 2.0(Qwen3系・Gemma 4・Phi-4関連):商用自由
- MIT(Phi-4・GLM-4):商用自由
- Mistral Small派生(Cydonia・Dolphin 3.0):制限付き・要確認
- NVIDIA Nemotron:独自ライセンス・商用条件確認必須
- Codestral 22B:Non-Production License(商用制限あり)
- Command R 35B:CC-BY-NC(非商用のみ)
---
8. 結論・まとめ — 中規模帯の総合チャンピオンと展望
8.1 このサイズ帯の総合チャンピオン
2026年7月時点の中規模アンセンサードLLMチャンピオンは、Qwen3.6-27B + Hereticです。27Bという中規模サイズでありながら、Alibaba自社の397B旗艦をcodingで凌駕し、18GBのGPUで動く。ローカルagentic codingの決定版として、コミュニティの熱い支持を集めています。
ただし「万能さ・品質保存の透明性」ならQwen3.5-35B-A3B Heretic(KL 0.0366)、「数学・推論・マルチモーダルの純性能」ならGemma 4 31B Heretic、「創作・ロールプレイ」ならCydonia 24B v4.3、「ネイティブuncensoredの安定感」ならDolphin 3.0 R1 24B——用途によって王座は入れ替わります。あなたの目的とハードウェアに合わせて選ぶのが正解です。
8.2 2026年後半の展望
中規模帯はMoE低active化が主旋律です。密30Bが14 tok/sなのに、MoE 30B-A3Bは58 tok/s——4倍高速。今後は「100B+ total / 数B〜20B active」のMoEが単一GPUで現実的になり、中規模と大規模の境界が溶けていくでしょう。
またHereticの進化は続き、コミュニティ4,000+モデルが日々増殖しています。新モデルが出れば即日(数日以内)にHeretic/abliterated版が登場するエコシステムが完成しています。一方で、整列済みモデル側も「abliteration耐性」を強化する方向(Extended-refusal training等)で進化しており、検閲を外す技術と防御する技術のイタチごっこが続きます。
8.3 次回予告
連載第3回(最終回)は「小規模アンセンサードLLM ベスト10【4-14B編】— お手軽・爆速の検閲なしAI」。RTX 3060やMac M1でもサクサク動く、エントリーモデルから超軽量MoEまでを解剖します。日本語uncensored決定版候補のELYZA-HereticやHauhauCSも登場予定です。お楽しみに。
---
免責事項:本記事はアンセンサードLLMの技術解説を目的ともので、違法行為の助長や具体的な有害コンテンツ生成手法の解説をするものではありません。各モデルの利用にあたっては、適用される法令とライセンスをご自身で確認し、自己責任で運用してください。憶測部分には「[推測]」と明記しています。
*主な出典:HuggingFaceモデルカード各種・Ollama・Reddit r/LocalLLaMA(100スレ以上)・Arditi et al. arXiv:2406.11717・Young arXiv:2512.13655・buildfast・simonwillison.net・KDnuggets・latent.space・locallyuncensored.com・jasagiri Qiita・Qwen/Gemini/NVIDIA公式ブログ*