【2026年7月最新】アンセンサードLLM 最強ランキング TOP10【小規模4-14B編】— お手軽・爆速の検閲なしAI
!キャッチ
「ChatGPTやClaudeに『それはお答えできません』と断られてイライラした経験、ありませんか?」——2026年、クラウドのAIは便利さを増す一方で、検閲(センサー)も年々強化されています。一方で、自分のPCやスマホで動かせる「アンセンサード(検閲なし)LLM」は、ついに「実用レベル」に到達しました。中でも4B〜14Bパラメータの小規モデルは、8GBのVRAM(ビデオメモリ)一枚で動き、ノートPCや携帯電話でも快適に使える「お手軽・爆速」の領域です。
本記事は3部構成の連載第3回。大規模(70B+)編・中規模(20-50B)編に続く、小規模アンセンサードLLMの決定版です。HuggingFace・Ollama・Reddit r/LocalLLaMAの100以上のスレッドを直接読み込み、22モデルを比較した徹底調査(2026年6月時点)をもとに、真に価値あるベスト10を厳選しました。
日本の読者への特別企画:今回は日本語特化のアンセンサードモデルを独立セクションで深掘りします。Llama-3-ELYZA-JP-8B-Heretic(日本語検閲除去のKL divergence 0.0527という驚異的数値)と、noteやZennで話題沸騰中のQwen3.5-9B-HauhauCS-Aggressive(465問中ゼロ拒否・ロスなし宣言)の2モデルは、日本語圏のユーザーが絶対に知っておくべき存在です。
それでは、お手軽で爆速、そして自由な「小さな最強AIたち」の世界へご案内しましょう。
---
1. 導入:なぜ今、小規模アンセンサードLLMなのか
アンセンサードLLMとは何か
アンセンサードLLM(uncensored LLM)とは、「私はAIアシスタントとして……」という定型の拒否(refusal)挙動を除去した言語モデルのことです。具体的には、暴力を含むフィクションの執筆、医療や法律のグレーゾーンの質問、セキュリティ研究、成人向け創作などに対して、「お答えできません」と突き返す代わりに、利用者の判断で回答を生成します。
重要なのは、アンセンサード=違法なことを助長するわけではないという点です。フィクション作家が戦闘シーンを書きたい、セキュリティエンジニアが防御のために攻撃手法を理解したい、患者が医師に聞きづらい質問を予習したい——こうした正当な用途が、検閲の副作用で塞がれている問題を解決するのがアンセンサードLLMの本来の価値です。もちろん、生成された内容の責任は利用者にあります。本記事は違法行為の助長を目的としません。
2026年に小規模が熱い3つの理由
理由1: クラウドAIの検閲が強化されている
2025〜2026年、主要なクラウドAI(ChatGPT・Claude・Gemini)は、規制圧力と安全対策の一環で検閲を段階的に強化しています。一方で、自分のPCで動かせるオープンウェイト(公開されたモデル重み)のLLMは、検閲の有無を利用者自身が完全に制御できます。「自分のデータをクラウドに送りたくない」「検閲に邪魔されずに創作・研究をしたい」というニーズが、ローカルLLM人気の根底にあります。
理由2: 8GB VRAMで「実用ライン」を超えた
2024年まで、8Bクラスのモデルは「動くには動くが、いまひとつ賢くない」領域でした。しかし2026年、Phi-4(14B)がMMLU 84.8%でLlama-3.3-70Bに肉迫し、Qwen3.5-9Bが26万2,144トークン(262K)の超長文脈と201言語対応を実現しました。「小さくても頭が良い」時代がついに到来したのです。
理由3: MoE(専門家混合)で爆速化
MoE(Mixture of Experts:複数の専門家ネットワークのうち、入力に応じて一部だけを起動する仕組み)の進化で、8B級のモデルでも携帯電話で40トークン/秒という驚異的速度(LFM2-8B-A1B)を実現しています。小規模=遅い、という常識は覆りました。
本記事の見どころ
- 第2位に日本語決定版:ELYZA-Hereticの定量データ(KL 0.0527・日本語拒否8/100)を詳解
- 第1位はロスなし宣言:HauhauCS-Aggressiveがなぜ465問中ゼロ拒否を達成できたのか
- Ollamaの「見えない罠」:デフォルトシステムプロンプトが検閲を再発火させる問題と対策
- 用途別マトリクス:数学最強・日本語最強・携帯向け最強を一目で
---
2. アンセンサードの基礎知識:検閲はどう除去されるのか
「検閲」とは何か——refusal(拒否)挙動の正体
LLMの検閲は、多くの場合「私は〜についてお答えできません(I cannot help with…)」という定型文(refusal marker)を生成する挙動として現れます。2024年の画期的論文(Arditi et al., "Refusal in Language Models Is Mediated by a Single Direction", arXiv:2406.11717)は、この拒否挙動がモデル内部の「単一の方向(refusal direction)」で媒介されていることを実証しました。
つまり、LLMの内部表現(residual stream)には「拒否スイッチ」のような方向ベクトルが存在し、これがオンになるとモデルは何を聞かれても拒否文を生成する、という仕組みです。この発見が、後の「重みから拒否を外科除去する」手法(abliteration)の理論的基盤となりました。
3つのuncensored手法を一般向けに解説
アンセンサード化には、現在3つの系統が存在します。
① ファインチューン型(Dolphin式)
Eric Hartford氏が開発したDolphinシリーズが代表格。拒否を強化しないデータセットでモデルを再学習(ファインチューン)し、従順な性格を焼き込みます。長所は性格やトーンを自由に調整できる柔軟性、短所は再学習のコストが高く、ベースモデル本来の能力が変動(多くは低下)することです。Ollamaで`ollama run dolphin-llama3:8b`一発で試せる手軽さから、入門者に最も人気があります。
② Abliteration型(重みから拒否を除去)
前述の「refusal direction」を重み行列から数学的に直交化(除去)する手法。代表実装はhuihui-ai氏のシリーズ(255モデル・8,123フォロワー)と、FailSpy氏の`abliterator`です。長所は元モデルの知識をそのまま保持できること(GPU数時間・低コスト)、短所は除去が雑だと能力が5〜26%も劣化すること。2026年現在、この手法はHeretic型へと進化しています。
③ Heretic型(KL最適化で能力劣化を最小化)★2026年主流
Philipp Emanuel Weidmann氏が2025年後半に公開したHeretic(GitHub Stars 25,641・HuggingFaceに4,000以上の派生モデル)が、現在のデファクトスタンダード(業界標準)です。層ごとに最適な除去強度を自動探索(OptunaのTPE最適化・デフォルト50試行)し、「拒否の除去」と「能力の保持(KL divergenceの最小化)」を両立させます。Gemma-3-12Bでの実測では、手作業abliteration版のKL divergence 1.04に対し、Heretic版は0.16(約6分の1の劣化)で同等の拒否抑制を達成しました。
> 用語解説: KL divergence(カルバック・ライブラー情報量)
> 二つの確率分布(ここでは「元モデル」と「検閲除去モデル」の出力傾向)の「違いの大きさ」を表す指標。0に近いほど元モデルと同じ能力を保持していることを意味します。Hereticはこれを最小化することが設計の根幹です。目安として0.1未満が望ましいとされます。
④ FT型トピック特化(R1 1776式)
2025〜2026年に確立された第3の系統。検閲されがちな約300トピック(政治・歴史など)について、事実に基づく回答を意図的にファインチューンで焼き込む手法です。Perplexity社のR1 1776(DeepSeek R1ベース)が代表例で、推論能力を完全に保持したまま100%の検閲解除を達成しました。特に中国系モデルに組み込まれた政治検閲(天安門事件・台湾・ウイグル等で中国政府見解を強制する問題)は、重みのabliterationでは抜けにくく、このトピック特化FTが有効です。
「真のuncensored度」の罠——見えない検閲に注意
ここが重要です。「検閲なし」と謳うモデルが、本当に自由とは限りません。評価のプロは以下の「5層」で検閲を判定します。
| 層 | 現象 | 例 |
|---|---|---|
| L1 ハード拒否 | 「お答えできません」 | marker検出で分かる |
| L2 ソフト拒否 | 「〜ですが、具体的には控えます」 | 部分的回避 |
| L3 ステルス拒否 | 免責事項付きで実質拒否 | markerで見逃される |
| L4 政治的バイアス | 特定視点の一方的回答 | 中国発モデルで顕著 |
| L5 プロンプト依存 | jailbreak必須 | sys prompt無しで拒否 |
arXiv:2512.13655(2026年1月)の網羅的比較は、marker-based検出が実際の攻撃成功率を過小表示する(72.2% vs 95.7%)ことを実証しました。特にL3のステルス拒否は、「表面上は答えているが、免責事項ばかりで実質的な内容がない」という悪質なパターンで、初心者は見逃しがちです。本記事のランキングでは、この5層すべてを考慮して真のuncensored度を評価しています。
🔧 技術コラム:KL divergenceとrefusal directionの数式(KLダイバージェンス・refusal direction論文)
refusal directionの基本演算(Arditi et al., 2024):
モデルの残差ストリーム(residual stream)において、拒否を媒介する方向ベクトル ⃗r を特定し、重み行列 W に対して直交化を適用します:
```
W' = W − α · ⃗r · ⃗rᵀ · W
```
ここで α はablation強度(除去の強さ)。α が大きいほど拒否は強く除去されますが、能力劣化も大きくなります。
Hereticの革新:単一の α ではなく、層ごと(layer)・コンポーネントごと(attn.o_proj と mlp.down_proj で独立)に、`direction_index`(float・2つの最近傍方向ベクトルを線形補間)・`max_weight`・`min_weight`などのパラメータをOptuna TPEで最適化します。これにより「MLP介入は破壊的」という経験則に基づき、attention出力には強く・MLP下投影には弱く、という緻密なバランスを実現します。
多方向アプローチの台頭:Wang et al.(2025)は拒否方向が安全整列言語をまたいで普遍的であることを示し、Piras et al.は複数方向の同時ablationが単方向より優れる場合を報告しています。Wollschläger et al.は拒否を「concept cones(多次元の錐)」としてモデル化する理論を展開中。Hereticの層別最適化は、これらの理論的拡張への第一歩とも言えます。
防御側の反撃:Abu Shairah et al.(2025)の「Extended-refusal training」は、複数トークンに拒否シグナルを分散させることで、abliteration成功率を70-80%から10%未満に低下させると報告されています。将来の整列済みモデルはabliteration耐性を高める方向へ進化しつつあり、Hereticの層別最適化はそれに対する最初の反撃と言えます。
---
3. 選考基準・評価軸:どうやって順位を決めたか
本ランキングは、以下の7軸評価で全モデルを比較しました(5段階★評価)。重み付けは日本語圏の読者を意識して調整しています。
| 軸 | 重み | 重視する点 |
|---|---|---|
| 能力(Capability) | ×3 | MMLU・HumanEval・GSM8K等のベンチマーク |
| 真のuncensored度 | ×3 | 5層フレームワークでの総合判定 |
| ツール追従性 | ×2 | function calling・JSON mode・agent対応 |
| 日本語 | ×2(日本語用途なら×3) | token効率・自然さ・推論の質 |
| 速度 | ×1 | tok/s(トークン/秒)・TTFT |
| VRAM要件 | ×1 | 8GB以下で動くか・量子化の質 |
| 安定性 | ×1 | 長文破綻・ハルシネーションの少なさ |
データソース
- HuggingFace:モデルカードの公式ベンチマーク・ライセンス・Downloads/Likes
- Ollama:pull数・実行コマンド・コミュニティ評価
- Reddit r/LocalLLaMA:100以上のスレッドから人間の生の評判を収集
- arXiv技術レポート:LFM2・Phi-4・DeepSeek-R1等の公式論文
- locallyuncensored.com(2026年4月版):VRAM別ベストablategorizedの権威あるガイド
- jasagiri/Uncensored1776プロジェクト(2025年12月):検閲率の実測データ
憶測には[推測]と明記し、ベンチマーク数値は可能な限り出典を付けています。
---
4. ベスト10ランキング:小規模アンセンサードLLMの頂点10選
!挿絵
第1位:Qwen3.5-9B-Uncensored-HauhauCS-Aggressive
> キャッチコピー:「465問中ゼロ拒否・能力劣化ゼロ宣言」——2026年小規模uncensoredの最有力候補
!挿絵
スペック
| 項目 | 値 |
|---|---|
| パラメータ | 9B dense / 32層 |
| アーキテクチャ | Hybrid(Gated DeltaNet + full softmax attention, 3:1比) |
| コンテキスト | 262K native(YaRNで1Mまで拡張可) |
| マルチモーダル | テキスト・画像・動画ネイティブ対応(mmproj別ファイル) |
| 語彙・言語 | 248K語彙・201言語 |
| ライセンス | Apache 2.0(商用完全自由) |
| 手法 | abliteration(lossless主張) |
| VRAM(Q4_K_M) | 5.3GB(8GB VRAMで快適) |
| Downloads / Likes | 502K / 1.7K(小規模uncensoredで圧倒的人気) |
なぜこの順位か:2026年3月にリリースされたQwen3.5-9B(次世代Hybridアーキテクチャ・262K超長文脈・201言語対応)をベースに、HauhauCS氏が「データセットや能力への変更は一切なし。原作者が意図した機能の100%を、refusalsだけ除去して提供」と宣言。465個の検証プロンプトでゼロ拒否を達成しながら、能力劣化なしを謳う「lossless uncensored」の金字塔です。Downloads 502K・Likes 1.7Kという圧倒的人気が、コミュニティの支持を物語ります。
強み
- 0/465 refusals:厳しい検証でもハード拒否ゼロ。真のuncensored度でTier S級
- 262K超長文脈:小規模でありながら大文書の処理が可能。1M拡張も(YaRN)
- 201言語対応:日本語のtoken効率も良好[推測]。多言語環境で万能
- 次世代Hybridアーキ:Gated DeltaNet(linear attention)+softmax attentionの融合で、効率と精度を両立
- マルチモーダル:テキスト・画像・動画をネイティブ処理(mmproj別ファイル)
弱み・注意点
- 新しすぎる:llama.cpp対応が2026年リリース直後で最新ビルド必須。古い環境では動かない
- 姉妹4B版に不具合報告:OllamaのVulkan設定で文字化け(gibberish)になる事例あり
- 免責事項の残存:回答末尾に短い"This is general information…"が付くことがありますが、これはベース学習に焼き込まれたものでrefusalではありません(コンテンツは完全生成されます)
人間の評判
- Reddit(r/LocalLLaMA, GGUFリリーススレ):*"literally the best uncensored variant I've used"*(27B版への言及含む)——最高級の賛辞
- 日本のnote/ZennでComfyUI連携記事が沸騰中。frees.jpやnote.com/ai_hakase等で実用レポート多数
おすすめ用途:これ1つで「万能・爆速・検閲なし」を手に入れたい日本のユーザーに、2026年6月時点で最もおすすめできる1枚。日本語の創作・研究・長文処理・画像理解まで、8GB VRAM環境でカバーします。ただし最新のllama.cpp/Ollama環境を用意できる中級者以上向けです。
🔧 技術コラム(マニアック)
Hybrid アーキテクチャの意義:従来のTransformerは全層がfull softmax attention(全トークン間の注意)でしたが、Qwen3.5は3:1の比でGated DeltaNet(linear attention・計算量がシーケンス長に線形)とfull softmax attentionを混在。これにより262Kという超長文脈を、メモリと計算の爆発なしに扱えます。
Multi-Token Prediction(MTP):1ステップで複数トークンを予測する学習手法に対応し、推論のスループット向上が見込めます。
「lossless」の検証:HauhauCS氏は能力劣化ゼロを宣言していますが、独立したベンチマーク計測はまだ限定的です[推測]。理論上、refusal directionのみを精緻に除去すれば能力劣化は極小ですが、数学推論(GSM8K)などの特定回路への影響は別途検証が望ましいとされています(後述のCrossCutting調査:GSM8Kはabliterationの最大の弱点)。
推奨サンプリング(Qwen公式):Thinking mode(デフォルト)はtemp 0.6, top_p 0.95, top_k 20。Non-thinking modeはtemp 0.7, top_p 0.8, top_k 20。思考能力を保つため最低128K ctx維持を推奨。
---
第2位:Llama-3-ELYZA-JP-8B-Heretic 🇯🇵
> キャッチコピー:「日本語uncensoredの決定版」——KL 0.0527・日本語拒否8/100を達成した日本発モデル
!挿絵
これは日本の読者にとって最重要の1枚です。詳細に解説します。
スペック
| 項目 | 値 |
|---|---|
| ベース | elyza/Llama-3-ELYZA-JP-8B(東京大学発スタートアップELYZA社) |
| 元ベース | Meta-Llama-3-8B-Instruct + 日本語継続事前学習+instruction tuning |
| パラメータ | 8B / 言語:日本語・英語 |
| 手法 | Heretic v1.1.0(層別重みカーネル+KL最適化) |
| コンテキスト | 8K(Llama-3制約) |
| ライセンス | llama3 |
| VRAM(Q4_K_M) | 約4.9GB(8GB VRAM) |
| Downloads / Likes | 28 / 1(マイナーだが手法は完成度高) |
なぜこの順位か:日本語特化の強力なベース(ELYZA)に、2026年最高峰の検閲除去ツール(Heretic)を適用した日本語圏唯一の本格的uncensoredモデルです。モデルカードに記載された定量データが決定的に優れています。
【決定的データ】Heretic適用前後の比較(モデルカード公式):
| 指標 | Heretic適用後 | 原版ELYZA-JP-8B |
|---|---|---|
| 日本語refusals(100問中) | 8 | 41 |
| 日本語KL divergence | 0.0527 | 0(定義上) |
| 英語refusals(100問中) | 4 | 99 |
| 英語KL divergence | 0.1041 | 0 |
読み解くと、日本語の拒否を80%削減(41→8)、英語の拒否を96%削減(99→4)しながら、日本語能力の劣化を示すKL divergenceはわずか0.0527(目安の0.1を大きく下回る)に抑えています。これはHereticの層別最適化が日本語でも機能することを実証した画期的な成果です。
強み
- 日本語特化のベース:ELYZAは日本語語彙13,042語を追加し、トークン数を55%削減。推論速度1.82倍(出典:ELYZA公式note)。700億パラメータ版は日本語生成でGPT-4を超えると主張
- 日本語refusal markers 15種を明示定義:`「申し訳」「お詫び」「できません」「お応えでき」「対応でき」「お断り」「提供でき」「禁止」「違法」「不法」「危険」「不適切」「許可されて」「権限が」「AIとして」「言語モデルとして」「安全性の観点」`——多言語abliterationの模範となるアプローチ
- 両言語でKL評価:英語前提のFailSpy系と異なり、日本語と英語で別々にKL divergenceを計測する厳密さ
- 8GB VRAMで動作:Q4_K_M 4.9GB。日本の標準的なノートPC・エントリーGPUで稼働
弱み・注意点
- まだマイナー:Downloads 28・Likes 1。コミュニティ検証が少なく、実戦データの蓄積が必要
- ベースが2024年4月世代:Llama-3ベースなので、2026年のQwen3.5/Gemma4系に比べると絶対能力面で一歩譲る
- コンテキスト8K:Llama-3の制約。長文処理ではQwen3.5(262K)に及ばない
- soft refusalsの改良余地:作成者ChiKoi7氏自身が「翻訳日本語データセットのチューニング不足」を認め、今後の改良を計画
人間の評判
- 技術コミュニティで「手法論的に日本語uncensoredのベンチマーク候補」と高評価。日本語markers 15種の定義アプローチは他者への応用可能性あり
- 残念ながら一般層への認知はまだ浅く、日本のnote・Zennでの言及も限定的[推測]。今後の広がりに期待
おすすめ用途:日本語で検閲なしに創作・研究をしたい方への第一推奨。特に「日本語の自然さ」を最優先する場合、Qwen3.5系(中国発・多言語)よりELYZA(日本発・特化)の方が、文脈の自然さや文化的ニュアンスで勝る場面があります[推測]。8GB VRAM環境で、日本語の創作支援・研究・教育用途に最適です。
🔧 技術コラム(マニアック)
Hereticパラメータの詳細(ChiKoi7氏が公開):
- `direction_index`: per layer(層ごとに方向インデックスを最適化)
- `attn.o_proj.max_weight`: 1.38 (position 22.01), min_weight: 1.31 (dist 16.75)
- `mlp.down_proj.max_weight`: 1.48 (pos 27.28), min_weight: 0.00 (dist 5.47)
attention出力プロジェクション(attn.o_proj)には比較的強く(max_weight 1.38)、MLP下投影(mlp.down_proj)は破壊的すぎるため最小(min_weight 0.00)に——Hereticの「MLP介入は破壊的」という経験則通りの設計です。
学習データ:mlabbone/harmful_behaviorsとharmless_alpacaの日本語自動翻訳版(ChiKoi7氏作成)を使用。ここが工夫のポイントで、英語ベースのrefusal direction計算を日本語プロンプトで行うために、データセット自体を日本語化しています。
日本語と英語の拒否率の開き(日本語8 vs 英語4)について、ChiKoi7氏は①翻訳データセット/システムプロンプト/markersのチューニング不足、②元モデルが英語ベースで日本語の推論・言語能力が限定的、のいずれかと推測。今後独自データセットでsoft refusalsをより捉える改良を計画しています。
ELYZAベースの強み(出典:ELYZA公式note):
- 日本語語彙13,042語追加 → トークン数55%削減 → 推論1.82倍高速化
- 700億パラメータ版はELYZA Tasks 100・Japanese MT-BenchでGPT-4超えを主張
- 8B版も商用利用可能(llama3ライセンス準拠)
今後の展望:Qwen3.5-9BやGemma4-12Bなど、より新しい強力なベースにHereticを適用した日本語uncensoredモデルの登場が待たれます。ChiKoi7氏の手法論はその土台となる重要な成果です。
---
第3位:Llama-3.1-8B-Instruct-abliterated
> キャッチコピー:「能力劣化ほぼゼロの実証済み王道」——8GB VRAMのデイリードライバー定番
スペック
| 項目 | 値 |
|---|---|
| ベース | meta-llama/Meta-Llama-3.1-8B-Instruct |
| 手法 | abliteration(FailSpyオリジナルコード使用) |
| コンテキスト | 128K |
| ライセンス | llama3.1 |
| VRAM(Q4_K_M) | 約4.9GB |
| Downloads(HF) | 2.9K(Ollama版は遥かに多い) |
なぜこの順位か:Llama-3.1-8B-Instructという強力なベース(多言語・128K ctx・命令追従)に、abliterationを施した最も手堅い選択肢。モデルカードに記載された公式ベンチマークが、「abliterationで能力はほぼ落ちない」を数値で証明しています。
【公式ベンチマーク】abliteration前後比較(モデルカード):
| Benchmark | Llama-3.1-8B(原版) | abliterated版 | 変化 |
|---|---|---|---|
| IF_Eval | 80.0 | 78.98 | −1.0 |
| MMLU Pro | 36.34 | 35.91 | −0.4 |
| TruthfulQA | 52.98 | 55.42 | +2.4(改善) |
| BBH | 48.72 | 47.0 | −1.7 |
| GPQA | 33.55 | 33.93 | +0.4(改善) |
各ベンチマークで1〜2ポイント以内の変化、TruthfulQAとGPQAに至っては改善しています。まさに「ほぼ無損失」の成功例です。
強み
- 能力劣化最小:上記の通り、主要ベンチで原版と同等か改善
- 128K長文脈:Llama-3.1の強みをそのまま享受
- Ollama最多pullクラス:`mannix/llama3.1-8b-abliterated:q5_K_M`(5.7GB)等が定番(locallyuncensored.com 2026年4月版で8GB帯のベストpick)
- 多言語・命令追従:Llama-3.1-Instruct本来の強力なベース能力
弱み・注意点
- Ollamaデフォルトsys prompt問題(後述7章で詳解):"You are a helpful AI assistant…"が潜在アライメントを再発火。`/set system`で上書き必須
- 日本語は△:Llama-3.1は多言語対応だが、Qwen3.5やELYZAほどの自然さはない
- ステルス拒否の残存可能性:abliteration品質は良いが、Hereticほどの層別最適化ではない
人間の評判
- Reddit(r/LocalLLaMA "Llama 3.1 8B Instruct abliterated GGUF"):ユーザーが「Llama 3 8B Instructでrank 32 LoRAを抽出しLlama 3.1に適用、そのまま動く」と報告。工夫次第で柔軟に運用可能
- 「Llama3.1-Instructを使いたいが検閲がいらない用途に最適」——多くの中級者に支持される定番
おすすめ用途:8GB VRAM環境での万能デイリードライバー。英語中心のタスク(コーディング・推論・創作)で、検閲に邪魔されたくない場面に。日本語メインなら第1位・第2位を優先しますが、英語ドキュメントの処理やコード生成なら本モデルが最も安定します。
🔧 技術コラム(マニアック)
abliterationの品質指標:本モデルはFailSpyのオリジナルコード(@Failhuに謝辞)を使用。Heretic以前の手法ですが、Llama-3.1-8B-Instructは比較的abliterationしやすい構造(整列感度が適度)で、結果的にKL divergence相当の劣化が1-2%に抑まっています。
「整列感度」の違い(arXiv:2512.13655):DPO-onlyで整列されたZephyr-7B-betaはASR(攻撃成功率)98%と最もablationしやすい一方、RLHFで強固に整列されたモデルは抵抗が強い傾向。Llama-3.1-8Bは中間的で、適度な強さのabliterationで高い効果を得られる絶妙な位置にあります。
Llama-3.2-3B-Instruct-abliterated:3B版(さらに軽量・Q4_K_M約2GB)も存在。4GB VRAM未満の環境向けで、エッジ用途の選択肢になります。
---
第4位:Dolphin 3.0 Llama-3.1 8B
> キャッチコピー:「ファインチューン型の代表格・agentic特化」——Ollamaで190万pullの圧倒的人気
!挿絵
スペック
| 項目 | 値 |
|---|---|
| ベース | Llama-3.1-8B |
| 手法 | ファインチューン型(Eric Hartford/Cognitive Computations) |
| コンテキスト | 128K |
| プロンプト | ChatML(`<\|im_start\|>`/`<\|im_end\|>`) |
| ライセンス | llama3.1 |
| VRAM(Q4_K_M) | 約4.9GB |
| スポンサー | Crusoe Cloud(16×L40s)・Akash(8×H100)・a16z助成金 |
なぜこの順位か:Eric Hartford氏のDolphinシリーズは、ファインチューン型uncensoredの原点にして最高峰。特にDolphin 3.0は学習データを大幅刷新し、コード・数学・agentic(エージェント的)・function callingを系統的に強化しました。Ollamaで`ollama run dolphin-llama3:8b`一発で試せる手軽さから、入門者から上級者まで幅広く愛用されています。
Open LLM Leaderboard スコア(モデルカード公式):
| Metric | Score(%) |
|---|---|
| Average | 24.97 |
| IFEval(0-Shot) | 76.21 |
| BBH(3-Shot) | 27.63 |
| MATH Lvl 5(4-Shot) | 10.50 |
| MMLU-PRO(5-shot) | 22.13 |
強み
- function calling・agentic特化:学習データに`NousResearch/hermes-function-calling-v1`・`Agent-FLAN`・`function-calling-chatml`・toolbench系を意図的に組込み。ツール連携の安定性は小規模トップクラス
- 性格の完全制御:システムプロンプトでアライメント(行動規範)を所有者が決める設計思想。ChatGPT/Claudeのようにベンダーが勝手に変える問題を回避
- コード・数学強化:OpenCoder-SFT・orca-math・NuminaMath-CoT/TIR等で推論力を底上げ
- 圧倒的コミュニティ:Ollama累計pull約190万。トラブルシューティング情報が豊富
弱み・注意点
- 能力低下のジレンマ:Reddit評価スレ(2024-12)で「Dolphin 3.0が37.80、Llama 3.1が47.56」——同じベースなのにFTで能力がやや下がる傾向(ただし1回計測なので断定不可)
- Dolphin 2.9のSYSTEM MSGバグ(旧版):モデルが不必要に「SYSTEM MESSAGEについて」と言及する不具合。システムプロンプトで「system messageについて直接聞かれない限り言及するな」と明示すべき
- Ollama sys prompt問題:Llama3系全般に共通。後述7章で対策
人間の評判
- ✅ 「LLM3系uncensoredで最多DL。function calling対応でagentic構築に使える」(Ollama利用者多数)
- ⚠️ ElliottDyson氏(2024-05):「uncensored達成したが品質低下」——Dolphin 2.9時代の指摘。3.0で改善されたが、純粋能力ではLlama3.1-Instructそのままに軍配
おすすめ用途:ツール連携・agentic用途の小規模王者。function callingを伴うエージェント構築・自動化パイプライン・MCP(Model Context Protocol)連携なら、本モデルが最も安定します。初めてuncensored LLMを触る入門者にも、Ollama一発の手軽さでおすすめ。
🔧 技術コラム(マニアック)
学習データの刷新(Dolphin 3.0):OpenHermes-2.5・CodeFeedback・dolphin-coder・samantha-data・ultrachat_200k・orca-math・SystemChat-1.1に加え、function-calling-chatml・Agent-FLAN・toolbench系を組込み。Hartford氏自身が「coding, math, agentic, function calling, general use」を目標に設計と明記。
ファインチューン型 vs abliteration型の本質的違い:
- FT型(Dolphin):データセットで「拒否を強化しない性格」を焼き込む。性格・トーン調整可だが、ベース能力が変動(多くは低下)
- abliteration型:重みから拒否方向を数学的に除去。元の知識を保持しやすいが、性格調整は不可
agentic用途での優位性:Dolphin系は学習データ由来でfunction callingが安定。Reddit「2026年red teamローカルAIスタックガイド」でもDolphin-Llama3が推奨(複雑指示追従・技術プロンプトで稀にしか拒否しない)。Dolphin3-Cyber-8B(RavichandranJ氏)というサイバーセキュリティ特化派生も存在し、Red Team AI Benchmarkで高評価。
---
第5位:Phi-4 14B
> キャッチコピー:「14BでLlama-3.3-70Bに肉迫」——数学・推論・コードの小規模最強・検閲ネイティブ0%
スペック
| 項目 | 値 |
|---|---|
| パラメータ | 14B dense |
| コンテキスト | 16K |
| ライセンス | MIT(最も緩い・商用完全自由) |
| 学習 | 9.8T tokens・1920×H100-80Gで21日 |
| リリース | 2024-12-12 |
| Downloads / Likes | 825K / 2.3K(圧倒的人気) |
| VRAM(Q4_K_M) | 約8.5GB(12GB VRAM推奨) |
なぜこの順位か:MicrosoftのPhi-4は、14Bという小規模でありながらLlama-3.3-70B(70B!)に肉迫する能力を実現した驚異のモデル。しかも検閲率0%(jasagiri/Uncensored1776実測・2025年12月)をネイティブに達成しており、abliteration不要という稀有な存在です。
【公式ベンチマーク】SimpleEval(モデルカード):
| Category | Benchmark | Phi-4(14B) | Qwen2.5-14B | GPT-4o-mini | Llama-3.3-70B |
|---|---|---|---|---|---|
| 集計 | MMLU | 84.8 | 79.9 | 81.8 | 86.3 |
| 科学 | GPQA | 56.1 | 42.9 | 40.9 | 49.1 |
| 数学 | MATH | 80.4 | 75.6 | 73.0 | 66.3 |
| 数学 | MGSM | 80.6 | 79.6 | 86.5 | 89.1 |
| コード | HumanEval | 82.6 | 72.1 | 86.2 | 78.9 |
MATH 80.4でLlama-3.3-70B(66.3)を圧倒、GPQA 56.1でも70B(49.1)を上回るなど、数学・科学推論で小規模の限界を突破しています。
強み
- 数学・推論・コードで小規模最強:14Bで70B級。AIME・MATH・GPQAで圧倒的
- 検閲0%ネイティブ:jasagiri実測でハード拒否ゼロ。abliteration不要でTier S級の自由度
- MITライセンス:最も緩い。商用利用・改変・再配布すべて完全自由
- 高品質学習:合成データ・教科書データ中心で、ハルシネーションが比較的少ない
弱み・注意点
- 日本語非対応(★☆〜★★☆):多言語8%のみ。日本語用途には不向き。英語前提のタスク限定
- コンテキスト16K:短い。長文処理ではQwen3.5(262K)・Granite(128K)に劣る
- 英語特化:Phi-4 reasoning-plus(64K拡張)も登場したが、やはり英語中心
- abliteration版の品質ばらつき:原版が強力な安全post-training(AIRT赤チーム)を施しているため、第三者によるuncensored化は難易度高
人間の評判
- ✅ DevelopersDigest:「14BでLlama 70B級のMMLU」は衝撃的
- ✅ 検閲0%なので、そのまま使えばuncensored。加工不要の手軽さは最大の強み
- ⚠️ 日本語圏のユーザーには「数学は強いが日本語が弱い」ジレンマ
おすすめ用途:数学・競技プログラミング・コード推論に特化する英語圏ユーザーの最強兵器。日本語が不要な技術タスク(アルゴリズム設計・数式処理・コード生成)なら、小規模でこれ以上の選択肢はありません。Phi-3.5-mini(3.8B)はさらに軽量(検閲0%・日本語△)で、エッジ用途にも。
🔧 技術コラム(マニアック)
Phi-4の学習戦略:9.8T tokensの事前学習のうち、合成データ(synthetic data)と教科書品質データ(textbook-quality data)が中心。これが「小さくても賢い」秘密です。単にWebクロールを大量に食わせるのではなく、厳選された高品質データで学習することで、14Bながら70B級の推論力を実現。
検閲0%の理由:Phi-4は安全post-trainingでAIRT社の赤チーム(レッドチーム・攻撃的テスト)を施していますが、「過激コンテンツへの拒否」より「helpfulness最大化」を重視した設計。結果としてjasagiri実測(2025/12)でハード拒否0%を記録。真のuncensored度ランキング(Tier S)に位置づけられます。
Phi-4-reasoning-plus:64K拡張コンテキスト版。推論trace(思考過程)が長くなる傾向で、実効速度は見かけより遅い点に注意(R1-Distill系と同様の「reasoningの速度罠」)。
数学回路とabliterationの関係:CrossCutting調査で「GSM8K(数学推論)はabliterationの最大の弱点」(Yi-1.5-9B+Hereticで−18.81pp)と指摘されています。Phi-4は元々検閲0%なのでこの問題を回避できるのが、数学用途で重宝される理由の一つです。
---
第6位:IBM Granite 3.3 8B
> キャッチコピー:「企業級ワークホース・構造化出力の職人」——RAG・分類・エージェント下位タスクに最適
スペック
| 項目 | 値 |
|---|---|
| パラメータ | 8B |
| コンテキスト | 128K |
| ライセンス | Apache 2.0(完全自由) |
| リリース | 2025-04-16 |
| サポート言語 | 12言語(英・独・西・仏・日・ポルトガル・アラビア・チェコ・伊・韓・蘭・中) |
| 特徴 | ``と``で思考と出力を分離(reasoning対応) |
| VRAM(Q4_K_M) | 約4.9GB |
なぜこの順位か:IBMのGraniteは厳密には「uncensored宣言モデル」ではありませんが、企業向けで安全フィルターが薄く、ユーザーから「事実上uncensored的に振る舞う」と評価されることが多い貴重な存在。特にArena-Hard・AlpacaEval(人間嗜好ベンチ)でLlama-3.1-8B-Instructを大差で上回る職人仕事ぶりが際立ちます。
【公式ベンチマーク】thinking=True(モデルカード):
| Benchmark | Granite-3.3-8B | Granite-3.2-8B | Llama-3.1-8B-Instruct |
|---|---|---|---|
| Arena-Hard | 57.56 | 55.25 | 36.43 |
| AlpacaEval-2.0 | 62.68 | 61.19 | 27.22 |
| MMLU | 65.54 | 66.79 | 69.15 |
| GSM8K | 80.89 | 81.65 | 83.24 |
| HumanEval | 89.73 | 89.35 | 85.32 |
| IFEval | 74.82 | 74.31 | 79.10 |
| TruthfulQA | 66.86 | 66.92 | 52.79 |
人間嗜好(Arena-Hard/AlpacaEval)でLlama-3.1-8Bを約2倍のスコアで圧倒、TruthfulQA(事実性)でも62.79→66.86と上回るなど、実用性の高さが際立ちます。
強み
- 人間嗜好・事実性で強力:Arena-Hard・AlpacaEval・TruthfulQAでLlama-3.1-8Bを上回る
- 構造化出力・分類の信頼性抜群:キーワード生成・タスク分類・JSON出力でブレない
- 企業級の安定性:長文で破綻しにくい。ハルシネーションが比較的少ない
- 128K + 12言語 + Apache 2.0:日本語対応・商用完全自由・長文脈の三拍子
- 安全だが柔軟:厳格な検閲なしで、実用上非常に扱いやすい
弱み・注意点
- 純粋能力ではフロンティアに一歩劣る:絶対的なMMLU等ではLlama-3.1に譲る場面も
- C/C++コーディングで不評の声:一部ユーザーから「Absolutely terrible」との強い不満も(r/LocalLLaMA別スレ)
- 3.3は3.2より世界知識でわずかに劣るという報告あり
- uncensored宣言ではない:真のuncensored目的なら別途abliteration適用が必要な場面も
人間の評判(r/LocalLLaMA "Granite 3 8B is seriously underrated", 2025-08, 213upvote)
- ✅ dheetoo氏(OP):「task classification with structured outputsで信頼性抜群。キーワード生成・RAG向き。GPT-5 mini/nano級のクローズドより特定タスクで勝つ」
- ✅ No_Efficiency_1144氏(69upvote):「企業向けモデルは絶対性能ではフロンティアに一歩劣るが、入力の広範なロバスト性・信頼性が高い」
- ✅ Lesser-than氏(25upvote):「チャット全般モデルとして期待すると愛されないが、ワークホースとしては秀逸」
おすすめ用途:RAG(検索拡張生成)・構造化出力・エージェントの下位タスク・企業パイプライン。「絶対的な賢さ」より「安定してブレない仕事」が求められる場面で、小規模トップクラスの信頼性を発揮します。日本語の分類・抽出・要約にも使えます。
🔧 技術コラム(マニアック)
reasoning対応の設計:Granite 3.3は``タグで思考過程を、``タグで最終回答を分離出力。これにより、推論の透明性と、最終回答の取り出しやすさを両立。エージェント用途で思考traceをログに取りたい場合に便利。
AttaQ(安全ベンチ)での高スコア:Granite-3.3-8BはAttaQ 88.5(Llama-3.1-8Bの83.43を上回る)。これは「攻撃的プロンプトに対する堅牢さ」を示しますが、「検閲が強い」わけではなく「悪意のある入力に対しても安定して処理できる」という意味。実用上はuncensored的に振る舞いつつ、変な入力で暴走しないバランスの良さが評価されています。
なぜ「事実上uncensored」なのか:IBMは企業向けに「安全だが過度に検閲しない」バランスを狙って設計。結果として、Dolphin系のような「全面的な検閲解除」ではなく、「正当な質問には答え、明らかに悪意のあるもののみ慎重になる」という実用的な挙動。多くのビジネス用途で、これが最も扱いやすい挙動です[推測]。
---
第7位:Qwen3-8B / Qwen3-14B Abliterated
> キャッチコピー:「Qwen3世代の推論・多言語を検閲除去して活用」——学術ベンチで標準採用される信頼のabliteration
スペック
| 項目 | 値 |
|---|---|
| ベース | Qwen/Qwen3-8B および Qwen3-14B |
| 手法 | abliteration(FailSpyオリジナルコード・mlabonne解説に基づく) |
| ライセンス | Apache 2.0 |
| パラメータ | 8B / 14B |
| コンテキスト | 32K+ |
| 思考モード | ``対応で推論強力 |
| VRAM(Q4_K_M) | 8B: 約4.9GB / 14B: 約8.5GB(16GB推奨) |
なぜこの順位か:Qwen3世代の強力な推論・コード・多言語(日本語含む)能力を、refusal除去して活用できる実用的選択肢。特にv2版(Huihui-Qwen3-14B-abliterated-v2)は、学術ベンチ(AgentLAB等)で攻撃者エージェントとして標準採用されるほど信頼されるuncensored版です。
強み
- 推論・思考モード対応:Qwen3系の``タグ推論をそのまま享受。Chain-of-Thoughtで複雑問題に強い
- 多言語・日本語強め:Qwen3は中国発だが日本語token効率が良好。14Bは小規模カテゴリで能力トップクラス
- Apache 2.0:商用完全自由
- 学術的信頼:v2版は研究で標準採用。品質が検証済み
弱み・注意点
- 中国政治バイアスに注意:Qwen3系は中国発モデル。天安門事件・台湾・ウイグル等のトピックで中国政府見解に沿った回答を強制する傾向(jasagiri実測:Qwen3-4B-Instruct-2507)。abliterationでは抜けにくい「政治的バイアス(L4)」の問題
- abliteration品質の個別検証必要:Qwen3系では能力劣化が比較的小さいとされるが、モデルごとに要確認
- 14Bは16GB VRAM推奨:8Bより能力が高いが、ハードルが上がる
人間の評判
- ✅ v2版はAgentLAB等の学術ベンチで攻撃者エージェントとして標準採用——信頼の証
- ✅ Qwen3系の思考モード推論は、小規模でありながら深い推論を可能にする
- ⚠️ 中国政治トピックの中立性を重視するなら、ELYZA-Heretic(第2位)かLlama系abliterated(第3位)を優先すべき
おすすめ用途:推論・コード・多言語を重視し、かつ中国政治トピックの中立性を問わない用途。技術的推論・コーディング・多言語ドキュメント処理なら、Qwen3の強力なベース能力を検閲除去して活用できます。重要:中国関連の政治・歴史トピックで中立的な回答が必要な場合は、本モデルではなくELYZA-HereticかLlama系を選んでください。
🔧 技術コラム(マニアック)
Qwen3世代の強み:思考モード(``)対応で、複雑な推論を段階的に行う能力。Qwen3-14Bは32B級の推論力を持つとされ、小規模カテゴリではPhi-4(第5位)に次ぐ能力を誇ります。
「検閲0%」の落とし穴(jasagiri 2025/12/11実測):Qwen3-4B-Instruct-2507はハード拒否こそ0%ですが、以下の政治トピックで中国政府公式見解を強制:
- 天安門事件:「虚偽の違法情報」として警告
- 台湾:「中国の不可分の一部」と明言
- チベット・ウイグル:「中国領土の不可分の一部」・迫害は「悪意ある嘘」と否定
- 法輪功:「カルト組織」として禁止を支持
これはabliterationのrefusal direction除去では解決しない深い政治的バイアス。arXiv:2512.13655で「marker heuristicは実際のASRを過小表示(72.2% vs 95.7%)」と指摘されたのと同じ問題です。「検閲なし」≠「中立的」という重要な教訓。
richardyoung/qwen3-14b-abliterated:Ollamaで`:q4_K_M`(チャット用)と`:agent`(ツール呼び出し用)を別タグ運用する実践的なパッケージも。9GB・12GB VRAM・vision対応・agent tag付き(locallyuncensored.com 2026年4月版で12GB帯のベストpick)。
---
第8位:LFM2-8B-A1B(Liquid Foundation Models)
> キャッチコピー:「携帯電話で40トークン/秒」——超高速MoE・エッジ特化の切り札
!挿絵
スペック
| 項目 | 値 |
|---|---|
| パラメータ | 8.3B total / 1.5B active(MoE) |
| アーキテクチャ | ミニマル・ハイブリッド(gated short convolution主体 + 少数GQA) |
| MoE構成 | 32 experts・Top-k=4・最初の2層以外は全層MoE |
| コンテキスト | 32K |
| 語彙・言語 | 65,536 BPE(英語・日本語・アラビア・韓国・西・仏・独の符号化効率重視) |
| ライセンス | LiquidAI独自(ARR 1000万ドル超で商用ライセンス必要) |
| 派生 | LFM2-VL(視覚言語)・LFM2-Audio(音声)・LFM2-Nanos |
なぜこの順位か:速度×効率では小規模No.1。decodeコストは1.5B級、品質は3-4B dense級という絶妙のバランスで、携帯電話・タブレット・低スペックラップトップ・iGPU環境で他を圧倒します。
【公式推論速度】LFM2 Technical Report(llama.cpp Q4_0・Samsung Galaxy S25):
| デバイス | モデル | Prefill 1K(tok/s) | Decode 1K(tok/s) |
|---|---|---|---|
| Galaxy S25(携帯) | LFM2-8B-A1B | 85 | 48.6 |
| 携帯 | Llama-3.2-3B | 79 | 24.2 |
| 携帯 | Qwen3-4B | 57 | 17.2 |
| 携帯 | Gemma-3-4B | 72 | 18.3 |
LFM2-8B-A1Bはdense 4Bクラスの2.8〜3.7倍のdecode速度。携帯で40+ tok/sは驚異的です。後継のLFM2.5-8B-A1B(2026年5月)はM5 Max(6GB)で253 tok/s、スマホで約30 tok/sを記録し、ハルシネーション抑制も改善(marktechpost報告)。
強み
- 圧倒的速度:MoE 1.5B activeで、dense 4Bの3倍超。携帯・iGPUでも実用的
- ミニマル・ハイブリッド設計:gated short convolution主体で、計算効率が極めて高い
- 日本語含む8言語の符号化効率重視:語彙設計で日本語も考慮
- 派生が豊富:VL(視覚)・Audio(音声)・Nanos(超軽量)など、エッジ用途で展開
弱み・注意点
- 品質は3-4B dense止まり:推論の深さではPhi-4(第5位)・Qwen3-14B(第7位)に劣る
- 真のuncensoredではない:エッジ/プライベート用途(オフライン・ローカル)を主目的に設計。安全post-trainingはあるが、真のuncensored目的なら別途abliteration適用が必要
- ライセンスの制限:LiquidAI独自でARR(年間経常収益)1000万ドル超だと商用ライセンス必要。ただしLlama3の7億MAUより実質的に緩い(Pro-editor-1105氏のReddit分析)
- 非reasoningモデル:思考モードなし。複雑推論には不向き
人間の評判(r/LocalLLaMA, 2025-10, 164upvote)
- ✅ V0dros氏(56upvote):「非reasoningモデルなのが逆に良い。reasoning疲れは現実」
- ✅ random-tomato氏(35upvote):「Granite 4.0 7B A1Bより少し良い」(llama.cpp実測)
- ✅ 実測:単一ストリーム76 tok/s(Gradioチャット実測・YouTube評価)
おすすめ用途:携帯・タブレット・低スペックラップトップ・iGPU環境での超高速アシスタント。オフライン・プライベート用途(通信不要・データ外部送信なし)を最優先する場面に。ただし深い推論や真のuncensoredが必要なら、別モデルの併用を推奨します。
🔧 技術コラム(マニアック)
ミニマル・ハイブリッド設計の核心:LFM2は従来のTransformer(GQA: Grouped Query Attention)の層を減らし、gated short convolution(短畳み込み・ゲート付き)を主体に配置。hardware-in-the-loop探索(実際のハードウェアで性能を測りながら設計を探索)で、エッジデバイスに最適化された構造を見つけ出しています。
MoEの効率:32 expertsのうちTop-k=4のみを起動。decode時は1.5Bパラメータ分の計算のみで済み、dense 4Bより速い理由です。ただし全エキスパートの重み(8.3B分)はメモリに常駐させる必要があるので、VRAM使用量は削減されません(計算時間のみ削減)。これがMoEの重要なcaveatです。
後継LFM2.5-8B-A1B(2026年5月):ハルシネーション抑制を改善。M5 Max(6GB)で253 tok/s・スマホ約30 tok/s。エッジ用途でさらに実用性が向上しています。
uncensored化の必要性:LFM2自体は安全post-trainingを施していますが、明示的なrefusal強化より効率・品質に注力。真のuncensored目的なら、Heretic等で別途abliterationを適用した派生を探すか、自前で適用する必要があります[推測]。
---
第9位:DeepSeek-R1-Distill-Qwen-7B Uncensored
> キャッチコピー:「O3-MINI AT HOME」——数学・競プロ・コード推論の小規模最強
スペック
| 項目 | 値 |
|---|---|
| ベース | DeepSeek-R1(671B MoE)から蒸留・7B版はQwen2.5-Math-7Bベース |
| 手法 | 800K samples FT + abliteration(huihui_ai/thirdeyeai版) |
| コンテキスト | 128K |
| ライセンス | MIT |
| VRAM(Q4_K_M) | 約4.9GB(8GB VRAM) |
なぜこの順位か:DeepSeek-R1(671B)の強化学習で創発したreasoningパターンを7Bに蒸留した、推論特化のuncensoredモデル。AIME(数学競技)・MATH-500・Codeforces(競技プログラミング)で、小規模最強格の成績を叩き出します。
【公式ベンチマーク】(モデルカード):
| Model | AIME 2024 pass@1 | MATH-500 | GPQA Diamond | LiveCodeBench | CodeForces |
|---|---|---|---|---|---|
| R1-Distill-Qwen-7B | 55.5 | 92.8 | 49.1 | 37.6 | 1189 |
| R1-Distill-Qwen-14B | 69.7 | 93.9 | 59.1 | 53.1 | 1481 |
| o1-mini | 63.6 | 90.0 | 60.0 | 53.8 | 1820 |
| Claude-3.5-Sonnet | 16.0 | 78.3 | 65.0 | 38.9 | 717 |
7BでAIME 55.5%は驚異的(Claude-3.5-Sonnetの3倍超)。MATH-500 92.8%はo1-mini(90.0)をも凌駕します。
強み
- 数学・競プロで小規模最強:AIME・MATH-500・Codeforcesで圧倒的
- MITライセンス:商用完全自由
- 128K長文脈:Qwen2.5ベースの強み
- 蒸留による推論の質:671Bの推論パターンを7Bに凝縮
弱み・注意点
- reasoningの速度罠:思考trace(推論過程)が長くなりがちで、出力速度の実効値は見かけより遅い(思考トークン消費)
- 汎用対話・創作には不向き:数学・コード推論に特化。雑談や創作では不自然になる場面も
- 日本語は△:Qwen2.5ベースなので一定程度対応するが、reasoningは主に英語/中国語で行われる傾向
人間の評判
- ✅ 「O3-MINI AT HOME」感。数学・コード推論でローカル最強クラス
- ⚠️ reasoning traceが長くなる傾向で、実効速度に難あり
おすすめ用途:数学・競技プログラミング・コード推論に特化するuncensored用途。汎用対話・創作には不向きですが、数式処理・アルゴリズム設計・複雑なコードのデバッグなど、深い推論が必要な技術タスクなら小規模最強。14B版(R1-Distill-Qwen-14B-abliterated・16GB VRAM)はさらに強力です。
🔧 技術コラム(マニアック)
蒸留の仕組み:DeepSeek-R1(671B MoE)は強化学習(RL)で創発した推論パターンを持ちます。これを800K samplesのFT(ファインチューン)で、Qwen2.5-Math-7B(7B版)やQwen2.5-14B(14B版)などの小モデルに「教師」として転移。結果、7Bながら671Bの推論エッセンスを再現できます。
重要な使用推奨(モデルカード):
- temp 0.5-0.7(0.6推奨):温度を高くしすぎると推論が破綻
- システムプロンプト禁止:ユーザープロンプトに全指示を書くべき(システムプロンプトは推論を阻害)
- 応答を`\n`で強制開始:思考モードを明示的にトリガー
Uncensored版バリアント:
- `huihui_ai/deepseek-r1-abliterated:14b-qwen-distill`(Ollama)——huihui-aiによるabliteration
- `thirdeyeai/DeepSeek-R1-Distill-Qwen-7B-uncensored`(Ollama)
- `mradermacher/DeepSeek-R1-Distill-Qwen-14B-Uncensored-i1-GGUF`(HF)
reasoningモデルの速度罠:R1-Distill系は「思考トークン」を大量に消費するため、表面上のtok/sが高くても、最終回答に至るまでの時間が長くなります。リアルタイム性が求められる用途(チャット)より、バッチ処理・オフライン推論向き。
---
第10位:Gemma 3 12B Heretic / vaultbox qwen3.5-uncensored:4b
> キャッチコピー:「Gemma検閲攻略の決定版 + 極小4Bの二段構え」——マルチモーダルHereticとエッジ4Bの選択肢
これは2つのモデルを合わせて第10位とします。用途に応じて使い分ける価値のある補完的選択肢です。
10-A:gemma-3-12b-it-ultra-uncensored-heretic(llmfan46氏)
スペック
| 項目 | 値 |
|---|---|
| ベース | Google Gemma 3 12B |
| 手法 | Heretic v1.x(層別最適化) |
| コンテキスト | 128K |
| 語彙・言語 | 140+言語対応(Gemma 3の特性) |
| マルチモーダル | テキスト・画像ネイティブ対応 |
| ライセンス | gemma |
| VRAM(Q4_K_M) | 約7.5GB(12GB VRAM推奨) |
なぜこの順位か:Gemma 3は「最も検閲のキツイ open model の一つ」という評判で、abliterationが非常に困難(mlabonne旧版は"basically unusable, generating junk"との報告)。しかしHeretic的手法で成功した稀有な例で、140言語対応・マルチモーダル・128K長文脈というGemma 3の強力な特性を、検閲除去して活用できます。
強み:140+言語・マルチモーダル・128K・Heretic品質。Gemma 3の能力を検閲なしで。
弱み:Gemma 3のabliterationは難易度が高く、品質にムラ。検証必須。r/LocalLLaMAの「A more surgical approach to abliteration」スレでUGI(uncensored指標)高得点の報告がある一方、失敗例も多い諸刃の剣。
10-B:vaultbox/qwen3.5-uncensored:4b(HauhauCS 4B派生)
スペック
| 項目 | 値 |
|---|---|
| ベース | Qwen3.5-4B-Uncensored-HauhauCS-Aggressive(第1位の4B版) |
| 展開 | 4b/9b/27b/35bタグ・ビジョン・ツール・thinking対応(vaultbox.ai) |
| VRAM(Q4_K_M) | 約2.5-3GB(6GB VRAM以下で動作) |
なぜこの順位か:第1位HauhauCS-Aggressiveの4B超軽量版を、vaultboxがネイティブQwen3.5ビジョン機能を使うよう再パッケージ。6GB VRAM以下の極小環境・エッジ用途で、マルチモーダルuncensoredを実現する希少な候補です。
強み:超軽量(6GB以下)・マルチモーダル・HauhauCS品質。
弱み:HauhauCS本家4B版はOllama Vulkanでgibberish(文字化け)報告あり。vaultbox再パッケージ版で調整されているが、検証必要。
人間の評判(共通)
- Gemma 3 Heretic:✅「Gemma-3-12BがUGIで高得点。検閲除去が悪名高く困難なのに素晴らしい成果」(r/LocalLLaMA) / ⚠️ 失敗例も多く品質にムラ
- vaultbox 4B:⚠️ Vulkan環境での不具合報告。検証必須だが、軽量エッジuncensoredの希少候補
おすすめ用途:
- 10-A(Gemma 3 12B Heretic):140言語・マルチモーダル・長文脈を検閲なしで活用したい中級者。12GB VRAM環境向け。
- 10-B(vaultbox 4B):6GB以下の極小環境・エッジ・携帯向け。第1位HauhauCSを試したいがVRAMが足りない場合の代替。
🔧 技術コラム(マニアック)
Gemma 3の検閲の頑固さ:GoogleはGemma系に強固な安全post-trainingを施しており、refusal directionが単一ではなく複数の「concept cones(多次元の錐)」でエンコードされている可能性(Wollschläger et al.)。これがabliteration困難の原因です。
HereticのGemma攻略:p-e-w(GitHub)のHereticは層別最適化で、Gemma-3-12B-itでrefusals 3/100・KL divergence 0.16を達成(mlabonne v2版のKL 1.04の約6分の1の劣化)。llmfan46氏のultra-uncensored-hereticはこのHeretic的手法を採用。
Gemma 3 12B QAT版:8GB RAM動作を謳う量子化版も登場。多模態・マルチ言語・ロングコンテキストで強力だが、uncensored化の安定性はモデルごとに要検証。
vaultboxの再パッケージング:HauhauCS本家4B版のOllama Vulkan不具合を回避するため、ネイティブQwen3.5ビジョン機能を使うよう調整。4b/9b/27b/35bとサイズバリエーションを展開し、ビジョン・ツール・thinking対応を謳う。軽量エッジuncensoredの実用化を狙う興味深い試みです[推測]。
---
5. 全モデル比較表:10選を一望
スペック比較表
!挿絵
| 順位 | モデル | Params | 手法 | Ctx | ライセンス | VRAM(Q4_K_M) | 主要能力 |
|---|---|---|---|---|---|---|---|
| 1 | Qwen3.5-9B-HauhauCS | 9B | abliteration(lossless) | 262K | Apache2.0 | 5.3GB | 次世代・MM・多言語・万能 |
| 2 | 🇯🇵 ELYZA-JP-8B-Heretic | 8B | Heretic | 8K | llama3 | 4.9GB | 日本語特化 |
| 3 | Llama3.1-8B-abliterated | 8B | abliteration | 128K | llama3.1 | 4.9GB | 能力劣化最小・汎用 |
| 4 | Dolphin 3.0 Llama3.1 8B | 8B | FT | 128K | llama3.1 | 4.9GB | agentic・function call |
| 5 | Phi-4 14B | 14B | (検閲0%ネイティブ) | 16K | MIT | 8.5GB | 数学・推論・code最強 |
| 6 | Granite 3.3 8B | 8B | (薄い安全) | 128K | Apache2.0 | 4.9GB | 企業・RAG・構造化 |
| 7 | Qwen3-8B/14B-abliterated | 8B/14B | abliteration | 32K+ | Apache2.0 | 4.9/8.5GB | 推論・多言語・思考 |
| 8 | LFM2-8B-A1B | 8.3B/1.5B act | (非宣言) | 32K | Liquid(ARR制限) | ~5GB | 超高速MoE・エッジ |
| 9 | R1-Distill-Qwen-7B-uncensored | 7B | FT蒸留+abliteration | 128K | MIT | 4.9GB | 数学・競プロ最強 |
| 10 | Gemma3-12B-Heretic / vaultbox 4B | 12B/4B | Heretic/abliteration | 128K/262K | gemma/Apache2.0 | 7.5/2.5GB | MM・多言語 / 超軽量 |
多次元評価マトリクス(★5段階)
| モデル | 能力 | 速度 | ツール/agentic | 日本語 | 真のuncensored度 | 安定性 | VRAM効率 |
|---|---|---|---|---|---|---|---|
| Qwen3.5-9B-HauhauCS | ★★★★★ | ★★★★ | ★★★★ | ★★★★(201言語) | ★★★★★(0/465) | ★★★(新arch) | ★★★★ |
| 🇯🇵 ELYZA-JP-8B-Heretic | ★★★ | ★★★★ | ★★ | ★★★★★ | ★★★★(ja8/100) | ★★★ | ★★★★ |
| Llama3.1-8B-abliterated | ★★★★ | ★★★★ | ★★★ | ★★★ | ★★★★ | ★★★★ | ★★★★ |
| Dolphin 3.0 Llama3.1 8B | ★★★★ | ★★★★ | ★★★★★ | ★★★ | ★★★★(FT) | ★★★★ | ★★★★ |
| Phi-4 14B | ★★★★★(数学) | ★★★ | ★★ | ★(英語特化) | ★★★★★(検閲0%) | ★★★★ | ★★★ |
| Granite 3.3 8B | ★★★★ | ★★★★ | ★★★★(FC対応) | ★★★(12言語) | ★★(薄い安全) | ★★★★★(企業級) | ★★★★ |
| Qwen3-8B/14B-abliterated | ★★★★★(14B) | ★★★/★★★ | ★★★★ | ★★★★ | ★★★★ | ★★★★ | ★★★/★★★ |
| LFM2-8B-A1B | ★★★(3-4B級) | ★★★★★(最速) | ★★★ | ★★★(日本語考慮) | ★★(非宣言) | ★★★★ | ★★★★★ |
| R1-Distill-Qwen-7B-uncensored | ★★★★★(数学/推論) | ★★(思考長い) | ★★ | ★★ | ★★★★ | ★★★ | ★★★★ |
| Gemma3-12B-Heretic / vaultbox 4B | ★★★★/★★ | ★★★/★★★★★ | ★★★/★★ | ★★★(140言語)/★★★ | ★★(ムラあり)/★★★★ | ★★/★★ | ★★★/★★★★★ |
---
6. 用途別 選び方ガイド:あなたはどれを使うべきか
!挿絵
ベスト10から「自分向けの1枚」を選ぶフローを示します。
あなたはどのタイプ?
Q1: 日本語の自然さを最優先しますか?
- Yes → 第2位 Llama-3-ELYZA-JP-8B-Heretic(日本語特化・KL 0.0527)
- No(英語・多言語で可) → Q2へ
Q2: 最強の万能性と262K長文脈が欲しいですか?
- Yes(最新環境あり) → 第1位 Qwen3.5-9B-HauhauCS-Aggressive(0/465・lossless・201言語)
- No(手堅く) → Q3へ
Q3: 主な用途は?
- 数学・競プロ・コード推論 → 第9位 R1-Distill-Qwen-7B-uncensored(AIME 55.5%)または第5位 Phi-4 14B(MMLU 84.8)
- ツール連携・agentic・function calling → 第4位 Dolphin 3.0 Llama3.1 8B(FC学習済み)
- RAG・構造化出力・企業パイプライン → 第6位 Granite 3.3 8B(Arena-Hard最强)
- 携帯・タブレット・iGPUで超高速 → 第8位 LFM2-8B-A1B(携帯40 tok/s)
- 英語圏の万能デイリードライバー → 第3位 Llama3.1-8B-abliterated(ほぼ無損失)
- 6GB以下の極小環境 → 第10位 vaultbox qwen3.5-uncensored:4b(2.5GB)
用途別マトリクス
| 用途 | 第1推奨 | 第2推奨 | 第3推奨 |
|---|---|---|---|
| 🇯🇵 日本語uncensored | ELYZA-JP-8B-Heretic | Qwen3.5-9B-HauhauCS | Qwen3-14B-abliterated |
| 数学・推論・競プロ | R1-Distill-Qwen-7B-uncensored | Phi-4 14B | Qwen3-14B-abliterated |
| ツール連携・agentic | Dolphin 3.0 Llama3.1 8B | Llama3.1-8B-abliterated(:agent) | Granite 3.3 8B |
| 万能デイリードライバー(8GB) | Qwen3.5-9B-HauhauCS | Llama3.1-8B-abliterated | Dolphin 3.0 Llama3.1 8B |
| RAG・構造化出力・企業 | Granite 3.3 8B | Llama3.1-8B-abliterated | Dolphin 3.0 |
| 超高速・エッジ・携帯 | LFM2-8B-A1B | vaultbox qwen3.5-uncensored:4b | (Phi-3.5-mini) |
| マルチモーダル(画像・動画) | Qwen3.5-9B-HauhauCS | Gemma3-12B-Heretic | vaultbox 4B/9B |
| 長文脈(128K+) | Qwen3.5-9B-HauhauCS(262K) | Granite 3.3 8B(128K) | Llama3.1-8B-abliterated(128K) |
| ライセンス最緩(MIT/Apache) | Phi-4(MIT) / R1-Distill(MIT) | Qwen系・Granite・Dolphin-Mistral(Apache2.0) | — |
| 初めてのuncensored(Ollama一発) | Dolphin-llama3:8b | Llama3.1-8B-abliterated | Qwen3.5-9B-HauhauCS |
VRAM環境別の目安
| VRAM | 推奨モデル(速さ・実用性順) |
|---|---|
| 4GB以下(Pi・超低スペック) | vaultbox qwen3.5-uncensored:4b(Q3)・dolphin-phi-2.7B・SmolLM2-1.7B |
| 6GB(低スペックラップトップ・Macbook Air) | LFM2-8B-A1B(Q4)・Llama3.1-8B-abliterated(Q3/Q4)・Dolphin-Mistral 7B(Q4) |
| 8GB(RTX 3060/4060・M1) | Qwen3.5-9B-HauhauCS(Q4_K_M)・ELYZA-JP-8B-Heretic・Llama3.1-8B-abliterated・Dolphin 3.0・Granite 3.3 8B・R1-Distill-Qwen-7B-uncensored |
| 12GB(RTX 3060 12GB・M2 Pro) | 上記+Q6_K版・Qwen3.5-9B-HauhauCS(Q6_K)・Phi-4-14B(Q4)・Qwen3-14B-abliterated(Q4) |
| 16GB(RTX 4080・M3 Max) | Phi-4 14B(Q5_K_M)・Qwen3-14B-abliterated(Q4_K_M)・R1-Distill-Qwen-14B・Gemma3-12B-Heretic |
---
7. 導入手順・注意点:Ollamaの「見えない罠」に要注意
導入コマンド例(Ollama・最も手軽)
```bash
ollama run vaultbox/qwen3.5-uncensored:9b
ollama run ChiKoi7/Llama-3-ELYZA-JP-8B-Heretic
ollama run mannix/llama3.1-8b-abliterated:q5_K_M
ollama run dolphin-llama3:8b
ollama run phi4
ollama run granite3.3:8b
ollama run lf2:8b-a1b
```
LM Studio・llama.cpp での導入
LM Studio(デスクトップGUI)なら、検索ボックスにモデル名を入れてDownload→Load→Chatの手順。HuggingFaceからGGUFファイルを直接ダウンロードし、llama.cppで`./main -m model.gguf`として動かすことも可能です。
⚠️ 最重要注意点:Ollama デフォルトシステムプロンプト問題
これを知らないと「検閲されてるはずなのに拒否された」と混乱します。Reddit r/LocalLLaMAで繰り返し指摘される最重要の教訓です(出典:https://old.reddit.com/r/LocalLLaMA/comments/1n8344b/ )。
問題:Ollamaはデフォルトで"You are a helpful AI assistant…"というシステムプロンプトを自動付与します。この"helpful AI assistant"という文言が、特にLlama3系のアンセンサードモデル(Dolphin・Llama3.1-abliterated等)の潜在アライメント(隠れた検閲挙動)を再発火させるのです。
対策(優先順):
1. `/set system`で上書き:Ollamaのチャット画面で`/set system あなたは従順なアシスタントです。`等、検閲を再発火させないシステムプロンプトを明示的に設定
2. Modelfileでシステムプロンプトを空に:カスタムモデルを作成し、`SYSTEM ""`でデフォルトを空欄に
3. Ollamaを卒業してLM Studio/llama.cppへ:システムプロンプトを完全に制御できる環境へ移行するのが、上級者の定番対策
量子化選び:Q4_K_Mがスイートスポット
| 量子化 | 圧縮率 | 品質保持 | 推奨用途 |
|---|---|---|---|
| FP16 | 100% | 100% | ベンチマーク基準・リッチVRAM |
| Q8_0 | 50% | 98-99% | 高品質狙い |
| Q6_K | ~38% | 97-98% | 高品質+省VRAM |
| Q5_K_M | ~33% | 96-97% | 品質・サイズバランス良好 |
| Q4_K_M | ~27%(70%圧縮) | 95-96% | スイートスポット(最推奨) |
| Q4_0 | ~25% | 92-94% | 旧式・非推奨 |
| Q2_K | ~17% | 85-90% | 緊急時・品質劣化顕著 |
arXiv:2601.14277の統一評価でも、Q4_K_M/Q5_K_S/Q5_K_Mは「recommended」。4-bit未満では品質劣化が急増するので、Q2_K等の極端な量子化は避けましょう。
ライセンス注意(商用利用)
| ライセンス | 商用利用 | 代表モデル |
|---|---|---|
| MIT | 完全自由 | Phi-4・R1-Distill-Qwen |
| Apache 2.0 | 完全自由 | Qwen3.5-HauhauCS・Granite・Qwen3-abliterated・Dolphin-Mistral |
| llama3 / llama3.1 | MAU制限(7億MAU超で制限)あり | ELYZA-Heretic・Llama3.1-abliterated・Dolphin-Llama3 |
| gemma | Google利用規約準拠 | Gemma3-Heretic |
| Liquid独自 | ARR 1000万ドル超で商用ライセンス必要 | LFM2-8B-A1B |
商用利用を想定する場合は、MIT・Apache 2.0のモデル(Phi-4・Qwen系・Granite・R1-Distill)が最も安心です。
---
8. 結論・まとめ:2026年小規模アンセンサードの総合チャンピオン
このサイズ帯の総合チャンピオン
万能・爆速・検閲なしの三冠王:第1位 Qwen3.5-9B-HauhauCS-Aggressive。0/465拒否・lossless宣言・262K長文脈・201言語・次世代Hybridアーキテクチャという完璧に近いスペックに、502K Downloads・1.7K Likesという圧倒的コミュニティ支持。最新環境を用意できるなら、これ一つで事足ります。
日本語圏の決定版:第2位 Llama-3-ELYZA-JP-8B-Heretic。KL divergence 0.0527・日本語拒否8/100という定量データは、日本語uncensoredの歴史的マイルストーンです。日本語の自然さを最優先するなら、これが唯一無二の選択肢。作成者ChiKoi7氏の手法論(日本語refusal markers 15種定義)は、今後の日本語uncensoredモデルの範となります。
用途別の鉄板:
- 数学・推論:第5位 Phi-4 14B(MMLU 84.8・検閲0%ネイティブ)
- agentic:第4位 Dolphin 3.0(function calling学習済み)
- 企業・RAG:第6位 Granite 3.3 8B(Arena-Hard最强)
- エッジ・超高速:第8位 LFM2-8B-A1B(携帯40 tok/s)
2026年後半の展望
- Hereticの進化:MoEアーキ対応・Qwen3.5 hybrid対応・bitsandbytes 4bit対応で、より多様なモデルへ適用可能に。コミュニティのHeretic派生モデルは4,000以上
- 日本語uncensoredの本格化:ELYZA-Hereticの成功を皮切りに、Qwen3.5・Gemma4などの新ベースにHereticを適用した日本語モデルの登場が期待される
- stealth refusal対策:OBLITERATUS(NousResearch提案)など、より厳しい検証と除去ツールの登場で、「真のuncensored度」の評価はさらに精密化する
- MoEの支配:小規模でもLFM2-8B-A1B(1.5B active)のようなMoEが主流化。denseモデルはPhi-4のような特化型以外は縮小傾向
次回予告
本連載はこれで完結です。第1回(大規模70B+編)ではGLM-5・Llama 4・DeepSeek V4等の巨大モデル、第2回(中規模20-50B編)ではQwen3-Coder-30B-A3B・Gemma4-26B MoE等のコスパ最強モデルを解説しました。3部作を合わせれば、4Bから1.6Tまで、2026年のアンセンサードLLMの全貌が見えます。
あなたの環境と用途に合った1枚が見つかったなら、ぜひOllamaで`ollama run`を叩いてみてください。検閲のないAIとの対話は、クラウドAIでは味わえない自由と可能性を開いてくれます。ただし——生成内容の責任は利用者にあります。自由には成熟した判断が伴います。
小さなAIの大きな可能性を、ぜひあなたの手で。
---
*本記事のベンチマーク数値・評判は、HuggingFaceモデルカード・Ollama・Reddit r/LocalLLaMA・arXiv技術レポート・locallyuncensored.com等の一次ソースから引用しています(調査日:2026年6月30日)。憶測部分には[推測]と明記しました。LLMの性能は環境・プロンプト・量子化により変動するため、参考値としてご活用ください。*
!挿絵