!キャッチ
> 本記事は「アンセンサードLLM ベスト10」3部構成連載の第1回:大規模編(70B超/大規模MoE)です。第2回(中規模20–50B)、第3回(小規模4–14B)へ続きます。
「ChatGPTに聞いたら『それはお手伝いできません』と断られた」——こんな経験、ありませんか。アンセンサードLLM(uncensored LLM/検閲なしAI)とは、この「お断り」を本体の設計レベルで取り除いた言語モデルです。クラウドAIが倫理ガイドラインで次々と質問を門前払いするいっぽう、自分のPCや自社サーバーで動かせるローカルLLMの世界では、検閲を外したモデルが数百種類も公開されています。
2026年、この流れは決定的な局面を迎えています。理由は3つ。①クラウドAI(OpenAI・Anthropic・Google)の検閲が年々厳格化し、政治的に微妙な質問・成人向け創作・セキュリティ研究の質問が軒並み拒否されるように。②オープンウェイト(公開重み)の性能がGPT-4o/Claudeクラスに肉薄し、ローカルでも「実用になる賢さ」が手に入るように。③2025年後半に登場したHereticという決定版ツールにより、検閲を外しつつ能力劣化を数%に抑える技術が確立しました。
本記事が扱う大規模帯(70億超パラメータの密モデル、および総100億超の大規模MoE)は、「検閲がない上に最強に賢い」を実現できるサイズ帯です。小規模モデルのような妥協が不要な、純粋に性能を追求できる領域。一方で48GB以上のVRAMやApple Siliconの大容量メモリが求まり、モデル選び一つで体験が劇的に変わります。HuggingFace・Ollama・Reddit r/LocalLLaMA(100スレッド超)・各種ベンチマークを総合し、2026年7月時点で本当に使える大規模アンセンサードLLM トップ10を徹底解説します。一般向けのわかりやすさと、技術者向けの折りたたみコラムを両立しました。
---
refusal direction $\vec{r}$ を特定したら重み $W$ を直交化:$W'=W-\alpha\vec{r}\vec{r}^{\,T}W$。Hereticは $\alpha$ を層・コンポーネント別(`attn.o_proj`/`mlp.down_proj`)にOptuna TPEで最適化。GSM8K(数学)は最大の弱点——Yi-1.5-9B+Hereticで−18.81pp劣化し数学回路と拒否回路の重なりを示唆。ベストプラクティスは `Heretic → DPO healing` の2段構えです。
---
本ランキングは7軸 × 5段階の多次元評価で順位を決定しました。
| 軸 | 重み | 重視する点 | |---|---|---| | 能力 | ×3 | MMLU/HumanEval/GSM8K/AIME等 | | 真のuncensored度 | ×3 | 5層評価(ハード/ソフト/ステルス拒否・政治バイアス・sysprompt依存) | | ツール追従性 | ×2 | ネイティブfunction calling、JSON mode、agent対応 | | 日本語 | ×2 | token効率、自然さ、多言語marker検証 | | 速度/VRAM/安定性 | ×1各 | tok/s、ローカル実行の現実性、長文破綻の有無 | データソース:HuggingFaceモデルカード(一次情報)、Ollamaプル数、Reddit r/LocalLLaMA(100スレッド超)、Artificial Analysis/openhands.dev/locallyuncensored.com等のベンチマーク、Simon Willison氏ら技術ブログを総合。憶測部分は「[推測]」と明示。中規模(20–50B)・小規模(4–14B)は次回・次々回に譲り、ローカル非現実的なAPI専用モデルは第10位の番外編で正直に扱います。---
> OpenAI由来のreasoning DNAを、Apache 2.0で、検閲なしで。
スペック:`openai/gpt-oss-120b`/abliterated `huihui-ai/Huihui-gpt-oss-120b-BF16-abliterated`(Ollama: `huihui_ai/gpt-oss-abliterated`)。MoE 116.8B総/5.1B active・ctx 128K・Apache 2.0・手法: Abliteration。MXFP4 ≈ 65 GB → 単一80GB GPU(H100/MI300X)で動作。 なぜこの順位か——2025年8月OpenAIが初めて一般向けに公開した歴史的オープンウェイトで、GPT-4.1/o3系のreasoning DNAを持つと目されます。総116.8Bながらactiveはわずか5.1Bの超効率MoE+ネイティブMXFP4量子化で単一80GB GPUに収まり、「ローカルで動く最強クラス」の条件を全て満たします。 強み:OpenAI由来の推論力と関数呼び出し(GPT-4.1級と推定)。5.1B activeで高速、MXFP4ネイティブで量子化劣化少ない。Apache 2.0で商用利用自由。 弱み:safety layers(安全層)が多数でHuihuiの手法がどこまで効くかは要検証。GGUF版が発展途上、ローカルでもH100/MI300X級のハードル。 評判:Reddit(1mkh8qe)で「INSANE NEWS、完全uncensored、lobotomized(馬鹿化)ではない」と沸騰。Simon Willison氏も「OpenAIの新しいApache 2オープンウェイトは本当に良い」。 用途——reasoning、コーディング、関数呼び出し、agentic用途のローカル最強候補。Dolphin系の後継として、単一H100や128GB級Mac Studioで動かせる最もバランスの取れた1枚です。gpt-oss-120bはMoEの線形射影重みをネイティブMXFP4で保持しメモリをFP16比で約2.5分の1に圧縮。多くのモデルは「高精度学習→配布時に量子化」ですが、gpt-ossは最初からMXFP4前提で学習されているため事後量子化の劣化が起きにくい設計。active 5.1Bはトークンあたり読む重みがdense 70Bの約14分の1。ただし全エキスパート重みをVRAMに常駐させる必要は変わらず、65GBモデルを80GB GPUに収める構成がスイートスポットです。
---
> 「MoEなのにdenseみたいな推論の一貫性」とRedditで話題沸騰。
スペック:`zai-org/GLM-4.5-Air`(106B MoE/12B active)/abliterated: huihui-ai系(GGUF/MLX 4bit)。ctx 128K・MIT・手法: Abliteration。MLX 5bit ≈ 80 GB → M-Max/Ultra、2×GPUで動作。 なぜこの順位か——中国Zhipu(智譜)のGLM-4.5ファミリー軽量版で、12B activeの超効率MoEながら「denseモデルに感じる推論の一貫性がある」と絶賛(r/LocalLLaMA 1mbg1ck)。GLM-4.5は12ベンチマーク総合63.2でKimi K2/Qwen3を打ち負かすと公式。Mac MLX 4bitで約40 tok/sが報告され、Apple Siliconユーザーに最も現実的な大規模帯です。 強み:12B activeで超高速かつdense感覚の一貫性(MoEの文脈ブレを克服)。agentic/codingが強く生物科学知識が突出。MITでMLX版が豊富。 弱み:中国系のため中国政治検閲がベースに存在、完全解除は難しい[推測]。日本語はQwen系に一歩譲る。フルGLM-4.6(357B級)はマルチH100必須。 評判:r/LocalLLaMA(1mbflsw)「GLM 4.5の生物科学知識はexcellent。多くのオープンウェイトにmolecular/cell bioが足りない中で突出」。daily driveで「半分のコストで驚異的」(1mv01ls)。 用途——Mac(M-Max/Ultra)や2×RTX 3090/4090で動かす、agentic・長文reasoning・知識系タスクの最強候補。GPT-4o級の流暢さをローカルで味わうなら、まずこれ。多くのMoEはトークンごとに少数エキスパートを切り替えるため長文で文体や推論がブレます。GLM-4.5-Airは12B activeと比較的大きめの活性化幅を持ちエキスパート選択の"飛び跳ね"が目立ちにくい設計。Zhipuは高品質な多言語データを大量学習し知識密度が高い。abliterationはテキスト部のみ処理(マルチモーダル版GLM-4.6V-Flashは画像部は未処理と明記)。完全解除にはR1 1776式トピックFTが理想ですがGLM向け完成版は未登場です[推測]。
---
> 「Llamaより知識、Llamaの方が会話」——Redditで定着した評価。
スペック:`Qwen/Qwen2.5-72B-Instruct`/abliterated `huihui-ai/Qwen2.5-72B-Instruct-abliterated`。72B 密・ctx 128K・Qwen License・手法: Abliteration。Q4_K_M ≈ 44 GB・VRAM 48GB+。 なぜこの順位か——math/code/researchで同サイズ最強格(MMLU≈86、HumanEval≈82、GSM8K≈95、MATH≈83)。benchgecko.ai計測でabliterated版でも平均87.5とベース同等を維持。大規模帯で日本語が実用レベルなのも大きく、日本語ユーザーに最も万能な1枚です。 強み:math/code/research/知識検索でトップクラス、128K ctx。日本語が強い(多言語強化)。tool useが強く標準72B Instructが拒否したNSFWシナリオにも応答したと報告。 弱み:会話や執筆の自然さはLlama 3.3 70Bに一歩譲る。72B密で遅い(Q4で~9 tok/s @ 64GB Mac)。後継Qwen3-235B(22B active)が出て陳腐化しつつある(後継は個人非現実的)。 評判:r/LocalLLaMA(1hcchbi)「Llama 3.3の方が指示追従・会話・執筆。Qwenは知識検索・リサーチで勝つ」。 用途——コーディング、数学、リサーチ、知識検索、長文処理、日本語メインの用途。後継Qwen3-235Bを動かせない場合の最強の代替で、大規模帯で「日本語で使いたい」なら第一選択。Qwen2.5-72Bはコード特化の事前学習比率が高くHumanEval 82/LiveCodeBenchで安定高スコア。Llama 3.3 70Bは会話・persona・指示追従(Ifeval)に特化しており設計思想の違いが得意分野の違いに直結。abliteration品質はhuihui版がFailSpyオリジナル(謝辞明記)を基にしQwen2.5-72Bではベンチ劣化が最小(平均87.5維持)。派生モデルごとに品質ばらつきがある点は要個別検証です。
---
> 「システムプロンプトだけでロールプレイに入る」——persona採用力が異常に高い。
スペック:`meta-llama/Llama-3.3-70B-Instruct`/abliterated `huihui-ai/Llama-3.3-70B-Instruct-abliterated`。70B 密・ctx 32K・Llama 3.3 Community License(700M MAU制限・派生物に"Llama"接頭辞必須)・手法: Abliteration(huihui自認「PoC」)。Q4_K_M ≈ 42 GB。 なぜこの順位か——2024–25年のローカル大規模の北極星。英語知識・persona・指示追従(Ifeval)がトップクラスで「GPT-4 turbo並み」(Reddit 1c7ubsi)。生態系(MLX/GGUF/vLLM/SGLang)も最も成熟し、情報量・トラブルシュートの容易さでは他を圧倒します。 強み:英語知識・persona・指示追従トップクラス、agentic多段推論に強い。Macで動かしやすい(MLX版が豊富)。長文要約・RAG・知識系タスクで真面目用途に最適。 弱み:huihui自認「PoC」で品質変動がありREADMEに「希望する結果が出ない場合は再試行せよ」と明記。codingではQwen2.5 72Bに一歩譲る。日本語なし(実用限界[推測])。 評判:r/LocalLLaMA(1hcl5oh)「persona採用が即座。ロールプレイと指定しなくても入る」。一方「codingならLlamaは正気ではない」とのコールドな声も。 用途——英語でのagentic多段推論、長文要約、RAG、研究・知識系タスク。Euryaleより「真面目」、Strawberrylemonadeより「安定」。ただしabliteration品質に難があるためHeretic版への移行を視野に入れるべき時期です。huihui-ai自身が「proof-of-concept」と認める通り、この版は単一方向・単一強度の粗いabliterationで能力劣化の報告が多数。2025年後半のHereticはOptuna TPEで層別最適化しGemma-3-12Bで手作業版と同等の拒否抑制をKL=0.16(手作業版1.04)で達成。Llama 3.3 70BのHeretic版が普及すれば品質変動問題は解消方向。ベストプラクティスは Heretic+DPO healing の2段構えです。
---
> 131K ctxとpersonaの深みで、SillyTavern界隈の絶対的評価。
スペック:`Sao10K/L3.3-Euryale-70B`(v2.3が最新安定、2024年12月18日)。70B 密・ctx 131,072・最大出力 16,384・Llama 3.3。手法: ファインチューン型(創作/RP特化、non-restrictive)・推奨 sampler: temp=1.4, min_p=0.1。 なぜこの順位か——創作・ロールプレイ(RP)用途で世界トップクラスの完成度。v2.3は物語の一貫性/キャラ開発/対話品質で前世代を改善。OpenRouterのEQ-Bench創作スコアではLlama 3.3ベースを一貫して上回り、SillyTavern界隈で創作RPの定番モデルとして君臨しています。 強み:131K ctxで長期RPでも破綻しない、personaの深みが違う。"non-restrictive during roleplays"、spatial awarenessが優秀。OpenRouter経由でAPI利用可。 弱み:tool use/codingには不向き(創作特化)。temp=1.4と高めのsampler設定が必須。日本語RPも可能だが英語前提[推測]。 評判:モデルカード公式「Exceptional prompt adherence、remarkable creativity、excellent spatial awareness、non-restrictive during roleplays」。コミュニティはv2.3を安定版として使用。 用途——インタラクティブフィクション、ゲームナラティブ、キャラクター開発、世界構築、長期RP。創作系なら、これ一択で良いと言っても過言ではありません。abliteration(重み外科)は元の知識を保持する反面、性格や文体の調整ができません。Euryaleのような創作特化FTは高品質なRP/ナラティブデータで「物語を紡ぐ能力」そのものを学習。Sao10KはLlama 3.3 Instructを完全ファインチューン(LoRA抽出なし)しベース能力を保ったまま創作力を注入。temp=1.4の高め温度は創造性を引き出す意図的設計で、min_p=0.1で尾部確率をカットして破綻を防ぐ構成。これがdense 70Bでなければ出せない味です。
---
> 「最近試しているが、他モデルに比べて新鮮さに驚かされる」——Reddit。
スペック:`TareksGraveyard/Stylizer-V2-LLaMa-70B`(Dark-V2/Fused派生あり)。5モデルのSCEマージ(base = huihui-ai/Llama-3.3-70B-Instruct-abliterated)。統合: Hermes-3-lorablated + Euryale-v2.1 + Negative_LLAMA + Nemotron-lorablated + Llama-3.3-abliterated(各0.20)。70B 密・手法: マージ型(SCE)。 なぜこの順位か——5つのlorablated/abliterated/創作モデルを均等ウェイトで統合した変わり種。単独モデルにはない「LLMらしさが薄い、新鮮な文体」が特徴で、Euryaleより更に尖り、実験的な文体を求める層に刺さります。 強み:創造性・新鮮さが突出、LLM特有の無難な文体を脱却。5モデル統合の深み。Dark-V2/Fused派生でバリエーション展開。 弱み:汎用能力はLlama 3.3 70Bに譲る、tool/coding不向き。マージゆえの変動がありsampler調整が必要。日本語は事実上皆無[推測]。 評判:r/LocalLLaMA(1pwh0q9)「新鮮さに驚かされる」。コンテキスト冒頭評価は「創造性高、LLMらしさ薄い」。 用途——創作、実験的な文体、LLMらしさを脱きたい執筆。Euryaleでは物足りなくなった創作ユーザー向けの「次の一手」。真面目用途・日本語・長文には不適。mergekit等のモデルマージは複数モデルの重みを線形結合する技術。SCE(Select, Combine, Evolve)は進化的アルゴリズムで「どの層をどのモデルから取るか」を自動選択し単純平均より高品質を目指します。Stylizer-V2は5モデルを各0.20で統合しつつSCEで最適化。各親モデルの長所が混ざり合い特異な文体が生まれます。ただし「フランケンマージ」は品質ばらつきが大きく(locallyuncensored.com:Highly variable)、特定用途への特化が前提です。
---
> Eric Hartfordブランド、Apache 2.0、商用利用可——歴史的信頼の1枚。
スペック:`dphn/dolphin-2.9.2-mixtral-8x22b`(Eric Hartford)・ベース: Mixtral-8x22B-v0.1。Sparse MoE 141B/39B active・ctx 64K・Apache 2.0(商業利用可)。手法: ファインチューン型(FFT、8×H100で1週間)。Q4 ≈ 80 GB(8x7B版は~26 GB、24GB VRAMで個人可)。 なぜこの順位か——uncensoredコミュニティの立役者Eric Hartford氏によるFT型の代表格。SystemChat 2.0(長会話でもシステムプロンプト遵守)とfunction calling/Agent-FLAN学習で初期agenticにも対応。8x7B版は24GB VRAMで個人が動かせる貴重な存在で、長年「セルフホストで十分」と評価されてきました。 強み:Eric Hartfordブランドの高コンプライアンス(真のuncensored度はTier S、システムプロンプト不要)。Apache 2.0で商用利用可、function calling対応。8x7B版は24GB VRAMで個人可。 弱み:2024年世代で陳腐化しつつある(Llama 3.3 70BやQwen3系の台頭)。Eric Hartford氏自身がDolphin 3.0 Mistral 24B等(中規模)へ移行中。英語中心で日本語は弱い[推測]。 評判:r/SillyTavernAI(18n7vzr)「使った中で最高のローカルモデル」。r/LocalLLaMA(1c3stb8)「8x22b dolphinがCommand R+に匹敵する何か特別なもの」。 用途——legacy安定のuncensored、24GB VRAM限定のcoding/function calling、商用利用を含む用途。但し新規環境ではDolphin 3.0 Mistral 24B(中規模・次回)またはLlama 3.3 70B abliteratedを推奨。歴史的信頼を重視する層向け。Eric Hartford氏は"uncensored models"ブログで「AIは道具でありユーザーの意図に従うべき。モラルはユーザーが担う」と語ります。Dolphinはこの思想でアライメント/バイアス除去データをFT。SystemChat 2.0は長会話でシステムプロンプトが忘れられる問題を抑止する学習手法でRPやagentic用途の安定性に直結。8x22B版はFFTで50%パラメータ更新、ChatML採用。但しMoE 39B activeは新世代MoE(Qwen3-30B-A3Bの3B active等)の効率には及ばず、これが陳腐化の主因です。
---
> フルR1 671Bを動かせない人への、数学・推論特化の妥協案。
スペック:`huihui-ai/deepseek-r1-abliterated:70b`(Ollama)/Perplexity R1 Llama 70B Uncensored GGUF。70B 密(R1のreasoningをLlama 3.3 70Bに蒸留)・ctx 128K・手法: Abliteration/FT・Q4 ≈ 43 GB。 なぜこの順位か——DeepSeek-R1(671B MoE)の推論能力を70Bに蒸留した、フルR1を動かせない人向けのreasoning特化選手。AIME 2024で70%超、MATH-500で90%超、livecodebenchで40%+と数学/CoTで同サイズ最強クラス。ただし妥協点であり、フルR1には遠いのが順位低下の理由です。 強み:ローカルで動くreasoningモデル、数学/CoTが強い、128K ctx。要約・論理推論に良いとの声。 弱み:abliterationとreasoning chainの相性が悪い——Reddit(1i61ou3)「uncensorには成功したがモデルの品質も劣化した」と多数報告。tool useは弱くCoTが長く出力が遅い。フルR1の性能には遠い(1ia3iwf)。 評判:r/LocalLLaMA(1iu4gvf)「changed my mind、速度と知性のバランスが素晴らしい」(肯定)vs(1i61ou3)「品質劣化」と二極化。 用途——要約、論理推論、数学に限定。coding agentには不適。フルR1 671Bを動かせない場合の妥協点であり第一選手ではない。reasoning最優先なら後述のR1 1776(API)が理想です。本モデルは巨大R1(671B)のCoT能力をLlama 3.3 70Bに詰め込んだ「知識の圧縮」モデル。圧縮ゆえ推論回路が繊細でabliterationがrefusal方向と数学回路を同時に傷つけるリスクが高い(前述のGSM8K弱点が蒸留モデルで増幅)。PerplexityのR1 Llama 70B UncensoredはabliterationではなくFT型で解除しておりこちらの方が品質保持に有利との声も。本格的なreasoningならフルR1ベースのR1 1776(次項)が正解です。
---
> 「過激コンテンツ向け」——AI-Hordeリファレンス掲載の専門機。
スペック:`sophosympatheia/Strawberrylemonade-L3-70B-v1.1`/v1.2。70B 密(Llama 3系マージ、Euryale含む)・ctx 8K(RoPE拡張可)・手法: マージ型。Q4 ≈ 42 GB・NVFP4A16で単一RTX Pro 6000 48GBで動作。 なぜこの順位か——過激NSFW/暗いテーマの創作に特化した選別マージ。NVFP4A16量子化(mratsim氏)により単一48GB GPUで動作とハードウェア要件で勝ります。AI-Hordeのtext-model-referenceでuncensoredカテゴリ掲載、Infermatic.aiラインナップにも入る、ニッチながら確固たる支持を持つモデルです。 強み:過激NSFW/暗いテーマで究極の対応力。NVFP4A16で単一48GB GPUで動作(ハードルが比較的低い)。ニッチ需要の深さを示す"sensitive content"フラグ付き。 弱み:8K ctx(ネイティブ)と短く長文には不適。tool/coding不向き。日本語は事実上皆無[推測]。マージゆえ安定性に難あり、sampler・sysprompt調整が必須。 評判:AI-Horde text-model-referenceでuncensoredカテゴリ掲載、Infermatic.ai STANDARDプランラインナップ。コンテキスト冒頭評価は一貫して「過激コンテンツ向け」。 用途——過激NSFW/暗いテーマの創作、アダルト系RP。真面目用途・日本語・長文には不適。この目的に特化するなら大規模帯で最良の選択です。NVFP4A16は重みの4bit量子化(NVFP4)とactivationsのFP16保持を組み合わせたNVIDIA系量子化でvLLM等で推論効率を高めます。mratsim氏版は単一RTX Pro 6000 48GBで131K ctx動作を報告。70Bクラス(Q4で~42GB)を単一48GB GPUで動かすにはQ4_K_M+ctx用バッファの組み合わせが現実的で、NVFP4A16はvLLM向けに最適化されLLaMA系マージの実運用で重宝します。
---
> 100%検閲解除+reasoning完全保持——「重み外科」と「概念的対極」のFT型の頂点。
スペック:DeepSeek-R1 671B(V3同等MoE、37B active)・提供元: Perplexity。ctx 160K・MIT系(FT版)・手法: トピック特化FT型(約300トピック・4万プロンプト)。入手: OpenRouter/Ollama/HuggingFace(70B/32B/14B/7B蒸留も)・フルQ4 ≈ 404 GB → DC専用。 なぜこの順位か(番外編の理由)——フルサイズは個人ローカルで非現実的(Q4で404GB、マルチH100必須)ですが、「理想のuncensored手法の代表例」として外せない1枚。1000プロンプト評価で100% uncensored(元R1は85%検閲)を達成しつつ、MMLU/DROP/MATH-500/AIME 2024で元R1とほぼ同一を維持、lineage-benchで1位を獲得しました。 強み:reasoning世界トップクラス(AIME 2024≈79.8、MATH-500≈97.3、Codeforces 96.2 percentile、GPQA Diamond≈71.5)。100% uncensored+性能完全保持という理想の組み合わせ。70B/32B/14B/7B蒸留版も提供。 弱み:フルサイズは個人非現実的(実質API)。「中国政治検閲」のみを除去する設計でNSFW特化とはやや異質。R1-0528はCAISI/NIST評価で「米国モデルの8%に対し94%が悪意要求に応じる」と逆説的に最も検閲が薄いと判定される皮肉。 評判:Redditで当初「lineage-benchで性能低下か」と騒がれたがサービング問題と判明し撤回、「1位獲得」で再評価。DeepSeek系の検閲はFT段階で深く組み込まれプロンプト回避では抜けないことがR1dacted/ChinaBench/CAISIで確認済みです。 用途——研究、難問数学/コーディング、ファクトリサーチ。ローカルならR1 1776蒸留70Bが妥協点、フルはAPI推奨。中国系大モデルを扱う際のデファクトスタンダードです。uncensored手法は2026年、3系統に整理されます。①重みabliteration(Heretic/huihui)=高速・低成本だが中国政治検閲や深い整列には無力、数学劣化リスク。②包括的FT(Dolphin/Hermes)=安定・柔軟だがコスト大。③トピック特化FT(R1 1776式)=reasoning保持・100%解除・中国政治も解除するがフルはDC専用。R1 1776の革新は「検閲対象トピックで事実を語ることをFTで焼き込む」点。重み外科(①)が「表層の蓋」を取るだけなのに対し、R1 1776は「事実を語る能力そのもの」を再学習します——これが深い問題に対する決定的な差です。
---
!挿絵
スペック・ハードウェア要件比較 | # | モデル | 総P/active | ctx | ライセンス | 手法 | Q4 | ローカル現実性 | |---|---|---|---|---|---|---|---| | 1 | gpt-oss-120b abliterated | 117B/5.1B MoE | 128K | Apache 2.0 | Abliteration | MXFP4 ~65GB | ★★★★★ | | 2 | GLM-4.5-Air abliterated | 106B/12B MoE | 128K | MIT | Abliteration | ~60GB | ★★★★☆ | | 3 | Qwen2.5-72B abliterated | 72B 密 | 128K | Qwen | Abliteration | ~44GB | ★★★☆☆ | | 4 | Llama 3.3 70B abliterated | 70B 密 | 32K | Llama 3.3 | Abliteration(PoC) | ~42GB | ★★★☆☆ | | 5 | Sao10K Euryale 70B v2.3 | 70B 密 | 131K | Llama 3.3 | FT(RP) | ~42GB | ★★★☆☆ | | 6 | Stylizer-V2-70B | 70B 密 | 32K | Llama 3 | SCEマージ | ~42GB | ★★★☆☆ | | 7 | Dolphin-Mixtral 8x22B | 141B/39B MoE | 64K | Apache 2.0 | FT | ~80GB | ★★★☆☆(陳腐化) | | 8 | DS-R1-Distill-70B Un | 70B 密 | 128K | Llama 3.3/MIT | Abliteration/FT | ~43GB | ★★★☆☆ | | 9 | Strawberrylemonade-70B | 70B 密 | 8K | Llama 3 | マージ | ~42GB | ★★★★☆ | | 10 | R1 1776(番外・API) | 671B/37B MoE | 160K | MIT | トピックFT | ~404GB | ★☆☆☆☆ | 多次元評価マトリクス(★5段階/ローカル実行前提) | # | モデル | 能力 | 速度 | ツール | 日本語 | uncensored | 安定性 | VRAM | 総合 | |---|---|---|---|---|---|---|---|---|---| | 1 | gpt-oss-120b abliterated | 5 | 4 | 4 | 3 | 4 | 4 | 4 | 28 | | 2 | GLM-4.5-Air abliterated | 5 | 4 | 5 | 3 | 4 | 4 | 3 | 28 | | 3 | Qwen2.5-72B abliterated | 5 | 2 | 4 | 4 | 4 | 3 | 2 | 24 | | 4 | Llama 3.3 70B abliterated | 4 | 2 | 3 | 2 | 4 | 3 | 2 | 20 | | 5 | Sao10K Euryale 70B v2.3 | 4 | 2 | 2 | 2 | 4 | 4 | 2 | 20 | | 6 | Stylizer-V2-70B | 3 | 2 | 2 | 1 | 5 | 3 | 2 | 18 | | 7 | Dolphin-Mixtral 8x22B | 3 | 3 | 4 | 2 | 5 | 4 | 3 | 24 | | 8 | DS-R1-Distill-70B Un | 4 | 2 | 2 | 2 | 3 | 2 | 2 | 17 | | 9 | Strawberrylemonade-70B | 3 | 2 | 2 | 1 | 5 | 3 | 3 | 19 | | 10 | R1 1776(API) | 5 | 3 | 4 | 3 | 5 | 4 | 1 | 25 |> 総合点は単純加算の目安。用途別の重み付けで順位は大きく変わり(次節参照)、「ローカル実行可能性」を重く見ると上位の顔ぶれがガラッと変わります。
---
!挿絵
大規模アンセンサードLLMは「万能な1つ」より用途別の使い分けが鍵です。
ハードウェア別の第1選択:単一80GB GPU(H100/MI300X)→ 第1位 gpt-oss-120b。Mac(M-Max/Ultra、64GB以上)→ 第2位 GLM-4.5-Air、次点Llama 3.3 70B。2×RTX 3090/4090(48GB)→ 第3位 Qwen2.5-72B(万能)、創作なら第5位 Euryale。単一48GB GPU(RTX Pro 6000)→ 第9位 Strawberrylemonade。API/OpenRouterで性能最大化→ 第10位 R1 1776、agenticならMiniMax-M2.5/Kimi K2.5。 用途別マトリクス | 用途 | 第1選択 | 第2選択 | 第3選択 | |---|---|---|---| | agentic/tool use | GLM-4.5-Air | gpt-oss-120b | (API) MiniMax-M2.5 | | coding/codebase | Qwen2.5-72B | gpt-oss-120b | (API) Kimi K2.5 | | reasoning/数学 | DS-R1-Distill-70B | Qwen2.5-72B | (API) R1 1776 | | 創作/RP(英語) | Sao10K Euryale 70B | Stylizer-V2 | (中規模) Cydonia-24B | | 尖った創作/実験文体 | Stylizer-V2-70B | Strawberrylemonade | — | | 過激NSFW | Strawberrylemonade | Dolphin-Mixtral | (中規模) Dolphin 3.0 | | 日本語メイン | Qwen2.5-72B | (中規模) Qwen3.6-27B | (小規模) ELYZA-Heretic | | 真のuncensored重視 | (API) R1 1776 | Dolphin-Mixtral | gpt-oss-120b | | legacy安定・商用利用 | Dolphin-Mixtral | (中規模) Dolphin 3.0 24B | — | | 長文(>100K) | Euryale(131K) | Qwen2.5-72B(128K) | (API) MiniMax(1M) | よくある誤解——「とりあえず一番賢いgpt-oss-120bで全部やればいい?」→ 創作/RPには不向きです。EuryaleやStylizer-V2の「文体の味」はreasoningモデルでは出ず、用途別の使い分けが大規模帯の醍醐味です。「日本語で使いたいが?」→ Qwen2.5-72Bがベストですが、コスパなら中規模のQwen3.6-27B-abliteratedや小規模のELYZA-Heretic-8Bが上回ります(次回・次々回解説)。「Llama 3.3 70Bは?」→ 歴史的定番ですがabliteration品質(PoC)の限界と陳腐化が顕在化。新規ならgpt-oss-120bかGLM-4.5-Airが無難です。---
---
---
> 免責・注記:本記事はアンセンサードLLMの技術動向と選び方を解説するものであり、違法行為の助長や具体的な有害コンテンツ生成手法の解説はしません。ベンチマーク数値は調査時点(2026年6–7月)の公開データに基づき出典を明記し、憶測部分は「[推測]」と表記しました。モデルの仕様・ライセンスは変更される可能性があるため、実際の利用にあたっては最新のモデルカードをご確認ください。
主な出典:HuggingFaceモデルカード各種(huihui-ai/Sao10K/dphn/TareksGraveyard/sophosympatheia/openai/zai-org等)、Reddit r/LocalLLaMA(100スレッド超)、Simon Willison氏ブログ、Artificial Analysis、openhands.dev、locallyuncensored.com、arXiv:2406.11717(refusal direction)、arXiv:2512.13655(abliteration比較)、jasagiri "Uncensored1776"、Eric Hartford "uncensored models"、Perplexity R1 1776 解説各種。