Fachartikel · KI & Automatisierung

Lokale Sprachmodelle
im Textbenchmark

Welche lokalen Modelle meistern Text, Code und logisches Denken? 22 Modellvarianten, 14 praxisnahe Tests — vollständig auf Apple Silicon.

Stand: März 2026 22 Modelle · 14 Tests · 4 Kategorien

Abstraktes Netzwerk aus leuchtenden Nodes in Blau und Gruen

Modellvarianten

14 davon mit 100% Pass-Rate — Größe allein entscheidet nicht

Tests in 4 Kategorien

Text · Reasoning · Hard · Expert

150s

Effizienz-Champion

Qwen3.5-2B (think): 14/14, 25/25 QS — identisch mit 24B-Modell

Der Hype um lokale Sprachmodelle ist groß — aber welche halten im Alltag wirklich stand? Wir haben 22 Modellvarianten auf 14 praxisnahen Aufgaben getestet: Textzusammenfassung, Log-Analyse, Code-Review, Konfigurationsvergleich, Root-Cause-Analyse, schwierige Berechnungen und Expert-Level-Aufgaben.

Alle Tests laufen vollständig lokal auf Apple Silicon. Keine Cloud-API, keine externen Dienste. Hardware: M4 Pro 48GB als Primärsystem, M1 Mac Mini 8GB als Edge-Test.

Das überraschende Ergebnis: Ein 2-Milliarden-Parameter-Modell erzielt identische Testergebnisse wie ein 24-Milliarden-Modell — bei einem Drittel der Laufzeit und einem Zehntel des Speicherbedarfs.

Hardware im Überblick

M4 Pro 48GBPrimär

Primärsystem — alle 22 Modellvarianten, auch 80B-MoE möglich

M1 Mac Mini 8GBEdge

Edge-Test — Qwen3.5-2B als Referenzmodell, direkte Vergleichsmessung

llama-server / mlx-lm

Inference-Backends: GGUF via llama.cpp, MLX-Quantisierungen via mlx-lm

Test-Suite V3.1

Was wird getestet?

Text B1–B4

Technischen Artikel über Proxmox-Wartung zusammenfassen

Strukturiertes Wartungslog analysieren und Probleme identifizieren

Statistische Analyse von 12 Monatsdatensätzen (3 Produkte)

Code-Review eines Python-Skripts mit mehreren Bugs

Reasoning C1–C3

Zwei Konfigurationsdateien vergleichen, semantische Änderungen auflisten

Entscheidungsmatrix auswerten und eine Option empfehlen

Root-Cause-Analyse aus einer Serie von System-Events

Hard D1–D5

Subtilen Off-by-One-Fehler in einer Datenverarbeitungsfunktion finden

Mehrstufige Anweisungen mit bedingten Verzweigungen befolgen

Mehrstufige Berechnung mit Zwischenergebnissen

Frage anhand von Informationen beantworten, die tief im Kontext vergraben sind

Nuancierter Code-Review mit Domänenwissen (härtester Test)

Expert E1–E2

Events aus mehreren Log-Quellen korrelieren, Root Cause finden

DMARC-Report-XML analysieren und Zustellbarkeitsprobleme erklären

Benchmark-Ergebnisse

Vollständige Ergebnistabelle

Sortiert nach Pass-Rate (absteigend), dann Quality Score, dann Laufzeit. Think-Spalte: yes = Qwen3.5 Think-Mode aktiv, no = no-think, n/a = kein Qwen3.5-Modell.

Top 10 — Pass-Rate 100%

14/14 Tests bestanden

#	Modell	Params	QS	Zeit	Think	HW
1	devstral-2-24b-opt	24B	25/25	640s	n/a	M4
2	devstral-2-24b	24B	25/25	483s	n/a	M4
3	qwen3-coder-next-80b-opt	80B/10B	25/25	386s	n/a	M4
4	qwen3.5-2b (think) Effizienz-Champion	2B	25/25	150s	yes	M4
5	qwen3.5-4b-nothink	4B	25/25	273s	no	M4
6	qwen3-coder-30b-mlx Schnellster	30B/3B	24/25	106s	n/a	M4
7	qwen3-coder-next-80b	80B/10B	24/25	371s	n/a	M4
8	qwen3.5-2b (Mar 16)	2B	23/25	119s	yes	M4
9	gemma-3-4b	4B	21/25	158s	n/a	M4
10	phi-4-mini	~4B	21/25	406s	n/a	M4

Plätze 11–23 anzeigen

#	Modell	Params	Score	QS	Zeit	Think	HW
11	qwen3.5-4b-gguf-nothink	4B	13/14	25/25	267s	no	M4
12	qwen3.5-2b-gguf-nothink	2B	13/14	21/25	125s	no	M4
13	llama-3.2-3b	3B	13/14	19/25	78s	n/a	M4
14	tongyi-deepresearch-30b-opt	30B/3B	12/14	13/25	494s	n/a	M4
15	qwen3.5-0.8b	0.8B	12/14	20/25	37s	yes	M4
16	qwen3.5-2b (M1)	2B	12/14	21/25	562s	yes	M1
17	qwen3.5-27b-opus-distilled	27B	11/14	15/15*	811s	yes	M4
18	qwen3.5-9b-nothink	9B	11/14	18/25	712s	no	M4
19	llama-3.2-1b	1B	11/14	16/25	37s	n/a	M4
20	glm-4.7-flash	?	10/14	12/25	642s	n/a	M4
21	qwen3.5-4b (think)	4B	10/14	22/25	424s	yes	M4
22	qwen3.5-9b (think)	9B	9/14	17/25	852s	yes	M4
23	huihui-qwen35-27b-opus	27B	8/14	2/4*	602s	yes	M4

* Quality Score Nenner kleiner, da Timeout-Tests aus der Wertung ausgeschlossen.

Highlight-Befund

Think vs. No-Think

Qwen3.5 bietet einen expliziten "Think-Modus", der das Modell zur Chain-of-Thought-Reflexion zwingt. Das Ergebnis ist kontraintuitiv — und das Highlight dieses Benchmarks.

Qwen3.5-2B MLX

Think

14/14

QS 25/25 · 150s

No-Think

13/14

QS 21/25 · 125s

Gewinner

Think

Thinking hilft: +1 Test, +4 QS bei nur 25s Mehraufwand

Qwen3.5-4B MLX

Think

10/14

QS 22/25 · 424s

No-Think

14/14

QS 25/25 · 273s

Gewinner

No-Think

Think-Modus kostet 4 Tests und 151s — No-Think dominiert klar

Qwen3.5-9B MLX

Think

9/14

QS 17/25 · 852s

No-Think

11/14

QS 18/25 · 712s

Gewinner

No-Think

Think kostet 2 Tests und 140s Extrazeit — kein Gewinn

Fazit Think-Modus: Think hilft nur bei 2B — dort verbessert er Pass-Rate und Qualität bei minimalem Zeitaufwand (+25s). Bei 4B und 9B ist No-Think auf allen Metriken besser: mehr Tests bestanden, höhere Qualität, schnellere Laufzeit. Der Think-Modus verbraucht bei größeren Modellen offenbar Kapazität, die das Modell für die eigentliche Aufgabe braucht.

Test-Schwierigkeit

Welche Tests sind schwer?

Pass-Rate über alle 23 Läufe sortiert. D4_long_context (100%) ist der einzige Test, den jedes Modell besteht. D5_nuanced_review (70%) schlägt 30% aller Läufe fehl.

D5_nuanced_review

70%

Hard

Schwerster

B1_summary

83%

Text

Schwer

C3_root_cause

83%

Reasoning

Schwer

E1_correlated_log

83%

Expert

Schwer

E2_dmarc_analysis

83%

Expert

Schwer

C2_decision_matrix

87%

Reasoning

Mittel

D2_instruction_following

87%

Hard

Mittel

B3_statistics

91%

Text

Mittel

B4_code_review

91%

Text

Mittel

B2_log_analysis

96%

Text

Leicht

C1_config_diff

96%

Reasoning

Leicht

D1_subtle_bug

96%

Hard

Leicht

D3_multi_step_calc

96%

Hard

Leicht

D4_long_context

100%

Hard

Leichtester

Key Findings

Was der Benchmark zeigt

Think-Modus schadet ab 4B

Qwen3.5-4B mit Thinking: 10/14 Tests (71%), ohne Thinking: 14/14 (100%) in 35% weniger Zeit. Gleiches Muster bei 9B. Nur bei 2B hilft Thinking.

2B ist der Effizienz-Champion

Qwen3.5-2B (MLX, 4bit, think) erreicht 14/14 und 25/25 QS in 150s auf ~1,5 GB RAM — deckungsgleich mit Devstral-2-24B bei einem Drittel der Zeit.

qwen3-coder-30b-mlx ist der Schnellste bei 100%

106 Sekunden für 14/14 — 3-4x schneller als alle anderen Modelle auf gleichem Level. MoE-Architektur (3B aktiv) erklärt die Geschwindigkeit.

D5 trennt die Modelle

Nuanced Code Review schlägt 30% aller Läufe fehl. Modelle die D5 bestehen sind 4B+ oder architektonisch stark (Devstral, Qwen3-Coder, Llama-3.2-3B).

M1 Mac Mini: 3,7x langsamer, aber nutzbar

Qwen3.5-2B auf M1 8GB: 562s statt 150s. Pass-Rate sinkt von 14/14 auf 12/14 (B2 und D5 fallen durch). Für Textaufgaben ohne Zeitdruck ist M1 einsetzbar.

Ausblick

Der Benchmark wächst weiter

Diese Suite testet reine Textfähigkeiten isoliert — das ist bewusst. Inzwischen haben wir den Benchmark auf drei Harnesses erweitert: Agent-Tasks, Vision/OCR und Tool-Calling. 140 Runs, zwei Harness-Frameworks (Claude Code Agent + smolagents), VLM-Modelle für Dokumentenanalyse.

V4 Multi-Harness Benchmark lesen

Fazit

Ein 2-Milliarden-Parameter-Modell auf 1,5 GB RAM erzielt in Text, Code und logischem Denken dieselbe Trefferquote wie ein 24-Milliarden-Modell — bei einem Drittel der Laufzeit. Wer lokale LLMs für Textaufgaben plant, sollte mit dem Kleinsten anfangen.

Vollständiger Text-Benchmark auf GitHub

Alle Konfigurationen, Test-Fixtures und Ergebnisse sind Open Source. 22 Modellvarianten, 14 Tests, reproduzierbar auf jeder Apple-Silicon-Hardware mit llama-server oder mlx-lm.

github.com/rewulff/llm-benchmark

Lokale KI für Ihr Unternehmen?

Automatisierung, die auf Ihrer Hardware läuft

Ich helfe Ihnen, das richtige Modell für Ihren Anwendungsfall zu finden und es in Ihre Prozesse zu integrieren — ohne Cloud-Abhängigkeit, ohne Lizenzkosten.

Kontakt aufnehmen oder direkt: 0711 566666

Lokale Sprachmodelle im Textbenchmark

Was wird getestet?

Vollständige Ergebnistabelle

Think vs. No-Think

Welche Tests sind schwer?

Was der Benchmark zeigt

Der Benchmark wächst weiter

Automatisierung, die auf Ihrer Hardware läuft

Lokale Sprachmodelle
im Textbenchmark