Fachartikel · KI & Automatisierung
Lokale Sprachmodelle
im Textbenchmark
Welche lokalen Modelle meistern Text, Code und logisches Denken? 22 Modellvarianten, 14 praxisnahe Tests — vollständig auf Apple Silicon.
Modellvarianten
14 davon mit 100% Pass-Rate — Größe allein entscheidet nicht
Tests in 4 Kategorien
Text · Reasoning · Hard · Expert
Effizienz-Champion
Qwen3.5-2B (think): 14/14, 25/25 QS — identisch mit 24B-Modell
Der Hype um lokale Sprachmodelle ist groß — aber welche halten im Alltag wirklich stand? Wir haben 22 Modellvarianten auf 14 praxisnahen Aufgaben getestet: Textzusammenfassung, Log-Analyse, Code-Review, Konfigurationsvergleich, Root-Cause-Analyse, schwierige Berechnungen und Expert-Level-Aufgaben.
Alle Tests laufen vollständig lokal auf Apple Silicon. Keine Cloud-API, keine externen Dienste. Hardware: M4 Pro 48GB als Primärsystem, M1 Mac Mini 8GB als Edge-Test.
Das überraschende Ergebnis: Ein 2-Milliarden-Parameter-Modell erzielt identische Testergebnisse wie ein 24-Milliarden-Modell — bei einem Drittel der Laufzeit und einem Zehntel des Speicherbedarfs.
Hardware im Überblick
M4 Pro 48GBPrimär
Primärsystem — alle 22 Modellvarianten, auch 80B-MoE möglich
M1 Mac Mini 8GBEdge
Edge-Test — Qwen3.5-2B als Referenzmodell, direkte Vergleichsmessung
llama-server / mlx-lm
Inference-Backends: GGUF via llama.cpp, MLX-Quantisierungen via mlx-lm
Test-Suite V3.1
Was wird getestet?
Technischen Artikel über Proxmox-Wartung zusammenfassen
Strukturiertes Wartungslog analysieren und Probleme identifizieren
Statistische Analyse von 12 Monatsdatensätzen (3 Produkte)
Code-Review eines Python-Skripts mit mehreren Bugs
Zwei Konfigurationsdateien vergleichen, semantische Änderungen auflisten
Entscheidungsmatrix auswerten und eine Option empfehlen
Root-Cause-Analyse aus einer Serie von System-Events
Subtilen Off-by-One-Fehler in einer Datenverarbeitungsfunktion finden
Mehrstufige Anweisungen mit bedingten Verzweigungen befolgen
Mehrstufige Berechnung mit Zwischenergebnissen
Frage anhand von Informationen beantworten, die tief im Kontext vergraben sind
Nuancierter Code-Review mit Domänenwissen (härtester Test)
Events aus mehreren Log-Quellen korrelieren, Root Cause finden
DMARC-Report-XML analysieren und Zustellbarkeitsprobleme erklären
Benchmark-Ergebnisse
Vollständige Ergebnistabelle
Sortiert nach Pass-Rate (absteigend), dann Quality Score, dann Laufzeit. Think-Spalte: yes = Qwen3.5 Think-Mode aktiv, no = no-think, n/a = kein Qwen3.5-Modell.
Top 10 — Pass-Rate 100%
14/14 Tests bestanden| # | Modell | Params | QS | Zeit | Think | HW |
|---|---|---|---|---|---|---|
| 1 | devstral-2-24b-opt | 24B | 25/25 | 640s | n/a | M4 |
| 2 | devstral-2-24b | 24B | 25/25 | 483s | n/a | M4 |
| 3 | qwen3-coder-next-80b-opt | 80B/10B | 25/25 | 386s | n/a | M4 |
| 4 | qwen3.5-2b (think) Effizienz-Champion | 2B | 25/25 | 150s | yes | M4 |
| 5 | qwen3.5-4b-nothink | 4B | 25/25 | 273s | no | M4 |
| 6 | qwen3-coder-30b-mlx Schnellster | 30B/3B | 24/25 | 106s | n/a | M4 |
| 7 | qwen3-coder-next-80b | 80B/10B | 24/25 | 371s | n/a | M4 |
| 8 | qwen3.5-2b (Mar 16) | 2B | 23/25 | 119s | yes | M4 |
| 9 | gemma-3-4b | 4B | 21/25 | 158s | n/a | M4 |
| 10 | phi-4-mini | ~4B | 21/25 | 406s | n/a | M4 |
Plätze 11–23 anzeigen
| # | Modell | Params | Score | QS | Zeit | Think | HW |
|---|---|---|---|---|---|---|---|
| 11 | qwen3.5-4b-gguf-nothink | 4B | 13/14 | 25/25 | 267s | no | M4 |
| 12 | qwen3.5-2b-gguf-nothink | 2B | 13/14 | 21/25 | 125s | no | M4 |
| 13 | llama-3.2-3b | 3B | 13/14 | 19/25 | 78s | n/a | M4 |
| 14 | tongyi-deepresearch-30b-opt | 30B/3B | 12/14 | 13/25 | 494s | n/a | M4 |
| 15 | qwen3.5-0.8b | 0.8B | 12/14 | 20/25 | 37s | yes | M4 |
| 16 | qwen3.5-2b (M1) | 2B | 12/14 | 21/25 | 562s | yes | M1 |
| 17 | qwen3.5-27b-opus-distilled | 27B | 11/14 | 15/15* | 811s | yes | M4 |
| 18 | qwen3.5-9b-nothink | 9B | 11/14 | 18/25 | 712s | no | M4 |
| 19 | llama-3.2-1b | 1B | 11/14 | 16/25 | 37s | n/a | M4 |
| 20 | glm-4.7-flash | ? | 10/14 | 12/25 | 642s | n/a | M4 |
| 21 | qwen3.5-4b (think) | 4B | 10/14 | 22/25 | 424s | yes | M4 |
| 22 | qwen3.5-9b (think) | 9B | 9/14 | 17/25 | 852s | yes | M4 |
| 23 | huihui-qwen35-27b-opus | 27B | 8/14 | 2/4* | 602s | yes | M4 |
* Quality Score Nenner kleiner, da Timeout-Tests aus der Wertung ausgeschlossen.
Highlight-Befund
Think vs. No-Think
Qwen3.5 bietet einen expliziten "Think-Modus", der das Modell zur Chain-of-Thought-Reflexion zwingt. Das Ergebnis ist kontraintuitiv — und das Highlight dieses Benchmarks.
Qwen3.5-2B MLX
Think
14/14
QS 25/25 · 150s
No-Think
13/14
QS 21/25 · 125s
Gewinner
Think
Thinking hilft: +1 Test, +4 QS bei nur 25s Mehraufwand
Qwen3.5-4B MLX
Think
10/14
QS 22/25 · 424s
No-Think
14/14
QS 25/25 · 273s
Gewinner
No-Think
Think-Modus kostet 4 Tests und 151s — No-Think dominiert klar
Qwen3.5-9B MLX
Think
9/14
QS 17/25 · 852s
No-Think
11/14
QS 18/25 · 712s
Gewinner
No-Think
Think kostet 2 Tests und 140s Extrazeit — kein Gewinn
Fazit Think-Modus: Think hilft nur bei 2B — dort verbessert er Pass-Rate und Qualität bei minimalem Zeitaufwand (+25s). Bei 4B und 9B ist No-Think auf allen Metriken besser: mehr Tests bestanden, höhere Qualität, schnellere Laufzeit. Der Think-Modus verbraucht bei größeren Modellen offenbar Kapazität, die das Modell für die eigentliche Aufgabe braucht.
Test-Schwierigkeit
Welche Tests sind schwer?
Pass-Rate über alle 23 Läufe sortiert. D4_long_context (100%) ist der einzige Test, den jedes Modell besteht. D5_nuanced_review (70%) schlägt 30% aller Läufe fehl.
Key Findings
Was der Benchmark zeigt
Think-Modus schadet ab 4B
Qwen3.5-4B mit Thinking: 10/14 Tests (71%), ohne Thinking: 14/14 (100%) in 35% weniger Zeit. Gleiches Muster bei 9B. Nur bei 2B hilft Thinking.
2B ist der Effizienz-Champion
Qwen3.5-2B (MLX, 4bit, think) erreicht 14/14 und 25/25 QS in 150s auf ~1,5 GB RAM — deckungsgleich mit Devstral-2-24B bei einem Drittel der Zeit.
qwen3-coder-30b-mlx ist der Schnellste bei 100%
106 Sekunden für 14/14 — 3-4x schneller als alle anderen Modelle auf gleichem Level. MoE-Architektur (3B aktiv) erklärt die Geschwindigkeit.
D5 trennt die Modelle
Nuanced Code Review schlägt 30% aller Läufe fehl. Modelle die D5 bestehen sind 4B+ oder architektonisch stark (Devstral, Qwen3-Coder, Llama-3.2-3B).
M1 Mac Mini: 3,7x langsamer, aber nutzbar
Qwen3.5-2B auf M1 8GB: 562s statt 150s. Pass-Rate sinkt von 14/14 auf 12/14 (B2 und D5 fallen durch). Für Textaufgaben ohne Zeitdruck ist M1 einsetzbar.
Ausblick
Der Benchmark wächst weiter
Diese Suite testet reine Textfähigkeiten isoliert — das ist bewusst. Inzwischen haben wir den Benchmark auf drei Harnesses erweitert: Agent-Tasks, Vision/OCR und Tool-Calling. 140 Runs, zwei Harness-Frameworks (Claude Code Agent + smolagents), VLM-Modelle für Dokumentenanalyse.
V4 Multi-Harness Benchmark lesenFazit
Ein 2-Milliarden-Parameter-Modell auf 1,5 GB RAM erzielt in Text, Code und logischem Denken dieselbe Trefferquote wie ein 24-Milliarden-Modell — bei einem Drittel der Laufzeit. Wer lokale LLMs für Textaufgaben plant, sollte mit dem Kleinsten anfangen.
Vollständiger Text-Benchmark auf GitHub
Alle Konfigurationen, Test-Fixtures und Ergebnisse sind Open Source. 22 Modellvarianten, 14 Tests, reproduzierbar auf jeder Apple-Silicon-Hardware mit llama-server oder mlx-lm.
github.com/rewulff/llm-benchmarkLokale KI für Ihr Unternehmen?
Automatisierung, die auf Ihrer Hardware läuft
Ich helfe Ihnen, das richtige Modell für Ihren Anwendungsfall zu finden und es in Ihre Prozesse zu integrieren — ohne Cloud-Abhängigkeit, ohne Lizenzkosten.