Fachartikel · KI & Automatisierung

Lokale Sprachmodelle im Textbenchmark

Welche lokalen Modelle meistern Text, Code und logisches Denken? 22 Modellvarianten, 14 praxisnahe Tests — vollständig auf Apple Silicon.

Stand: März 2026 22 Modelle · 14 Tests · 4 Kategorien
Abstraktes Netzwerk aus leuchtenden Nodes in Blau und Gruen
22

Modellvarianten

14 davon mit 100% Pass-Rate — Größe allein entscheidet nicht

14

Tests in 4 Kategorien

Text · Reasoning · Hard · Expert

150s

Effizienz-Champion

Qwen3.5-2B (think): 14/14, 25/25 QS — identisch mit 24B-Modell

Der Hype um lokale Sprachmodelle ist groß — aber welche halten im Alltag wirklich stand? Wir haben 22 Modellvarianten auf 14 praxisnahen Aufgaben getestet: Textzusammenfassung, Log-Analyse, Code-Review, Konfigurationsvergleich, Root-Cause-Analyse, schwierige Berechnungen und Expert-Level-Aufgaben.

Alle Tests laufen vollständig lokal auf Apple Silicon. Keine Cloud-API, keine externen Dienste. Hardware: M4 Pro 48GB als Primärsystem, M1 Mac Mini 8GB als Edge-Test.

Das überraschende Ergebnis: Ein 2-Milliarden-Parameter-Modell erzielt identische Testergebnisse wie ein 24-Milliarden-Modell — bei einem Drittel der Laufzeit und einem Zehntel des Speicherbedarfs.

Hardware im Überblick

M4 Pro 48GBPrimär

Primärsystem — alle 22 Modellvarianten, auch 80B-MoE möglich

M1 Mac Mini 8GBEdge

Edge-Test — Qwen3.5-2B als Referenzmodell, direkte Vergleichsmessung

llama-server / mlx-lm

Inference-Backends: GGUF via llama.cpp, MLX-Quantisierungen via mlx-lm

Test-Suite V3.1

Was wird getestet?

Text B1–B4
B1

Technischen Artikel über Proxmox-Wartung zusammenfassen

B2

Strukturiertes Wartungslog analysieren und Probleme identifizieren

B3

Statistische Analyse von 12 Monatsdatensätzen (3 Produkte)

B4

Code-Review eines Python-Skripts mit mehreren Bugs

Reasoning C1–C3
C1

Zwei Konfigurationsdateien vergleichen, semantische Änderungen auflisten

C2

Entscheidungsmatrix auswerten und eine Option empfehlen

C3

Root-Cause-Analyse aus einer Serie von System-Events

Hard D1–D5
D1

Subtilen Off-by-One-Fehler in einer Datenverarbeitungsfunktion finden

D2

Mehrstufige Anweisungen mit bedingten Verzweigungen befolgen

D3

Mehrstufige Berechnung mit Zwischenergebnissen

D4

Frage anhand von Informationen beantworten, die tief im Kontext vergraben sind

D5

Nuancierter Code-Review mit Domänenwissen (härtester Test)

Expert E1–E2
E1

Events aus mehreren Log-Quellen korrelieren, Root Cause finden

E2

DMARC-Report-XML analysieren und Zustellbarkeitsprobleme erklären

Benchmark-Ergebnisse

Vollständige Ergebnistabelle

Sortiert nach Pass-Rate (absteigend), dann Quality Score, dann Laufzeit. Think-Spalte: yes = Qwen3.5 Think-Mode aktiv, no = no-think, n/a = kein Qwen3.5-Modell.

Top 10 — Pass-Rate 100%

14/14 Tests bestanden
# Modell Params QS Zeit Think HW
1 devstral-2-24b-opt 24B 25/25 640s n/a M4
2 devstral-2-24b 24B 25/25 483s n/a M4
3 qwen3-coder-next-80b-opt 80B/10B 25/25 386s n/a M4
4 qwen3.5-2b (think) Effizienz-Champion 2B 25/25 150s yes M4
5 qwen3.5-4b-nothink 4B 25/25 273s no M4
6 qwen3-coder-30b-mlx Schnellster 30B/3B 24/25 106s n/a M4
7 qwen3-coder-next-80b 80B/10B 24/25 371s n/a M4
8 qwen3.5-2b (Mar 16) 2B 23/25 119s yes M4
9 gemma-3-4b 4B 21/25 158s n/a M4
10 phi-4-mini ~4B 21/25 406s n/a M4

Plätze 11–23 anzeigen

# Modell Params Score QS Zeit Think HW
11 qwen3.5-4b-gguf-nothink 4B 13/14 25/25 267s no M4
12 qwen3.5-2b-gguf-nothink 2B 13/14 21/25 125s no M4
13 llama-3.2-3b 3B 13/14 19/25 78s n/a M4
14 tongyi-deepresearch-30b-opt 30B/3B 12/14 13/25 494s n/a M4
15 qwen3.5-0.8b 0.8B 12/14 20/25 37s yes M4
16 qwen3.5-2b (M1) 2B 12/14 21/25 562s yes M1
17 qwen3.5-27b-opus-distilled 27B 11/14 15/15* 811s yes M4
18 qwen3.5-9b-nothink 9B 11/14 18/25 712s no M4
19 llama-3.2-1b 1B 11/14 16/25 37s n/a M4
20 glm-4.7-flash ? 10/14 12/25 642s n/a M4
21 qwen3.5-4b (think) 4B 10/14 22/25 424s yes M4
22 qwen3.5-9b (think) 9B 9/14 17/25 852s yes M4
23 huihui-qwen35-27b-opus 27B 8/14 2/4* 602s yes M4

* Quality Score Nenner kleiner, da Timeout-Tests aus der Wertung ausgeschlossen.

Highlight-Befund

Think vs. No-Think

Qwen3.5 bietet einen expliziten "Think-Modus", der das Modell zur Chain-of-Thought-Reflexion zwingt. Das Ergebnis ist kontraintuitiv — und das Highlight dieses Benchmarks.

Qwen3.5-2B MLX

Think

14/14

QS 25/25 · 150s

No-Think

13/14

QS 21/25 · 125s

Gewinner

Think

Thinking hilft: +1 Test, +4 QS bei nur 25s Mehraufwand

Qwen3.5-4B MLX

Think

10/14

QS 22/25 · 424s

No-Think

14/14

QS 25/25 · 273s

Gewinner

No-Think

Think-Modus kostet 4 Tests und 151s — No-Think dominiert klar

Qwen3.5-9B MLX

Think

9/14

QS 17/25 · 852s

No-Think

11/14

QS 18/25 · 712s

Gewinner

No-Think

Think kostet 2 Tests und 140s Extrazeit — kein Gewinn

Fazit Think-Modus: Think hilft nur bei 2B — dort verbessert er Pass-Rate und Qualität bei minimalem Zeitaufwand (+25s). Bei 4B und 9B ist No-Think auf allen Metriken besser: mehr Tests bestanden, höhere Qualität, schnellere Laufzeit. Der Think-Modus verbraucht bei größeren Modellen offenbar Kapazität, die das Modell für die eigentliche Aufgabe braucht.

Test-Schwierigkeit

Welche Tests sind schwer?

Pass-Rate über alle 23 Läufe sortiert. D4_long_context (100%) ist der einzige Test, den jedes Modell besteht. D5_nuanced_review (70%) schlägt 30% aller Läufe fehl.

D5_nuanced_review
70%
Hard
B1_summary
83%
Text
C3_root_cause
83%
Reasoning
E1_correlated_log
83%
Expert
E2_dmarc_analysis
83%
Expert
C2_decision_matrix
87%
Reasoning
D2_instruction_following
87%
Hard
B3_statistics
91%
Text
B4_code_review
91%
Text
B2_log_analysis
96%
Text
C1_config_diff
96%
Reasoning
D1_subtle_bug
96%
Hard
D3_multi_step_calc
96%
Hard
D4_long_context
100%
Hard

Key Findings

Was der Benchmark zeigt

1

Think-Modus schadet ab 4B

Qwen3.5-4B mit Thinking: 10/14 Tests (71%), ohne Thinking: 14/14 (100%) in 35% weniger Zeit. Gleiches Muster bei 9B. Nur bei 2B hilft Thinking.

2

2B ist der Effizienz-Champion

Qwen3.5-2B (MLX, 4bit, think) erreicht 14/14 und 25/25 QS in 150s auf ~1,5 GB RAM — deckungsgleich mit Devstral-2-24B bei einem Drittel der Zeit.

3

qwen3-coder-30b-mlx ist der Schnellste bei 100%

106 Sekunden für 14/14 — 3-4x schneller als alle anderen Modelle auf gleichem Level. MoE-Architektur (3B aktiv) erklärt die Geschwindigkeit.

4

D5 trennt die Modelle

Nuanced Code Review schlägt 30% aller Läufe fehl. Modelle die D5 bestehen sind 4B+ oder architektonisch stark (Devstral, Qwen3-Coder, Llama-3.2-3B).

5

M1 Mac Mini: 3,7x langsamer, aber nutzbar

Qwen3.5-2B auf M1 8GB: 562s statt 150s. Pass-Rate sinkt von 14/14 auf 12/14 (B2 und D5 fallen durch). Für Textaufgaben ohne Zeitdruck ist M1 einsetzbar.

Ausblick

Der Benchmark wächst weiter

Diese Suite testet reine Textfähigkeiten isoliert — das ist bewusst. Inzwischen haben wir den Benchmark auf drei Harnesses erweitert: Agent-Tasks, Vision/OCR und Tool-Calling. 140 Runs, zwei Harness-Frameworks (Claude Code Agent + smolagents), VLM-Modelle für Dokumentenanalyse.

V4 Multi-Harness Benchmark lesen
"

Fazit

Ein 2-Milliarden-Parameter-Modell auf 1,5 GB RAM erzielt in Text, Code und logischem Denken dieselbe Trefferquote wie ein 24-Milliarden-Modell — bei einem Drittel der Laufzeit. Wer lokale LLMs für Textaufgaben plant, sollte mit dem Kleinsten anfangen.

Vollständiger Text-Benchmark auf GitHub

Alle Konfigurationen, Test-Fixtures und Ergebnisse sind Open Source. 22 Modellvarianten, 14 Tests, reproduzierbar auf jeder Apple-Silicon-Hardware mit llama-server oder mlx-lm.

github.com/rewulff/llm-benchmark

Lokale KI für Ihr Unternehmen?

Automatisierung, die auf Ihrer Hardware läuft

Ich helfe Ihnen, das richtige Modell für Ihren Anwendungsfall zu finden und es in Ihre Prozesse zu integrieren — ohne Cloud-Abhängigkeit, ohne Lizenzkosten.