Fachartikel · KI & Automatisierung
Lokale KI-Modelle im Praxistest:
32 Modelle auf Apple Silicon
Welche lokalen Sprachmodelle taugen wirklich? Ein fortlaufender Benchmark — Agent-Tasks, Vision, Dokumentenanalyse.
Modelle getestet
Von 1,3 GB bis 25 GB — Text, Vision und Agent auf zwei Macs
Test-Harnesses
CC-Agent · smolagents · VLM Oneshot — 12 Tests insgesamt
Benchmark-Runs
Fortlaufend seit Februar 2026 — V4, Stand April 2026
Cloud-KI ist gut — aber jede Anfrage verlässt das Unternehmensnetzwerk, kostet pro Token und schafft Abhängigkeiten. Lokale Modelle versprechen dasselbe ohne diese Nachteile. Die Frage ist: Halten sie dieses Versprechen wirklich?
Seit Februar 2026 teste ich systematisch lokale Sprachmodelle auf Apple Silicon — mit echten Agent-Tasks, Dokumenten-Vision und Syntheseaufgaben. Kein Synthese-Benchmark, sondern reale Workflows: Bugfixes, Refactoring, Rechnungsextraktion, Dokumentklassifikation.
V4 (April 2026) ist der bisher umfangreichste Durchgang: 32 Modelle, 3 unterschiedliche Harnesses, 140+ Runs auf M4 Pro und M1 Mac Mini.
Was getestet wird
CC-Agent (7 Tests)
Claude Code CLI als Agent-Backend: Bugfix (b1), Debug-Traceback (d1), Landing Page (lp1), Refactoring (r1), Suche (s1), Rechnungsextraktion (e1), Validierung (e2).
smolagents (2 Tests)
HuggingFace ToolCallingAgent: Dokumenten-Klassifikation (sa1), Multi-Doc-Synthese (sa2 — Fixture-Problem, offen).
VLM Oneshot (3 Tests)
Single-Shot Image-to-Text: Dokument beschreiben (vl1), Text extrahieren (vl2), Belegpositionen erfassen (vl3).
Hardware: M4 Pro 48 GB (primär) · M1 Mac Mini 8 GB (Edge-Validierung)
Empfehlung nach Use-Case
Was soll ich laufen lassen?
Drei klare Empfehlungen — abhängig von Aufgabe und verfügbarem RAM.
Agent-Tasks
Best ValueQwen3.5-4B think
2,5 GB · ~150 t/s · 6/7
Bugfixes, Refactoring, Code-Generierung, Dokumentenextraktion — 86% Cloud-Qualität ohne API-Kosten.
Jeder Mac mit 8 GB RAM
Vision & OCR (All-Rounder)
Effizienz-ChampionQwen3-VL-4B Q4
5,5 GB · ~42 t/s · 9/12
Beste Effizienz unter den Vision-Modellen. Besteht Agent-, smolagents- und VLM-Tests. Q4 reicht — kein F16 nötig.
M4 Pro empfohlen
Edge (8 GB Mac)
Minimal FootprintQwen3.5-2B think
1,3 GB · ~200 t/s · 4/7
Kleinste sinnvolle Option für einfache Agent-Tasks. Passt komplett in RAM eines M1 Mac Mini — inklusive OS.
M1 Mac Mini 8 GB
Erkenntnisse — V4, April 2026
Was der Benchmark wirklich zeigt
Sechs überraschende Befunde — mit konkreten Zahlen aus dem Benchmark.
Hardware gleich, Qualität gleich
6/7 auf M1 wie auf M4
Gleiche Modelle liefern auf M1 Mac Mini (8 GB) und M4 Pro (48 GB) identische Ergebnisse — nur 3–4× langsamer. Compute-Budget hat fast keinen Einfluss auf Qualität. Entscheidend ist die Modellarchitektur.
4B ist Minimum für Agent-Tasks
2B halluziniert Tool-Calls
Claude Code injiziert ~30 Tool-Definitionen in jede Anfrage. 2B-Modelle (Qwen3.5-2B, Qwen3-VL-2B) halluzinieren dann zufällige Tool-Names wie TaskStop oder TodoWrite statt zu arbeiten. 4B ist die untere Grenze.
Thinking hilft Agents, schadet Textaufgaben
think 6/7 vs. nothink 5/7
Qwen3.5-4B: think 6/7, nothink 5/7. Qwen3.5-35B: think 6/7, nothink 5/7. Agent-Tasks erfordern mehrstufige Planung — Thinking gibt dem Modell Raum zur Tool-Auswahl. Bei smolagents sa1 (Klassifikation) macht es keinen Unterschied.
VLM: Zwei Champions für verschiedene Aufgaben
F16 führt (11/12), Q4 effizienter (9/12)
Qwen3-VL-4B F16 ist das einzige Modell das alle drei Harnesses (CC-Agent + smolagents + VLM Oneshot) besteht. Qwen3-VL-4B Q4 ist effizienter (1,64 PASS/GB) und für die meisten Aufgaben ausreichend. F16 ist nicht universell notwendig — es hängt von der Modellarchitektur ab.
Deutsche OCR: Generalisten schlagen Spezialisten
93,9% vs. 77,6% (PaddleOCR)
Das 2 GB Qwen3-VL-2B schlägt alle OCR-Spezialisten auf deutschen Dokumenten. Chinesisch-trainierte Modelle (PaddleOCR-VL, Qianfan-OCR) scheitern an Umlauten und deutschen Layouts — auch nach 5 Re-Runs mit Konfigurations-Tuning.
smolagents funktioniert out-of-the-box
27/32 Modelle bestehen sa1
HuggingFace ToolCallingAgent läuft direkt gegen llama-server via OpenAI-kompatiblem Endpoint — ohne Prompt-Tuning. 14/15 frisch getestete Modelle bestehen sa1 beim ersten Anlauf. sa2 (Multi-Doc-Synthese) scheitert bei allen Modellen — das ist ein Fixture-Designproblem, kein Modellproblem.
Model Specs — V4 Matrix
32 Modelle im Überblick
Alle Modelle via llama-server auf M4 Pro 48 GB. Score = PASS / eligible Tests (sa2 ausgeklammert, da Fixture-Problem). Vollständige Rohdaten auf GitHub.
Top 10 — nach Score und Relevanz
M4 Pro 48 GB| # | Modell | Params | RAM | t/s | Think | Vision | Score |
|---|---|---|---|---|---|---|---|
| 1 | Qwen3-VL-4B F16 Champion | 4B | 9 GB | ~28 | — | ja | 11/12 |
| 2 | Qwen3-VL-4B Q4 | 4B | 5,5 GB | ~42 | — | ja | 9/12 |
| 3 | Qwen3.5-4B think | 4B | 2,5 GB | ~150 | ja | — | 6/7 |
| 4 | Qwen3.5-9B think | 9B | 6 GB | ~60 | ja | — | 6/7 |
| 5 | Qwen3.5-35B-A3B think | 35B | 20 GB | ~45 | ja | — | 6/7 |
| 6 | Carnice-9B | 9B | 6 GB | ~50 | nein | — | 6/7 |
| 7 | Nemotron-3-Nano-30B | 30B | 18 GB | ~30 | — | — | 6/7 |
| 8 | Qwen3-Coder-30B-A3B | 30B | 20 GB | ~73 | — | — | 6/7 |
| 9 | Qwen3.5-2B think | 2B | 1,3 GB | ~200 | ja | — | 3/7 |
| 10 | gemma-4-e4b-q4-think | 4,5B | 5,5 GB | ~30 | ja | ja | 7/11 |
Alle weiteren Modelle anzeigen (Platz 11–32)
| # | Modell | Params | RAM | t/s | Think | Vision | Score |
|---|---|---|---|---|---|---|---|
| 11 | Qwen3-VL-2B Q4 | 2B | 3,5 GB | ~120 | — | ja | 2/12 (93,9% OCR) |
| 12 | GLM-OCR | ~4B | 9 GB | ~60 | — | ja | 1/12 (91,8% OCR) |
| 13 | Qwen3.5-9B nothink | 9B | 6 GB | ~60 | nein | — | 6/7 |
| 14 | Qwen3.5-4B nothink | 4B | 2,5 GB | ~150 | nein | — | 5/7 |
| 15 | GPT-OSS-20B | 20B | 12 GB | ~25 | — | — | 4/7 |
| 16 | GLM-4.7-Flash | 30B | 17 GB | ~20 | — | — | 4/7 |
| 17 | Qwen3.5-27B nothink | 27B | 19 GB | ~25 | nein | — | 5/7 |
| 18 | Qwen3.5-27B think | 27B | 19 GB | ~25 | — | — | 4/7 |
| 19 | Qwen3.5-35B-A3B nothink | 35B | 20 GB | ~45 | nein | — | 5/7 |
| 20 | Qwen3-8B | 8B | 7 GB | ~40 | nein | — | 3/7 |
| 21 | Qwen3.5-2B nothink | 2B | 1,3 GB | ~200 | nein | — | 4/7 |
| 22 | phi-4-mini | 3,8B | 3 GB | ~80 | — | — | 1/7 |
| 23 | Nemotron-Cascade-2-30B | 30B | 25 GB | ~20 | — | — | 4/7 |
| 24 | InternVL3-2B | 2B | 3 GB | ~50 | — | ja | 2/12 |
| 25 | SmolVLM2-2.2B | 2,2B | 3 GB | ~55 | — | ja | 2/12 |
| 26 | gemma-4-e4b-q4-nothink | 4,5B | 5,5 GB | ~30 | nein | ja | 6/12 |
| 27 | gemma-4-e2b-think | 2,3B | 4,6 GB | ~67 | ja | ja | 5/12 |
| 28 | gemma-4-e2b-nothink | 2,3B | 4,6 GB | ~67 | nein | ja | 3/12 |
| 29 | Qianfan-OCR | ~4B | 5 GB | ~50 | — | ja | 2/12 (30,6% OCR) |
| 30 | DeepSeek-R1-Qwen3-8B | 8B | 5 GB | ~40 | — | — | 0/7 |
| 31 | granite-3.3-8b | 8B | 5 GB | ~45 | — | — | 0/7 |
| 32 | Bonsai-8B | 8B | 2 GB | — | — | — | 0/7 |
Quant-Details, Context-Window und vollständige Per-Test-Matrix im GitHub-Repository. Score = PASS / eligible (DQ und sa2 ausgeklammert).
Vollständiger Benchmark auf GitHub — Open Source
Alle Fixture-Daten, Harness-Konfigurationen und Rohergebnisse sind öffentlich. 32 Modelle, 12 Tests, vollständige Per-Test-Matrix — reproduzierbar auf jeder Apple-Silicon-Hardware.
github.com/rewulff/llm-benchmarkFazit
Ein 2,5-GB-Modell auf einem Mac mini liefert 86 % Cloud-Qualität bei Null Grenzkosten. Das ist kein Kompromiss — das ist die neue Baseline für lokale KI-Agenten.
Der Benchmark läuft weiter. Neue Modelle, neue Harnesses, neue Erkenntnisse — alle Ergebnisse fließen in das GitHub-Repository ein. Stand dieses Artikels: V4, April 2026.
Interesse an lokaler KI für Ihr Unternehmen?
KI, die in Ihrer Infrastruktur bleibt
Ich analysiere Ihren Automatisierungsbedarf und zeige, welche lokalen Modelle für Ihren Use-Case geeignet sind — DSGVO-konform, ohne Cloud-Abhängigkeit, ohne Vendor-Lock-in.