Fachartikel · KI & Automatisierung

Lokale KI-Modelle im Praxistest: 32 Modelle auf Apple Silicon

Welche lokalen Sprachmodelle taugen wirklich? Ein fortlaufender Benchmark — Agent-Tasks, Vision, Dokumentenanalyse.

Stand: April 2026 Living Document — wird fortlaufend aktualisiert github.com/rewulff/llm-benchmark
Abstraktes Netzwerk aus leuchtenden Nodes in Blau und Gruen — KI-Benchmark Visualisierung
32

Modelle getestet

Von 1,3 GB bis 25 GB — Text, Vision und Agent auf zwei Macs

3

Test-Harnesses

CC-Agent · smolagents · VLM Oneshot — 12 Tests insgesamt

140+

Benchmark-Runs

Fortlaufend seit Februar 2026 — V4, Stand April 2026

Cloud-KI ist gut — aber jede Anfrage verlässt das Unternehmensnetzwerk, kostet pro Token und schafft Abhängigkeiten. Lokale Modelle versprechen dasselbe ohne diese Nachteile. Die Frage ist: Halten sie dieses Versprechen wirklich?

Seit Februar 2026 teste ich systematisch lokale Sprachmodelle auf Apple Silicon — mit echten Agent-Tasks, Dokumenten-Vision und Syntheseaufgaben. Kein Synthese-Benchmark, sondern reale Workflows: Bugfixes, Refactoring, Rechnungsextraktion, Dokumentklassifikation.

V4 (April 2026) ist der bisher umfangreichste Durchgang: 32 Modelle, 3 unterschiedliche Harnesses, 140+ Runs auf M4 Pro und M1 Mac Mini.

Was getestet wird

CC-Agent (7 Tests)

Claude Code CLI als Agent-Backend: Bugfix (b1), Debug-Traceback (d1), Landing Page (lp1), Refactoring (r1), Suche (s1), Rechnungsextraktion (e1), Validierung (e2).

smolagents (2 Tests)

HuggingFace ToolCallingAgent: Dokumenten-Klassifikation (sa1), Multi-Doc-Synthese (sa2 — Fixture-Problem, offen).

VLM Oneshot (3 Tests)

Single-Shot Image-to-Text: Dokument beschreiben (vl1), Text extrahieren (vl2), Belegpositionen erfassen (vl3).

Hardware: M4 Pro 48 GB (primär) · M1 Mac Mini 8 GB (Edge-Validierung)

Empfehlung nach Use-Case

Was soll ich laufen lassen?

Drei klare Empfehlungen — abhängig von Aufgabe und verfügbarem RAM.

Agent-Tasks

Best Value

Qwen3.5-4B think

2,5 GB · ~150 t/s · 6/7

Bugfixes, Refactoring, Code-Generierung, Dokumentenextraktion — 86% Cloud-Qualität ohne API-Kosten.

Jeder Mac mit 8 GB RAM

Vision & OCR (All-Rounder)

Effizienz-Champion

Qwen3-VL-4B Q4

5,5 GB · ~42 t/s · 9/12

Beste Effizienz unter den Vision-Modellen. Besteht Agent-, smolagents- und VLM-Tests. Q4 reicht — kein F16 nötig.

M4 Pro empfohlen

Edge (8 GB Mac)

Minimal Footprint

Qwen3.5-2B think

1,3 GB · ~200 t/s · 4/7

Kleinste sinnvolle Option für einfache Agent-Tasks. Passt komplett in RAM eines M1 Mac Mini — inklusive OS.

M1 Mac Mini 8 GB

Erkenntnisse — V4, April 2026

Was der Benchmark wirklich zeigt

Sechs überraschende Befunde — mit konkreten Zahlen aus dem Benchmark.

1

Hardware gleich, Qualität gleich

6/7 auf M1 wie auf M4

Gleiche Modelle liefern auf M1 Mac Mini (8 GB) und M4 Pro (48 GB) identische Ergebnisse — nur 3–4× langsamer. Compute-Budget hat fast keinen Einfluss auf Qualität. Entscheidend ist die Modellarchitektur.

2

4B ist Minimum für Agent-Tasks

2B halluziniert Tool-Calls

Claude Code injiziert ~30 Tool-Definitionen in jede Anfrage. 2B-Modelle (Qwen3.5-2B, Qwen3-VL-2B) halluzinieren dann zufällige Tool-Names wie TaskStop oder TodoWrite statt zu arbeiten. 4B ist die untere Grenze.

3

Thinking hilft Agents, schadet Textaufgaben

think 6/7 vs. nothink 5/7

Qwen3.5-4B: think 6/7, nothink 5/7. Qwen3.5-35B: think 6/7, nothink 5/7. Agent-Tasks erfordern mehrstufige Planung — Thinking gibt dem Modell Raum zur Tool-Auswahl. Bei smolagents sa1 (Klassifikation) macht es keinen Unterschied.

4

VLM: Zwei Champions für verschiedene Aufgaben

F16 führt (11/12), Q4 effizienter (9/12)

Qwen3-VL-4B F16 ist das einzige Modell das alle drei Harnesses (CC-Agent + smolagents + VLM Oneshot) besteht. Qwen3-VL-4B Q4 ist effizienter (1,64 PASS/GB) und für die meisten Aufgaben ausreichend. F16 ist nicht universell notwendig — es hängt von der Modellarchitektur ab.

5

Deutsche OCR: Generalisten schlagen Spezialisten

93,9% vs. 77,6% (PaddleOCR)

Das 2 GB Qwen3-VL-2B schlägt alle OCR-Spezialisten auf deutschen Dokumenten. Chinesisch-trainierte Modelle (PaddleOCR-VL, Qianfan-OCR) scheitern an Umlauten und deutschen Layouts — auch nach 5 Re-Runs mit Konfigurations-Tuning.

6

smolagents funktioniert out-of-the-box

27/32 Modelle bestehen sa1

HuggingFace ToolCallingAgent läuft direkt gegen llama-server via OpenAI-kompatiblem Endpoint — ohne Prompt-Tuning. 14/15 frisch getestete Modelle bestehen sa1 beim ersten Anlauf. sa2 (Multi-Doc-Synthese) scheitert bei allen Modellen — das ist ein Fixture-Designproblem, kein Modellproblem.

Model Specs — V4 Matrix

32 Modelle im Überblick

Alle Modelle via llama-server auf M4 Pro 48 GB. Score = PASS / eligible Tests (sa2 ausgeklammert, da Fixture-Problem). Vollständige Rohdaten auf GitHub.

Top 10 — nach Score und Relevanz

M4 Pro 48 GB
# Modell Params RAM t/s Think Vision Score
1 Qwen3-VL-4B F16 Champion 4B 9 GB ~28 ja 11/12
2 Qwen3-VL-4B Q4 4B 5,5 GB ~42 ja 9/12
3 Qwen3.5-4B think 4B 2,5 GB ~150 ja 6/7
4 Qwen3.5-9B think 9B 6 GB ~60 ja 6/7
5 Qwen3.5-35B-A3B think 35B 20 GB ~45 ja 6/7
6 Carnice-9B 9B 6 GB ~50 nein 6/7
7 Nemotron-3-Nano-30B 30B 18 GB ~30 6/7
8 Qwen3-Coder-30B-A3B 30B 20 GB ~73 6/7
9 Qwen3.5-2B think 2B 1,3 GB ~200 ja 3/7
10 gemma-4-e4b-q4-think 4,5B 5,5 GB ~30 ja ja 7/11
Alle weiteren Modelle anzeigen (Platz 11–32)
# Modell Params RAM t/s Think Vision Score
11 Qwen3-VL-2B Q4 2B 3,5 GB ~120 ja 2/12 (93,9% OCR)
12 GLM-OCR ~4B 9 GB ~60 ja 1/12 (91,8% OCR)
13 Qwen3.5-9B nothink 9B 6 GB ~60 nein 6/7
14 Qwen3.5-4B nothink 4B 2,5 GB ~150 nein 5/7
15 GPT-OSS-20B 20B 12 GB ~25 4/7
16 GLM-4.7-Flash 30B 17 GB ~20 4/7
17 Qwen3.5-27B nothink 27B 19 GB ~25 nein 5/7
18 Qwen3.5-27B think 27B 19 GB ~25 4/7
19 Qwen3.5-35B-A3B nothink 35B 20 GB ~45 nein 5/7
20 Qwen3-8B 8B 7 GB ~40 nein 3/7
21 Qwen3.5-2B nothink 2B 1,3 GB ~200 nein 4/7
22 phi-4-mini 3,8B 3 GB ~80 1/7
23 Nemotron-Cascade-2-30B 30B 25 GB ~20 4/7
24 InternVL3-2B 2B 3 GB ~50 ja 2/12
25 SmolVLM2-2.2B 2,2B 3 GB ~55 ja 2/12
26 gemma-4-e4b-q4-nothink 4,5B 5,5 GB ~30 nein ja 6/12
27 gemma-4-e2b-think 2,3B 4,6 GB ~67 ja ja 5/12
28 gemma-4-e2b-nothink 2,3B 4,6 GB ~67 nein ja 3/12
29 Qianfan-OCR ~4B 5 GB ~50 ja 2/12 (30,6% OCR)
30 DeepSeek-R1-Qwen3-8B 8B 5 GB ~40 0/7
31 granite-3.3-8b 8B 5 GB ~45 0/7
32 Bonsai-8B 8B 2 GB 0/7

Quant-Details, Context-Window und vollständige Per-Test-Matrix im GitHub-Repository. Score = PASS / eligible (DQ und sa2 ausgeklammert).

Vollständiger Benchmark auf GitHub — Open Source

Alle Fixture-Daten, Harness-Konfigurationen und Rohergebnisse sind öffentlich. 32 Modelle, 12 Tests, vollständige Per-Test-Matrix — reproduzierbar auf jeder Apple-Silicon-Hardware.

github.com/rewulff/llm-benchmark
"

Fazit

Ein 2,5-GB-Modell auf einem Mac mini liefert 86 % Cloud-Qualität bei Null Grenzkosten. Das ist kein Kompromiss — das ist die neue Baseline für lokale KI-Agenten.

Der Benchmark läuft weiter. Neue Modelle, neue Harnesses, neue Erkenntnisse — alle Ergebnisse fließen in das GitHub-Repository ein. Stand dieses Artikels: V4, April 2026.

Interesse an lokaler KI für Ihr Unternehmen?

KI, die in Ihrer Infrastruktur bleibt

Ich analysiere Ihren Automatisierungsbedarf und zeige, welche lokalen Modelle für Ihren Use-Case geeignet sind — DSGVO-konform, ohne Cloud-Abhängigkeit, ohne Vendor-Lock-in.