Fachartikel · KI & Automatisierung
Vision-Language Modelle
für Dokumentenanalyse
Wie lokale KI-Modelle Ihre Dokumentenverarbeitung revolutionieren — ohne Cloud, ohne Datenschutzrisiken.
Modelle getestet
VL-Modelle und OCR-Spezialisten im direkten Vergleich
Bestes Ergebnis
Qwen3-VL-2B auf deutschen Geschäftsdokumenten
RAM-Bedarf
Das Champion-Modell läuft auf Standard-Hardware
Jedes Unternehmen verarbeitet täglich Dokumente: Rechnungen, Verträge, Lieferscheine, Kontoauszüge. Die manuelle Erfassung kostet Zeit und ist fehleranfällig. KI-gestützte Automatisierung kann hier erheblich helfen — aber viele Lösungen setzen auf Cloud-Dienste, bei denen Ihre Geschäftsdokumente externe Server passieren.
Lokale KI-Modelle ändern das. Die neueste Generation von Vision-Language Modellen (kurz: VL-Modelle) ist klein genug, um auf Ihrem eigenen Server zu laufen, und leistungsfähig genug, um deutsche Geschäftsdokumente zuverlässig zu analysieren.
Wir haben 14 Modelle in einem umfangreichen Benchmark gegen reale deutsche Dokumente getestet. Die Ergebnisse zeigen: Ein 2-Gigabyte-Modell schlägt deutlich größere Konkurrenten.
Warum lokal statt Cloud?
DSGVO-konform
Dokumente verlassen Ihr Netzwerk nicht.
Keine laufenden Kosten
Kein API-Preismodell, keine Nutzungsgebühren.
Schnell und deterministisch
Verarbeitung in Sekunden, ohne Netzwerk-Latenz.
Vollständige Kontrolle
Sie entscheiden, welches Modell genutzt wird.
Grundlagen
OCR vs. Vision-Language Modelle — was ist der Unterschied?
Klassische OCR
Optische Zeichenerkennung (OCR) extrahiert Text aus Bildern — buchstabengenau, aber ohne Verständnis. Das Ergebnis ist reiner Text: Zeilen, Absätze, Zahlen. Was dieser Text bedeutet, weiß das Modell nicht.
Geeignet für: Volltextsuche, Archivierung, Textraktion
Vision-Language Modelle
VL-Modelle verstehen Bild und Inhalt gleichzeitig. Sie erkennen, dass eine Zahl unten rechts ein Rechnungsbetrag ist, identifizieren den Absender als Korrespondenten und klassifizieren das Dokument korrekt — alles in einem Schritt.
Geeignet für: Metadaten-Extraktion, Klassifikation, strukturierte Ausgabe
Die praktische Konsequenz: Für eine automatische Dokumentenverarbeitung — also das Erkennen von Dokumenttyp, Datum, Betrag und Absender — brauchen Sie ein VL-Modell, kein OCR-Tool. OCR-Spezialisten liefern mehr Rohtext, aber kein strukturiertes Ergebnis ohne einen zweiten Verarbeitungsschritt.
Benchmark April 2026
14 Modelle im Praxistest
5 deutsche Dokument-Fixtures (Quittungen, handschriftliche Notizen, Produktanleitungen, gemischte Layouts) mit insgesamt 49 Erkennungs-Keywords. Getestet auf Apple M4 Pro, vollständig lokal ohne Cloud-Anbindung.
OCR-Benchmark — Top 5 (Deutsche Dokumente)
| # | Modell | Größe | RAM | Score | Geschw. | Hinweis |
|---|---|---|---|---|---|---|
| 1 | Qwen3-VL-2B Champion | 2B | 2 GB | 93,9% | 5,0s | Top-Pick |
| 2 | GLM-OCR | 0,9B | 1,5 GB | 91,8% | 5,1s | Reine Texterkennung |
| 3 | Qwen3-VL-4B | 4B | 8 GB | 91,8% | 13,8s | Schwere Dokumente |
| 4 | Qwen3-VL-8B | 8B | 5 GB | 91,8% | 14,1s | Maximale Qualität |
| 5 | Qwen3-VL-4B (Q4) | 4B | 3 GB | 89,8% | 8,4s | Gutes Preis-Leistungs-Verhältnis |
Erkenntnis 1
Größer ist nicht besser
Das 2B-Modell (Qwen3-VL-2B) erzielt denselben Score wie das 4B- und 8B-Modell — bei dreifacher Geschwindigkeit und einem Viertel des Speicherbedarfs.
Erkenntnis 2
Deutsch braucht Generalisten
OCR-Spezialisten wie PaddleOCR-VL (Weltspitze auf englischen/chinesischen Benchmarks) scheitern an deutschen Dokumenten: 77,6% statt 93,9%.
Erkenntnis 3
Standard-Hardware reicht
2 GB RAM für das Champion-Modell. Kein Grafik-Spezialhardware nötig — läuft auf jedem modernen Server oder sogar einem Mini-PC.
Praxis-Empfehlung
Was bedeutet das für Ihr Unternehmen?
DSGVO by Design
Da alle Verarbeitung auf Ihrer eigenen Infrastruktur stattfindet, verlassen Ihre Geschäftsdokumente niemals das Unternehmen. Kein Auftragsverarbeitungsvertrag, keine Datenweitergabe an Dritte.
Skalierbare Automatisierung
Ein einzelnes Modell kann hunderte Dokumente pro Stunde verarbeiten. Die Kosten steigen nicht mit dem Volumen — im Gegensatz zu Cloud-API-Preismodellen.
Integration in bestehende Systeme
Das Modell gibt strukturiertes JSON zurück — kompatibel mit Dokumentenmanagementsystemen, ERP, Buchhaltungssoftware und Workflow-Automatisierung (z.B. n8n).
Typische Anwendungsfälle
Eingangsrechnungen
Betrag, Datum, Lieferant automatisch erfassen
Verträge
Vertragstyp, Laufzeit, Vertragspartner klassifizieren
Lieferscheine
Positionen und Mengen strukturiert extrahieren
Kontoauszüge
Buchungen zuordnen, Steuerrelevanz markieren
Schadensmeldungen
Dokumenttyp erkennen, Weiterleitung automatisieren
Fazit
Lokale KI für Dokumentenanalyse ist keine Zukunftsmusik mehr. Mit einem 2-Gigabyte-Modell, das auf jedem modernen Server läuft, lassen sich heute deutsche Geschäftsdokumente mit über 93% Erkennungsgenauigkeit automatisch klassifizieren und strukturiert erfassen — vollständig unter Ihrer Kontrolle.
Vollständiger OCR-Benchmark auf GitHub
Alle Ergebnisse, Fixture-Daten und Konfigurationen sind Open Source. 14 Modelle, 5 Fixtures, 49 Keywords — reproduzierbar auf jeder Apple-Silicon-Hardware.
github.com/rewulff/llm-benchmarkInteresse an lokaler Dokumentenanalyse?
Automatisierung, die funktioniert
Ich analysiere Ihre Dokumentenprozesse und zeige Ihnen, wo lokale KI sinnvoll einsetzbar ist — konkret, DSGVO-konform und ohne Vendor-Lock-in.