Fachartikel · KI & Automatisierung

Warum das billigste KI-Modell teuer werden kann

Was passiert, wenn KI-Modelle Daten erfinden — und wie Sie das verhindern.

März 2026 Praxisbericht · Datenextraktion
Alter Desktop-PC bettelt mit Pappbecher am Strassenrand — Metapher fuer das billigste KI-Modell
15–25 %

Fehlerrate kompaktes Modell

Bei fehlenden Feldern auf Webseiten: Halluzinierte Kontaktdaten, Adressen, Steuernummern.

< 5 %

Fehlerrate leistungsfähiges Modell

Leistungsfähigere Modelle geben bei unsicheren Feldern lieber "nicht gefunden" zurück.

Nacharbeitskosten-Faktor

Jeder halluzinierte Datensatz kostet in der Nacharbeit ein Vielfaches der API-Einsparung.

KI-Modelle sind keine Datenbanken. Sie generieren Antworten — und wenn die gesuchte Information fehlt, kann das Modell statt einer Fehlermeldung eine plausibel klingende, aber erfundene Antwort liefern. Dieses Phänomen heißt Halluzination.

Für Unterhaltungsanwendungen ist das ärgerlich. Für Geschäftsprozesse — automatische Erfassung von Rechnungen, Kundendaten oder Verträgen — ist es potenziell fatal: falsche Kontodaten, erfundene Steuernummern, nicht existierende Ansprechpartner.

Das Problem tritt nicht zufällig auf. Es folgt einem klaren Muster, das in der Praxis reproduzierbar ist — und das sich mit den richtigen Maßnahmen weitgehend eliminieren lässt.

Wann ist das ein Problem?

🧾

Rechnungsverarbeitung

Falsche IBAN, falsche USt-ID — direkte finanzielle Konsequenz.

📋

Kundendaten-Erfassung

Erfundene Telefonnummern oder E-Mail-Adressen sind unsendbar.

📄

Vertragsanalyse

Falsche Laufzeiten oder Vertragspartner erzeugen Haftungsrisiken.

🏢

Firmendaten-Recherche

Kompakt-Modelle erfinden Impressum-Felder wenn Daten fehlen.

Praxisbeispiel

Web-Extraktion von Firmendaten: wo Kompakt-Modelle versagen

Bei der automatischen Qualifizierung von Fachbetrieben über deren Webseiten zeigte sich ein klares Muster: Kompakte KI-Modelle lieferten bei fehlenden Feldern keine leere Antwort — sie erfanden plausible Werte.

Konkret: Wenn ein Impressum die Telefonnummer nicht explizit als solche auszeichnete oder fehlte, trug das kompakte Modell trotzdem eine Nummer ein — korrekt formatiert, mit passendem Ortsvorwahl-Block, aber schlicht erfunden. Gleiches galt für Geschäftsführernamen, Gründungsjahre und E-Mail-Adressen.

Ein leistungsfähigeres Modell zeigte ein anderes Verhalten: Bei Unsicherheit gab es das Feld als null zurück. Keine Daten sind besser als falsche Daten — aber nur wenn der Prozess damit umgehen kann.

Kompaktes Modell

Fehlendes Feld → plausibel klingender Erfundener Wert
Kein Confidence-Signal — keine Unterscheidung real/erfunden
Günstig bei einfachen ja/nein-Entscheidungen

Leistungsfähigeres Modell

Fehlendes Feld → null statt Erfindung
Zuverlässig bei Impressum, Freitext, komplexen Feldern
~ Höhere API-Kosten — aber niedrigere Gesamtkosten

Die entscheidende Erkenntnis: Der Prompt allein reicht nicht. Selbst mit der expliziten Anweisung "Wenn eine Information nicht auffindbar ist: null zurückgeben. NICHT raten oder interpretieren." hielten kompakte Modelle diese Regel bei fehlenden Feldern nicht konsistent ein. Leistungsfähigere Modelle folgten ihr zuverlässig — das ist kein Prompt-Problem, sondern eine Modelleigenschaft.

Fehlertypen

Die vier Halluzinations-Muster

Nicht jede KI-Fehlerantwort ist gleich. Diese vier Muster treten in der Praxis am häufigsten auf — mit unterschiedlichen Auswirkungen auf Ihren Prozess.

A

Phantasie-Daten

Das Modell erfindet Werte, die so auf der Seite nicht stehen — Telefonnummern, E-Mail-Adressen, USt-IDs. Alles korrekt formatiert, alles falsch.

Beispiel

Impressum fehlt Telefonnummer → Modell erfindet eine im richtigen Ortsvorwahl-Format

B

Formatfehler

Der richtige Wert ist vorhanden, wird aber im falschen Format ausgegeben: Datum als Text statt ISO, Zahl mit Komma statt Punkt, IBAN ohne Leerzeichen.

Beispiel

"12.03.26" statt "2026-03-12" — im Downstream-System ein Parse-Fehler

C

Verwechslung

Daten werden dem falschen Kontext zugeordnet. Wenn eine Seite mehrere Unternehmen erwähnt, landet die USt-ID des Lieferanten beim Kunden.

Beispiel

Partnerunternehmen im Footer → Daten fälschlicherweise als Firmenstammdaten übernommen

D

Überinterpretation

Das Modell zieht Schlüsse, die im Text nicht stehen — es "versteht" implizite Bedeutungen, die nicht gemeint waren.

Beispiel

"Gegründet in Frankfurt" → Modell trägt Frankfurt als Firmensitz ein, obwohl der Sitz woanders ist

Qualitätssicherung

Wie man Halluzinationen erkennt — und abfängt

1

Format-Validierung

Telefonnummern, USt-IDs, IBANs, E-Mail-Adressen haben bekannte Formate. Jeder extrahierte Wert lässt sich maschinell gegen sein Muster prüfen — bevor er in die Datenbank gelangt.

2

Confidence-Scores einfordern

Prompt-Design kann das Modell anweisen, neben jedem Feld eine Zuversichts-Einschätzung zu liefern: "found" / "inferred" / "not_found". Nur "found"-Werte sollten direkt übernommen werden.

3

Kreuzprüfung mit Quelltext

Für kritische Felder lässt sich prüfen, ob der extrahierte Wert wörtlich im Quelltext vorkommt. Erscheint er nicht, ist Vorsicht geboten — das Modell hat möglicherweise interpoliert.

4

Human-in-the-Loop für kritische Felder

Nicht jedes Feld braucht gleiche Sicherheit. Unkritische Felder (Kategorie, Branche) können direkt übernommen werden. Kritische Felder (IBAN, USt-ID) sollten immer einen menschlichen Prüfschritt durchlaufen.

Prompt-Muster das funktioniert

"Wenn eine Information nicht auffindbar ist: null zurückgeben.

NICHT raten oder interpretieren.

Für jedes Feld: Gib zusätzlich 'source' an — die genaue Textstelle, aus der der Wert stammt. Wenn keine Textstelle vorhanden: Feld auf null setzen."

Dieses Muster reduziert Halluzinationen signifikant — aber eliminiert sie nicht vollständig. Bei kompakten Modellen bleibt die Fehlerrate trotzdem erhöht. Die Wahl des Modells ist entscheidend.

Gesamtkostenbetrachtung

Was kostet ein Fehler wirklich?

Die API-Kosten sind nur ein Teil der Gleichung. Wer nur auf den Preis pro Anfrage schaut, übersieht die Kosten der Nacharbeit.

Kostenvergleich — Datenextraktion im Betrieb

Szenario API-Kosten Fehlerrate Nacharbeit Gesamt
Kompaktes Modell + manuelle Nacharbeit Niedrig 15–25 % Hoch Mittel bis hoch
Leistungsfähigeres Modell + Validierung Empfohlen Mittel 2–5 % Gering Niedrig

Erkenntnis 1

Nacharbeit ist teurer als API

Ein manuell korrigierter Datensatz kostet im Schnitt 5–15 Minuten Arbeitszeit. Bei 100 Fehlern pro 1.000 Datensätzen übersteigt das jede API-Ersparnis.

Erkenntnis 2

Null ist besser als falsch

Ein leeres Feld triggert einen Prüfprozess. Ein falsches Feld — das korrekt aussieht — bleibt unbemerkt und verursacht Downstream-Fehler.

Erkenntnis 3

Modellwahl ist Architekturentscheidung

Kompakte Modelle sind für einfache Klassifikation (ja/nein) geeignet. Für Feld-Extraktion aus unstrukturierten Quellen braucht man leistungsfähigere Modelle.

Was Sie gewinnen

Die richtige Modellwahl zahlt sich dreifach aus

Datenqualität

Zuverlässig extrahierte Daten sind die Grundlage jedes automatisierten Prozesses. Fehlerhafte Daten untergraben das Vertrauen in die gesamte Automatisierung.

Vertrauen

Wenn Mitarbeitende wissen, dass das System zuverlässig arbeitet, akzeptieren sie die Automatisierung. Häufige Korrekturen untergraben die Akzeptanz schneller als alles andere.

Gesamtkosten

Höhere API-Kosten pro Anfrage werden durch deutlich weniger Fehler und Nacharbeit überkompensiert. Der ROI eines zuverlässigen Modells ist messbar besser.

"

Fazit

Das billigste Modell ist nicht das günstigste — es ist das, dessen Fehler am wenigsten kosten. Wer nur auf den API-Preis schaut, optimiert die falsche Kennzahl. Die richtige Frage ist: Was kostet ein Fehler in meinem Prozess?

KI-Datenextraktion zuverlässig gestalten

Aus Erfahrung wissen, wo KI scheitert

Ich analysiere Ihre Datenextraktions-Prozesse und helfe Ihnen, Halluzinations-Risiken zu identifizieren und zu eliminieren — bevor sie Ihre Daten beschädigen.