Fachartikel · KI & Automatisierung
Warum das billigste KI-Modell
teuer werden kann
Was passiert, wenn KI-Modelle Daten erfinden — und wie Sie das verhindern.
Fehlerrate kompaktes Modell
Bei fehlenden Feldern auf Webseiten: Halluzinierte Kontaktdaten, Adressen, Steuernummern.
Fehlerrate leistungsfähiges Modell
Leistungsfähigere Modelle geben bei unsicheren Feldern lieber "nicht gefunden" zurück.
Nacharbeitskosten-Faktor
Jeder halluzinierte Datensatz kostet in der Nacharbeit ein Vielfaches der API-Einsparung.
KI-Modelle sind keine Datenbanken. Sie generieren Antworten — und wenn die gesuchte Information fehlt, kann das Modell statt einer Fehlermeldung eine plausibel klingende, aber erfundene Antwort liefern. Dieses Phänomen heißt Halluzination.
Für Unterhaltungsanwendungen ist das ärgerlich. Für Geschäftsprozesse — automatische Erfassung von Rechnungen, Kundendaten oder Verträgen — ist es potenziell fatal: falsche Kontodaten, erfundene Steuernummern, nicht existierende Ansprechpartner.
Das Problem tritt nicht zufällig auf. Es folgt einem klaren Muster, das in der Praxis reproduzierbar ist — und das sich mit den richtigen Maßnahmen weitgehend eliminieren lässt.
Wann ist das ein Problem?
Rechnungsverarbeitung
Falsche IBAN, falsche USt-ID — direkte finanzielle Konsequenz.
Kundendaten-Erfassung
Erfundene Telefonnummern oder E-Mail-Adressen sind unsendbar.
Vertragsanalyse
Falsche Laufzeiten oder Vertragspartner erzeugen Haftungsrisiken.
Firmendaten-Recherche
Kompakt-Modelle erfinden Impressum-Felder wenn Daten fehlen.
Praxisbeispiel
Web-Extraktion von Firmendaten: wo Kompakt-Modelle versagen
Bei der automatischen Qualifizierung von Fachbetrieben über deren Webseiten zeigte sich ein klares Muster: Kompakte KI-Modelle lieferten bei fehlenden Feldern keine leere Antwort — sie erfanden plausible Werte.
Konkret: Wenn ein Impressum die Telefonnummer nicht explizit als solche auszeichnete oder fehlte, trug das kompakte Modell trotzdem eine Nummer ein — korrekt formatiert, mit passendem Ortsvorwahl-Block, aber schlicht erfunden. Gleiches galt für Geschäftsführernamen, Gründungsjahre und E-Mail-Adressen.
Ein leistungsfähigeres Modell zeigte ein anderes Verhalten: Bei Unsicherheit gab es das Feld als null zurück. Keine Daten sind besser als falsche Daten — aber nur wenn der Prozess damit umgehen kann.
Kompaktes Modell
Leistungsfähigeres Modell
null statt Erfindung Die entscheidende Erkenntnis: Der Prompt allein reicht nicht. Selbst mit der expliziten Anweisung "Wenn eine Information nicht auffindbar ist: null zurückgeben. NICHT raten oder interpretieren." hielten kompakte Modelle diese Regel bei fehlenden Feldern nicht konsistent ein. Leistungsfähigere Modelle folgten ihr zuverlässig — das ist kein Prompt-Problem, sondern eine Modelleigenschaft.
Fehlertypen
Die vier Halluzinations-Muster
Nicht jede KI-Fehlerantwort ist gleich. Diese vier Muster treten in der Praxis am häufigsten auf — mit unterschiedlichen Auswirkungen auf Ihren Prozess.
Phantasie-Daten
Das Modell erfindet Werte, die so auf der Seite nicht stehen — Telefonnummern, E-Mail-Adressen, USt-IDs. Alles korrekt formatiert, alles falsch.
Beispiel
Impressum fehlt Telefonnummer → Modell erfindet eine im richtigen Ortsvorwahl-Format
Formatfehler
Der richtige Wert ist vorhanden, wird aber im falschen Format ausgegeben: Datum als Text statt ISO, Zahl mit Komma statt Punkt, IBAN ohne Leerzeichen.
Beispiel
"12.03.26" statt "2026-03-12" — im Downstream-System ein Parse-Fehler
Verwechslung
Daten werden dem falschen Kontext zugeordnet. Wenn eine Seite mehrere Unternehmen erwähnt, landet die USt-ID des Lieferanten beim Kunden.
Beispiel
Partnerunternehmen im Footer → Daten fälschlicherweise als Firmenstammdaten übernommen
Überinterpretation
Das Modell zieht Schlüsse, die im Text nicht stehen — es "versteht" implizite Bedeutungen, die nicht gemeint waren.
Beispiel
"Gegründet in Frankfurt" → Modell trägt Frankfurt als Firmensitz ein, obwohl der Sitz woanders ist
Qualitätssicherung
Wie man Halluzinationen erkennt — und abfängt
Format-Validierung
Telefonnummern, USt-IDs, IBANs, E-Mail-Adressen haben bekannte Formate. Jeder extrahierte Wert lässt sich maschinell gegen sein Muster prüfen — bevor er in die Datenbank gelangt.
Confidence-Scores einfordern
Prompt-Design kann das Modell anweisen, neben jedem Feld eine Zuversichts-Einschätzung zu liefern: "found" / "inferred" / "not_found". Nur "found"-Werte sollten direkt übernommen werden.
Kreuzprüfung mit Quelltext
Für kritische Felder lässt sich prüfen, ob der extrahierte Wert wörtlich im Quelltext vorkommt. Erscheint er nicht, ist Vorsicht geboten — das Modell hat möglicherweise interpoliert.
Human-in-the-Loop für kritische Felder
Nicht jedes Feld braucht gleiche Sicherheit. Unkritische Felder (Kategorie, Branche) können direkt übernommen werden. Kritische Felder (IBAN, USt-ID) sollten immer einen menschlichen Prüfschritt durchlaufen.
Prompt-Muster das funktioniert
"Wenn eine Information nicht auffindbar ist: null zurückgeben.
NICHT raten oder interpretieren.
Für jedes Feld: Gib zusätzlich 'source' an — die genaue Textstelle, aus der der Wert stammt. Wenn keine Textstelle vorhanden: Feld auf null setzen."
Dieses Muster reduziert Halluzinationen signifikant — aber eliminiert sie nicht vollständig. Bei kompakten Modellen bleibt die Fehlerrate trotzdem erhöht. Die Wahl des Modells ist entscheidend.
Gesamtkostenbetrachtung
Was kostet ein Fehler wirklich?
Die API-Kosten sind nur ein Teil der Gleichung. Wer nur auf den Preis pro Anfrage schaut, übersieht die Kosten der Nacharbeit.
Kostenvergleich — Datenextraktion im Betrieb
| Szenario | API-Kosten | Fehlerrate | Nacharbeit | Gesamt |
|---|---|---|---|---|
| Kompaktes Modell + manuelle Nacharbeit | Niedrig | 15–25 % | Hoch | Mittel bis hoch |
| Leistungsfähigeres Modell + Validierung Empfohlen | Mittel | 2–5 % | Gering | Niedrig |
Erkenntnis 1
Nacharbeit ist teurer als API
Ein manuell korrigierter Datensatz kostet im Schnitt 5–15 Minuten Arbeitszeit. Bei 100 Fehlern pro 1.000 Datensätzen übersteigt das jede API-Ersparnis.
Erkenntnis 2
Null ist besser als falsch
Ein leeres Feld triggert einen Prüfprozess. Ein falsches Feld — das korrekt aussieht — bleibt unbemerkt und verursacht Downstream-Fehler.
Erkenntnis 3
Modellwahl ist Architekturentscheidung
Kompakte Modelle sind für einfache Klassifikation (ja/nein) geeignet. Für Feld-Extraktion aus unstrukturierten Quellen braucht man leistungsfähigere Modelle.
Was Sie gewinnen
Die richtige Modellwahl zahlt sich dreifach aus
Datenqualität
Zuverlässig extrahierte Daten sind die Grundlage jedes automatisierten Prozesses. Fehlerhafte Daten untergraben das Vertrauen in die gesamte Automatisierung.
Vertrauen
Wenn Mitarbeitende wissen, dass das System zuverlässig arbeitet, akzeptieren sie die Automatisierung. Häufige Korrekturen untergraben die Akzeptanz schneller als alles andere.
Gesamtkosten
Höhere API-Kosten pro Anfrage werden durch deutlich weniger Fehler und Nacharbeit überkompensiert. Der ROI eines zuverlässigen Modells ist messbar besser.
Fazit
Das billigste Modell ist nicht das günstigste — es ist das, dessen Fehler am wenigsten kosten. Wer nur auf den API-Preis schaut, optimiert die falsche Kennzahl. Die richtige Frage ist: Was kostet ein Fehler in meinem Prozess?
KI-Datenextraktion zuverlässig gestalten
Aus Erfahrung wissen, wo KI scheitert
Ich analysiere Ihre Datenextraktions-Prozesse und helfe Ihnen, Halluzinations-Risiken zu identifizieren und zu eliminieren — bevor sie Ihre Daten beschädigen.