Die unbequeme Wahrheit über KI-Projekte: Ihre Daten sind das Problem
Die meisten KI-Projekte scheitern nicht an der Technologie. Sie scheitern an inkonsistenten, unvollständigen oder veralteten Daten. Was das konkret bedeutet — und wie Sie das vor dem nächsten KI-Investment lösen.
Die unbequeme Wahrheit über KI-Projekte: Ihre Daten sind das Problem
Vor einigen Monaten traf ich mich mit dem Geschäftsführer eines Ingenieurbüros. Er hatte gerade einen erheblichen Betrag in ein KI-System investiert, das Angebote automatisch aus technischen Spezifikationen generieren sollte. Das System war technisch beeindruckend. Die Ergebnisse waren es nicht.
Nicht weil die KI schlecht war — sie war ausgezeichnet. Sondern weil die Grundlage fehlte: Drei Abteilungen pflegten ihre Projektdaten in drei verschiedenen Formaten. Dokumente lagen teils als PDF, teils als handgeschriebene Notizen vor. Feldnamen variierten nach Belieben. Ein Auftrag hieß mal "Projekt", mal "Auftrag", mal "Anfrage". Das CRM enthielt Datensätze, die seit Jahren niemand aktualisiert hatte.
Das Ergebnis: Die KI produzierte überzeugend formulierten Unsinn. Nicht weil sie fehlerhaft war, sondern weil sie mit inkonsistenten Eingaben arbeitete.
Das ist keine Ausnahme. Das ist die Regel.
Garbage In, Garbage Out — mit KI-Turbo
Der älteste Grundsatz der Informatik gilt für KI mehr als je zuvor: Schlechte Eingaben erzeugen schlechte Ausgaben. Aber KI verstärkt diesen Effekt erheblich. Wo ein Mensch bei widersprüchlichen Daten innehalten oder nachfragen würde, generiert ein Sprachmodell mit großer Selbstsicherheit falsche Antworten.
Das ist das eigentliche Risiko — nicht, dass die KI gar nichts tut, sondern dass sie etwas tut und dabei überzeugend wirkt.
KI kann eine schlechte Datengrundlage nicht kompensieren. Sie amplifiziert, was vorhanden ist. Hervorragende Daten und gute KI ergeben beeindruckende Ergebnisse. Schlechte Daten und gute KI ergeben gut verpackten Unsinn.
Die drei häufigsten Datenprobleme in der Praxis
In meiner Arbeit stoße ich immer wieder auf dieselben Muster:
1. Inkonsistenz — das stille Killer-Problem
Dasselbe Konzept, unterschiedlich bezeichnet. "Kunde" und "Auftraggeber" und "Klient". "DE" und "Deutschland" und "GER". Doppelte Einträge, die niemand zusammenführt. Telefonnummern in zehn verschiedenen Formaten.
Für Menschen ist das lästig, aber handhabbar. Für KI-Systeme ist es fatal: Das Modell kann keine verlässlichen Muster erkennen, wenn die Daten nicht konsistent strukturiert sind. Das klingt nach einem technischen Detail. Es ist eine Kulturfrage.
2. Vollständigkeitslücken — die fehlenden 20 Prozent
Kaum ein Unternehmen hat vollständige Datensätze. Kundenadressen, die seit Jahren nicht aktualisiert wurden. CRM-Einträge ohne E-Mail-Adresse. Produktbeschreibungen, die halb leer sind.
Das klingt nach einem kleinen Problem. In der Praxis entscheiden diese Lücken darüber, ob ein Modell verlässliche Empfehlungen geben kann oder nicht. Achtzig Prozent vollständige Daten klingen gut — aber wenn die fehlenden zwanzig Prozent ausgerechnet die entscheidenden Felder betreffen, bricht das System zusammen.
3. Veraltete Stammdaten — die eingefrorene Vergangenheit
Kontakte, die seit drei Jahren nicht mehr im Unternehmen arbeiten. Produkte, die längst aus dem Sortiment genommen wurden. Preislisten, die niemand aktualisiert hat.
KI lernt aus dem, was vorhanden ist — nicht aus dem, was sein sollte. Ein System, das auf veralteten Daten arbeitet, gibt Empfehlungen, die in der Gegenwart keinen Sinn mehr ergeben. Und es tut das mit Selbstvertrauen.
Was "gut genug" wirklich bedeutet
Hier die beruhigende Nachricht: Keine Organisation hat perfekte Daten. Perfekte Daten sind kein realistisches Ziel — und auch keine Voraussetzung für erfolgreiche KI-Projekte.
Aber es gibt einen Mindeststandard, den viele unterschätzen. Ich nenne ihn die Drei-K-Regel:
Konsistenz: Gleiche Konzepte werden gleich bezeichnet. Wer entscheidet über Namenskonventionen? Wer setzt sie durch? Das ist keine IT-Entscheidung, das ist Führungsaufgabe.
Kompletheit: Die für den konkreten Anwendungsfall relevanten Felder sind zu mehr als 85 Prozent ausgefüllt. Nicht alle Felder — die relevanten.
Korrektheit: Daten werden regelmäßig validiert. Das muss kein aufwändiger Prozess sein. Oft reicht es, bei der Dateneingabe einfache Validierungsregeln durchzusetzen.
Wenn diese drei Grundbedingungen für den spezifischen Anwendungsfall erfüllt sind, kann KI erheblichen Mehrwert liefern — auch wenn andere Bereiche noch optimierungsfähig sind.
Die zwei Fehler, die ich immer wieder sehe
Fehler 1: KI als Retter sehen. "Wir haben Chaos in unseren Daten — vielleicht kann KI das sortieren?" KI kann bei der Datenbereinigung helfen. Aber sie löst das strukturelle Problem nicht. Wenn schlechte Daten systematisch erzeugt werden, hilft kein Reinigungslauf — solange die Eingabeprozesse nicht geändert werden.
Fehler 2: Auf perfekte Daten warten. Der Gegenfehler: Wer wartet, bis alle Daten bereit sind, bevor er KI einsetzt, wird ewig warten. Daten sind nie perfekt. Entscheidend ist, ob sie gut genug für den spezifischen Anwendungsfall sind.
Der pragmatische Weg liegt dazwischen: Zunächst klären, welche Daten für das konkrete Projekt benötigt werden. Dann gezielt diese Daten auf Konsistenz, Kompletheit und Korrektheit prüfen. Und parallel pilotieren — damit echte Ergebnisse zeigen, wo die Lücken tatsächlich liegen.
Ein Selbsttest in fünf Schritten
Bevor Sie in das nächste KI-Projekt investieren, empfehle ich diesen kurzen Check:
Schritt 1: Datenquellen kartieren. Wo liegen Ihre relevanten Daten? CRM, ERP, E-Mail, Excel-Tabellen? Wie viele Systeme sind beteiligt — und sprechen sie miteinander?
Schritt 2: Konsistenzprüfung. Suchen Sie in Ihrem CRM nach dem Begriff "Kunde" in verschiedenen Schreibweisen. Wie viele Varianten finden Sie? Das gibt einen ersten Hinweis auf den Zustand Ihrer Daten.
Schritt 3: Komplettheitsanalyse. Wählen Sie 50 zufällige Datensätze aus Ihrer Hauptdatenquelle. Wie viele der relevanten Felder sind ausgefüllt? Wenn weniger als 70 Prozent befüllt sind, brauchen Sie eine Datenqualitätsinitiative — vor dem KI-Projekt.
Schritt 4: Aktualitätsprüfung. Wann wurden die Datensätze zuletzt aktualisiert? Ein schneller Blick über Ihr CRM zeigt, wie viele "tote" Einträge schlummern.
Schritt 5: Zuständigkeiten klären. Wer ist für die Qualität welcher Daten verantwortlich? Wenn diese Frage keine klare Antwort hat, ist das das eigentliche Problem — nicht die Technologie.
Wann Sie trotzdem starten sollten
Schlechte Datenlage ist kein Grund, KI-Projekte auf unbestimmte Zeit zu verschieben. Es gibt Anwendungsfälle, bei denen KI auch mit mittelmäßigen Daten sofort Mehrwert liefert:
Textgenerierung und -verarbeitung — hier sind die "Daten" oft die Eingabetexte selbst, keine historischen Datenbankeinträge. Gut formulierte Briefings ergeben gute Outputs, unabhängig vom CRM-Zustand.
Dokumentenanalyse — KI, die PDFs ausliest und strukturiert, benötigt keine perfekte Datenbankarchitektur. Sie arbeitet mit dem Dokument, das sie bekommt.
Interne Wissensdatenbanken — wenn Ihr Unternehmens-Wiki oder Ihre Handbücher konsistent strukturiert sind, kann ein RAG-basiertes KI-System sofort starten — auch wenn andere Daten noch Baustellen haben.
Der Schlüssel: Wählen Sie als Pilotprojekt einen Anwendungsfall, bei dem die Datengrundlage solide ist. Erfolge schaffen das Momentum und das Vertrauen, um Datenqualität in anderen Bereichen anzugehen.
KI zur Datenbereinigung einsetzen — geht das?
Ja. Und es ist einer der unterschätzten Anwendungsfälle, bei dem KI sofort praktischen Nutzen bringt — bevor das eigentliche KI-Projekt überhaupt startet.
Der Vorbehalt aus "Fehler 1" bleibt: KI kann keine kaputte Datenkultur heilen. Aber sie kann den Zustand Ihrer bestehenden Daten erheblich verbessern — schneller und gründlicher als jedes manuelle Bereinigungsprojekt.
Deduplizierung und Entity Resolution. Das ist vermutlich der stärkste Hebel. LLMs können Einträge zusammenführen, die Menschen als offensichtlich identisch erkennen würden, aber klassische Dubletten-Algorithmen übersehen: "Max Mustermann GmbH", "Mustermann, Max GmbH" und "Mustermann GmbH (Max)" sind für eine Regex dasselbe Problem — für ein Sprachmodell eine leichte Übung. Tools wie OpenRefine mit KI-Erweiterung oder direkte API-Calls gegen Ihre Datenbankexporte erledigen das in Stunden statt Wochen.
Normalisierung inkonsistenter Formate. Telefonnummern in zehn verschiedenen Formaten, Ländercodes als Kürzel und Klartext, Datumsangaben im deutschen und amerikanischen Format — KI standardisiert diese Felder batch-weise und verlässlich. Ein Sprachmodell versteht "29. Feb. 24", "02/29/2024" und "29-02-24" als dasselbe Datum und gibt immer das gleiche Ausgabeformat zurück.
Lückenfüllung durch Kontextinferenz. Wenn ein CRM-Eintrag eine vollständige Firmenadresse hat, aber keine Branche — kann KI aus Firmenname und Website-Domain oft eine plausible Branchenzuordnung ableiten. Das ist keine Garantie für Korrektheit, aber eine gute Ausgangsbasis, die manuell überprüft werden kann. Besser als ein leeres Feld.
Anreicherung aus externen Quellen. Tools wie Clay, Apollo oder Clearbit kombinieren KI mit externen Datenbanken und füllen fehlende Felder automatisch auf — Unternehmensgrößen, LinkedIn-Profile, Umsatzdaten. Das ist kein Selbstbau-Projekt, aber für Vertriebs-CRMs oft die effektivste Sofortmaßnahme.
Anomalie-Erkennung. KI findet Einträge, die "komisch" aussehen — eine deutsche Postleitzahl in einem US-Adressfeld, ein Geburtsdatum aus dem Jahr 1800, eine E-Mail-Adresse ohne @-Zeichen. Klassische Validierungsregeln fangen viele dieser Fälle ab, aber KI erkennt auch semantische Anomalien: ein "Neukunde" mit Vertragsdaten aus 2015 ist wahrscheinlich ein Datenbankfehler.
Der pragmatische Workflow: Export der problematischsten Datentabelle → KI-gestützte Bereinigung → manuelles Review eines Stichprobensets → Import der korrigierten Daten. Dieser Zyklus lässt sich in ein bis zwei Wochen durchlaufen und schafft eine deutlich bessere Ausgangsbasis für das eigentliche KI-Projekt.
Der Haken bleibt: Es ist eine Einmalreinigung. Wenn die Eingabeprozesse nicht geändert werden, sind die Daten in sechs Monaten wieder genauso chaotisch.
Fazit: Daten sind Strategie
Die unbequeme Wahrheit ist einfach: Wer in KI investiert, ohne gleichzeitig in Datenqualität zu investieren, riskiert sein Budget. Nicht weil KI nicht funktioniert — sondern weil KI nur mit dem arbeiten kann, was vorhanden ist.
Die gute Nachricht: Datenqualität ist kein Hexenwerk. Oft sind es einfache Maßnahmen — klare Namenskonventionen, Pflichtfelder bei der Eingabe, regelmäßige Bereinigungsroutinen — die den Unterschied zwischen einem gescheiterten Pilot und einem produktiven System ausmachen.
Wenn Sie nicht sicher sind, wo Sie stehen: Unser kostenloser Automations-Check analysiert in 30 Minuten, welche Datengrundlagen Sie bereits haben und wo KI bei Ihnen realistisch sofort Mehrwert liefern kann.