Datenqualität schlägt Datenquantität in der KI – gerade für kleine und mittelständische Unternehmen

Bei der Entwicklung von KI-Systemen besteht ein komplexes Verhältnis zwischen Datenqualität und Datenquantität. Lange Zeit herrschte die Annahme, dass große Datenmengen automatisch zu besseren Ergebnissen führen würden. Dieses Missverständnis führte dazu, dass die schiere Menge an Daten als guter Indikator für den Wert eines Datensatzes angesehen wurde. 

Inzwischen hat sich das Bewusstsein deutlich gewandelt: Die Qualität der Trainingsdaten ist entscheidend für den Erfolg von KI-Modellen. Hochwertige Daten ermöglichen es dem System, die menschliche Intelligenz und Entscheidungsfähigkeit genauer nachzuahmen. Für die Datenqualität sind mehrere Faktoren maßgeblich: 

 

  • Vollständigkeit der Daten 
  • Zuverlässigkeit und Gültigkeit 
  • Verfügbarkeit und Aktualität 
  • Konsistenz und Widerspruchsfreiheit 

Bei großen Sprachmodellen war die enorme Datenmenge ein entscheidender Faktor. Diese Modelle wurden mit riesigen Datenmengen und entsprechender Rechenleistung trainiert, wodurch gewisse Qualitätsmängel kompensiert werden konnten. 

Für kleinere und mittlere Unternehmen ist jedoch die Datenqualität der Schlüssel zum Erfolg. Gute Datenqualität sorgt dafür, dass man weniger Daten benötigt, um gute Ergebnisse zu erzielen. Dies ermöglicht das Training kleinerer Modelle mit geringerem Aufwand, was KI auch für diese Unternehmen wirtschaftlich macht 

Wie wichtig die Datenqualität ist, wird uns bei unserer Arbeit täglich vor Augen geführt. Ob wir KI-Modelle für die Prognose trainieren oder unseren Digitalen Zwilling mit ERP-Daten für ein Projekt zur Optimierung des Supply Chain Managements füllen, immer geht ein beträchtlicher Zeitaufwand in die Verbesserung der Datenqualität und die Bereinigung von Daten. 

Fehlerhafte Daten sind dabei nicht immer auf den ersten Blick zu erkennen! Man muss sich schon detailliert mit dem Feld auskennen, aus dem die Daten bezogen werden, um deren Qualität beurteilen zu können. Fehler können auch dadurch geschehen, dass die verwendeten Daten nicht vollständig das Analysefeld abdecken. Datenmasse bedeutet nicht automatisch Datenvollständigkeit! 

 

Autoren-Avatar
Prof. Dr. Andreas Kemmner
Prof. Dr. Kemmner ist Co-CEO der Abels & Kemmner Group und hat in 30 Jahren Beratertätigkeit in Supply Chain Management und Sanierung weit über 200 nationale und internationale Projekte durchgeführt und war über 10 Jahre der einzige öffentlich bestellte Sachverständige für die Wirtschaftlichkeitsbeurteilung von Industriebetrieben in Deutschland. 2012 wurde er von der WHZ zum Honorarprofessor für Logistik und Supply Chain Management bestellt. Die Ergebnisse seiner Projekte wurden bereits mehrfach ausgezeichnet.
Picture of Prof. Dr. Andreas Kemmner

Prof. Dr. Andreas Kemmner

X