Stufen der Digitalisierung

Vom Open Data Modell zur praktischen Digitalisierungsstrategie

2010 stellte Tim Berners-Lee, der Erfinder des World Wide Web, das 5-Star Open Data Model vor – ein System zur Bewertung der Nutzbarkeit öffentlicher Daten, von einfachen PDFs bis zu vollständig verlinkten, semantischen Daten.

Was Berners-Lee für Open Government Data entwickelte, beschreibt universell den digitalen Reifegrad von Daten. Bei whitespring haben wir dieses Modell für die praktische Digitalisierungsarbeit adaptiert. Statt auf öffentliche Verfügbarkeit fokussieren wir uns auf die interne Nutzbarkeit von Daten – insbesondere im Kontext moderner KI-Systeme.

Die folgende Betrachtung zeigt, wie Datenformate und ihre Speicherung die Nutzbarkeit in Organisationen beeinflussen – und warum dies im KI-Zeitalter entscheidend ist.

Stufe 1: Eingefrorene Daten – Bilder und PDFs

Format: PNG, JPG, PDF
Typische Situation: „Die Rechnung ist als PDF im E-Mail-Anhang, aber ich muss die Zahlen von Hand abtippen."

Informationen sind zwar digital gespeichert, aber faktisch unbearbeitbar. Gescannte Dokumente, Screenshots oder PDF-Berichte enthalten Daten, die in Pixeln eingefroren sind. Jede Weiterverarbeitung erfordert manuelles Abtippen oder fehleranfällige OCR-Prozesse.

Aus KI-Perspektive: Vision-Modelle können Texte erkennen, aber die Fehlerquote ist hoch und Strukturen gehen verloren. Ein PDF mit einer Tabelle wird zu einer Aneinanderreihung von Wörtern ohne Zusammenhang. Für maschinelles Lernen sind diese Daten praktisch wertlos.

Das Versionierungs- und Speicherort-Problem

Das Format ist nur ein Teil des Problems. Oft zeigt sich hier ein fundamentaleres Dilemma:

  • E-Mail als Ablagesystem: „Bestellung_final.pdf" liegt in drei verschiedenen Postfächern, jeweils leicht unterschiedlich. Welche ist aktuell?
  • Desktop-Chaos: „Konzept_v2_wirklich_final.pdf" existiert nur auf einem Laptop. Bei Urlaub oder Krankheit faktisch unzugänglich.
  • Laufwerks-Friedhof: „Archiv/Alt/2019/Projekte/Q2/Backup_alt/" – Ordnerstrukturen, die niemand mehr versteht.
  • Fehlende Versionierung: „Vertrag_final.pdf", „Vertrag_final_v2.pdf", „Vertrag_WIRKLICH_final.pdf" – welches ist rechtsgültig?

Stufe 2: Proprietäre Gefangenschaft – Hersteller-Formate

Format: DOC, PPT, XLS
Typische Situation: „Ich kann die Excel-Datei nicht öffnen, weil ich eine andere Office-Version habe."

Daten sind bearbeitbar, aber an spezifische Software gebunden. Microsoft Office oder branchenspezifische Formate schaffen digitale Silos mit Versionskonflikten, Kompatibilitätsproblemen und Lizenzabhängigkeiten.

Aus KI-Perspektive: KI kann Office-Formate interpretieren und Informationen extrahieren, aber die Verarbeitung bleibt oberflächlich. Formeln, Metadaten oder komplexe Formatierungen bleiben oft unzugänglich. Für systematisches maschinelles Lernen ist eine Konvertierung nötig, bei der Informationen verloren gehen können.

Kollaborative Plattformen als Zwischenschritt

Viele Organisationen wechseln zu Microsoft Teams und SharePoint: Dokumente sind zentral verfügbar, Zugriffe steuerbar, rudimentäre Versionsverwaltung vorhanden. Aber die Dateien bleiben proprietär mit bekannten Limitationen.

Microsoft Forms standardisiert die Datenerfassung, SharePoint-Wikis verbessern kollaborative Dokumentation. Das ist ein Fortschritt, aber die Inhalte bleiben in proprietären Strukturen gefangen. Automatisierter Zugriff oder KI-Analyse bleibt aufwendig.


Stufe 3: Offene Zugänglichkeit – Standardisierte Textformate

Format: TXT, RTF, CSV
Typische Situation: „Super, die CSV-Datei kann ich in jedem System importieren."

Herstellerunabhängige, universell lesbare Formate. CSV für Tabellen, TXT für Dokumente, RTF für formatierten Text sind langlebig, zukunftssicher und ermöglichen echten Datenaustausch. Die Einfachheit ist Stärke und Schwäche zugleich – universell, aber begrenzt in der Ausdruckskraft.

Aus KI-Perspektive: Hier beginnt echte Nutzbarkeit. CSV-Dateien sind das Standardformat für maschinelles Lernen – direkt in DataFrames ladbar und für Trainingsmodelle nutzbar. Allerdings fehlt semantische Struktur. KI muss raten: Ist „Datum" DD.MM.YYYY oder YYYY-MM-DD? Sind Dezimalzahlen mit Komma oder Punkt getrennt?

Versionskontrolle wird möglich: Tools wie Git funktionieren perfekt mit Textformaten. Jede Änderung ist nachvollziehbar: „In Zeile 47 wurde der Wert von 1.234 auf 1.245 geändert." Diese Transparenz ist essenziell für Compliance und Nachvollziehbarkeit.


Stufe 4: Strukturierte Intelligenz – Maschinenlesbare Formate

Format: XML, JSON
Typische Situation: „Die API liefert JSON – ich weiß sofort, was jedes Feld bedeutet und wie die Daten zusammenhängen."

Strukturierte Formate enthalten nicht nur Daten, sondern auch deren Bedeutung und Beziehungen. Ein JSON-Objekt beschreibt explizit, dass ein „customer" einen „name", eine „email" und mehrere „orders" hat. Diese Selbstbeschreibung macht Daten maschinenlesbar im eigentlichen Sinne.

Aus KI-Perspektive: Hier entfaltet KI ihre Stärke. Strukturierte Daten können ohne Vorverarbeitung in Machine-Learning-Pipelines eingespeist werden. APIs mit JSON ermöglichen KI-Systemen Echtzeit-Zugriff. Chatbots nutzen strukturierte Produktdaten für präzise Empfehlungen, Predictive Analytics erkennt Muster in strukturierten Zeitreihendaten.

Vom Laufwerk zur API – und digitale Signaturen

Auf Stufe 4 lösen wir uns von der Datei-Metapher. Statt „Wo liegt die Datei?" fragen wir „Welche Daten benötige ich?" und erhalten strukturierte Antworten. Systeme können automatisch Daten austauschen, ohne manuelles Eingreifen.

Digitale Signaturen und Prozessautomatisierung: Während auf Stufe 1 und 2 Dokumente ausgedruckt, unterschrieben und eingescannt werden, ermöglichen strukturierte Daten auf Stufe 4 digitale Signaturen direkt im Prozess. Ein Vertrag ist keine PDF-Datei mehr, sondern ein strukturiertes Datenobjekt mit kryptografisch gesicherten Signaturen. Das eröffnet vollständig automatisierte Workflows: Von der Vertragserstellung über die Genehmigung bis zur Archivierung läuft alles digital und rechtskonform. Systeme können automatisch prüfen, ob alle erforderlichen Signaturen vorliegen, ob Fristen eingehalten wurden und ob Änderungen nach der Unterzeichnung vorgenommen wurden. Diese Prozessautomatisierung reduziert nicht nur Durchlaufzeiten von Tagen auf Minuten, sondern schafft auch lückenlose Dokumentation und Rechtssicherheit.


Stufe 5: Semantische Perfektion – Definierte Datenmodelle

Format: Datenbanken mit Schemas, Data Warehouses, Knowledge Graphs
Typische Situation: „Unser System weiß, dass Kunden nur gültige Postleitzahlen haben können, dass Bestellungen immer einem Kunden zugeordnet sind und dass Preise nie negativ sein dürfen."

Die höchste Stufe: Daten in formalen Datenbankschemata mit definierten Beziehungen, Constraints und Validierungsregeln. Relationale Datenbanken mit Foreign Keys, NoSQL mit definierten Schemata oder Graph-Datenbanken mit typisierten Beziehungen schaffen garantiert konsistente und valide Datenwelten.

Aus KI-Perspektive: Das Paradies für KI. Definierte Datenmodelle eliminieren Ambiguität. Machine Learning Modelle erreichen höhere Genauigkeit durch konsistente, validierte Trainingsdaten. Knowledge Graphs ermöglichen semantisches Reasoning – KI versteht nicht nur Korrelationen, sondern kausale Zusammenhänge. Der entscheidende Vorteil: KI kann nicht nur konsumieren, sondern auch qualitätsgesichert Daten erzeugen und zurückschreiben.

Vom Dokumenten-Denken zum Datenbank-Denken

Der fundamentale Paradigmenwechsel: Abkehr von der Datei-Metapher. Statt „In welcher Datei steht das?" fragen wir „Welche Entität mit welchen Attributen benötige ich?"

Versionierung auf Datenbankebene: Moderne Datenbanken bieten native Versionierung auf Datensatz-Ebene. Man kann exakt nachvollziehen: „Welche Adresse hatte Kunde X am 15. März 2024?"

Single Source of Truth: Das Problem mehrfacher, widersprüchlicher Versionen existiert nicht mehr. Es gibt genau einen Kundendatensatz mit definiertem Zustand. Alle Systeme sehen dieselbe Wahrheit.

Prozessautomatisierung auf höchstem Niveau: Während auf Stufe 4 einzelne Prozesse automatisiert werden, ermöglicht Stufe 5 die Orchestrierung komplexer, unternehmensweiter Workflows. Ein Bestellprozess triggert automatisch Lagerbuchungen, Rechnungserstellung, Zahlungsabgleich und Kundenbenachrichtigungen – alles transaktional sicher und mit garantierter Datenintegrität. Digitale Signaturen sind hier nicht mehr auf Dokumente beschränkt, sondern signieren komplette Transaktionsketten.


Fazit: Von Dateien zu Daten

Die Reise von Stufe 1 zu Stufe 5 ist ein fundamentaler Wandel: Von „Wo liegt die Datei?" zu „Was sind meine Daten?"

Die gute Nachricht: Diese Stufen müssen nicht für alle Daten gleichzeitig erreicht werden. Die schlechte Nachricht: Je länger Sie warten, desto größer wird das Problem.

Die entscheidende Erkenntnis: Im Zeitalter von KI ist die Stufe Ihrer Datendigitalisierung ein Wettbewerbsfaktor. Organisationen auf Stufe 5 nutzen KI produktiv, während Organisationen auf Stufe 1 und 2 noch Jahre mit der Migration verbringen.

Wie Tim Berners-Lee sagte: „The Web is more a social creation than a technical one." Das Gleiche gilt für Ihre Datendigitalisierung – es ist weniger eine technische als eine organisatorische und kulturelle Transformation.

Wo steht Ihre Organisation heute?


Sie möchten wissen, auf welcher Digitalisierungsstufe die Daten Ihrer Organisation stehen? Wir unterstützen Sie gerne bei einer strukturierten Analyse. Mehr unter whitespring.de oder vereinbaren Sie einen Termin