Blog

Data-Profiling: Attributanalyse auf Basis von Geschäftsregeln

05.08.2013 14:42
von

Eine weitere Möglichkeit zur Analyse von Inhalt, Struktur und Qualität von Daten ist das Aufstellen von Geschäftsregeln, wobei diese z.T. unternehmensspezifisch sind. Ein einfaches Beispiel sind Regeln für das Attribut Geschlecht, die nur die Ausprägungen „männlich“ und „weiblich“ zulassen. Eine Analyse wertet dann aus, welcher Anteil gegen diese Regel verstößt. Folgende Auflistung zeigt einige Möglichkeiten der Geschäftsregel-Prüfung:

Mögliche Kriterien für die Analyse auf Basis von Geschäftsregeln

  • Domänen
    Eine Domänenregel kann z.B. beim Attribut Geschlecht darin bestehen, dass nur die Ausprägungen „männlich“ und „weiblich“ zugelassen werden.
  • Wertebereich
    Eine Regel zum Wertebereich kann darin bestehen, dass für aktive Kunden nur Geburtsdaten als valide angenommen werden, die nicht länger als 150 Jahre zurück liegen.
  • Werteausschlussbereich
    Ein Beispiel für eine Regel zum Werteauschlussbereich ist der Ausschluss des Wochenendes als Bearbeitungsdatum für Vorgänge bei einem Unternehmen, welches nur werktags tätig ist.
  • Genauigkeit
    Wenn ein Dienstleistungsunternehmen ausnahmslos in vollen Stunden abrechnet, kann die Regel zur Genauigkeit z.B. vorsehen, dass Daten zu abrechnungsrelevanten Zeiten auch nur ganzzahlig gespeichert werden, um Abweichungen zwischen internen Auswertungen und dem Kunden abgrechneten Zeiten auszuschließen.
  • Muster
    Falls Daten einem Muster folgen (z.B. Steuernummern), kann dieses Muster zur Formulierung einer Muster-Regel verwendet werden. So kann bereits bei der Eingabe oder Übernahme von Daten verhindert werden, dass fehlerhafte Informationen ins System gelangen.
  • Textattribute
    Regeln zu Textattributen untersuchen den Text innerhalb eines Attributs. Falls z.B. bekannt ist, dass ein Textattribut jeweils nur ein einzelnes Wort enthält, kann dieses Attribut auf Leerzeichen geprüft werden. Ein anderes Beispiel stellen Wertepaare dar. Diese wurden in Zeiten knappen Speicherplatzes eingesetzt, um viele Informationen in wenig Speicher unterzubringen. So wurden beispielsweise Verbindungsparameter semikolongetrennt innerhalb eines Textfeldes abgespeichert (z.B. „;Real Time Olap=TRUE;Writeback Timeout=5“). Die Formulierung einer Regel kann das Attribut über erlaubte Schlüsselwerte validieren.
  • Regeln zu fehlenden Werten
    Sind in einem Feld NULL-Werte überhaupt zulässig? Wenn ja, wie ist mit NULL-Werten umzugehen? Die Beantwortung dieser Fragen generiert NULL-Werte-Regeln.
  • Multiple Regeln
    Bei multiplen Regeln werden die oben genannten Regeln kombiniert oder erweitert. So kann z.B. die Postleitzahl je nach Land unterschiedlich lang sein. In solch einem Fall muss das Attribut Land mit der Regel zur Postleitzahl kombiniert werden.

Literaturhinweise:

Apel, D. (2010). Datenqualität erfolgreich steuern: Praxislösungen für Business-Intelligence-Projekte. Hanser.
Hildebrand, K., Gebauer, M., Hinrichs, H., & Mielke, M. (2009). Daten- und Informationsqualität. Springer Fachmedien.

Weitere Teile der Artikelserie über das Data-Profiling:

Zurück