Datenbereinigung

Selbst wenn Ihre Daten schon in der passenden Form vorliegen – Überraschungen können sie immer noch enthalten. Ich habe beispielsweise einmal für einen Finanzdienstleister mit Kreditdaten gearbeitet. Gültige Kreditscores (insbesondere geht es hier um FICO-Kredit-scores) liegen immer zwischen 340 und 840. Trotzdem fanden sich in unseren Daten regelmäßig Werte wie 997, 998 oder 999 – was aber nicht bedeutete, dass die entsprechenden Kunden eine überragende Bonität hatten: Stattdessen waren diese Werte »Codes« mit einer eigenen Bedeutung (beispielsweise »keine ausreichenden Daten«)!

Oder es sind Dubletten in den Daten. Stellen wir uns noch einmal vor, wir würden in einem Krankenhaus Patientendaten analysieren. Manchmal wird ein und ...

Get R in a Nutshell now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.