Richard Bergmair's Mediathek

ML Vorlesung #3: Datenrepräsentation & Statistik

Die Datenmengen, die den Ausgangspunkt für Machine Learning Probleme darstellen, gehen hervor aus natürlichen oder mathematischen Prozessen, die erkennbare Muster in den Daten hinterlassen.

Wenn man zum Beispiel zwei numerische Eigenschaften der Datenpunkte herausgreift, und diese in einem Streudiagramm visualisiert, findet sich oft ein Muster in dem die Punkte um ein Zentrum herum angeordnet sind, wobei die Punkte in der Nähe des Zentrums dicht angeordnet sind, und diese Dichte abnimmt, je weiter man sich vom Zentrum entfernt. Ein solches Muster ist oft eine Normalverteilung, und gibt Aufschluss darüber, dass die Daten aus einem additiven Prozess hervorgegangen sind. Auf der anderen Seite findet man dieses Muster auch oft in verzerrter Form vor, sodass die Dichte auf einer Seite des Diagramms höher ist als auf der anderen. Dies würde auf einen multiplikativen Prozess hindeuten.

Die Betrachtung und Einordnung derartiger visueller Muster sollte einen der ersten Arbeitsschritte eines Data Scientist darstellen, sobald er mit einem neuen Machine Learning Problem konfrontiert ist. Machine Learning Methoden treffen oft Annahmen darüber, welche Art von Daten bearbeitet werden, z.B. ob die Daten normalverteilt sein müssen etc., und funktionieren entweder gar nicht, oder nur mit stark eingeschränkter Geschwindigkeit und Genauigkeit, wenn diese Annahmen verletzt sind.

Um einen intuitiven Zugang zu dieser Materie zu entwickeln, betrachten wir auch Beispiele aus den Bereichen Versicherung und Risikomanagement.