Richard Bergmair's Mediathek



ML Vorlesung #4: Entscheidungsbäume & Datenrepräsentation

Entscheidungsbäume sind eine sehr allgemeine Konzeptklasse, die für beinahe beliebige Datenmengen verwendet werden kann.

Doch diese allgemeine Ausdrucksstärke hat seinen Preis. Die Auswahl des richtigen Konzepts aus einer höher-dimensionalen Konzeptklasse, also zum Beispiel die Auswahl des richtigen Entscheidungsbaumes, aus der Menge aller möglichen Entscheidungsbäume, benötigt mehr Information als im niedrig-dimensionalen Fall, wie zum Beispiel der Auswahl eines Rechtecks aus der Menge aller Rechtecke. Weiters besteht oft das Problem, dass das Endresultat wenig Aussagekraft besitzt, wenn es darum geht eine einleuchtende Beschreibung für das den Daten zugrunde liegende Konzept zu liefern.

Dieses Videoseminar erklärt Entscheidungsbäume, einige der Vor- und Nachteil von sehr allgemeinen Konzeptklassen, wie jener der Entscheidungsbäume.

Es wurde hier bereits mehrfach erwähnt, dass wir bei PANOPTICOM unsere Technologie zur Medienbeobachtung bei PANOPTICOM als Machine Learning Lösung betrachten.

Die Medienbeobachtung ist somit ein gutes Beispiel für einen möglichen Einsatzzweck von Entscheidungsbäumen, wobei jedoch darauf hinzuweisen ist, dass der Ansatz den wir bei PANOPTICOM tatsächlich gewählt haben über den bloßen Einsatz von Entscheidungsbäumen noch weit hinausgeht.

Entscheidungsbäume klassifizieren Datenpunkte Anhand von Serien von Ja/Nein Fragen, die im Hinblick auf jeden einzelnen Datenpunkt gestellt werden. Haben wir es mit einem Blogartikel zu tun? Kommt der Artikel von einem bekannten Blogger? Enthält der Artikel das Schlüsselwort “gesetzlich”?

Der Grund warum es zweckdienlich ist derartige Fragen zu stellen besteht darin, dass der Computer beobachtet, wie sich die Antworten auf die Fragen auf die Wahrscheinlichkeit auswirken, dass der einzelne Artikel relevant ist. Zum Beispiel könnte der Computer beobachtet haben, dass Blogartikel nur relevant sind, wenn Sie von einem bekannten Blogger sind, und dass Blogartikel von einem bekannten Blogger mit höherer Wahrscheinlichkeit relevant sind, als Tweets auf Twitter. Er könnte außerdem beobachtet haben, dass Artikel die das Schlüsselwort “gesetzlich” enthalten für einen bestimmten Klienten mit höherer Wahrscheinlichkeit relevant sind als andere, etc.

In diesem Videoseminar, zeigen wir, wir ein Entscheidungsbaum konstruiert wird, in dem zu den Datenpunkten die richtigen Fragen gestellt werden.