2.1. Gaußsche Mischmodelle#

sklearn.mixture ist ein Paket, das das Lernen von Gaußschen Mischmodellen (mit Diagonal-, sphärischen, gebundenen und vollen Kovarianzmatrizen) ermöglicht, sie zu stichprobenartig zu ziehen und aus Daten zu schätzen. Einrichtungen zur Bestimmung der geeigneten Anzahl von Komponenten werden ebenfalls bereitgestellt.

../_images/sphx_glr_plot_gmm_pdf_001.png — **Zwei-Komponenten Gaußsches Mischmodell:** *Datenpunkte und Gleichwahrscheinlichkeitsflächen des Modells.*#

Ein Gaußsches Mischmodell ist ein probabilistisches Modell, das davon ausgeht, dass alle Datenpunkte aus einer Mischung einer endlichen Anzahl von Gaußschen Verteilungen mit unbekannten Parametern generiert wurden. Man kann sich Mischmodelle als eine Verallgemeinerung des k-means-Clustering vorstellen, um Informationen über die Kovarianzstruktur der Daten sowie die Zentren der latenten Gaußschen zu integrieren.

Scikit-learn implementiert verschiedene Klassen zur Schätzung von Gaußschen Mischmodellen, die verschiedenen Schätzstrategien entsprechen, wie unten beschrieben.

2.1.1. Gaußsches Mischmodell#

Das Objekt GaussianMixture implementiert den Erwartungsmaximierungs-(EM)-Algorithmus zum Anpassen von Gaußschen Mischmodellen. Es kann auch Konfidenzellipsoide für multivariate Modelle zeichnen und das Bayes'sche Informationskriterium berechnen, um die Anzahl der Cluster in den Daten zu bewerten. Eine Methode GaussianMixture.fit wird bereitgestellt, die ein Gaußsches Mischmodell aus Trainingsdaten lernt. Gegebenen Testdaten kann sie jedem Sample die Gaußsche zuweisen, zu der es am wahrscheinlichsten gehört, mit der Methode GaussianMixture.predict.

Das GaussianMixture bietet verschiedene Optionen zur Einschränkung der Kovarianz der geschätzten verschiedenen Klassen: sphärische, diagonale, gebundene oder volle Kovarianz.

../_images/sphx_glr_plot_gmm_covariances_001.png

Beispiele

Siehe GMM-Kovarianzen für ein Beispiel zur Verwendung des Gaußschen Mischmodells als Clustering auf dem Iris-Datensatz.
Siehe Dichteschätzung für ein Gaußsches Mischmodell für ein Beispiel zum Plotten der Dichteschätzung.

2.1.2. Variational Bayesian Gaußsches Mischmodell#

Das Objekt BayesianGaussianMixture implementiert eine Variante des Gaußschen Mischmodells mit Variationsinferenzalgorithmen. Die API ist ähnlich der, die von GaussianMixture definiert wird.

Schätzalgorithmus: Variationsinferenz

Variationsinferenz ist eine Erweiterung der Erwartungsmaximierung, die eine untere Schranke der Modellbeweiskraft (einschließlich Priors) maximiert, anstatt der Datenwahrscheinlichkeit. Das Prinzip hinter Variationsmethoden ist dasselbe wie bei der Erwartungsmaximierung (d.h. beides sind iterative Algorithmen, die zwischen der Ermittlung der Wahrscheinlichkeiten für jeden Punkt, von jeder Mischung generiert zu werden, und der Anpassung der Mischung an diese zugewiesenen Punkte wechseln), aber Variationsmethoden fügen Regularisierung hinzu, indem Informationen aus Prior-Verteilungen integriert werden. Dies vermeidet die Singularitäten, die oft in den Lösungen der Erwartungsmaximierung auftreten, führt aber zu einigen subtilen Verzerrungen des Modells. Die Inferenz ist oft merklich langsamer, aber in der Regel nicht so langsam, dass ihre Anwendung unpraktikabel wäre.

Aufgrund ihrer bayesschen Natur benötigt der Variationsalgorithmus mehr Hyperparameter als die Erwartungsmaximierung, wobei der wichtigste davon der Konzentrationsparameter weight_concentration_prior ist. Die Angabe eines niedrigen Wertes für den Konzentrationsprior führt dazu, dass das Modell den größten Teil des Gewichts auf wenige Komponenten legt und die Gewichte der übrigen Komponenten sehr nahe an Null setzt. Hohe Werte für den Konzentrationsprior erlauben einer größeren Anzahl von Komponenten, in der Mischung aktiv zu sein.

Die Parameterimplementierung der Klasse BayesianGaussianMixture bietet zwei Arten von Prior für die Gewichtsverteilung: ein endliches Mischmodell mit Dirichlet-Verteilung und ein unendliches Mischmodell mit dem Dirichlet-Prozess. In der Praxis wird der Dirichlet-Prozess-Inferenzalgorithmus approximiert und verwendet eine truncierte Verteilung mit einer festen maximalen Anzahl von Komponenten (genannt Stick-breaking-Repräsentation). Die tatsächlich verwendete Anzahl von Komponenten hängt fast immer von den Daten ab.

Die folgende Abbildung vergleicht die Ergebnisse für die verschiedenen Arten des Gewichtskonzentrationspriors (Parameter weight_concentration_prior_type) für verschiedene Werte von weight_concentration_prior. Hier sehen wir, dass der Wert des Parameters weight_concentration_prior einen starken Einfluss auf die effektive Anzahl aktiver Komponenten hat. Wir können auch feststellen, dass große Werte für den Konzentrationsgewichtsprior zu gleichmäßigeren Gewichten führen, wenn der Prior-Typ 'dirichlet_distribution' ist, während dies nicht unbedingt für den Typ 'dirichlet_process' (Standard) gilt.

Die folgenden Beispiele vergleichen Gaußsche Mischmodelle mit einer festen Anzahl von Komponenten mit den Variations-Gaußschen Mischmodellen mit einem Dirichlet-Prozess-Prior. Hier wird ein klassisches Gaußsches Mischmodell mit 5 Komponenten auf einem Datensatz, der aus 2 Clustern besteht, angepasst. Wir sehen, dass das Variations-Gaußsche Mischmodell mit einem Dirichlet-Prozess-Prior in der Lage ist, sich auf nur 2 Komponenten zu beschränken, während das Gaußsche Mischmodell die Daten mit einer festen Anzahl von Komponenten anpasst, die vom Benutzer a priori festgelegt werden muss. In diesem Fall hat der Benutzer n_components=5 gewählt, was nicht mit der wahren generativen Verteilung dieses Spiel-Datensatzes übereinstimmt. Beachten Sie, dass bei sehr wenigen Beobachtungen das Variations-Gaußsche Mischmodell mit einem Dirichlet-Prozess-Prior einen konservativen Standpunkt einnehmen und nur eine Komponente anpassen kann.

Auf der folgenden Abbildung passen wir einen Datensatz an, der nicht gut durch ein Gaußsches Mischmodell dargestellt wird. Die Anpassung des Parameters weight_concentration_prior des BayesianGaussianMixture steuert die Anzahl der Komponenten, die zur Anpassung dieser Daten verwendet werden. Wir präsentieren auch auf den letzten beiden Plots eine zufällige Stichprobe, die aus den beiden resultierenden Mischungen generiert wurde.

../_images/sphx_glr_plot_gmm_sin_001.png

Beispiele

Siehe Konfidenzellipsoide für Gaußsche Mischmodelle für ein Beispiel zum Plotten der Konfidenzellipsoide für sowohl GaussianMixture als auch BayesianGaussianMixture.
Sinusförmige Kurve mit Gaußschem Mischmodell zeigt die Verwendung von GaussianMixture und BayesianGaussianMixture zur Anpassung einer Sinuswelle.
Siehe Analyse des Konzentrationspriors für Variational Bayesian Gaussian Mixture für ein Beispiel, das die Konfidenzellipsoide für das BayesianGaussianMixture mit unterschiedlichen weight_concentration_prior_type für verschiedene Werte des Parameters weight_concentration_prior plottet.

2.1.2.1. Der Dirichlet-Prozess#

Hier beschreiben wir Variationsinferenzalgorithmen auf Dirichlet-Prozess-Mischungen. Der Dirichlet-Prozess ist eine Prior-Wahrscheinlichkeitsverteilung auf Clusterings mit einer unendlichen, unbeschränkten Anzahl von Partitionen. Variationstechniken ermöglichen es uns, diese Prior-Struktur auf Gaußsche Mischmodelle anzuwenden, fast ohne Einbußen bei der Inferenzzeit im Vergleich zu einem endlichen Gaußschen Mischmodell.

Eine wichtige Frage ist, wie der Dirichlet-Prozess eine unendliche, unbeschränkte Anzahl von Clustern verwenden und dennoch konsistent sein kann. Während eine vollständige Erklärung nicht in dieses Handbuch passt, kann man sich seine Stick-Breaking-Prozess-Analogie zu Hilfe nehmen, um ihn zu verstehen. Der Stick-Breaking-Prozess ist eine generative Geschichte für den Dirichlet-Prozess. Wir beginnen mit einem Stock der Länge Eins und brechen in jedem Schritt einen Teil des verbleibenden Stocks ab. Jedes Mal assoziieren wir die Länge des Stücks des Stocks mit dem Anteil der Punkte, die in eine Gruppe der Mischung fallen. Am Ende, um die unendliche Mischung darzustellen, assoziieren wir das letzte verbleibende Stück des Stocks mit dem Anteil der Punkte, die nicht in alle anderen Gruppen fallen. Die Länge jedes Stücks ist eine Zufallsvariable mit einer Wahrscheinlichkeit, die proportional zum Konzentrationsparameter ist. Kleinere Werte der Konzentration teilen die Einheit in größere Stücke des Stocks auf (definieren eine konzentriertere Verteilung). Größere Konzentrationswerte erzeugen kleinere Stücke des Stocks (erhöhen die Anzahl der Komponenten mit nicht-Null-Gewichten).

Variationsinferenztechniken für den Dirichlet-Prozess arbeiten weiterhin mit einer endlichen Annäherung an dieses unendliche Mischmodell, aber anstatt a priori festlegen zu müssen, wie viele Komponenten man verwenden möchte, gibt man nur den Konzentrationsparameter und eine Obergrenze für die Anzahl der Mischkomponenten an (diese Obergrenze, vorausgesetzt, sie ist höher als die "wahre" Anzahl der Komponenten, beeinflusst nur die algorithmische Komplexität, nicht die tatsächlich verwendeten Komponenten).

2.1. Gaußsche Mischmodelle#

2.1.1. Gaußsches Mischmodell#

2.1.2. Variational Bayesian Gaußsches Mischmodell#

2.1.2.1. Der Dirichlet-Prozess#

Diese Seite