Hinweis

Zum Ende springen, um den vollständigen Beispielcode herunterzuladen oder dieses Beispiel über JupyterLite oder Binder in Ihrem Browser auszuführen.

Gaussian Mixture Model Selection#

Dieses Beispiel zeigt, dass die Modellauswahl mit Gaußschen Mischmodellen (GMM) unter Verwendung von informationstheoretischen Kriterien durchgeführt werden kann. Die Modellauswahl betrifft sowohl den Kovarianztyp als auch die Anzahl der Komponenten im Modell.

In diesem Fall liefern sowohl das Akaike Information Criterion (AIC) als auch das Bayes Information Criterion (BIC) das richtige Ergebnis, wir zeigen jedoch nur letzteres, da BIC besser geeignet ist, das wahre Modell aus einer Menge von Kandidaten zu identifizieren. Im Gegensatz zu bayesianischen Verfahren sind solche Schlussfolgerungen vorab-frei.

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

Datengenerierung#

Wir generieren zwei Komponenten (jede enthält n_samples), indem wir zufällig die Standard-Normalverteilung abtasten, wie sie von numpy.random.randn zurückgegeben wird. Eine Komponente wird sphärisch gehalten, aber verschoben und skaliert. Die andere wird deformiert, um eine allgemeinere Kovarianzmatrix zu haben.

import numpy as np

n_samples = 500
np.random.seed(0)
C = np.array([[0.0, -0.1], [1.7, 0.4]])
component_1 = np.dot(np.random.randn(n_samples, 2), C)  # general
component_2 = 0.7 * np.random.randn(n_samples, 2) + np.array([-4, 1])  # spherical

X = np.concatenate([component_1, component_2])

Wir können die verschiedenen Komponenten visualisieren

import matplotlib.pyplot as plt

plt.scatter(component_1[:, 0], component_1[:, 1], s=0.8)
plt.scatter(component_2[:, 0], component_2[:, 1], s=0.8)
plt.title("Gaussian Mixture components")
plt.axis("equal")
plt.show()

Modelltraining und -auswahl#

Wir variieren die Anzahl der Komponenten von 1 bis 6 und die zu verwendenden Typen von Kovarianzparametern

"full": Jede Komponente hat ihre eigene allgemeine Kovarianzmatrix.
"tied": Alle Komponenten teilen sich die gleiche allgemeine Kovarianzmatrix.
"diag": Jede Komponente hat ihre eigene diagonale Kovarianzmatrix.
"spherical": Jede Komponente hat ihre eigene einzelne Varianz.

Wir bewerten die verschiedenen Modelle und behalten das beste Modell (das niedrigste BIC). Dies geschieht durch die Verwendung von GridSearchCV und einer benutzerdefinierten Score-Funktion, die den negativen BIC-Score zurückgibt, da GridSearchCV darauf ausgelegt ist, einen Score zu maximieren (die Maximierung des negativen BIC ist äquivalent zur Minimierung des BIC).

Die besten Parameter und der beste Schätzer werden in best_parameters_ bzw. best_estimator_ gespeichert.

from sklearn.mixture import GaussianMixture
from sklearn.model_selection import GridSearchCV


def gmm_bic_score(estimator, X):
    """Callable to pass to GridSearchCV that will use the BIC score."""
    # Make it negative since GridSearchCV expects a score to maximize
    return -estimator.bic(X)


param_grid = {
    "n_components": range(1, 7),
    "covariance_type": ["spherical", "tied", "diag", "full"],
}
grid_search = GridSearchCV(
    GaussianMixture(), param_grid=param_grid, scoring=gmm_bic_score
)
grid_search.fit(X)

GridSearchCV(estimator=GaussianMixture(),
             param_grid={'covariance_type': ['spherical', 'tied', 'diag',
                                             'full'],
                         'n_components': range(1, 7)},
             scoring=<function gmm_bic_score at 0x7fb4b87565c0>)

In einer Jupyter-Umgebung führen Sie diese Zelle bitte erneut aus, um die HTML-Darstellung anzuzeigen, oder vertrauen Sie dem Notebook.
Auf GitHub kann die HTML-Darstellung nicht gerendert werden. Versuchen Sie bitte, diese Seite mit nbviewer.org zu laden.

Plotten der BIC-Werte#

Um das Plotten zu erleichtern, können wir ein pandas.DataFrame aus den Ergebnissen der Kreuzvalidierung erstellen, die durch die Gitter-Suche durchgeführt wurde. Wir kehren das Vorzeichen des BIC-Wertes um, um den Effekt der Minimierung zu zeigen.

import pandas as pd

df = pd.DataFrame(grid_search.cv_results_)[
    ["param_n_components", "param_covariance_type", "mean_test_score"]
]
df["mean_test_score"] = -df["mean_test_score"]
df = df.rename(
    columns={
        "param_n_components": "Number of components",
        "param_covariance_type": "Type of covariance",
        "mean_test_score": "BIC score",
    }
)
df.sort_values(by="BIC score").head()

	Anzahl der Komponenten	Typ der Kovarianz	BIC-Score
19	2	full	1046.829429
20	3	full	1084.038689
21	4	full	1114.517272
22	5	full	1148.512281
23	6	full	1179.977890

import seaborn as sns

sns.catplot(
    data=df,
    kind="bar",
    x="Number of components",
    y="BIC score",
    hue="Type of covariance",
)
plt.show()

Im vorliegenden Fall hat das Modell mit 2 Komponenten und voller Kovarianz (das dem wahren generativen Modell entspricht) den niedrigsten BIC-Wert und wird daher von der Gitter-Suche ausgewählt.

Plotten des besten Modells#

Wir plotten eine Ellipse, um jede Gaußsche Komponente des ausgewählten Modells darzustellen. Zu diesem Zweck müssen die Eigenwerte der Kovarianzmatrizen, wie sie vom Attribut covariances_ zurückgegeben werden, ermittelt werden. Die Form solcher Matrizen hängt vom covariance_type ab.

"full": (n_components, n_features, n_features)
"tied": (n_features, n_features)
"diag": (n_components, n_features)
"spherical": (n_components,)

from matplotlib.patches import Ellipse
from scipy import linalg

color_iter = sns.color_palette("tab10", 2)[::-1]
Y_ = grid_search.predict(X)

fig, ax = plt.subplots()

for i, (mean, cov, color) in enumerate(
    zip(
        grid_search.best_estimator_.means_,
        grid_search.best_estimator_.covariances_,
        color_iter,
    )
):
    v, w = linalg.eigh(cov)
    if not np.any(Y_ == i):
        continue
    plt.scatter(X[Y_ == i, 0], X[Y_ == i, 1], 0.8, color=color)

    angle = np.arctan2(w[0][1], w[0][0])
    angle = 180.0 * angle / np.pi  # convert to degrees
    v = 2.0 * np.sqrt(2.0) * np.sqrt(v)
    ellipse = Ellipse(mean, v[0], v[1], angle=180.0 + angle, color=color)
    ellipse.set_clip_box(fig.bbox)
    ellipse.set_alpha(0.5)
    ax.add_artist(ellipse)

plt.title(
    f"Selected GMM: {grid_search.best_params_['covariance_type']} model, "
    f"{grid_search.best_params_['n_components']} components"
)
plt.axis("equal")
plt.show()

Gesamtlaufzeit des Skripts: (0 Minuten 1,295 Sekunden)

Verwandte Beispiele

Gaußsche Mischmodell-Ellipsoide

Lasso-Modellauswahl über Informationskriterien

Lineare und Quadratische Diskriminanzanalyse mit Kovarianzellipsoid

Gaußsche Mischmodell-Sinuskurve

Galerie generiert von Sphinx-Gallery

	estimator estimator: Estimator-Objekt Es wird angenommen, dass dies die scikit-learn-Estimator-Schnittstelle implementiert. Entweder muss der Estimator eine ``score``-Funktion bereitstellen, oder ``scoring`` muss übergeben werden.	GaussianMixture()
	param_grid param_grid: dict oder Liste von Dictionaries Dictionary mit Parameternamen (`str`) als Schlüssel und Listen von zu versuchenden Parametereinstellungen als Werte, oder eine Liste solcher Dictionaries, in welchem Fall die von jedem Dictionary im Gitter aufgespannten Gitter durchsucht werden. Dies ermöglicht die Suche über jede Sequenz von Parametereinstellungen.	{'covariance_type': ['spherical', 'tied', ...], 'n_components': range(1, 7)}
	scoring scoring: str, callable, list, tuple oder dict, default=None Strategie zur Bewertung der Leistung des kreuzvalidierten Modells auf dem Testdatensatz. Wenn `scoring` eine einzelne Punktzahl darstellt, kann man verwenden: - einen einzelnen String (siehe :ref:`scoring_string_names`); - ein Callable (siehe :ref:`scoring_callable`), das einen einzelnen Wert zurückgibt; - `None`, das :ref:`Standard-Bewertungskriterium des Estimators ` wird verwendet. Wenn `scoring` mehrere Punktzahlen darstellt, kann man verwenden: - eine Liste oder ein Tupel eindeutiger Strings; - ein Callable, das ein Dictionary zurückgibt, dessen Schlüssel die Metriknamen und dessen Werte die Metrikpunktzahlen sind; - ein Dictionary mit Metriknamen als Schlüssel und Callables als Werte. Siehe :ref:`multimetric_grid_search` für ein Beispiel.	<function gmm...x7fb4b87565c0>
	n_jobs n_jobs: int, default=None Anzahl der parallel auszuführenden Jobs. ``None`` bedeutet 1, es sei denn, es befindet sich in einem :obj:`joblib.parallel_backend`-Kontext. ``-1`` bedeutet die Verwendung aller Prozessoren. Siehe :term:`Glossar ` für weitere Details. .. versionchanged:: v0.20 Standardwert von `n_jobs` wurde von 1 auf None geändert.	None
	refit refit: bool, str, or callable, default=True Einen Schätzer mit den besten gefundenen Parametern auf dem gesamten Datensatz neu anpassen. Bei mehrfacher Metrikauswertung muss dies eine Zeichenkette sein, die den Scorer bezeichnet, der verwendet wird, um die besten Parameter für die Neuanpassung des Schätzers am Ende zu finden. Wenn es andere Überlegungen als die maximale Punktzahl bei der Auswahl eines besten Schätzers gibt, kann ``refit`` auf eine Funktion gesetzt werden, die den ausgewählten ``best_index_`` anhand von ``cv_results_`` zurückgibt. In diesem Fall werden ``best_estimator_`` und ``best_params_`` entsprechend dem zurückgegebenen ``best_index_`` gesetzt, während das Attribut ``best_score_`` nicht verfügbar sein wird. Der neu angepasste Schätzer ist unter dem Attribut ``best_estimator_`` verfügbar und ermöglicht die direkte Verwendung von ``predict`` auf dieser ``GridSearchCV``-Instanz. Auch bei mehrfacher Metrikauswertung sind die Attribute ``best_index_``, ``best_score_`` und ``best_params_`` nur verfügbar, wenn ``refit`` gesetzt ist und alle davon in Bezug auf diesen spezifischen Scorer bestimmt werden. Siehe den Parameter ``scoring``, um mehr über die mehrfache Metrikauswertung zu erfahren. Siehe :ref:`sphx_glr_auto_examples_model_selection_plot_grid_search_digits.py` um zu sehen, wie eine benutzerdefinierte Auswahlstrategie mit einem Callable über `refit` entworfen wird. Siehe :ref:`dieses Beispiel ` für ein Beispiel, wie ``refit=callable`` verwendet wird, um die Modellkomplexität und den kreuzvalidierten Score auszugleichen. .. versionchanged:: 0.20 Unterstützung für Callable hinzugefügt.	True
	cv cv: int, cross-validation generator oder ein Iterable, default=None Bestimmt die Kreuzvalidierungs-Splitting-Strategie. Mögliche Eingaben für cv sind: - None, um die Standard-5-Falt-Kreuzvalidierung zu verwenden, - Ganzzahl, um die Anzahl der Faltungen in einem `(Stratified)KFold` anzugeben, - :term:`CV-Splitter`, - Ein Iterable, das (Trainings-, Test-)Splits als Index-Arrays liefert. Bei Ganzzahl-/None-Eingaben wird, wenn der Estimator ein Klassifikator ist und ``y`` entweder binär oder multiklass ist, :class:`StratifiedKFold` verwendet. In allen anderen Fällen wird :class:`KFold` verwendet. Diese Splitter werden mit `shuffle=False` instanziiert, sodass die Splits über Aufrufe hinweg gleich sind. Siehe das :ref:`Benutzerhandbuch ` für die verschiedenen Kreuzvalidierungsstrategien, die hier verwendet werden können. .. versionchanged:: 0.22 Standardwert von ``cv``, wenn None, wurde von 3-Falt auf 5-Falt geändert.	None
	verbose verbose: int Steuert die Ausführlichkeit: Je höher, desto mehr Nachrichten. - >1 : Die Berechnungszeit für jede Faltung und jeden Parameterkandidaten wird angezeigt; - >2 : Die Punktzahl wird ebenfalls angezeigt; - >3 : Die Faltungs- und Parameterkandidatenindizes werden ebenfalls angezeigt, zusammen mit der Startzeit der Berechnung.	0
	pre_dispatch pre_dispatch: int oder str, default='2n_jobs' Steuert die Anzahl der Jobs, die während der parallelen Ausführung ausgeliefert werden. Die Reduzierung dieser Anzahl kann nützlich sein, um eine Explosion des Speicherverbrauchs zu vermeiden, wenn mehr Jobs ausgeliefert werden, als CPUs verarbeiten können. Dieser Parameter kann sein: - None, in diesem Fall werden alle Jobs sofort erstellt und gespawnt. Verwenden Sie dies für leichte und schnell laufende Jobs, um Verzögerungen durch On-Demand- Spawning der Jobs zu vermeiden - Eine Ganzzahl, die die genaue Gesamtzahl der gespawnten Jobs angibt - Ein String, der einen Ausdruck als Funktion von n_jobs angibt, z. B. '2n_jobs'	'2*n_jobs'
	error_score error_score: 'raise' oder numerisch, default=np.nan Wert, der der Punktzahl zugewiesen wird, wenn beim Anpassen des Estimators ein Fehler auftritt. Wenn auf 'raise' gesetzt, wird der Fehler ausgelöst. Wenn eine numerische Zahl angegeben wird, wird FitFailedWarning ausgelöst. Dieser Parameter beeinflusst den Refit-Schritt nicht, der immer den Fehler auslösen wird.	nan
	return_train_score return_train_score: bool, default=False Wenn ``False``, enthält das Attribut ``cv_results_`` keine Trainingspunktzahlen. Die Berechnung von Trainingspunktzahlen wird verwendet, um Einblicke zu gewinnen, wie verschiedene Parametereinstellungen den Kompromiss zwischen Überanpassung/Unteranpassung beeinflussen. Die Berechnung der Punktzahlen auf dem Trainingsdatensatz kann jedoch rechenintensiv sein und ist nicht unbedingt erforderlich, um die Parameter auszuwählen, die die beste Generalisierungsleistung erzielen. .. versionadded:: 0.19 .. versionchanged:: 0.21 Der Standardwert wurde von ``True`` auf ``False`` geändert.	False

	n_components n_components: int, default=1 Die Anzahl der Mischkomponenten.	2
	covariance_type covariance_type: {'full', 'tied', 'diag', 'spherical'}, default='full' String, der den Typ der zu verwendenden Kovarianzparameter beschreibt. Muss einer der folgenden sein: - 'full': Jede Komponente hat ihre eigene allgemeine Kovarianzmatrix. - 'tied': Alle Komponenten teilen sich die gleiche allgemeine Kovarianzmatrix. - 'diag': Jede Komponente hat ihre eigene diagonale Kovarianzmatrix. - 'spherical': Jede Komponente hat ihre eigene einzelne Varianz. Ein Beispiel für die Verwendung von `covariance_type` finden Sie unter :ref:`sphx_glr_auto_examples_mixture_plot_gmm_selection.py`.	'full'
	tol tol: float, default=1e-3 Der Konvergenzschwellenwert. EM-Iterationen werden gestoppt, wenn der durchschnittliche Gewinn der unteren Schranke unter diesen Schwellenwert fällt.	0.001
	reg_covar reg_covar: float, default=1e-6 Nicht-negative Regularisierung, die zur Diagonalen der Kovarianz hinzugefügt wird. Ermöglicht die Sicherstellung, dass alle Kovarianzmatrizen positiv sind.	1e-06
	max_iter max_iter: int, default=100 Die Anzahl der durchzuführenden EM-Iterationen.	100
	n_init n_init: int, default=1 Die Anzahl der durchzuführenden Initialisierungen. Die besten Ergebnisse werden aufbewahrt.	1
	init_params init_params: {'kmeans', 'k-means++', 'random', 'random_from_data'}, default='kmeans' Die Methode, die zur Initialisierung der Gewichte, Mittelwerte und Präzisionen verwendet wird. Die Zeichenkette muss eine der folgenden sein: - 'kmeans': Verantwortlichkeiten werden mit KMeans initialisiert. - 'k-means++': Verwendet die k-means++-Methode zur Initialisierung. - 'random': Verantwortlichkeiten werden zufällig initialisiert. - 'random_from_data': Anfangsmittelwerte werden zufällig ausgewählte Datenpunkte. .. versionchanged:: v1.1 `init_params` akzeptiert jetzt 'random_from_data' und 'k-means++' als Initialisierungsmethoden.	'kmeans'
	weights_init weights_init: array-like of shape (n_components, ), default=None Die vom Benutzer bereitgestellten Anfangsgewichte. Wenn es None ist, werden die Gewichte mit der Methode `init_params` initialisiert.	None
	means_init means_init: array-like of shape (n_components, n_features), default=None Die vom Benutzer bereitgestellten Anfangsmittelwerte. Wenn es None ist, werden die Mittelwerte mit der Methode `init_params` initialisiert.	None
	precisions_init precisions_init: array-like, default=None Die vom Benutzer bereitgestellten Anfangspräzisionen (Inverse der Kovarianzmatrizen). Wenn es None ist, werden die Präzisionen mit der Methode 'init_params' initialisiert. Die Form hängt von 'covariance_type' ab:: (n_components,) bei 'spherical', (n_features, n_features) bei 'tied', (n_components, n_features) bei 'diag', (n_components, n_features, n_features) bei 'full'	None
	random_state random_state: int, RandomState-Instanz oder None, default=None Steuert den Zufallssamen, der an die zur Initialisierung der Parameter gewählte Methode (siehe `init_params`) übergeben wird. Zusätzlich steuert er die Erzeugung von Zufallsstichproben aus der angepassten Verteilung (siehe die Methode `sample`). Übergeben Sie eine ganze Zahl für reproduzierbare Ergebnisse über mehrere Funktionsaufrufe hinweg. Siehe :term:`Glossar `.	None
	warm_start warm_start: bool, default=False Wenn 'warm_start' True ist, wird die Lösung der letzten Anpassung als Initialisierung für den nächsten Aufruf von fit() verwendet. Dies kann die Konvergenz beschleunigen, wenn fit mehrmals für ähnliche Probleme aufgerufen wird. In diesem Fall wird 'n_init' ignoriert und es erfolgt nur eine einzige Initialisierung beim ersten Aufruf. Siehe :term:`das Glossar `.	False
	verbose verbose: int, default=0 Aktiviert ausführliche Ausgabe. Wenn 1, wird die aktuelle Initialisierung und jeder Iterationsschritt ausgegeben. Wenn größer als 1, dann werden auch die logarithmische Wahrscheinlichkeit und die benötigte Zeit für jeden Schritt ausgegeben.	0
	verbose_interval verbose_interval: int, default=10 Anzahl der Iterationen, bevor die nächste Ausgabe erfolgt.	10