Hinweis

Zum Ende springen, um den vollständigen Beispielcode herunterzuladen oder dieses Beispiel über JupyterLite oder Binder in Ihrem Browser auszuführen.

IsolationForest Beispiel#

Ein Beispiel für die Verwendung von IsolationForest zur Anomalieerkennung.

Der Isolation Forest ist ein Ensemble von „Isolation Trees“, die Beobachtungen durch rekursives zufälliges Partitionieren „isolieren“, was durch eine Baumstruktur dargestellt werden kann. Die Anzahl der Aufteilungen, die zur Isolierung einer Stichprobe erforderlich sind, ist für Ausreißer geringer und für Inlierer höher.

Im vorliegenden Beispiel demonstrieren wir zwei Möglichkeiten, die Entscheidungsgrenze eines auf einem Spiel-Datensatz trainierten Isolation Forest zu visualisieren.

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

Datengenerierung#

Wir generieren zwei Cluster (jeder enthält n_samples), indem wir die Standardnormalverteilung zufällig auswählen, wie sie von numpy.random.randn zurückgegeben wird. Einer davon ist kugelförmig und der andere ist leicht verformt.

Zur Konsistenz mit der IsolationForest-Notation werden die Inlierer (d. h. die Gauß-Cluster) mit dem Ground-Truth-Label 1 und die Ausreißer (erstellt mit numpy.random.uniform) mit dem Label -1 gekennzeichnet.

import numpy as np

from sklearn.model_selection import train_test_split

n_samples, n_outliers = 120, 40
rng = np.random.RandomState(0)
covariance = np.array([[0.5, -0.1], [0.7, 0.4]])
cluster_1 = 0.4 * rng.randn(n_samples, 2) @ covariance + np.array([2, 2])  # general
cluster_2 = 0.3 * rng.randn(n_samples, 2) + np.array([-2, -2])  # spherical
outliers = rng.uniform(low=-4, high=4, size=(n_outliers, 2))

X = np.concatenate([cluster_1, cluster_2, outliers])
y = np.concatenate(
    [np.ones((2 * n_samples), dtype=int), -np.ones((n_outliers), dtype=int)]
)

X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=42)

Wir können die resultierenden Cluster visualisieren

import matplotlib.pyplot as plt

scatter = plt.scatter(X[:, 0], X[:, 1], c=y, s=20, edgecolor="k")
handles, labels = scatter.legend_elements()
plt.axis("square")
plt.legend(handles=handles, labels=["outliers", "inliers"], title="true class")
plt.title("Gaussian inliers with \nuniformly distributed outliers")
plt.show()

Gaussian inliers with uniformly distributed outliers

Training des Modells#

from sklearn.ensemble import IsolationForest

clf = IsolationForest(max_samples=100, random_state=0)
clf.fit(X_train)

IsolationForest(max_samples=100, random_state=0)

In einer Jupyter-Umgebung führen Sie diese Zelle bitte erneut aus, um die HTML-Darstellung anzuzeigen, oder vertrauen Sie dem Notebook.
Auf GitHub kann die HTML-Darstellung nicht gerendert werden. Versuchen Sie bitte, diese Seite mit nbviewer.org zu laden.

Diskrete Entscheidungsgrenze plotten#

Wir verwenden die Klasse DecisionBoundaryDisplay, um eine diskrete Entscheidungsgrenze zu visualisieren. Die Hintergrundfarbe repräsentiert, ob eine Stichprobe in dem gegebenen Bereich als Ausreißer vorhergesagt wird oder nicht. Das Streudiagramm zeigt die wahren Labels.

import matplotlib.pyplot as plt

from sklearn.inspection import DecisionBoundaryDisplay

disp = DecisionBoundaryDisplay.from_estimator(
    clf,
    X,
    response_method="predict",
    alpha=0.5,
)
disp.ax_.scatter(X[:, 0], X[:, 1], c=y, s=20, edgecolor="k")
disp.ax_.set_title("Binary decision boundary \nof IsolationForest")
plt.axis("square")
plt.legend(handles=handles, labels=["outliers", "inliers"], title="true class")
plt.show()

Binary decision boundary of IsolationForest

Pfadlängen-Entscheidungsgrenze plotten#

Durch Setzen von response_method="decision_function" repräsentiert der Hintergrund des DecisionBoundaryDisplay das Maß für die Normalität einer Beobachtung. Ein solcher Score ergibt sich aus der Pfadlänge, die über einen Wald von Zufallsbäumen gemittelt wird, was wiederum durch die Tiefe des Blattes (oder gleichwertig die Anzahl der Teilungen) gegeben ist, die zur Isolierung einer gegebenen Stichprobe erforderlich sind.

Wenn ein Wald von Zufallsbäumen gemeinsam kurze Pfadlängen zur Isolierung bestimmter Stichproben erzeugt, sind diese höchstwahrscheinlich Anomalien und das Maß für die Normalität liegt nahe bei 0. Ähnlich entsprechen große Pfade Werten nahe bei 1 und sind eher Inlierer.

disp = DecisionBoundaryDisplay.from_estimator(
    clf,
    X,
    response_method="decision_function",
    alpha=0.5,
)
disp.ax_.scatter(X[:, 0], X[:, 1], c=y, s=20, edgecolor="k")
disp.ax_.set_title("Path length decision boundary \nof IsolationForest")
plt.axis("square")
plt.legend(handles=handles, labels=["outliers", "inliers"], title="true class")
plt.colorbar(disp.ax_.collections[1])
plt.show()

Path length decision boundary of IsolationForest

Gesamtlaufzeit des Skripts: (0 Minuten 0,413 Sekunden)

Verwandte Beispiele

Vergleich von Anomalieerkennungsalgorithmen zur Ausreißererkennung auf Toy-Datensätzen

Zwei-Klassen-AdaBoost

Nearest Neighbors Klassifikation

Theil-Sen Regression

Galerie generiert von Sphinx-Gallery

	n_estimators n_estimators: int, standardmäßig 100 Die Anzahl der Basis-Schätzer im Ensemble.	100
	max_samples max_samples: „auto“, int oder float, standardmäßig „auto“ Die Anzahl der Stichproben, die aus X gezogen werden, um jeden Basis-Schätzer zu trainieren. - Wenn int, dann werden `max_samples` Stichproben gezogen. - Wenn float, dann werden `max_samples * X.shape[0]` Stichproben gezogen. - Wenn „auto“, dann ist `max_samples=min(256, n_samples)`. Wenn max_samples größer ist als die Anzahl der bereitgestellten Stichproben, werden alle Stichproben für alle Bäume verwendet (kein Sampling).	100
	contamination contamination: „auto“ oder float, standardmäßig „auto“ Der Anteil der Kontamination des Datensatzes, d. h. der Anteil der Ausreißer im Datensatz. Wird beim Anpassen verwendet, um den Schwellenwert für die Scores der Stichproben zu definieren. - Wenn „auto“, wird der Schwellenwert wie im Originalpapier bestimmt. - Wenn float, sollte die Kontamination im Bereich (0, 0,5] liegen. .. versionchanged:: 0.22 Der Standardwert von ``contamination`` änderte sich von 0.1 zu ``'auto'``.	'auto'
	max_features max_features: int oder float, standardmäßig 1,0 Die Anzahl der Merkmale, die aus X gezogen werden, um jeden Basis-Schätzer zu trainieren. - Wenn int, dann werden `max_features` Merkmale gezogen. - Wenn float, dann werden `max(1, int(max_features * n_features_in_))` Merkmale gezogen. Hinweis: Die Verwendung einer Gleitkommazahl kleiner als 1,0 oder einer Ganzzahl kleiner als die Anzahl der Merkmale aktiviert das Feature-Subsampling und führt zu einer längeren Laufzeit.	1.0
	bootstrap bootstrap: bool, standardmäßig False Wenn True, werden einzelne Bäume auf zufälligen Teilmengen der Trainingsdaten trainiert, die mit Zurücklegen gezogen wurden. Wenn False, wird ohne Zurücklegen gezogen.	False
	n_jobs n_jobs: int, standardmäßig None Die Anzahl der Jobs, die parallel für :meth:`fit` ausgeführt werden. ``None`` bedeutet 1 es sei denn, Sie befinden sich in einem :obj:`joblib.parallel_backend`-Kontext. ``-1`` bedeutet die Verwendung aller Prozessoren. Weitere Details finden Sie im :term:`Glossar `.	None
	random_state random_state: int, RandomState-Instanz oder None, standardmäßig None Steuert die Pseudozufälligkeit der Auswahl der Merkmale und Teilungswerte für jeden Verzweigungsschritt und jeden Baum im Forest. Geben Sie eine Ganzzahl für reproduzierbare Ergebnisse über mehrere Funktionsaufrufe hinweg an. Siehe :term:`Glossar `.	0
	verbose verbose: int, standardmäßig 0 Steuert die Ausführlichkeit des Baumaufbauprozesses.	0
	warm_start warm_start: bool, standardmäßig False Wenn auf ``True`` gesetzt, wird die Lösung des vorherigen Aufrufs von fit wiederverwendet und dem Ensemble weitere Schätzer hinzugefügt, andernfalls wird einfach ein ganzer neuer Forest trainiert. Siehe :term:`das Glossar `. .. versionadded:: 0.21	False