Hinweis

Gehen Sie zum Ende, um den vollständigen Beispielcode herunterzuladen oder dieses Beispiel über JupyterLite oder Binder in Ihrem Browser auszuführen.

Feature-Importanzen mit einem Wald von Bäumen#

Dieses Beispiel zeigt die Verwendung eines Waldes von Bäumen zur Bewertung der Bedeutung von Merkmalen bei einer künstlichen Klassifizierungsaufgabe. Die blauen Balken stellen die Feature-Importanzen des Waldes dar, zusammen mit ihrer Variabilität zwischen den Bäumen, die durch die Fehlerbalken repräsentiert wird.

Wie erwartet legt die Darstellung nahe, dass 3 Merkmale informativ sind, während die übrigen es nicht sind.

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

import matplotlib.pyplot as plt

Datengenerierung und Modellfitting#

Wir generieren einen synthetischen Datensatz mit nur 3 informativen Merkmalen. Wir werden den Datensatz explizit nicht mischen, um sicherzustellen, dass die informativen Merkmale den drei ersten Spalten von X entsprechen. Darüber hinaus werden wir unseren Datensatz in Trainings- und Testuntergruppen aufteilen.

from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split

X, y = make_classification(
    n_samples=1000,
    n_features=10,
    n_informative=3,
    n_redundant=0,
    n_repeated=0,
    n_classes=2,
    random_state=0,
    shuffle=False,
)
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=42)

Ein Random Forest-Klassifikator wird gefittet, um die Feature-Importanzen zu berechnen.

from sklearn.ensemble import RandomForestClassifier

feature_names = [f"feature {i}" for i in range(X.shape[1])]
forest = RandomForestClassifier(random_state=0)
forest.fit(X_train, y_train)

RandomForestClassifier(random_state=0)

In einer Jupyter-Umgebung führen Sie diese Zelle bitte erneut aus, um die HTML-Darstellung anzuzeigen, oder vertrauen Sie dem Notebook.
Auf GitHub kann die HTML-Darstellung nicht gerendert werden. Versuchen Sie bitte, diese Seite mit nbviewer.org zu laden.

Feature-Importanz basierend auf der mittleren Verringerung der Unreinheit#

Feature-Importanzen werden durch das gefittete Attribut feature_importances_ bereitgestellt und als Mittelwert und Standardabweichung der Akkumulation der Unreinheitsverringerung innerhalb jedes Baumes berechnet.

Warnung

Unreinheitsbasierte Feature-Importanzen können bei **Merkmalen mit hoher Kardinalität** (viele eindeutige Werte) irreführend sein. Siehe Permutation Feature Importance als Alternative unten.

import time

import numpy as np

start_time = time.time()
importances = forest.feature_importances_
std = np.std([tree.feature_importances_ for tree in forest.estimators_], axis=0)
elapsed_time = time.time() - start_time

print(f"Elapsed time to compute the importances: {elapsed_time:.3f} seconds")

Elapsed time to compute the importances: 0.014 seconds

Lassen Sie uns die unreinheitsbasierte Bedeutung plotten.

import pandas as pd

forest_importances = pd.Series(importances, index=feature_names)

fig, ax = plt.subplots()
forest_importances.plot.bar(yerr=std, ax=ax)
ax.set_title("Feature importances using MDI")
ax.set_ylabel("Mean decrease in impurity")
fig.tight_layout()

Wir stellen fest, dass, wie erwartet, die ersten drei Merkmale als wichtig erachtet werden.

Feature-Importanz basierend auf Permutation von Merkmalen#

Die Permutation Feature Importance überwindet Einschränkungen der unreinheitsbasierten Feature Importance: Sie hat keine Voreingenommenheit gegenüber Merkmalen mit hoher Kardinalität und kann auf einem links liegenden Testdatensatz berechnet werden.

from sklearn.inspection import permutation_importance

start_time = time.time()
result = permutation_importance(
    forest, X_test, y_test, n_repeats=10, random_state=42, n_jobs=2
)
elapsed_time = time.time() - start_time
print(f"Elapsed time to compute the importances: {elapsed_time:.3f} seconds")

forest_importances = pd.Series(result.importances_mean, index=feature_names)

Elapsed time to compute the importances: 0.906 seconds

Die Berechnung für die vollständige Permutations-Wichtigkeit ist aufwendiger. Jedes Merkmal wird n Mal gemischt und das Modell wird verwendet, um Vorhersagen auf den permutierten Daten zu treffen, um den Leistungsabfall zu sehen. Weitere Einzelheiten finden Sie unter Permutation Feature Importance. Wir können nun das Ranking der Wichtigkeit plotten.

fig, ax = plt.subplots()
forest_importances.plot.bar(yerr=result.importances_std, ax=ax)
ax.set_title("Feature importances using permutation on full model")
ax.set_ylabel("Mean accuracy decrease")
fig.tight_layout()
plt.show()

Feature importances using permutation on full model

Dieselbe Merkmale werden mit beiden Methoden als am wichtigsten erkannt. Obwohl sich die relativen Bedeutungen unterscheiden. Wie in den Plots zu sehen ist, ist MDI weniger wahrscheinlich als die Permutations-Wichtigkeit, ein Merkmal vollständig auszulassen.

Gesamtlaufzeit des Skripts: (0 Minuten 1,351 Sekunden)

Verwandte Beispiele

Permutations-Wichtigkeit vs. Random Forest Merkmals-Wichtigkeit (MDI)

Permutations-Wichtigkeit bei multikollinearen oder korrelierten Merkmalen

Gradient Boosting Regression

Release Highlights für scikit-learn 0.22

Galerie generiert von Sphinx-Gallery

	n_estimators n_estimators: int, default=100 Die Anzahl der Bäume im Wald. .. versionchanged:: 0.22 Der Standardwert von ``n_estimators`` hat sich von 10 auf 100 in 0.22 geändert.	100
	criterion criterion: {"gini", "entropy", "log_loss"}, default="gini" Die Funktion zur Messung der Qualität eines Splits. Unterstützte Kriterien sind "gini" für die Gini-Unreinheit und "log_loss" und "entropy" sowohl für die Shannon-Informationsgewinnung, siehe :ref:`tree_mathematical_formulation`. Hinweis: Dieser Parameter ist baumspezifisch.	'gini'
	max_depth max_depth: int, default=None Die maximale Tiefe des Baumes. Wenn None, werden Knoten erweitert, bis alle Blätter rein sind oder bis alle Blätter weniger als min_samples_split Stichproben enthalten.	None
	min_samples_split min_samples_split: int oder float, default=2 Die Mindestanzahl von Stichproben, die für einen internen Knoten zum Aufteilen erforderlich sind: - Wenn int, dann betrachten Sie `min_samples_split` als die Mindestanzahl. - Wenn float, dann ist `min_samples_split` ein Bruchteil und `ceil(min_samples_split * n_samples)` sind die Mindestanzahl von Stichproben für jeden Split. .. versionchanged:: 0.18 Hinzugefügte Gleitkommawerte für Brüche.	2
	min_samples_leaf min_samples_leaf: int oder float, default=1 Die Mindestanzahl von Stichproben, die an einem Blattknoten erforderlich sind. Ein Aufteilungspunkt in beliebiger Tiefe wird nur dann berücksichtigt, wenn er mindestens ``min_samples_leaf`` Trainingsstichproben in jedem der linken und rechten Zweige hinterlässt. Dies kann den Effekt haben, das Modell zu glätten, insbesondere bei der Regression. - Wenn int, dann betrachten Sie `min_samples_leaf` als die Mindestanzahl. - Wenn float, dann ist `min_samples_leaf` ein Bruchteil und `ceil(min_samples_leaf * n_samples)` sind die Mindestanzahl von Stichproben für jeden Knoten. .. versionchanged:: 0.18 Hinzugefügte Gleitkommawerte für Brüche.	1
	min_weight_fraction_leaf min_weight_fraction_leaf: float, Standard=0.0 Der minimale gewichtete Bruchteil der Gesamtsumme der Gewichte (aller Eingangsstichproben), der in einem Blattknoten erforderlich ist. Stichproben haben gleiches Gewicht, wenn sample_weight nicht angegeben ist.	0.0
	max_features max_features: {"sqrt", "log2", None}, int oder float, default="sqrt" Die Anzahl der Merkmale, die bei der Suche nach dem besten Split berücksichtigt werden: - Wenn int, dann betrachten Sie `max_features` Merkmale bei jedem Split. - Wenn float, dann ist `max_features` ein Bruchteil und `max(1, int(max_features * n_features_in_))` Merkmale werden bei jedem Split berücksichtigt. - Wenn "sqrt", dann `max_features=sqrt(n_features)`. - Wenn "log2", dann `max_features=log2(n_features)`. - Wenn None, dann `max_features=n_features`. .. versionchanged:: 1.1 Der Standardwert von `max_features` hat sich von `"auto"` zu `"sqrt"` geändert. Hinweis: Die Suche nach einem Split stoppt nicht, bis mindestens eine gültige Partition der Knoten-Stichproben gefunden wurde, selbst wenn dies erforderlich ist, mehr als ``max_features`` Merkmale zu inspizieren.	'sqrt'
	max_leaf_nodes max_leaf_nodes: int, Standard=None Wächst Bäume mit ``max_leaf_nodes`` im Best-First-Verfahren. Beste Knoten werden als relative Reduktion der Unreinheit definiert. Wenn None, dann unbegrenzte Anzahl von Blattknoten.	None
	min_impurity_decrease min_impurity_decrease: float, Standard=0.0 Ein Knoten wird geteilt, wenn diese Teilung eine Verringerung der Unreinheit von größer oder gleich diesem Wert bewirkt. Die Gleichung für die gewichtete Verringerung der Unreinheit lautet: N_t / N * (impurity - N_t_R / N_t * right_impurity - N_t_L / N_t * left_impurity) wobei ``N`` die Gesamtzahl der Stichproben, ``N_t`` die Anzahl der Stichproben am aktuellen Knoten, ``N_t_L`` die Anzahl der Stichproben im linken Kind und ``N_t_R`` die Anzahl der Stichproben im rechten Kind ist. ``N``, ``N_t``, ``N_t_R`` und ``N_t_L`` beziehen sich alle auf die gewichtete Summe, wenn ``sample_weight`` übergeben wird. .. versionadded:: 0.19	0.0
	bootstrap bootstrap: bool, default=True Ob Bootstrap-Stichproben beim Aufbau von Bäumen verwendet werden. Wenn False, wird der gesamte Datensatz zum Aufbau jedes Baumes verwendet.	True
	oob_score oob_score: bool oder aufrufbar, default=False Ob Out-of-Bag-Stichproben zur Schätzung des Generalisierungs-Scores verwendet werden. Standardmäßig wird :func:`~sklearn.metrics.accuracy_score` verwendet. Stellen Sie eine aufrufbare Funktion mit der Signatur `metric(y_true, y_pred)` bereit, um eine benutzerdefinierte Metrik zu verwenden. Nur verfügbar, wenn `bootstrap=True`. Zur Veranschaulichung der Out-of-Bag (OOB)-Fehlerschätzung siehe das Beispiel :ref:`sphx_glr_auto_examples_ensemble_plot_ensemble_oob.py`.	False
	n_jobs n_jobs: int, default=None Die Anzahl der parallel auszuführenden Jobs. :meth:`fit`, :meth:`predict`, :meth:`decision_path` und :meth:`apply` werden alle parallel über die Bäume ausgeführt. ``None`` bedeutet 1, es sei denn, Sie befinden sich in einem :obj:`joblib.parallel_backend` Kontext. ``-1`` bedeutet die Verwendung aller Prozessoren. Siehe :term:`Glossary ` für weitere Details.	None
	random_state random_state: int, RandomState-Instanz oder None, default=None Steuert sowohl die Zufälligkeit des Bootstrapping der Stichproben, die beim Aufbau von Bäumen verwendet werden (wenn ``bootstrap=True``), als auch die Stichprobenziehung der Merkmale, die bei der Suche nach dem besten Split in jedem Knoten berücksichtigt werden (wenn ``max_features < n_features``). Siehe :term:`Glossary ` für Details.	0
	verbose verbose: int, Standard=0 Steuert die Ausführlichkeit beim Anpassen und Vorhersagen.	0
	warm_start warm_start: bool, Standard=False Wenn auf ``True`` gesetzt, wird die Lösung des vorherigen Aufrufs von fit wiederverwendet und weitere Estimators zum Ensemble hinzugefügt, andernfalls wird nur ein ganz neuer Wald angepasst. Siehe :term:`Glossary ` und :ref:`tree_ensemble_warm_start` für Details.	False
	class_weight class_weight: {"balanced", "balanced_subsample"}, dict oder list von dicts, Standard=None Gewichte, die den Klassen zugeordnet sind in der Form ``{Klassenbezeichnung: Gewicht}``. Wenn nicht angegeben, wird angenommen, dass alle Klassen das Gewicht eins haben. Bei Multi-Output-Problemen kann eine Liste von Dictionaries in der gleichen Reihenfolge wie die Spalten von y angegeben werden. Beachten Sie, dass für Multi-Output (einschließlich Multilabel) Gewichte für jede Klasse jeder Spalte in einem eigenen Dict definiert werden sollten. Zum Beispiel sollten für eine Vier-Klassen-Multilabel-Klassifizierung die Gewichte [{0: 1, 1: 1}, {0: 1, 1: 5}, {0: 1, 1: 1}, {0: 1, 1: 1}] anstelle von [{1:1}, {2:5}, {3:1}, {4:1}] lauten. Der Modus "balanced" verwendet die Werte von y, um die Gewichte automatisch anzupassen, umgekehrt proportional zu den Klassen-Häufigkeiten in den Eingabedaten als ``n_samples / (n_classes * np.bincount(y))`` Der Modus "balanced_subsample" ist derselbe wie "balanced", mit der Ausnahme, dass die Gewichte basierend auf der Bootstrap-Stichprobe für jeden gezogenen Baum berechnet werden. Für Multi-Output werden die Gewichte jeder Spalte von y multipliziert. Beachten Sie, dass diese Gewichte mit sample_weight (über die fit-Methode übergeben) multipliziert werden, wenn sample_weight angegeben ist.	None
	ccp_alpha ccp_alpha: nicht-negative Gleitkommazahl, default=0.0 Komplexitätsparameter für Minimal Cost-Complexity Pruning. Der Teilbaum mit der größten Kostenkomplexität, die kleiner ist als ``ccp_alpha``, wird ausgewählt. Standardmäßig erfolgt kein Pruning. Siehe :ref:`minimal_cost_complexity_pruning` für Details. Siehe :ref:`sphx_glr_auto_examples_tree_plot_cost_complexity_pruning.py` für ein Beispiel für ein solches Pruning. .. versionadded:: 0.22	0.0
	max_samples max_samples: int oder float, default=None Wenn bootstrap True ist, die Anzahl der Stichproben, die aus X gezogen werden, um jeden Basisschätzer zu trainieren. - Wenn None (Standard), dann werden `X.shape[0]` Stichproben gezogen. - Wenn int, dann werden `max_samples` Stichproben gezogen. - Wenn float, dann werden `max(round(n_samples * max_samples), 1)` Stichproben gezogen. Daher sollte `max_samples` im Intervall `(0.0, 1.0]` liegen. .. versionadded:: 0.22	None
	monotonic_cst monotonic_cst: Array-ähnlich von int der Form (n_features), default=None Gibt die Monotonie-Beschränkung an, die für jedes Merkmal durchgesetzt werden soll. - 1: monoton steigend - 0: keine Beschränkung - -1: monoton fallend Wenn monotonic_cst None ist, werden keine Beschränkungen angewendet. Monotonie-Beschränkungen werden nicht unterstützt für: - Multiklassen-Klassifizierungen (d.h. wenn `n_classes > 2`), - Multi-Output-Klassifizierungen (d.h. wenn `n_outputs_ > 1`), - Klassifizierungen, die auf Daten mit fehlenden Werten trainiert wurden. Die Beschränkungen gelten für die Wahrscheinlichkeit der positiven Klasse. Lesen Sie mehr im :ref:`Benutzerhandbuch `. .. versionadded:: 1.4	None

Feature-Importanzen mit einem Wald von Bäumen#

Datengenerierung und Modellfitting#

Feature-Importanz basierend auf der mittleren Verringerung der Unreinheit#

Feature-Importanz basierend auf Permutation von Merkmalen#

Diese Seite