Hinweis

Zum Ende gehen, um den vollständigen Beispielcode herunterzuladen oder dieses Beispiel über JupyterLite oder Binder in Ihrem Browser auszuführen.

Permutations-Wichtigkeit im Vergleich zur Zufallswald-Feature-Wichtigkeit (MDI)#

In diesem Beispiel vergleichen wir die auf Verunreinigung basierende Feature-Wichtigkeit von RandomForestClassifier mit der Permutations-Wichtigkeit auf dem Titanic-Datensatz unter Verwendung von permutation_importance. Wir werden zeigen, dass die auf Verunreinigung basierende Feature-Wichtigkeit die Wichtigkeit numerischer Merkmale aufblähen kann.

Darüber hinaus leidet die auf Verunreinigung basierende Feature-Wichtigkeit von Zufallswäldern darunter, dass sie auf Statistiken berechnet wird, die aus dem Trainingsdatensatz abgeleitet sind: Die Wichtigkeiten können auch für Merkmale hoch sein, die das Zielvariable nicht vorhersagen, solange das Modell die Fähigkeit hat, sie zum Überanpassen zu nutzen.

Dieses Beispiel zeigt, wie Permutations-Wichtigkeiten als Alternative verwendet werden können, um diese Einschränkungen zu mildern.

Referenzen

L. Breiman, „Random Forests“, Machine Learning, 45(1), 5-32, 2001.

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

Daten laden und Feature Engineering#

Wir verwenden pandas, um eine Kopie des Titanic-Datensatzes zu laden. Das Folgende zeigt, wie separate Vorverarbeitung auf numerische und kategorische Merkmale angewendet wird.

Wir fügen zwei Zufallsvariablen hinzu, die keinerlei Korrelation mit der Zielvariable (survived) aufweisen.

random_num ist eine numerische Variable mit hoher Kardinalität (so viele eindeutige Werte wie Datensätze).
random_cat ist eine kategoriale Variable mit geringer Kardinalität (3 mögliche Werte).

import numpy as np

from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split

X, y = fetch_openml("titanic", version=1, as_frame=True, return_X_y=True)
rng = np.random.RandomState(seed=42)
X["random_cat"] = rng.randint(3, size=X.shape[0])
X["random_num"] = rng.randn(X.shape[0])

categorical_columns = ["pclass", "sex", "embarked", "random_cat"]
numerical_columns = ["age", "sibsp", "parch", "fare", "random_num"]

X = X[categorical_columns + numerical_columns]
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=42)

Wir definieren ein prädiktives Modell, das auf einem Zufallswald basiert. Daher werden wir die folgenden Vorverarbeitungsschritte durchführen:

Verwendung von OrdinalEncoder zur Kodierung der kategorialen Merkmale;
Verwendung von SimpleImputer zum Auffüllen fehlender Werte für numerische Merkmale mit einer Mittelwertstrategie.

from sklearn.compose import ColumnTransformer
from sklearn.ensemble import RandomForestClassifier
from sklearn.impute import SimpleImputer
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OrdinalEncoder

categorical_encoder = OrdinalEncoder(
    handle_unknown="use_encoded_value", unknown_value=-1, encoded_missing_value=-1
)
numerical_pipe = SimpleImputer(strategy="mean")

preprocessing = ColumnTransformer(
    [
        ("cat", categorical_encoder, categorical_columns),
        ("num", numerical_pipe, numerical_columns),
    ],
    verbose_feature_names_out=False,
)

rf = Pipeline(
    [
        ("preprocess", preprocessing),
        ("classifier", RandomForestClassifier(random_state=42)),
    ]
)
rf.fit(X_train, y_train)

Pipeline(steps=[('preprocess',
                 ColumnTransformer(transformers=[('cat',
                                                  OrdinalEncoder(encoded_missing_value=-1,
                                                                 handle_unknown='use_encoded_value',
                                                                 unknown_value=-1),
                                                  ['pclass', 'sex', 'embarked',
                                                   'random_cat']),
                                                 ('num', SimpleImputer(),
                                                  ['age', 'sibsp', 'parch',
                                                   'fare', 'random_num'])],
                                   verbose_feature_names_out=False)),
                ('classifier', RandomForestClassifier(random_state=42))])

In einer Jupyter-Umgebung führen Sie diese Zelle bitte erneut aus, um die HTML-Darstellung anzuzeigen, oder vertrauen Sie dem Notebook.
Auf GitHub kann die HTML-Darstellung nicht gerendert werden. Versuchen Sie bitte, diese Seite mit nbviewer.org zu laden.

Genauigkeit des Modells#

Bevor die Feature-Wichtigkeiten inspiziert werden, ist es wichtig zu prüfen, ob die prädiktive Leistung des Modells ausreichend hoch ist. Tatsächlich wäre es von geringem Interesse, die wichtigen Merkmale eines nicht-prädiktiven Modells zu inspizieren.

print(f"RF train accuracy: {rf.score(X_train, y_train):.3f}")
print(f"RF test accuracy: {rf.score(X_test, y_test):.3f}")

RF train accuracy: 1.000
RF test accuracy: 0.814

Hier kann man beobachten, dass die Trainingsgenauigkeit sehr hoch ist (der Wald-Modell hat genügend Kapazität, um den Trainingssatz vollständig zu merken), aber er kann dank der integrierten Bagging-Methode von Zufallswäldern immer noch gut auf den Testdatensatz generalisieren.

Es ist möglicherweise möglich, einige Genauigkeit auf dem Trainingssatz gegen eine etwas bessere Genauigkeit auf dem Testdatensatz einzutauschen, indem die Kapazität der Bäume begrenzt wird (z. B. durch Setzen von min_samples_leaf=5 oder min_samples_leaf=10), um Überanpassung zu begrenzen, ohne zu viel Unteranpassung einzuführen.

Wir behalten jedoch vorerst unser Zufallswaldmodell mit hoher Kapazität bei, um einige Tücken bei der Feature-Wichtigkeit für Variablen mit vielen eindeutigen Werten zu veranschaulichen.

Baum-Feature-Wichtigkeit aus mittlerer Verringerung der Verunreinigung (MDI)#

Die auf Verunreinigung basierende Feature-Wichtigkeit ordnet die numerischen Merkmale als die wichtigsten Merkmale ein. Infolgedessen wird die nicht-prädiktive Variable random_num als eines der wichtigsten Merkmale eingestuft!

Dieses Problem ergibt sich aus zwei Einschränkungen der auf Verunreinigung basierenden Feature-Wichtigkeiten:

auf Verunreinigung basierende Wichtigkeiten sind gegenüber Merkmalen mit hoher Kardinalität voreingenommen;
auf Verunreinigung basierende Wichtigkeiten werden auf Trainingssatz-Statistiken berechnet und spiegeln daher nicht die Fähigkeit eines Merkmals wider, nützlich für Vorhersagen zu sein, die auf den Testdatensatz generalisieren (wenn das Modell über genügend Kapazität verfügt).

Die Voreingenommenheit gegenüber Merkmalen mit hoher Kardinalität erklärt, warum random_num eine wirklich große Wichtigkeit im Vergleich zu random_cat hat, während wir erwarten würden, dass beide Zufallsmerkmale eine Null-Wichtigkeit haben.

Die Tatsache, dass wir Trainingssatz-Statistiken verwenden, erklärt, warum sowohl die Merkmale random_num als auch random_cat eine nicht-null Wichtigkeit aufweisen.

import pandas as pd

feature_names = rf[:-1].get_feature_names_out()

mdi_importances = pd.Series(
    rf[-1].feature_importances_, index=feature_names
).sort_values(ascending=True)

ax = mdi_importances.plot.barh()
ax.set_title("Random Forest Feature Importances (MDI)")
ax.figure.tight_layout()

Als Alternative werden die Permutations-Wichtigkeiten von rf auf einem zurückgehaltenen Testdatensatz berechnet. Dies zeigt, dass das kategoriale Merkmal mit geringer Kardinalität, sex und pclass, die wichtigsten Merkmale sind. Tatsächlich führt das Vertauschen der Werte dieser Merkmale zu der größten Verringerung der Genauigkeitsbewertung des Modells auf dem Testdatensatz.

Beachten Sie auch, dass beide Zufallsmerkmale sehr geringe Wichtigkeiten (nahe 0) haben, wie erwartet.

from sklearn.inspection import permutation_importance

result = permutation_importance(
    rf, X_test, y_test, n_repeats=10, random_state=42, n_jobs=2
)

sorted_importances_idx = result.importances_mean.argsort()
importances = pd.DataFrame(
    result.importances[sorted_importances_idx].T,
    columns=X.columns[sorted_importances_idx],
)
ax = importances.plot.box(vert=False, whis=10)
ax.set_title("Permutation Importances (test set)")
ax.axvline(x=0, color="k", linestyle="--")
ax.set_xlabel("Decrease in accuracy score")
ax.figure.tight_layout()

Es ist auch möglich, die Permutations-Wichtigkeiten auf dem Trainingsdatensatz zu berechnen. Dies zeigt, dass random_num und random_cat eine signifikant höhere Wichtigkeitsbewertung erhalten als wenn sie auf dem Testdatensatz berechnet werden. Der Unterschied zwischen diesen beiden Diagrammen ist eine Bestätigung dafür, dass das RF-Modell über genügend Kapazität verfügt, um diese zufälligen numerischen und kategorialen Merkmale zum Überanpassen zu nutzen.

result = permutation_importance(
    rf, X_train, y_train, n_repeats=10, random_state=42, n_jobs=2
)

sorted_importances_idx = result.importances_mean.argsort()
importances = pd.DataFrame(
    result.importances[sorted_importances_idx].T,
    columns=X.columns[sorted_importances_idx],
)
ax = importances.plot.box(vert=False, whis=10)
ax.set_title("Permutation Importances (train set)")
ax.axvline(x=0, color="k", linestyle="--")
ax.set_xlabel("Decrease in accuracy score")
ax.figure.tight_layout()

Wir können das Experiment erneut versuchen, indem wir die Kapazität der Bäume zum Überanpassen begrenzen, indem wir min_samples_leaf auf 20 Datenpunkte setzen.

rf.set_params(classifier__min_samples_leaf=20).fit(X_train, y_train)

Pipeline(steps=[('preprocess',
                 ColumnTransformer(transformers=[('cat',
                                                  OrdinalEncoder(encoded_missing_value=-1,
                                                                 handle_unknown='use_encoded_value',
                                                                 unknown_value=-1),
                                                  ['pclass', 'sex', 'embarked',
                                                   'random_cat']),
                                                 ('num', SimpleImputer(),
                                                  ['age', 'sibsp', 'parch',
                                                   'fare', 'random_num'])],
                                   verbose_feature_names_out=False)),
                ('classifier',
                 RandomForestClassifier(min_samples_leaf=20, random_state=42))])

In einer Jupyter-Umgebung führen Sie diese Zelle bitte erneut aus, um die HTML-Darstellung anzuzeigen, oder vertrauen Sie dem Notebook.
Auf GitHub kann die HTML-Darstellung nicht gerendert werden. Versuchen Sie bitte, diese Seite mit nbviewer.org zu laden.

Wenn wir die Genauigkeitsbewertung auf dem Trainings- und Testdatensatz betrachten, stellen wir fest, dass die beiden Metriken jetzt sehr ähnlich sind. Daher überanpasst unser Modell nicht mehr. Wir können dann die Permutations-Wichtigkeiten mit diesem neuen Modell überprüfen.

print(f"RF train accuracy: {rf.score(X_train, y_train):.3f}")
print(f"RF test accuracy: {rf.score(X_test, y_test):.3f}")

RF train accuracy: 0.810
RF test accuracy: 0.832

train_result = permutation_importance(
    rf, X_train, y_train, n_repeats=10, random_state=42, n_jobs=2
)
test_results = permutation_importance(
    rf, X_test, y_test, n_repeats=10, random_state=42, n_jobs=2
)
sorted_importances_idx = train_result.importances_mean.argsort()

train_importances = pd.DataFrame(
    train_result.importances[sorted_importances_idx].T,
    columns=X.columns[sorted_importances_idx],
)
test_importances = pd.DataFrame(
    test_results.importances[sorted_importances_idx].T,
    columns=X.columns[sorted_importances_idx],
)

for name, importances in zip(["train", "test"], [train_importances, test_importances]):
    ax = importances.plot.box(vert=False, whis=10)
    ax.set_title(f"Permutation Importances ({name} set)")
    ax.set_xlabel("Decrease in accuracy score")
    ax.axvline(x=0, color="k", linestyle="--")
    ax.figure.tight_layout()

Jetzt können wir beobachten, dass auf beiden Sätzen die Merkmale random_num und random_cat eine geringere Wichtigkeit haben als beim überanpassenden Zufallswald. Die Schlussfolgerungen bezüglich der Wichtigkeit der anderen Merkmale bleiben jedoch gültig.

Gesamtlaufzeit des Skripts: (0 Minuten 6,265 Sekunden)

Verwandte Beispiele

Merkmalswichtigkeiten mit einem Wald von Bäumen

Permutations-Wichtigkeit bei multikollinearen oder korrelierten Merkmalen

Release Highlights für scikit-learn 0.22

Gradient Boosting Regression

Galerie generiert von Sphinx-Gallery

	steps steps: list of tuples Liste von Tupeln (Name des Schritts, Schätzer), die in sequenzieller Reihenfolge verkettet werden sollen. Um mit der scikit-learn API kompatibel zu sein, müssen alle Schritte `fit` definieren. Alle nicht letzten Schritte müssen auch `transform` definieren. Siehe :ref:`Kombination von Schätzern ` für weitere Details.	[('preprocess', ...), ('classifier', ...)]
	transform_input transform_input: list of str, default=None Die Namen der :term:`Metadaten`-Parameter, die von der Pipeline transformiert werden sollen, bevor sie an den Schritt übergeben werden, der sie benötigt. Dies ermöglicht die Transformation einiger Eingabeparameter zu ``fit`` (außer ``X``), die von den Schritten der Pipeline bis zu dem Schritt transformiert werden, der sie benötigt. Die Anforderung wird über :ref:`Metadaten-Routing ` definiert. Dies kann beispielsweise verwendet werden, um einen Validierungsdatensatz durch die Pipeline zu leiten. Sie können dies nur festlegen, wenn das Metadaten-Routing aktiviert ist, was Sie mit ``sklearn.set_config(enable_metadata_routing=True)`` aktivieren können. .. versionadded:: 1.6	None
	memory memory: str oder Objekt mit der joblib.Memory-Schnittstelle, default=None Wird zum Zwischenspeichern der angepassten Transformer der Pipeline verwendet. Der letzte Schritt wird niemals zwischengespeichert, auch wenn es sich um einen Transformer handelt. Standardmäßig erfolgt keine Zwischenspeicherung. Wenn ein String angegeben wird, ist dies der Pfad zum Zwischenspeicherverzeichnis. Durch Aktivieren der Zwischenspeicherung wird eine Kopie der Transformer vor dem Anpassen ausgelöst. Daher kann die an die Pipeline übergebene Transformer-Instanz nicht direkt inspiziert werden. Verwenden Sie das Attribut `named_steps` oder `steps`, um Schätzer innerhalb der Pipeline zu inspizieren. Das Zwischenspeichern der Transformer ist vorteilhaft, wenn das Anpassen zeitaufwändig ist. Siehe :ref:`sphx_glr_auto_examples_neighbors_plot_caching_nearest_neighbors.py` für ein Beispiel zur Aktivierung der Zwischenspeicherung.	None
	verbose verbose: bool, default=False Wenn True, wird die verstrichene Zeit während des Anpassens jedes Schritts gedruckt, wenn es abgeschlossen ist.	False

	transformers transformers: list of tuples Liste von (name, transformer, columns) Tupeln, die die auf Teilmengen der Daten anzuwendenden Transformer-Objekte spezifizieren. name : str Wie in Pipeline und FeatureUnion erlaubt dies, den Transformer und seine Parameter mit ``set_params`` zu setzen und in der Gitter-Suche zu durchsuchen. transformer : {'drop', 'passthrough'} oder estimator Der Estimator muss :term:`fit` und :term:`transform` unterstützen. Spezielle Zeichenfolgen 'drop' und 'passthrough' werden ebenfalls akzeptiert, um anzugeben, dass die Spalten verworfen oder unverändert durchgelassen werden sollen. columns : str, array-ähnlich von str, int, array-ähnlich von int, array-ähnlich von bool, slice oder callable Indiziert die Daten in ihrer zweiten Achse. Ganzzahlen werden als positionsbezogene Spalten interpretiert, während Zeichenfolgen DataFrame-Spalten nach Namen referenzieren können. Eine skalare Zeichenfolge oder Ganzzahl sollte verwendet werden, wo ``transformer`` erwartet, dass X ein 1D-array-ähnliches (Vektor) ist, andernfalls wird ein 2D-Array an den Transformer übergeben. Ein callable wird mit den Eingangsdaten `X` aufgerufen und kann jedes der oben genannten zurückgeben. Um mehrere Spalten nach Namen oder dtype auszuwählen, können Sie :obj:`make_column_selector` verwenden.	[('cat', ...), ('num', ...)]
	remainder remainder: {'drop', 'passthrough'} oder Schätzer, default='drop' Standardmäßig werden nur die in `transformers` spezifizierten Spalten transformiert und im Ergebnis kombiniert, und die nicht spezifizierten Spalten werden verworfen. (Standard von ``'drop'``). Durch Angabe von ``remainder='passthrough'`` werden alle verbleibenden Spalten, die nicht in `transformers` spezifiziert, aber in den an `fit` übergebenen Daten vorhanden waren, automatisch durchgelassen. Diese Teilmenge von Spalten wird mit dem Ergebnis der Transformer verkettet. Für DataFrames werden zusätzliche Spalten, die während `fit` nicht gesehen wurden, aus dem Ergebnis von `transform` ausgeschlossen. Durch Setzen von ``remainder`` auf einen Schätzer verwenden die verbleibenden nicht spezifizierten Spalten den ``remainder``-Schätzer. Der Schätzer muss :term:`fit` und :term:`transform` unterstützen. Beachten Sie, dass die Verwendung dieser Funktion erfordert, dass die DataFrame-Spalten bei `fit` und `transform` die gleiche Reihenfolge haben.	'drop'
	sparse_threshold sparse_threshold: float, default=0.3 Wenn die Ausgabe der verschiedenen Transformer dünnbesetzte Matrizen enthält, werden diese als dünnbesetzte Matrix gestapelt, wenn die Gesamtdichte geringer ist als dieser Wert. Verwenden Sie ``sparse_threshold=0``, um immer dicht zu liefern. Wenn die transformierte Ausgabe nur dichte Daten enthält, wird das gestapelte Ergebnis dicht sein, und dieses Schlüsselwort wird ignoriert.	0.3
	n_jobs n_jobs: int, default=None Anzahl der parallel auszuführenden Jobs. ``None`` bedeutet 1, es sei denn, es befindet sich in einem :obj:`joblib.parallel_backend` Kontext. ``-1`` bedeutet, alle Prozessoren zu verwenden. Siehe :term:`Glossar ` für weitere Details.	None
	transformer_weights transformer_weights: dict, default=None Multiplikative Gewichte für Merkmale pro Transformer. Die Ausgabe des Transformers wird mit diesen Gewichten multipliziert. Schlüssel sind Transformer-Namen, Werte die Gewichte.	None
	verbose verbose: bool, default=False Wenn True, wird die verstrichene Zeit während des Anpassens jedes Transformators gedruckt, wenn er abgeschlossen ist.	False
	verbose_feature_names_out verbose_feature_names_out: bool, str oder Callable[[str, str], str], default=True - Wenn True, präfixiert :meth:`ColumnTransformer.get_feature_names_out` alle Feature-Namen mit dem Namen des Transformers, der dieses Feature generiert hat. Es entspricht dem Setzen von `verbose_feature_names_out="{transformer_name}__{feature_name}"`. - Wenn False, präfixiert :meth:`ColumnTransformer.get_feature_names_out` keine Feature-Namen und gibt einen Fehler aus, wenn Feature-Namen nicht eindeutig sind. - Wenn ``Callable[[str, str], str]``, benennt :meth:`ColumnTransformer.get_feature_names_out` alle Features mithilfe des Transformer-Namens um. Das erste Argument des Callables ist der Transformer-Name und das zweite Argument ist der Feature-Name. Die zurückgegebene Zeichenfolge ist der neue Feature-Name. - Wenn ``str``, muss es eine Zeichenfolge sein, die für die Formatierung bereit ist. Die gegebene Zeichenfolge wird mithilfe von zwei Feldnamen formatiert: ``transformer_name`` und ``feature_name``. z. B. ``"{feature_name}__{transformer_name}"``. Weitere Informationen finden Sie in der Methode :meth:`str.format` aus der Standardbibliothek. .. versionadded:: 1.0 .. versionchanged:: 1.6 `verbose_feature_names_out` kann ein callable oder eine zu formatierende Zeichenfolge sein.	False
	force_int_remainder_cols force_int_remainder_cols: bool, default=False Dieser Parameter hat keine Auswirkung. .. note:: Wenn Sie nicht auf die Liste der Spalten für die verbleibenden Spalten im ``transformers_`` angepassten Attribut zugreifen, müssen Sie diesen Parameter nicht setzen. .. versionadded:: 1.5 .. versionchanged:: 1.7 Der Standardwert für `force_int_remainder_cols` ändert sich von `True` auf `False` in Version 1.7. .. deprecated:: 1.7 `force_int_remainder_cols` ist veraltet und wird in Version 1.9 entfernt.	'deprecated'

	categories categories: 'auto' oder eine Liste von array-ähnlichen Objekten, default='auto' Kategorien (eindeutige Werte) pro Merkmal: - 'auto' : Kategorien werden automatisch aus den Trainingsdaten bestimmt. - Liste : ``categories[i]`` enthält die erwarteten Kategorien in der i-ten Spalte. Die übergebenen Kategorien sollten keine Strings und numerischen Werte mischen und sollten bei numerischen Werten sortiert sein. Die verwendeten Kategorien finden Sie im Attribut ``categories_``.	'auto'
	dtype dtype: numerischer Typ, default=np.float64 Gewünschter dtype der Ausgabe.	<class 'numpy.float64'>
	handle_unknown handle_unknown: {'error', 'use_encoded_value'}, default='error' Wenn auf 'error' gesetzt, wird ein Fehler ausgelöst, wenn während des Transforms eine unbekannte kategoriale Funktion vorhanden ist. Wenn auf 'use_encoded_value' gesetzt, wird der kodierte Wert unbekannter Kategorien auf den Wert gesetzt, der für den Parameter `unknown_value` angegeben wurde. Im :meth:`inverse_transform` wird eine unbekannte Kategorie als None dargestellt. .. versionadded:: 0.24	'use_encoded_value'
	unknown_value unknown_value: int oder np.nan, default=None Wenn der Parameter handle_unknown auf 'use_encoded_value' gesetzt ist, ist dieser Parameter erforderlich und setzt den kodierten Wert unbekannter Kategorien. Er muss sich von den Werten unterscheiden, die zum Kodieren von Kategorien in `fit` verwendet wurden. Wenn er auf np.nan gesetzt ist, muss der `dtype`-Parameter einen Fließkomma-dtype haben. .. versionadded:: 0.24	-1
	encoded_missing_value encoded_missing_value: int oder np.nan, default=np.nan Kodierter Wert für fehlende Kategorien. Wenn auf `np.nan` gesetzt, muss der `dtype`-Parameter einen Fließkomma-dtype haben. .. versionadded:: 1.1	-1
	min_frequency min_frequency: int oder float, default=None Gibt die Mindesthäufigkeit an, unterhalb derer eine Kategorie als wenig häufig gilt. - Wenn `int`, gelten Kategorien mit geringerer Kardinalität als wenig häufig. - Wenn `float`, gelten Kategorien mit geringerer Kardinalität als `min_frequency * n_samples` als wenig häufig. .. versionadded:: 1.3 Weiterlesen im :ref:`Benutzerhandbuch `.	None
	max_categories max_categories: int, default=None Gibt eine Obergrenze für die Anzahl der Ausgabekategorien für jedes Eingabemerkmal an, wenn wenig häufige Kategorien berücksichtigt werden. Wenn wenig häufige Kategorien vorhanden sind, enthält `max_categories` die Kategorie, die die wenig häufigen Kategorien repräsentiert, zusammen mit den häufigen Kategorien. Wenn `None`, gibt es keine Obergrenze für die Anzahl der Ausgabemerkmale. `max_categories` berücksichtigt keine fehlenden oder unbekannten Kategorien. Das Setzen von `unknown_value` oder `encoded_missing_value` auf eine Ganzzahl erhöht die Anzahl der eindeutigen Ganzzahlcodes um jeweils eins. Dies kann zu bis zu `max_categories + 2` Ganzzahlcodes führen. .. versionadded:: 1.3 Weiterlesen im :ref:`Benutzerhandbuch `.	None

	missing_values missing_values: int, float, str, np.nan, None oder pandas.NA, Standard=np.nan Der Platzhalter für die fehlenden Werte. Alle Vorkommen von `missing_values` werden imputiert. Für Pandas-DataFrames mit nullbaren Integer-Datentypen mit fehlenden Werten kann `missing_values` auf `np.nan` oder `pd.NA` gesetzt werden.	nan
	strategy strategy: str oder Callable, default='mean' Die Imputationsstrategie. - Wenn "mean", dann fehlende Werte mithilfe des Mittelwerts entlang jeder Spalte ersetzen. Kann nur mit numerischen Daten verwendet werden. - Wenn "median", dann fehlende Werte mithilfe des Medians entlang jeder Spalte ersetzen. Kann nur mit numerischen Daten verwendet werden. - Wenn "most_frequent", dann fehlende Werte mithilfe des häufigsten Wertes entlang jeder Spalte ersetzen. Kann mit Zeichenfolgen oder numerischen Daten verwendet werden. Wenn mehr als ein solcher Wert vorhanden ist, wird nur der kleinste zurückgegeben. - Wenn "constant", dann fehlende Werte mit fill_value ersetzen. Kann mit Zeichenfolgen oder numerischen Daten verwendet werden. - Wenn eine Instanz von Callable, dann fehlende Werte mithilfe der skalar-Statistik ersetzen, die durch Ausführen des Callables über ein dichtes 1D Array mit nicht fehlenden Werten jeder Spalte zurückgegeben wird. .. versionadded:: 0.20 strategy="constant" für feste Wert-Imputation. .. versionadded:: 1.5 strategy=callable für benutzerdefinierte Wert-Imputation.	'mean'
	fill_value fill_value: str oder numerischer Wert, Standard=None Wenn strategy == "constant", wird `fill_value` verwendet, um alle Vorkommen von missing_values zu ersetzen. Für Zeichenketten oder Objekt-Datentypen muss `fill_value` eine Zeichenkette sein. Wenn `None`, ist `fill_value` 0 bei der Imputation numerischer Daten und "missing_value" für Zeichenketten oder Objekt-Datentypen.	None
	copy copy: bool, Standard=True Wenn True, wird eine Kopie von X erstellt. Wenn False, wird die Imputation nach Möglichkeit direkt durchgeführt. Beachten Sie, dass in den folgenden Fällen immer eine neue Kopie erstellt wird, auch wenn `copy=False` - Wenn `X` kein Array von Fließkommawerten ist; - Wenn `X` als CSR-Matrix kodiert ist; - Wenn `add_indicator=True`.	True
	add_indicator add_indicator: bool, Standard=False Wenn True, wird ein :class:`MissingIndicator` Transform an die Ausgabe des Imputers angehängt. Dies ermöglicht einem prädiktiven Schätzer, Fehlwerte trotz Imputation zu berücksichtigen. Wenn ein Merkmal zur Fit-/Trainingszeit keine fehlenden Werte hat, erscheint das Merkmal nicht im Fehlwertindikator, auch wenn zur Transformations-/Testzeit fehlende Werte vorhanden sind.	False
	keep_empty_features keep_empty_features: bool, Standard=False Wenn True, werden Merkmale, die ausschließlich aus fehlenden Werten bestehen, wenn `fit` aufgerufen wird, in den Ergebnissen zurückgegeben, wenn `transform` aufgerufen wird. Der imputierte Wert ist immer `0`, außer wenn `strategy="constant"`, in diesem Fall wird stattdessen `fill_value` verwendet. .. versionadded:: 1.2	False

	n_estimators n_estimators: int, default=100 Die Anzahl der Bäume im Wald. .. versionchanged:: 0.22 Der Standardwert von ``n_estimators`` hat sich von 10 auf 100 in 0.22 geändert.	100
	criterion criterion: {"gini", "entropy", "log_loss"}, default="gini" Die Funktion zur Messung der Qualität eines Splits. Unterstützte Kriterien sind "gini" für die Gini-Unreinheit und "log_loss" und "entropy" sowohl für die Shannon-Informationsgewinnung, siehe :ref:`tree_mathematical_formulation`. Hinweis: Dieser Parameter ist baumspezifisch.	'gini'
	max_depth max_depth: int, default=None Die maximale Tiefe des Baumes. Wenn None, werden Knoten erweitert, bis alle Blätter rein sind oder bis alle Blätter weniger als min_samples_split Stichproben enthalten.	None
	min_samples_split min_samples_split: int oder float, default=2 Die Mindestanzahl von Stichproben, die für einen internen Knoten zum Aufteilen erforderlich sind: - Wenn int, dann betrachten Sie `min_samples_split` als die Mindestanzahl. - Wenn float, dann ist `min_samples_split` ein Bruchteil und `ceil(min_samples_split * n_samples)` sind die Mindestanzahl von Stichproben für jeden Split. .. versionchanged:: 0.18 Hinzugefügte Gleitkommawerte für Brüche.	2
	min_samples_leaf min_samples_leaf: int oder float, default=1 Die Mindestanzahl von Stichproben, die an einem Blattknoten erforderlich sind. Ein Aufteilungspunkt in beliebiger Tiefe wird nur dann berücksichtigt, wenn er mindestens ``min_samples_leaf`` Trainingsstichproben in jedem der linken und rechten Zweige hinterlässt. Dies kann den Effekt haben, das Modell zu glätten, insbesondere bei der Regression. - Wenn int, dann betrachten Sie `min_samples_leaf` als die Mindestanzahl. - Wenn float, dann ist `min_samples_leaf` ein Bruchteil und `ceil(min_samples_leaf * n_samples)` sind die Mindestanzahl von Stichproben für jeden Knoten. .. versionchanged:: 0.18 Hinzugefügte Gleitkommawerte für Brüche.	1
	min_weight_fraction_leaf min_weight_fraction_leaf: float, Standard=0.0 Der minimale gewichtete Bruchteil der Gesamtsumme der Gewichte (aller Eingangsstichproben), der in einem Blattknoten erforderlich ist. Stichproben haben gleiches Gewicht, wenn sample_weight nicht angegeben ist.	0.0
	max_features max_features: {"sqrt", "log2", None}, int oder float, default="sqrt" Die Anzahl der Merkmale, die bei der Suche nach dem besten Split berücksichtigt werden: - Wenn int, dann betrachten Sie `max_features` Merkmale bei jedem Split. - Wenn float, dann ist `max_features` ein Bruchteil und `max(1, int(max_features * n_features_in_))` Merkmale werden bei jedem Split berücksichtigt. - Wenn "sqrt", dann `max_features=sqrt(n_features)`. - Wenn "log2", dann `max_features=log2(n_features)`. - Wenn None, dann `max_features=n_features`. .. versionchanged:: 1.1 Der Standardwert von `max_features` hat sich von `"auto"` zu `"sqrt"` geändert. Hinweis: Die Suche nach einem Split stoppt nicht, bis mindestens eine gültige Partition der Knoten-Stichproben gefunden wurde, selbst wenn dies erforderlich ist, mehr als ``max_features`` Merkmale zu inspizieren.	'sqrt'
	max_leaf_nodes max_leaf_nodes: int, Standard=None Wächst Bäume mit ``max_leaf_nodes`` im Best-First-Verfahren. Beste Knoten werden als relative Reduktion der Unreinheit definiert. Wenn None, dann unbegrenzte Anzahl von Blattknoten.	None
	min_impurity_decrease min_impurity_decrease: float, Standard=0.0 Ein Knoten wird geteilt, wenn diese Teilung eine Verringerung der Unreinheit von größer oder gleich diesem Wert bewirkt. Die Gleichung für die gewichtete Verringerung der Unreinheit lautet: N_t / N * (impurity - N_t_R / N_t * right_impurity - N_t_L / N_t * left_impurity) wobei ``N`` die Gesamtzahl der Stichproben, ``N_t`` die Anzahl der Stichproben am aktuellen Knoten, ``N_t_L`` die Anzahl der Stichproben im linken Kind und ``N_t_R`` die Anzahl der Stichproben im rechten Kind ist. ``N``, ``N_t``, ``N_t_R`` und ``N_t_L`` beziehen sich alle auf die gewichtete Summe, wenn ``sample_weight`` übergeben wird. .. versionadded:: 0.19	0.0
	bootstrap bootstrap: bool, default=True Ob Bootstrap-Stichproben beim Aufbau von Bäumen verwendet werden. Wenn False, wird der gesamte Datensatz zum Aufbau jedes Baumes verwendet.	True
	oob_score oob_score: bool oder aufrufbar, default=False Ob Out-of-Bag-Stichproben zur Schätzung des Generalisierungs-Scores verwendet werden. Standardmäßig wird :func:`~sklearn.metrics.accuracy_score` verwendet. Stellen Sie eine aufrufbare Funktion mit der Signatur `metric(y_true, y_pred)` bereit, um eine benutzerdefinierte Metrik zu verwenden. Nur verfügbar, wenn `bootstrap=True`. Zur Veranschaulichung der Out-of-Bag (OOB)-Fehlerschätzung siehe das Beispiel :ref:`sphx_glr_auto_examples_ensemble_plot_ensemble_oob.py`.	False
	n_jobs n_jobs: int, default=None Die Anzahl der parallel auszuführenden Jobs. :meth:`fit`, :meth:`predict`, :meth:`decision_path` und :meth:`apply` werden alle parallel über die Bäume ausgeführt. ``None`` bedeutet 1, es sei denn, Sie befinden sich in einem :obj:`joblib.parallel_backend` Kontext. ``-1`` bedeutet die Verwendung aller Prozessoren. Siehe :term:`Glossary ` für weitere Details.	None
	random_state random_state: int, RandomState-Instanz oder None, default=None Steuert sowohl die Zufälligkeit des Bootstrapping der Stichproben, die beim Aufbau von Bäumen verwendet werden (wenn ``bootstrap=True``), als auch die Stichprobenziehung der Merkmale, die bei der Suche nach dem besten Split in jedem Knoten berücksichtigt werden (wenn ``max_features < n_features``). Siehe :term:`Glossary ` für Details.	42
	verbose verbose: int, Standard=0 Steuert die Ausführlichkeit beim Anpassen und Vorhersagen.	0
	warm_start warm_start: bool, Standard=False Wenn auf ``True`` gesetzt, wird die Lösung des vorherigen Aufrufs von fit wiederverwendet und weitere Estimators zum Ensemble hinzugefügt, andernfalls wird nur ein ganz neuer Wald angepasst. Siehe :term:`Glossary ` und :ref:`tree_ensemble_warm_start` für Details.	False
	class_weight class_weight: {"balanced", "balanced_subsample"}, dict oder list von dicts, default=None Gewichte, die Klassen zugeordnet sind in der Form ``{class_label: weight}``. Wenn nicht angegeben, wird angenommen, dass alle Klassen das Gewicht eins haben. Bei Multi-Output-Problemen kann eine Liste von Dictionaries in der gleichen Reihenfolge wie die Spalten von y angegeben werden. Beachten Sie, dass für Multi-Output (einschließlich Multi-Label) Gewichte für jede Klasse jeder Spalte in einem eigenen Dictionary definiert werden sollten. Zum Beispiel sollten für vier-Klassen-Multi-Label-Klassifizierungsgewichte [{0: 1, 1: 1}, {0: 1, 1: 5}, {0: 1, 1: 1}, {0: 1, 1: 1}] anstelle von [{1:1}, {2:5}, {3:1}, {4:1}] lauten. Der Modus "balanced" verwendet die Werte von y, um die Gewichte automatisch anzupassen, umgekehrt proportional zu den Klassen-Häufigkeiten in den Eingangsdaten als ``n_samples / (n_classes * np.bincount(y))``. Der Modus "balanced_subsample" ist derselbe wie "balanced", außer dass die Gewichte basierend auf der Bootstrap-Stichprobe für jeden gezogenen Baum berechnet werden. Für Multi-Output werden die Gewichte jeder Spalte von y multipliziert. Beachten Sie, dass diese Gewichte mit sample_weight (das über die fit-Methode übergeben wird) multipliziert werden, wenn sample_weight angegeben ist.	None
	ccp_alpha ccp_alpha: nicht-negative Gleitkommazahl, default=0.0 Komplexitätsparameter für Minimal Cost-Complexity Pruning. Der Teilbaum mit der größten Kostenkomplexität, die kleiner ist als ``ccp_alpha``, wird ausgewählt. Standardmäßig erfolgt kein Pruning. Siehe :ref:`minimal_cost_complexity_pruning` für Details. Siehe :ref:`sphx_glr_auto_examples_tree_plot_cost_complexity_pruning.py` für ein Beispiel für ein solches Pruning. .. versionadded:: 0.22	0.0
	max_samples max_samples: int oder float, default=None Wenn bootstrap True ist, die Anzahl der Stichproben, die aus X gezogen werden, um jeden Basisschätzer zu trainieren. - Wenn None (Standard), dann werden `X.shape[0]` Stichproben gezogen. - Wenn int, dann werden `max_samples` Stichproben gezogen. - Wenn float, dann werden `max(round(n_samples * max_samples), 1)` Stichproben gezogen. Daher sollte `max_samples` im Intervall `(0.0, 1.0]` liegen. .. versionadded:: 0.22	None
	monotonic_cst monotonic_cst: Array-ähnlich von int der Form (n_features), default=None Gibt die Monotonie-Beschränkung an, die für jedes Merkmal durchgesetzt werden soll. - 1: monoton steigend - 0: keine Beschränkung - -1: monoton fallend Wenn monotonic_cst None ist, werden keine Beschränkungen angewendet. Monotonie-Beschränkungen werden nicht unterstützt für: - Multiklassen-Klassifizierungen (d.h. wenn `n_classes > 2`), - Multi-Output-Klassifizierungen (d.h. wenn `n_outputs_ > 1`), - Klassifizierungen, die auf Daten mit fehlenden Werten trainiert wurden. Die Beschränkungen gelten für die Wahrscheinlichkeit der positiven Klasse. Lesen Sie mehr im :ref:`Benutzerhandbuch `. .. versionadded:: 1.4	None

Permutations-Wichtigkeit im Vergleich zur Zufallswald-Feature-Wichtigkeit (MDI)#

Daten laden und Feature Engineering#

Genauigkeit des Modells#

Baum-Feature-Wichtigkeit aus mittlerer Verringerung der Verunreinigung (MDI)#

Diese Seite