Hinweis

Zum Ende springen, um den vollständigen Beispielcode herunterzuladen oder dieses Beispiel über JupyterLite oder Binder in Ihrem Browser auszuführen.

Partial Dependence und Individual Conditional Expectation Plots#

Partial-Dependenz-Plots zeigen die Abhängigkeit zwischen der Ziel-Funktion [2] und einer Menge von Merkmalen von Interesse, wobei über die Werte aller anderen Merkmale (der Komplementärmerkmale) marginalisiert wird. Aufgrund der Grenzen der menschlichen Wahrnehmung muss die Größe der Menge der Merkmale von Interesse klein sein (normalerweise eins oder zwei), daher werden sie normalerweise unter den wichtigsten Merkmalen ausgewählt.

Ähnlich zeigt ein Individual Conditional Expectation (ICE) Plot [3] die Abhängigkeit zwischen der Ziel-Funktion und einem Merkmal von Interesse. Im Gegensatz zu Partial-Dependenz-Plots, die den durchschnittlichen Effekt der Merkmale von Interesse zeigen, visualisieren ICE-Plots die Abhängigkeit der Vorhersage von einem Merkmal für jede Stichprobe separat, mit einer Linie pro Stichprobe. Nur ein Merkmal von Interesse wird für ICE-Plots unterstützt.

Dieses Beispiel zeigt, wie Partial-Dependenz- und ICE-Plots von einem MLPRegressor und einem HistGradientBoostingRegressor, trainiert auf dem Bike-Sharing-Datensatz, erhalten werden können. Das Beispiel ist inspiriert von [1].

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

1-Wege-Partial-Dependenz mit verschiedenen Modellen#

In diesem Abschnitt berechnen wir 1-Wege-Partial-Dependenz mit zwei verschiedenen Machine-Learning-Modellen: (i) einem Multi-Layer-Perzeptron und (ii) einem Gradient-Boosting-Modell. Mit diesen beiden Modellen veranschaulichen wir, wie sowohl Partial-Dependenz-Plots (PDP) für numerische und kategoriale Merkmale als auch Individual Conditional Expectation (ICE) berechnet und interpretiert werden.

Multi-Layer-Perzeptron#

Lassen Sie uns einen MLPRegressor anpassen und ein-dimensionale Partial-Dependenz-Plots berechnen.

from time import time

from sklearn.neural_network import MLPRegressor
from sklearn.pipeline import make_pipeline

print("Training MLPRegressor...")
tic = time()
mlp_model = make_pipeline(
    mlp_preprocessor,
    MLPRegressor(
        hidden_layer_sizes=(30, 15),
        learning_rate_init=0.01,
        early_stopping=True,
        random_state=0,
    ),
)
mlp_model.fit(X_train, y_train)
print(f"done in {time() - tic:.3f}s")
print(f"Test R2 score: {mlp_model.score(X_test, y_test):.2f}")

Training MLPRegressor...
done in 0.563s
Test R2 score: 0.61

Wir haben eine Pipeline mit dem speziell für das neuronale Netzwerk erstellten Vorverarbeiter konfiguriert und die Größe des neuronalen Netzwerks sowie die Lernrate abgestimmt, um einen angemessenen Kompromiss zwischen Trainingszeit und Vorhersageleistung auf einem Testdatensatz zu erzielen.

Wichtig ist, dass dieser tabellarische Datensatz sehr unterschiedliche dynamische Bereiche für seine Merkmale aufweist. Neuronale Netzwerke sind tendenziell sehr empfindlich gegenüber Merkmalen mit unterschiedlichen Skalen, und das Vergessen der Vorverarbeitung des numerischen Merkmals würde zu einem sehr schlechten Modell führen.

Es wäre möglich, mit einem größeren neuronalen Netzwerk eine noch höhere Vorhersageleistung zu erzielen, aber das Training wäre auch erheblich teurer.

Beachten Sie, dass es wichtig ist zu überprüfen, ob das Modell auf einem Testdatensatz genau genug ist, bevor der Partial-Dependenz-Plot erstellt wird, da es wenig Sinn hätte, die Auswirkung eines bestimmten Merkmals auf die Vorhersagefunktion eines Modells mit schlechter Vorhersageleistung zu erklären. In dieser Hinsicht funktioniert unser MLP-Modell recht gut.

Wir werden die gemittelte Partial-Dependenz plotten.

import matplotlib.pyplot as plt

from sklearn.inspection import PartialDependenceDisplay

common_params = {
    "subsample": 50,
    "n_jobs": 2,
    "grid_resolution": 20,
    "random_state": 0,
}

print("Computing partial dependence plots...")
features_info = {
    # features of interest
    "features": ["temp", "humidity", "windspeed", "season", "weather", "hour"],
    # type of partial dependence plot
    "kind": "average",
    # information regarding categorical features
    "categorical_features": categorical_features,
}
tic = time()
_, ax = plt.subplots(ncols=3, nrows=2, figsize=(9, 8), constrained_layout=True)
display = PartialDependenceDisplay.from_estimator(
    mlp_model,
    X_train,
    **features_info,
    ax=ax,
    **common_params,
)
print(f"done in {time() - tic:.3f}s")
_ = display.figure_.suptitle(
    (
        "Partial dependence of the number of bike rentals\n"
        "for the bike rental dataset with an MLPRegressor"
    ),
    fontsize=16,
)

Partial dependence of the number of bike rentals for the bike rental dataset with an MLPRegressor

Computing partial dependence plots...
done in 0.468s

Gradient Boosting#

Lassen Sie uns nun einen HistGradientBoostingRegressor anpassen und die Partial-Dependenz für dieselben Merkmale berechnen. Wir verwenden auch den spezifischen Vorverarbeiter, den wir für dieses Modell erstellt haben.

from sklearn.ensemble import HistGradientBoostingRegressor

print("Training HistGradientBoostingRegressor...")
tic = time()
hgbdt_model = make_pipeline(
    hgbdt_preprocessor,
    HistGradientBoostingRegressor(
        categorical_features=categorical_features,
        random_state=0,
        max_iter=50,
    ),
)
hgbdt_model.fit(X_train, y_train)
print(f"done in {time() - tic:.3f}s")
print(f"Test R2 score: {hgbdt_model.score(X_test, y_test):.2f}")

Training HistGradientBoostingRegressor...
done in 0.111s
Test R2 score: 0.62

Hier haben wir die Standardhyperparameter für das Gradient-Boosting-Modell ohne Vorverarbeitung verwendet, da baumbasierte Modelle von monotonen Transformationen numerischer Merkmale natürlich robust sind.

Beachten Sie, dass auf diesem tabellarischen Datensatz Gradient Boosting Machines sowohl signifikant schneller zu trainieren als auch genauer als neuronale Netzwerke sind. Außerdem ist es signifikant kostengünstiger, ihre Hyperparameter abzustimmen (die Standardwerte funktionieren tendenziell gut, was bei neuronalen Netzwerken oft nicht der Fall ist).

Wir werden die Partial-Dependenz für einige der numerischen und kategorialen Merkmale plotten.

print("Computing partial dependence plots...")
tic = time()
_, ax = plt.subplots(ncols=3, nrows=2, figsize=(9, 8), constrained_layout=True)
display = PartialDependenceDisplay.from_estimator(
    hgbdt_model,
    X_train,
    **features_info,
    ax=ax,
    **common_params,
)
print(f"done in {time() - tic:.3f}s")
_ = display.figure_.suptitle(
    (
        "Partial dependence of the number of bike rentals\n"
        "for the bike rental dataset with a gradient boosting"
    ),
    fontsize=16,
)

Partial dependence of the number of bike rentals for the bike rental dataset with a gradient boosting

Computing partial dependence plots...
done in 0.948s

Analyse der Plots#

Wir betrachten zunächst die PDPs für die numerischen Merkmale. Für beide Modelle zeigt der allgemeine Trend der PDP der Temperatur, dass die Anzahl der Fahrradausleihen mit der Temperatur zunimmt. Wir können eine ähnliche Analyse mit entgegengesetztem Trend für die Luftfeuchtigkeitsmerkmale durchführen. Die Anzahl der Fahrradausleihen nimmt mit zunehmender Luftfeuchtigkeit ab. Schließlich sehen wir denselben Trend für das Merkmal Windgeschwindigkeit. Die Anzahl der Fahrradausleihen nimmt mit zunehmender Windgeschwindigkeit für beide Modelle ab. Wir beobachten auch, dass der MLPRegressor viel glattere Vorhersagen hat als der HistGradientBoostingRegressor.

Nun betrachten wir die Partial-Dependenz-Plots für die kategorialen Merkmale.

Wir beobachten, dass die Frühlingssaison die niedrigste Balken für das Merkmal Saison ist. Beim Merkmal Wetter ist die Kategorie Regen der niedrigste Balken. Bezüglich der Stunde sehen wir zwei Spitzen um 7 Uhr morgens und 18 Uhr abends. Diese Ergebnisse stehen im Einklang mit den früheren Beobachtungen zum Datensatz.

Es ist jedoch erwähnenswert, dass wir potenziell bedeutunglose synthetische Stichproben erstellen, wenn Merkmale korreliert sind.

ICE vs. PDP#

PDP ist ein Durchschnitt der marginalen Effekte der Merkmale. Wir mitteln die Antwort aller Stichproben der bereitgestellten Menge. Daher könnten einige Effekte verborgen bleiben. In diesem Sinne ist es möglich, jede einzelne Antwort zu plotten. Diese Darstellung wird als Individual Effect Plot (ICE) bezeichnet. Im folgenden Plot zeigen wir 50 zufällig ausgewählte ICEs für die Merkmale Temperatur und Luftfeuchtigkeit.

print("Computing partial dependence plots and individual conditional expectation...")
tic = time()
_, ax = plt.subplots(ncols=2, figsize=(6, 4), sharey=True, constrained_layout=True)

features_info = {
    "features": ["temp", "humidity"],
    "kind": "both",
    "centered": True,
}

display = PartialDependenceDisplay.from_estimator(
    hgbdt_model,
    X_train,
    **features_info,
    ax=ax,
    **common_params,
)
print(f"done in {time() - tic:.3f}s")
_ = display.figure_.suptitle("ICE and PDP representations", fontsize=16)

Computing partial dependence plots and individual conditional expectation...
done in 0.394s

Wir sehen, dass der ICE für das Merkmal Temperatur zusätzliche Informationen liefert: Einige der ICE-Linien sind flach, während andere einen Rückgang der Abhängigkeit für Temperaturen über 35 Grad Celsius zeigen. Wir beobachten ein ähnliches Muster für das Merkmal Luftfeuchtigkeit: Einige der ICE-Linien zeigen einen starken Rückgang, wenn die Luftfeuchtigkeit über 80 % liegt.

Nicht alle ICE-Linien sind parallel, was darauf hindeutet, dass das Modell Interaktionen zwischen den Merkmalen findet. Wir können das Experiment wiederholen, indem wir das Gradient-Boosting-Modell so einschränken, dass es keine Interaktionen zwischen den Merkmalen verwendet, indem wir den Parameter interaction_cst verwenden.

from sklearn.base import clone

interaction_cst = [[i] for i in range(X_train.shape[1])]
hgbdt_model_without_interactions = (
    clone(hgbdt_model)
    .set_params(histgradientboostingregressor__interaction_cst=interaction_cst)
    .fit(X_train, y_train)
)
print(f"Test R2 score: {hgbdt_model_without_interactions.score(X_test, y_test):.2f}")

Test R2 score: 0.38

_, ax = plt.subplots(ncols=2, figsize=(6, 4), sharey=True, constrained_layout=True)

features_info["centered"] = False
display = PartialDependenceDisplay.from_estimator(
    hgbdt_model_without_interactions,
    X_train,
    **features_info,
    ax=ax,
    **common_params,
)
_ = display.figure_.suptitle("ICE and PDP representations", fontsize=16)

2D-Interaktionsplots#

PDPs mit zwei Merkmalen von Interesse ermöglichen es uns, Interaktionen zwischen ihnen zu visualisieren. ICEs können jedoch nicht auf einfache Weise geplottet und somit interpretiert werden. Wir zeigen die in from_estimator verfügbare Darstellung, ein 2D-Heatmap.

print("Computing partial dependence plots...")
features_info = {
    "features": ["temp", "humidity", ("temp", "humidity")],
    "kind": "average",
}
_, ax = plt.subplots(ncols=3, figsize=(10, 4), constrained_layout=True)
tic = time()
display = PartialDependenceDisplay.from_estimator(
    hgbdt_model,
    X_train,
    **features_info,
    ax=ax,
    **common_params,
)
print(f"done in {time() - tic:.3f}s")
_ = display.figure_.suptitle(
    "1-way vs 2-way of numerical PDP using gradient boosting", fontsize=16
)

1-way vs 2-way of numerical PDP using gradient boosting

Computing partial dependence plots...
done in 6.743s

Der Zwei-Wege-Partial-Dependenz-Plot zeigt die Abhängigkeit der Anzahl der Fahrradausleihen von gemeinsamen Werten für Temperatur und Luftfeuchtigkeit. Wir sehen deutlich eine Interaktion zwischen den beiden Merkmalen. Bei einer Temperatur über 20 Grad Celsius scheint die Luftfeuchtigkeit die Anzahl der Fahrradausleihen zu beeinflussen, was unabhängig von der Temperatur zu sein scheint.

Andererseits beeinflussen bei Temperaturen unter 20 Grad Celsius sowohl die Temperatur als auch die Luftfeuchtigkeit kontinuierlich die Anzahl der Fahrradausleihen.

Darüber hinaus hängt die Steigung des Einflusses des 20-Grad-Celsius-Schwellenwerts stark von der Luftfeuchtigkeit ab: Die Steigung ist unter trockenen Bedingungen stark, unter feuchteren Bedingungen über 70 % Luftfeuchtigkeit jedoch viel sanfter.

Wir kontrastieren diese Ergebnisse nun mit denselben Plots, die für das Modell berechnet wurden, das darauf beschränkt ist, eine Vorhersagefunktion zu lernen, die nicht von solchen nicht-linearen Merkmalsinteraktionen abhängt.

print("Computing partial dependence plots...")
features_info = {
    "features": ["temp", "humidity", ("temp", "humidity")],
    "kind": "average",
}
_, ax = plt.subplots(ncols=3, figsize=(10, 4), constrained_layout=True)
tic = time()
display = PartialDependenceDisplay.from_estimator(
    hgbdt_model_without_interactions,
    X_train,
    **features_info,
    ax=ax,
    **common_params,
)
print(f"done in {time() - tic:.3f}s")
_ = display.figure_.suptitle(
    "1-way vs 2-way of numerical PDP using gradient boosting", fontsize=16
)

Computing partial dependence plots...
done in 6.157s

Die 1D-Partial-Dependenz-Plots für das Modell, das darauf beschränkt ist, keine Merkmalsinteraktionen zu modellieren, zeigen lokale Spitzen für jedes Merkmal einzeln, insbesondere für das Merkmal "Luftfeuchtigkeit". Diese Spitzen spiegeln möglicherweise ein verschlechtertes Verhalten des Modells wider, das versucht, die verbotenen Interaktionen irgendwie zu kompensieren, indem es bestimmte Trainingspunkte übermäßig anpasst. Beachten Sie, dass die Vorhersageleistung dieses Modells, gemessen auf dem Testdatensatz, signifikant schlechter ist als die des ursprünglichen, unbeschränkten Modells.

Beachten Sie auch, dass die Anzahl der sichtbaren lokalen Spitzen in diesen Plots von der Gitterauflösungsparameter des PD-Plots selbst abhängt.

Diese lokalen Spitzen führen zu einem verrauschten 2D-PD-Plot. Es ist ziemlich schwierig zu sagen, ob zwischen diesen Merkmalen keine Interaktion besteht, da die hochfrequenten Oszillationen im Merkmal Luftfeuchtigkeit vorhanden sind. Es ist jedoch deutlich zu sehen, dass der einfache Interaktionseffekt, der beobachtet wird, wenn die Temperatur die 20-Grad-Grenze überschreitet, für dieses Modell nicht mehr sichtbar ist.

Die partielle Abhängigkeit zwischen kategorialen Merkmalen liefert eine diskrete Darstellung, die als Heatmap dargestellt werden kann. Zum Beispiel wäre die Interaktion zwischen der Saison, dem Wetter und dem Ziel wie folgt

print("Computing partial dependence plots...")
features_info = {
    "features": ["season", "weather", ("season", "weather")],
    "kind": "average",
    "categorical_features": categorical_features,
}
_, ax = plt.subplots(ncols=3, figsize=(14, 6), constrained_layout=True)
tic = time()
display = PartialDependenceDisplay.from_estimator(
    hgbdt_model,
    X_train,
    **features_info,
    ax=ax,
    **common_params,
)

print(f"done in {time() - tic:.3f}s")
_ = display.figure_.suptitle(
    "1-way vs 2-way PDP of categorical features using gradient boosting", fontsize=16
)

1-way vs 2-way PDP of categorical features using gradient boosting

Computing partial dependence plots...
done in 0.331s

3D-Darstellung#

Machen wir denselben Partial-Dependenz-Plot für die 2-Merkmals-Interaktion, diesmal in 3 Dimensionen.

# unused but required import for doing 3d projections with matplotlib < 3.2
import mpl_toolkits.mplot3d  # noqa: F401
import numpy as np

from sklearn.inspection import partial_dependence

fig = plt.figure(figsize=(5.5, 5))

features = ("temp", "humidity")
pdp = partial_dependence(
    hgbdt_model, X_train, features=features, kind="average", grid_resolution=10
)
XX, YY = np.meshgrid(pdp["grid_values"][0], pdp["grid_values"][1])
Z = pdp.average[0].T
ax = fig.add_subplot(projection="3d")
fig.add_axes(ax)

surf = ax.plot_surface(XX, YY, Z, rstride=1, cstride=1, cmap=plt.cm.BuPu, edgecolor="k")
ax.set_xlabel(features[0])
ax.set_ylabel(features[1])
fig.suptitle(
    "PD of number of bike rentals on\nthe temperature and humidity GBDT model",
    fontsize=16,
)
# pretty init view
ax.view_init(elev=22, azim=122)
clb = plt.colorbar(surf, pad=0.08, shrink=0.6, aspect=10)
clb.ax.set_title("Partial\ndependence")
plt.show()

PD of number of bike rentals on the temperature and humidity GBDT model, Partial dependence

Benutzerdefinierte Inspektionpunkte#

In keinem der bisherigen Beispiele wird spezifiziert, _welche_ Punkte zur Erstellung der Partial-Dependenz-Plots ausgewertet werden. Standardmäßig verwenden wir Perzentile, die durch den Eingabedatensatz definiert sind. In einigen Fällen kann es hilfreich sein, die genauen Punkte anzugeben, an denen das Modell ausgewertet werden soll. Beispielsweise wenn ein Benutzer das Modellverhalten bei Out-of-Distribution-Daten testen oder zwei Modelle vergleichen möchte, die auf leicht unterschiedlichen Daten angepasst wurden. Der Parameter custom_values ermöglicht es dem Benutzer, die Werte anzugeben, auf denen das Modell ausgewertet werden soll. Dies überschreibt die Parameter grid_resolution und percentiles. Kehren wir zu unserem obigen Gradient-Boosting-Beispiel zurück, aber mit benutzerdefinierten Werten.

print("Computing partial dependence plots with custom evaluation values...")
tic = time()
_, ax = plt.subplots(ncols=2, figsize=(6, 4), sharey=True, constrained_layout=True)

features_info = {
    "features": ["temp", "humidity"],
    "kind": "both",
}

display = PartialDependenceDisplay.from_estimator(
    hgbdt_model,
    X_train,
    **features_info,
    ax=ax,
    **common_params,
    # we set custom values for temp feature -
    # all other features are evaluated based on the data
    custom_values={"temp": np.linspace(0, 40, 10)},
)
print(f"done in {time() - tic:.3f}s")
_ = display.figure_.suptitle(
    (
        "Partial dependence of the number of bike rentals\n"
        "for the bike rental dataset with a gradient boosting"
    ),
    fontsize=16,
)

Computing partial dependence plots with custom evaluation values...
done in 0.403s

Gesamtlaufzeit des Skripts: (0 Minuten 20,237 Sekunden)

Verwandte Beispiele

Fortgeschrittene Plotting mit Partial Dependence

Zeitbezogene Merkmalskonstruktion

Release Highlights für scikit-learn 0.24

Release Highlights für scikit-learn 1.2

Galerie generiert von Sphinx-Gallery

	transformers transformers: list of tuples Liste von (name, transformer, columns)-Tupeln, die die auf Teilmengen der Daten anzuwendenden Transformer-Objekte spezifizieren. name : str Wie in Pipeline und FeatureUnion ermöglicht dies das Setzen des Transformers und seiner Parameter über ``set_params`` und die Suche in der Grid-Suche. transformer : {'drop', 'passthrough'} oder Estimator Estimator muss :term:`fit` und :term:`transform` unterstützen. Spezielle Zeichenketten 'drop' und 'passthrough' werden ebenfalls akzeptiert, um die Spalten zu verwerfen bzw. unverändert durchzulassen. columns : str, array-like von str, int, array-like von int, array-like von bool, slice oder callable Indiziert die Daten auf ihrer zweiten Achse. Ganze Zahlen werden als Positionsspalten interpretiert, während Zeichenketten DataFrame-Spalten nach Namen referenzieren können. Eine skalare Zeichenkette oder Ganzzahl sollte verwendet werden, wenn ``transformer`` X als eindimensionales Array (Vektor) erwartet, andernfalls wird ein 2D-Array an den Transformer übergeben. Ein Callable wird mit den Eingabedaten `X` aufgerufen und kann beliebige der oben genannten Werte zurückgeben. Um mehrere Spalten nach Name oder dtype auszuwählen, können Sie :obj:`make_column_selector` verwenden.	[('num', ...), ('cat', ...)]
	remainder remainder: {'drop', 'passthrough'} oder Schätzer, default='drop' Standardmäßig werden nur die in `transformers` spezifizierten Spalten transformiert und im Ergebnis kombiniert, und die nicht spezifizierten Spalten werden verworfen. (Standard von ``'drop'``). Durch Angabe von ``remainder='passthrough'`` werden alle verbleibenden Spalten, die nicht in `transformers` spezifiziert, aber in den an `fit` übergebenen Daten vorhanden waren, automatisch durchgelassen. Diese Teilmenge von Spalten wird mit dem Ergebnis der Transformer verkettet. Für DataFrames werden zusätzliche Spalten, die während `fit` nicht gesehen wurden, aus dem Ergebnis von `transform` ausgeschlossen. Durch Setzen von ``remainder`` auf einen Schätzer verwenden die verbleibenden nicht spezifizierten Spalten den ``remainder``-Schätzer. Der Schätzer muss :term:`fit` und :term:`transform` unterstützen. Beachten Sie, dass die Verwendung dieser Funktion erfordert, dass die DataFrame-Spalten bei `fit` und `transform` die gleiche Reihenfolge haben.	'drop'
	sparse_threshold sparse_threshold: float, default=0.3 Wenn die Ausgabe der verschiedenen Transformer dünnbesetzte Matrizen enthält, werden diese als dünnbesetzte Matrix gestapelt, wenn die Gesamtdichte geringer ist als dieser Wert. Verwenden Sie ``sparse_threshold=0``, um immer dicht zu liefern. Wenn die transformierte Ausgabe nur dichte Daten enthält, wird das gestapelte Ergebnis dicht sein, und dieses Schlüsselwort wird ignoriert.	0.3
	n_jobs n_jobs: int, default=None Anzahl der parallel auszuführenden Jobs. ``None`` bedeutet 1, es sei denn, es befindet sich in einem :obj:`joblib.parallel_backend` Kontext. ``-1`` bedeutet, alle Prozessoren zu verwenden. Siehe :term:`Glossar ` für weitere Details.	None
	transformer_weights transformer_weights: dict, default=None Multiplikative Gewichte für Merkmale pro Transformer. Die Ausgabe des Transformers wird mit diesen Gewichten multipliziert. Schlüssel sind Transformer-Namen, Werte die Gewichte.	None
	verbose verbose: bool, default=False Wenn True, wird die verstrichene Zeit während des Anpassens jedes Transformators gedruckt, wenn er abgeschlossen ist.	False
	verbose_feature_names_out verbose_feature_names_out: bool, str oder Callable[[str, str], str], default=True - Wenn True, präfiziert :meth:`ColumnTransformer.get_feature_names_out` alle Feature-Namen mit dem Namen des Transformers, der dieses Feature generiert hat. Das ist äquivalent zu `verbose_feature_names_out="{transformer_name}__{feature_name}"`. - Wenn False, präfiziert :meth:`ColumnTransformer.get_feature_names_out` keine Feature-Namen und gibt einen Fehler aus, wenn die Feature-Namen nicht eindeutig sind. - Wenn ``Callable[[str, str], str]``, benennt :meth:`ColumnTransformer.get_feature_names_out` alle Features mit dem Namen des Transformers um. Das erste Argument des Callables ist der Transformer-Name und das zweite Argument ist der Feature-Name. Die zurückgegebene Zeichenkette wird der neue Feature-Name sein. - Wenn ``str``, muss es eine Zeichenkette sein, die für die Formatierung bereit ist. Die gegebene Zeichenkette wird mit zwei Feldnamen formatiert: ``transformer_name`` und ``feature_name``. z.B. ``"{feature_name}__{transformer_name}"``. Siehe :meth:`str.format` Methode aus der Standardbibliothek für weitere Informationen. .. versionadded:: 1.0 .. versionchanged:: 1.6 `verbose_feature_names_out` kann ein Callable oder eine zu formatierende Zeichenkette sein.	True
	force_int_remainder_cols force_int_remainder_cols: bool, default=False Dieser Parameter hat keine Auswirkung. .. note:: Wenn Sie nicht auf die Liste der Spalten für die verbleibenden Spalten im ``transformers_`` angepassten Attribut zugreifen, müssen Sie diesen Parameter nicht setzen. .. versionadded:: 1.5 .. versionchanged:: 1.7 Der Standardwert für `force_int_remainder_cols` ändert sich von `True` auf `False` in Version 1.7. .. deprecated:: 1.7 `force_int_remainder_cols` ist veraltet und wird in Version 1.9 entfernt.	'deprecated'

	n_quantiles n_quantiles: int, default=1000 oder n_samples Anzahl der zu berechnenden Quantile. Dies entspricht der Anzahl der zur Diskretisierung der Verteilungsfunktion verwendeten Punkte. Wenn n_quantiles größer als die Anzahl der Stichproben ist, wird n_quantiles auf die Anzahl der Stichproben gesetzt, da eine größere Anzahl von Quantilen keine bessere Annäherung an den Schätzer der Verteilungsfunktion liefert.	100
	output_distribution output_distribution: {'uniform', 'normal'}, default='uniform' Marginale Verteilung für die transformierten Daten. Die Auswahlmöglichkeiten sind 'uniform' (Standard) oder 'normal'.	'uniform'
	ignore_implicit_zeros ignore_implicit_zeros: bool, default=False Gilt nur für spärliche Matrizen. Wenn True, werden die spärlichen Einträge der Matrix verworfen, um die Quantilstatistiken zu berechnen. Wenn False, werden diese Einträge als Nullen behandelt.	False
	subsample subsample: int oder None, default=10_000 Maximale Anzahl von Stichproben, die zur Schätzung der Quantile für rechnerische Effizienz verwendet werden. Beachten Sie, dass das Unterabtastverfahren bei wertenidentischen spärlichen und dichten Matrizen unterschiedlich sein kann. Deaktivieren Sie die Unterabtastung, indem Sie `subsample=None` setzen. .. versionadded:: 1.5 Die Option `None` zur Deaktivierung der Unterabtastung wurde hinzugefügt.	10000
	random_state random_state: int, RandomState-Instanz oder None, default=None Bestimmt die Zufallszahlengenerierung für Unterabtastung und Glättungsrauschen. Bitte siehe ``subsample`` für weitere Details. Geben Sie eine Ganzzahl für reproduzierbare Ergebnisse über mehrere Funktionsaufrufe hinweg an. Siehe :term:`Glossar `.	None
	copy copy: bool, default=True Auf False setzen, um eine Inplace-Transformation durchzuführen und eine Kopie zu vermeiden (wenn die Eingabe bereits ein Numpy-Array ist).	True

	categories categories: 'auto' oder eine Liste von Arrays, Standard='auto' Kategorien (eindeutige Werte) pro Merkmal: - 'auto': Kategorien automatisch aus den Trainingsdaten ermitteln. - Liste: ``categories[i]`` enthält die erwarteten Kategorien in der i-ten Spalte. Die übergebenen Kategorien sollten keine Strings und numerischen Werte innerhalb eines Merkmals mischen und sollten bei numerischen Werten sortiert sein. Die verwendeten Kategorien finden Sie im Attribut ``categories_``. .. versionadded:: 0.20	'auto'
	drop drop: {'first', 'if_binary'} oder ein Array-ähnliches von Form (n_features,), default=None Spezifiziert eine Methode, um eine der Kategorien pro Merkmal zu verwerfen. Dies ist nützlich in Situationen, in denen perfekt kollineare Merkmale Probleme verursachen, wie z.B. beim Einspeisen der resultierenden Daten in ein unregularisiertes lineares Regressionsmodell. Das Verwerfen einer Kategorie bricht jedoch die Symmetrie der ursprünglichen Darstellung und kann daher zu einem Bias in nachgeschalteten Modellen führen, zum Beispiel für bestrafte lineare Klassifizierungs- oder Regressionsmodelle. - None : behält alle Merkmale (Standard). - 'first' : verwirft die erste Kategorie in jedem Merkmal. Wenn nur eine Kategorie vorhanden ist, wird das Merkmal vollständig verworfen. - 'if_binary' : verwirft die erste Kategorie in jedem Merkmal mit zwei Kategorien. Merkmale mit 1 oder mehr als 2 Kategorien bleiben unverändert. - array : ``drop[i]`` ist die Kategorie im Merkmal ``X[:, i]``, die verworfen werden sollte. Wenn `max_categories` oder `min_frequency` konfiguriert ist, um seltene Kategorien zu gruppieren, wird das Verwerfen nach der Gruppierung gehandhabt. .. versionadded:: 0.21 Der Parameter `drop` wurde in 0.21 hinzugefügt. .. versionchanged:: 0.23 Die Option `drop='if_binary'` wurde in 0.23 hinzugefügt. .. versionchanged:: 1.1 Unterstützung für das Verwerfen seltener Kategorien.	None
	sparse_output sparse_output: bool, Standard=True Wenn ``True``, wird eine :class:`scipy.sparse.csr_matrix` zurückgegeben, d. h. eine spärliche Matrix im "Compressed Sparse Row" (CSR)-Format. .. versionadded:: 1.2 `sparse` wurde in `sparse_output` umbenannt.	True
	dtype dtype: numerischer Typ, default=np.float64 Gewünschter dtype der Ausgabe.	<class 'numpy.float64'>
	handle_unknown handle_unknown: {'error', 'ignore', 'infrequent_if_exist', 'warn'}, default='error' Spezifiziert die Art und Weise, wie unbekannte Kategorien während :meth:`transform` behandelt werden. - 'error' : Löst einen Fehler aus, wenn während des Transforms eine unbekannte Kategorie vorhanden ist. - 'ignore' : Wenn während des Transforms eine unbekannte Kategorie angetroffen wird, sind die resultierenden One-Hot-kodierten Spalten für dieses Merkmal alle Nullen. Beim inversen Transform wird eine unbekannte Kategorie als None bezeichnet. - 'infrequent_if_exist' : Wenn während des Transforms eine unbekannte Kategorie angetroffen wird, werden die resultierenden One-Hot-kodierten Spalten für dieses Merkmal auf die seltene Kategorie abgebildet, falls diese existiert. Die seltene Kategorie wird an die letzte Position in der Kodierung abgebildet. Während des inversen Transforms wird eine unbekannte Kategorie auf die Kategorie abgebildet, die als `'infrequent'` bezeichnet wird, falls diese existiert. Wenn die `'infrequent'`-Kategorie nicht existiert, werden :meth:`transform` und :meth:`inverse_transform` eine unbekannte Kategorie behandeln, als ob `handle_unknown='ignore'` wäre. Seltene Kategorien existieren basierend auf `min_frequency` und `max_categories`. Lesen Sie mehr im :ref:`Benutzerhandbuch `. - 'warn' : Wenn während des Transforms eine unbekannte Kategorie angetroffen wird, wird eine Warnung ausgegeben, und die Kodierung wird dann wie für `handle_unknown="infrequent_if_exist"` beschrieben fortgesetzt. .. versionchanged:: 1.1 `'infrequent_if_exist'` wurde hinzugefügt, um unbekannte Kategorien und seltene Kategorien automatisch zu behandeln. .. versionadded:: 1.6 Die Option `"warn"` wurde in 1.6 hinzugefügt.	'ignore'
	min_frequency min_frequency: int oder float, Standard=None Gibt die minimale Häufigkeit an, unterhalb derer eine Kategorie als selten betrachtet wird. - Wenn `int`, werden Kategorien mit geringerer Kardinalität als selten betrachtet. - Wenn `float`, werden Kategorien mit geringerer Kardinalität als `min_frequency * n_samples` als selten betrachtet. .. versionadded:: 1.1 Lesen Sie mehr im :ref:`Benutzerhandbuch `.	None
	max_categories max_categories: int, Standard=None Gibt eine Obergrenze für die Anzahl der Ausgabemerkmale pro Eingabe- Merkmal an, wenn seltene Kategorien berücksichtigt werden. Wenn es seltene Kategorien gibt, enthält `max_categories` die Kategorie, die die seltenen Kategorien repräsentiert, zusammen mit den häufigen Kategorien. Wenn `None`, gibt es keine Grenze für die Anzahl der Ausgabemerkmale. .. versionadded:: 1.1 Lesen Sie mehr im :ref:`Benutzerhandbuch `.	None
	feature_name_combiner feature_name_combiner: "concat" oder aufrufbar, Standard="concat" Aufrufbare Funktion mit der Signatur `def callable(input_feature, category)`, die einen String zurückgibt. Dies wird verwendet, um Merkmalsnamen zu erstellen, die von :meth:`get_feature_names_out` zurückgegeben werden. `"concat"` verkettet den kodierten Merkmalnamen und die Kategorie mit `feature + "_" + str(category)`. Z. B. erstellt das Merkmal X mit Werten 1, 6, 7 Merkmalnamen `X_1, X_6, X_7`. .. versionadded:: 1.3	'concat'

	transformers transformers: list of tuples Liste von (name, transformer, columns)-Tupeln, die die auf Teilmengen der Daten anzuwendenden Transformer-Objekte spezifizieren. name : str Wie in Pipeline und FeatureUnion ermöglicht dies das Setzen des Transformers und seiner Parameter über ``set_params`` und die Suche in der Grid-Suche. transformer : {'drop', 'passthrough'} oder Estimator Estimator muss :term:`fit` und :term:`transform` unterstützen. Spezielle Zeichenketten 'drop' und 'passthrough' werden ebenfalls akzeptiert, um die Spalten zu verwerfen bzw. unverändert durchzulassen. columns : str, array-like von str, int, array-like von int, array-like von bool, slice oder callable Indiziert die Daten auf ihrer zweiten Achse. Ganze Zahlen werden als Positionsspalten interpretiert, während Zeichenketten DataFrame-Spalten nach Namen referenzieren können. Eine skalare Zeichenkette oder Ganzzahl sollte verwendet werden, wenn ``transformer`` X als eindimensionales Array (Vektor) erwartet, andernfalls wird ein 2D-Array an den Transformer übergeben. Ein Callable wird mit den Eingabedaten `X` aufgerufen und kann beliebige der oben genannten Werte zurückgeben. Um mehrere Spalten nach Name oder dtype auszuwählen, können Sie :obj:`make_column_selector` verwenden.	[('cat', ...), ('num', ...)]
	remainder remainder: {'drop', 'passthrough'} oder Schätzer, default='drop' Standardmäßig werden nur die in `transformers` spezifizierten Spalten transformiert und im Ergebnis kombiniert, und die nicht spezifizierten Spalten werden verworfen. (Standard von ``'drop'``). Durch Angabe von ``remainder='passthrough'`` werden alle verbleibenden Spalten, die nicht in `transformers` spezifiziert, aber in den an `fit` übergebenen Daten vorhanden waren, automatisch durchgelassen. Diese Teilmenge von Spalten wird mit dem Ergebnis der Transformer verkettet. Für DataFrames werden zusätzliche Spalten, die während `fit` nicht gesehen wurden, aus dem Ergebnis von `transform` ausgeschlossen. Durch Setzen von ``remainder`` auf einen Schätzer verwenden die verbleibenden nicht spezifizierten Spalten den ``remainder``-Schätzer. Der Schätzer muss :term:`fit` und :term:`transform` unterstützen. Beachten Sie, dass die Verwendung dieser Funktion erfordert, dass die DataFrame-Spalten bei `fit` und `transform` die gleiche Reihenfolge haben.	'drop'
	sparse_threshold sparse_threshold: float, default=0.3 Wenn die Ausgabe der verschiedenen Transformer dünnbesetzte Matrizen enthält, werden diese als dünnbesetzte Matrix gestapelt, wenn die Gesamtdichte geringer ist als dieser Wert. Verwenden Sie ``sparse_threshold=0``, um immer dicht zu liefern. Wenn die transformierte Ausgabe nur dichte Daten enthält, wird das gestapelte Ergebnis dicht sein, und dieses Schlüsselwort wird ignoriert.	1
	n_jobs n_jobs: int, default=None Anzahl der parallel auszuführenden Jobs. ``None`` bedeutet 1, es sei denn, es befindet sich in einem :obj:`joblib.parallel_backend` Kontext. ``-1`` bedeutet, alle Prozessoren zu verwenden. Siehe :term:`Glossar ` für weitere Details.	None
	transformer_weights transformer_weights: dict, default=None Multiplikative Gewichte für Merkmale pro Transformer. Die Ausgabe des Transformers wird mit diesen Gewichten multipliziert. Schlüssel sind Transformer-Namen, Werte die Gewichte.	None
	verbose verbose: bool, default=False Wenn True, wird die verstrichene Zeit während des Anpassens jedes Transformators gedruckt, wenn er abgeschlossen ist.	False
	verbose_feature_names_out verbose_feature_names_out: bool, str oder Callable[[str, str], str], default=True - Wenn True, präfiziert :meth:`ColumnTransformer.get_feature_names_out` alle Feature-Namen mit dem Namen des Transformers, der dieses Feature generiert hat. Das ist äquivalent zu `verbose_feature_names_out="{transformer_name}__{feature_name}"`. - Wenn False, präfiziert :meth:`ColumnTransformer.get_feature_names_out` keine Feature-Namen und gibt einen Fehler aus, wenn die Feature-Namen nicht eindeutig sind. - Wenn ``Callable[[str, str], str]``, benennt :meth:`ColumnTransformer.get_feature_names_out` alle Features mit dem Namen des Transformers um. Das erste Argument des Callables ist der Transformer-Name und das zweite Argument ist der Feature-Name. Die zurückgegebene Zeichenkette wird der neue Feature-Name sein. - Wenn ``str``, muss es eine Zeichenkette sein, die für die Formatierung bereit ist. Die gegebene Zeichenkette wird mit zwei Feldnamen formatiert: ``transformer_name`` und ``feature_name``. z.B. ``"{feature_name}__{transformer_name}"``. Siehe :meth:`str.format` Methode aus der Standardbibliothek für weitere Informationen. .. versionadded:: 1.0 .. versionchanged:: 1.6 `verbose_feature_names_out` kann ein Callable oder eine zu formatierende Zeichenkette sein.	False
	force_int_remainder_cols force_int_remainder_cols: bool, default=False Dieser Parameter hat keine Auswirkung. .. note:: Wenn Sie nicht auf die Liste der Spalten für die verbleibenden Spalten im ``transformers_`` angepassten Attribut zugreifen, müssen Sie diesen Parameter nicht setzen. .. versionadded:: 1.5 .. versionchanged:: 1.7 Der Standardwert für `force_int_remainder_cols` ändert sich von `True` auf `False` in Version 1.7. .. deprecated:: 1.7 `force_int_remainder_cols` ist veraltet und wird in Version 1.9 entfernt.	'deprecated'

	categories categories: 'auto' oder eine Liste von array-ähnlichen Objekten, default='auto' Kategorien (eindeutige Werte) pro Merkmal: - 'auto' : Kategorien werden automatisch aus den Trainingsdaten bestimmt. - Liste : ``categories[i]`` enthält die erwarteten Kategorien in der i-ten Spalte. Die übergebenen Kategorien sollten keine Strings und numerischen Werte mischen und sollten bei numerischen Werten sortiert sein. Die verwendeten Kategorien finden Sie im Attribut ``categories_``.	'auto'
	dtype dtype: numerischer Typ, default=np.float64 Gewünschter dtype der Ausgabe.	<class 'numpy.float64'>
	handle_unknown handle_unknown: {'error', 'use_encoded_value'}, default='error' Wenn auf 'error' gesetzt, wird ein Fehler ausgelöst, wenn während des Transforms eine unbekannte kategoriale Funktion vorhanden ist. Wenn auf 'use_encoded_value' gesetzt, wird der kodierte Wert unbekannter Kategorien auf den Wert gesetzt, der für den Parameter `unknown_value` angegeben wurde. Im :meth:`inverse_transform` wird eine unbekannte Kategorie als None dargestellt. .. versionadded:: 0.24	'error'
	unknown_value unknown_value: int oder np.nan, default=None Wenn der Parameter handle_unknown auf 'use_encoded_value' gesetzt ist, ist dieser Parameter erforderlich und setzt den kodierten Wert unbekannter Kategorien. Er muss sich von den Werten unterscheiden, die zum Kodieren von Kategorien in `fit` verwendet wurden. Wenn er auf np.nan gesetzt ist, muss der `dtype`-Parameter einen Fließkomma-dtype haben. .. versionadded:: 0.24	None
	encoded_missing_value encoded_missing_value: int oder np.nan, default=np.nan Kodierter Wert für fehlende Kategorien. Wenn auf `np.nan` gesetzt, muss der `dtype`-Parameter einen Fließkomma-dtype haben. .. versionadded:: 1.1	nan
	min_frequency min_frequency: int oder float, default=None Gibt die Mindesthäufigkeit an, unterhalb derer eine Kategorie als wenig häufig gilt. - Wenn `int`, gelten Kategorien mit geringerer Kardinalität als wenig häufig. - Wenn `float`, gelten Kategorien mit geringerer Kardinalität als `min_frequency * n_samples` als wenig häufig. .. versionadded:: 1.3 Weiterlesen im :ref:`Benutzerhandbuch `.	None
	max_categories max_categories: int, default=None Gibt eine Obergrenze für die Anzahl der Ausgabekategorien für jedes Eingabemerkmal an, wenn wenig häufige Kategorien berücksichtigt werden. Wenn wenig häufige Kategorien vorhanden sind, enthält `max_categories` die Kategorie, die die wenig häufigen Kategorien repräsentiert, zusammen mit den häufigen Kategorien. Wenn `None`, gibt es keine Obergrenze für die Anzahl der Ausgabemerkmale. `max_categories` berücksichtigt keine fehlenden oder unbekannten Kategorien. Das Setzen von `unknown_value` oder `encoded_missing_value` auf eine Ganzzahl erhöht die Anzahl der eindeutigen Ganzzahlcodes um jeweils eins. Dies kann zu bis zu `max_categories + 2` Ganzzahlcodes führen. .. versionadded:: 1.3 Weiterlesen im :ref:`Benutzerhandbuch `.	None

Partial Dependence und Individual Conditional Expectation Plots#

Vorverarbeitung für Machine-Learning-Modelle#

Vorverarbeitung für das neuronale Netzwerkmodell#

Vorverarbeitung für das Gradient-Boosting-Modell#

1-Wege-Partial-Dependenz mit verschiedenen Modellen#

Multi-Layer-Perzeptron#

Gradient Boosting#

Analyse der Plots#

ICE vs. PDP#

2D-Interaktionsplots#

3D-Darstellung#

Benutzerdefinierte Inspektionpunkte#

Diese Seite

Partial Dependence und Individual Conditional Expectation Plots#

Vorverarbeitung des Bike-Sharing-Datensatzes#

Vorverarbeitung für Machine-Learning-Modelle#

Vorverarbeitung für das neuronale Netzwerkmodell#

Vorverarbeitung für das Gradient-Boosting-Modell#

1-Wege-Partial-Dependenz mit verschiedenen Modellen#

Multi-Layer-Perzeptron#

Gradient Boosting#

Analyse der Plots#

ICE vs. PDP#

2D-Interaktionsplots#

3D-Darstellung#

Benutzerdefinierte Inspektionpunkte#

Diese Seite