Hinweis

Zum Ende springen, um den vollständigen Beispielcode herunterzuladen oder dieses Beispiel über JupyterLite oder Binder in Ihrem Browser auszuführen.

Merkmale-Transformationen mit Baum-Ensembles#

Transformieren Sie Ihre Merkmale in einen höherdimensionalen, spärlichen Raum. Trainieren Sie dann ein lineares Modell auf diesen Merkmalen.

Zuerst wird ein Ensemble von Bäumen (vollständig zufällige Bäume, ein Random Forest oder Gradient Boosting Bäume) auf dem Trainingsdatensatz angepasst. Dann wird jedem Blatt jedes Baumes im Ensemble ein fester, willkürlicher Merkmalsindex in einem neuen Merkmalsraum zugewiesen. Diese Blattindizes werden dann im One-Hot-Verfahren kodiert.

Jede Stichprobe durchläuft die Entscheidungen jedes Baumes des Ensembles und landet in einem Blatt pro Baum. Die Stichprobe wird kodiert, indem die Merkmalswerte für diese Blätter auf 1 und die anderen Merkmalswerte auf 0 gesetzt werden.

Der resultierende Transformer hat dann eine überwachte, spärliche, hochdimensionale kategoriale Einbettung der Daten gelernt.

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

Zuerst erstellen wir einen großen Datensatz und teilen ihn in drei Sätze auf

ein Satz zum Trainieren der Ensemble-Methoden, die später als Merkmal-Engineering-Transformer verwendet werden;
ein Satz zum Trainieren des linearen Modells;
ein Satz zum Testen des linearen Modells.

Es ist wichtig, die Daten so aufzuteilen, um Überanpassung durch Datenlecks zu vermeiden.

from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split

X, y = make_classification(n_samples=80_000, random_state=10)

X_full_train, X_test, y_full_train, y_test = train_test_split(
    X, y, test_size=0.5, random_state=10
)
X_train_ensemble, X_train_linear, y_train_ensemble, y_train_linear = train_test_split(
    X_full_train, y_full_train, test_size=0.5, random_state=10
)

Für jede der Ensemble-Methoden verwenden wir 10 Estimators und eine maximale Tiefe von 3 Ebenen.

n_estimators = 10
max_depth = 3

Zuerst beginnen wir mit dem Trainieren des Random Forest und des Gradient Boosting auf dem getrennten Trainingsdatensatz

from sklearn.ensemble import GradientBoostingClassifier, RandomForestClassifier

random_forest = RandomForestClassifier(
    n_estimators=n_estimators, max_depth=max_depth, random_state=10
)
random_forest.fit(X_train_ensemble, y_train_ensemble)

gradient_boosting = GradientBoostingClassifier(
    n_estimators=n_estimators, max_depth=max_depth, random_state=10
)
_ = gradient_boosting.fit(X_train_ensemble, y_train_ensemble)

Beachten Sie, dass HistGradientBoostingClassifier viel schneller ist als GradientBoostingClassifier ab mittleren Datensätzen (n_samples >= 10_000), was bei diesem Beispiel nicht der Fall ist.

Die RandomTreesEmbedding ist eine unbeaufsichtigte Methode und muss daher nicht unabhängig trainiert werden.

from sklearn.ensemble import RandomTreesEmbedding

random_tree_embedding = RandomTreesEmbedding(
    n_estimators=n_estimators, max_depth=max_depth, random_state=0
)

Nun erstellen wir drei Pipelines, die die obige Einbettung als Vorverarbeitungsstufe verwenden.

Die Random Trees Einbettung kann direkt mit der logistischen Regression in eine Pipeline integriert werden, da es sich um einen Standard-Scikit-learn-Transformer handelt.

from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline

rt_model = make_pipeline(random_tree_embedding, LogisticRegression(max_iter=1000))
rt_model.fit(X_train_linear, y_train_linear)

Pipeline(steps=[('randomtreesembedding',
                 RandomTreesEmbedding(max_depth=3, n_estimators=10,
                                      random_state=0)),
                ('logisticregression', LogisticRegression(max_iter=1000))])

In einer Jupyter-Umgebung führen Sie diese Zelle bitte erneut aus, um die HTML-Darstellung anzuzeigen, oder vertrauen Sie dem Notebook.
Auf GitHub kann die HTML-Darstellung nicht gerendert werden. Versuchen Sie bitte, diese Seite mit nbviewer.org zu laden.

Dann können wir einen Random Forest oder Gradient Boosting mit einer logistischen Regression pipelinen. Die Merkmals-Transformation findet jedoch durch Aufruf der Methode apply statt. Die Pipeline in Scikit-learn erwartet einen Aufruf von transform. Daher haben wir den Aufruf von apply in einen FunctionTransformer eingepackt.

from sklearn.preprocessing import FunctionTransformer, OneHotEncoder


def rf_apply(X, model):
    return model.apply(X)


rf_leaves_yielder = FunctionTransformer(rf_apply, kw_args={"model": random_forest})

rf_model = make_pipeline(
    rf_leaves_yielder,
    OneHotEncoder(handle_unknown="ignore"),
    LogisticRegression(max_iter=1000),
)
rf_model.fit(X_train_linear, y_train_linear)

Pipeline(steps=[('functiontransformer',
                 FunctionTransformer(func=<function rf_apply at 0x7fb4864dfce0>,
                                     kw_args={'model': RandomForestClassifier(max_depth=3,
                                                                              n_estimators=10,
                                                                              random_state=10)})),
                ('onehotencoder', OneHotEncoder(handle_unknown='ignore')),
                ('logisticregression', LogisticRegression(max_iter=1000))])

In einer Jupyter-Umgebung führen Sie diese Zelle bitte erneut aus, um die HTML-Darstellung anzuzeigen, oder vertrauen Sie dem Notebook.
Auf GitHub kann die HTML-Darstellung nicht gerendert werden. Versuchen Sie bitte, diese Seite mit nbviewer.org zu laden.

def gbdt_apply(X, model):
    return model.apply(X)[:, :, 0]


gbdt_leaves_yielder = FunctionTransformer(
    gbdt_apply, kw_args={"model": gradient_boosting}
)

gbdt_model = make_pipeline(
    gbdt_leaves_yielder,
    OneHotEncoder(handle_unknown="ignore"),
    LogisticRegression(max_iter=1000),
)
gbdt_model.fit(X_train_linear, y_train_linear)

Pipeline(steps=[('functiontransformer',
                 FunctionTransformer(func=<function gbdt_apply at 0x7fb4864dd800>,
                                     kw_args={'model': GradientBoostingClassifier(n_estimators=10,
                                                                                  random_state=10)})),
                ('onehotencoder', OneHotEncoder(handle_unknown='ignore')),
                ('logisticregression', LogisticRegression(max_iter=1000))])

In einer Jupyter-Umgebung führen Sie diese Zelle bitte erneut aus, um die HTML-Darstellung anzuzeigen, oder vertrauen Sie dem Notebook.
Auf GitHub kann die HTML-Darstellung nicht gerendert werden. Versuchen Sie bitte, diese Seite mit nbviewer.org zu laden.

Wir können abschließend die verschiedenen ROC-Kurven für alle Modelle anzeigen.

import matplotlib.pyplot as plt

from sklearn.metrics import RocCurveDisplay

_, ax = plt.subplots()

models = [
    ("RT embedding -> LR", rt_model),
    ("RF", random_forest),
    ("RF embedding -> LR", rf_model),
    ("GBDT", gradient_boosting),
    ("GBDT embedding -> LR", gbdt_model),
]

model_displays = {}
for name, pipeline in models:
    model_displays[name] = RocCurveDisplay.from_estimator(
        pipeline, X_test, y_test, ax=ax, name=name
    )
_ = ax.set_title("ROC curve")

_, ax = plt.subplots()
for name, pipeline in models:
    model_displays[name].plot(ax=ax)

ax.set_xlim(0, 0.2)
ax.set_ylim(0.8, 1)
_ = ax.set_title("ROC curve (zoomed in at top left)")

Gesamtlaufzeit des Skripts: (0 Minuten 2,026 Sekunden)

Verwandte Beispiele

Manifold Learning auf handschriftlichen Ziffern: Locally Linear Embedding, Isomap…

Mannigfaltigkeitslernen auf handgeschriebenen Ziffern: Locally Linear Embedding, Isomap...

Entscheidungsbaum-Regression

Release Highlights für scikit-learn 0.22

Vergleich von Random Forests und Histogram Gradient Boosting Modellen

Galerie generiert von Sphinx-Gallery

	steps steps: list of tuples Liste von Tupeln (Name des Schritts, Schätzer), die in sequenzieller Reihenfolge verkettet werden sollen. Um mit der scikit-learn API kompatibel zu sein, müssen alle Schritte `fit` definieren. Alle nicht letzten Schritte müssen auch `transform` definieren. Siehe :ref:`Kombination von Schätzern ` für weitere Details.	[('randomtreesembedding', ...), ('logisticregression', ...)]
	transform_input transform_input: list of str, default=None Die Namen der :term:`Metadaten`-Parameter, die von der Pipeline transformiert werden sollen, bevor sie an den Schritt übergeben werden, der sie benötigt. Dies ermöglicht die Transformation einiger Eingabeparameter zu ``fit`` (außer ``X``), die von den Schritten der Pipeline bis zu dem Schritt transformiert werden, der sie benötigt. Die Anforderung wird über :ref:`Metadaten-Routing ` definiert. Dies kann beispielsweise verwendet werden, um einen Validierungsdatensatz durch die Pipeline zu leiten. Sie können dies nur festlegen, wenn das Metadaten-Routing aktiviert ist, was Sie mit ``sklearn.set_config(enable_metadata_routing=True)`` aktivieren können. .. versionadded:: 1.6	None
	memory memory: str oder Objekt mit der joblib.Memory-Schnittstelle, default=None Wird zum Zwischenspeichern der angepassten Transformer der Pipeline verwendet. Der letzte Schritt wird niemals zwischengespeichert, auch wenn es sich um einen Transformer handelt. Standardmäßig erfolgt keine Zwischenspeicherung. Wenn ein String angegeben wird, ist dies der Pfad zum Zwischenspeicherverzeichnis. Durch Aktivieren der Zwischenspeicherung wird eine Kopie der Transformer vor dem Anpassen ausgelöst. Daher kann die an die Pipeline übergebene Transformer-Instanz nicht direkt inspiziert werden. Verwenden Sie das Attribut `named_steps` oder `steps`, um Schätzer innerhalb der Pipeline zu inspizieren. Das Zwischenspeichern der Transformer ist vorteilhaft, wenn das Anpassen zeitaufwändig ist. Siehe :ref:`sphx_glr_auto_examples_neighbors_plot_caching_nearest_neighbors.py` für ein Beispiel zur Aktivierung der Zwischenspeicherung.	None
	verbose verbose: bool, default=False Wenn True, wird die verstrichene Zeit während des Anpassens jedes Schritts gedruckt, wenn es abgeschlossen ist.	False

	n_estimators n_estimators: int, Standard=100 Anzahl der Bäume im Wald. .. versionchanged:: 0.22 Der Standardwert von ``n_estimators`` änderte sich von 10 auf 100 in 0.22.	10
	max_depth max_depth: int, Standard=5 Die maximale Tiefe jedes Baumes. Wenn None, dann werden Knoten erweitert, bis alle Blätter rein sind oder bis alle Blätter weniger als min_samples_split Stichproben enthalten.	3
	min_samples_split min_samples_split: int oder float, Standard=2 Die minimale Anzahl von Stichproben, die erforderlich sind, um einen internen Knoten zu teilen: - Wenn int, dann betrachten Sie `min_samples_split` als die minimale Anzahl. - Wenn float, dann ist `min_samples_split` ein Bruch und `ceil(min_samples_split * n_samples)` ist die minimale Anzahl von Stichproben für jede Teilung. .. versionchanged:: 0.18 Float-Werte für Brüche hinzugefügt.	2
	min_samples_leaf min_samples_leaf: int oder float, Standard=1 Die minimale Anzahl von Stichproben, die in einem Blattknoten erforderlich sind. Eine Teilungsstelle in beliebiger Tiefe wird nur in Betracht gezogen, wenn sie mindestens ``min_samples_leaf`` Trainingsstichproben in jedem der linken und rechten Zweige lässt. Dies kann das Modell glätten, insbesondere bei der Regression. - Wenn int, dann betrachten Sie `min_samples_leaf` als die minimale Anzahl. - Wenn float, dann ist `min_samples_leaf` ein Bruch und `ceil(min_samples_leaf * n_samples)` ist die minimale Anzahl von Stichproben für jeden Knoten. .. versionchanged:: 0.18 Float-Werte für Brüche hinzugefügt.	1
	min_weight_fraction_leaf min_weight_fraction_leaf: float, Standard=0.0 Der minimale gewichtete Bruchteil der Gesamtsumme der Gewichte (aller Eingangsstichproben), der in einem Blattknoten erforderlich ist. Stichproben haben gleiches Gewicht, wenn sample_weight nicht angegeben ist.	0.0
	max_leaf_nodes max_leaf_nodes: int, Standard=None Wächst Bäume mit ``max_leaf_nodes`` im Best-First-Verfahren. Beste Knoten werden als relative Reduktion der Unreinheit definiert. Wenn None, dann unbegrenzte Anzahl von Blattknoten.	None
	min_impurity_decrease min_impurity_decrease: float, Standard=0.0 Ein Knoten wird geteilt, wenn diese Teilung eine Verringerung der Unreinheit von größer oder gleich diesem Wert bewirkt. Die Gleichung für die gewichtete Verringerung der Unreinheit lautet: N_t / N * (impurity - N_t_R / N_t * right_impurity - N_t_L / N_t * left_impurity) wobei ``N`` die Gesamtzahl der Stichproben, ``N_t`` die Anzahl der Stichproben am aktuellen Knoten, ``N_t_L`` die Anzahl der Stichproben im linken Kind und ``N_t_R`` die Anzahl der Stichproben im rechten Kind ist. ``N``, ``N_t``, ``N_t_R`` und ``N_t_L`` beziehen sich alle auf die gewichtete Summe, wenn ``sample_weight`` übergeben wird. .. versionadded:: 0.19	0.0
	sparse_output sparse_output: bool, Standard=True Ob eine spärliche CSR-Matrix zurückgegeben werden soll, wie standardmäßig, oder ein dichtes Array, das mit dichten Pipeline-Operatoren kompatibel ist.	True
	n_jobs n_jobs: int, Standard=None Die Anzahl der gleichzeitig auszuführenden Jobs. :meth:`fit`, :meth:`transform`, :meth:`decision_path` und :meth:`apply` werden alle parallel über die Bäume ausgeführt. ``None`` bedeutet 1, es sei denn, es befindet sich in einem :obj:`joblib.parallel_backend` Kontext. ``-1`` bedeutet die Verwendung aller Prozessoren. Siehe :term:`Glossary ` für weitere Details.	None
	random_state random_state: int, RandomState-Instanz oder None, Standard=None Steuert die Generierung des zufälligen `y`, das zum Anpassen der Bäume verwendet wird, und die Auswahl der Splits für jedes Merkmal an den Knoten der Bäume. Siehe :term:`Glossary ` für Details.	0
	verbose verbose: int, Standard=0 Steuert die Ausführlichkeit beim Anpassen und Vorhersagen.	0
	warm_start warm_start: bool, Standard=False Wenn auf ``True`` gesetzt, wird die Lösung des vorherigen Aufrufs von fit wiederverwendet und weitere Estimators zum Ensemble hinzugefügt, andernfalls wird nur ein ganz neuer Wald angepasst. Siehe :term:`Glossary ` und :ref:`tree_ensemble_warm_start` für Details.	False

	penalty penalty: {'l1', 'l2', 'elasticnet', None}, default='l2' Gibt die Norm der Strafe an: - `None`: keine Strafe wird hinzugefügt; - `'l2'`: fügt einen L2-Strafbegriff hinzu und ist die Standardwahl; - `'l1'`: fügt einen L1-Strafbegriff hinzu; - `'elasticnet'`: beide L1- und L2-Strafbegriffe werden hinzugefügt. .. warning:: Einige Strafen funktionieren möglicherweise nicht mit einigen Solvern. Siehe den Parameter `solver` unten, um die Kompatibilität zwischen der Strafe und dem Solver zu erfahren. .. versionadded:: 0.19 l1-Strafe mit SAGA-Solver (erlaubt 'multinomial' + L1) .. deprecated:: 1.8 `penalty` wurde in Version 1.8 als veraltet markiert und wird in 1.10 entfernt. Verwenden Sie stattdessen `l1_ratio`. `l1_ratio=0` für `penalty='l2'`, `l1_ratio=1` für `penalty='l1'` und `l1_ratio` auf eine Gleitkommazahl zwischen 0 und 1 gesetzt für `'penalty='elasticnet'`.	'deprecated'
	C C: float, default=1.0 Kehrwert der Regularisierungsstärke; muss eine positive Gleitkommazahl sein. Wie bei Support Vector Machines geben kleinere Werte eine stärkere Regularisierung an. `C=np.inf` führt zu ungestrafter logistischer Regression. Für ein visuelles Beispiel der Auswirkung der Abstimmung des Parameters `C` mit einer L1-Strafe siehe: :ref:`sphx_glr_auto_examples_linear_model_plot_logistic_path.py`.	1.0
	l1_ratio l1_ratio: float, default=0.0 Der Elastic-Net-Mischungsparameter, mit `0 <= l1_ratio <= 1`. Das Setzen von `l1_ratio=1` ergibt eine reine L1-Strafe, das Setzen von `l1_ratio=0` eine reine L2-Strafe. Jeder Wert zwischen 0 und 1 ergibt eine Elastic-Net-Strafe der Form `l1_ratio * L1 + (1 - l1_ratio) * L2`. .. warning:: Bestimmte Werte von `l1_ratio`, d. h. einige Strafen, funktionieren möglicherweise nicht mit einigen Solvern. Siehe den Parameter `solver` unten, um die Kompatibilität zwischen der Strafe und dem Solver zu erfahren. .. versionchanged:: 1.8 Der Standardwert wurde von None auf 0.0 geändert. .. deprecated:: 1.8 `None` ist veraltet und wird in Version 1.10 entfernt. Verwenden Sie immer `l1_ratio`, um den Strafentyp anzugeben.	0.0
	dual dual: bool, default=False Duale (beschränkte) oder primale (regularisierte, siehe auch :ref:`diese Gleichung `) Formulierung. Die duale Formulierung ist nur für die L2-Strafe mit dem liblinear-Solver implementiert. Bevorzugen Sie `dual=False` wenn n_samples > n_features.	False
	tol tol: float, default=1e-4 Toleranz für Abbruchkriterien.	0.0001
	fit_intercept fit_intercept: bool, default=True Gibt an, ob eine Konstante (auch Bias oder Achsenabschnitt genannt) zur Entscheidungsfunktion hinzugefügt werden soll.	True
	intercept_scaling intercept_scaling: float, default=1 Nur nützlich, wenn der Solver `liblinear` verwendet wird und `self.fit_intercept` auf `True` gesetzt ist. In diesem Fall wird `x` zu `[x, self.intercept_scaling]`, d. h. ein "synthetisches" Merkmal mit konstantem Wert gleich `intercept_scaling` wird an den Instanzvektor angehängt. Der Achsenabschnitt wird dann ``intercept_scaling * synthetisches Merkmalsgewicht``. .. note:: Das Gewicht des synthetischen Merkmals unterliegt der L1- oder L2- Regularisierung wie alle anderen Merkmale. Um die Auswirkung der Regularisierung auf das synthetische Merkmalsgewicht (und damit auf den Achsenabschnitt) zu verringern, muss `intercept_scaling` erhöht werden.	1
	class_weight class_weight: dict oder 'balanced', default=None Mit Klassen assoziierte Gewichte in der Form ``{class_label: weight}``. Wenn nicht angegeben, wird angenommen, dass alle Klassen das Gewicht eins haben. Der Modus "balanced" verwendet die Werte von y, um die Gewichte automatisch invers proportional zu den Klassenhaüfigkeiten in den Eingabedaten als ``n_samples / (n_classes * np.bincount(y))`` anzupassen. Beachten Sie, dass diese Gewichte mit sample_weight (übergeben durch die fit-Methode) multipliziert werden, wenn sample_weight angegeben ist. .. versionadded:: 0.17 class_weight='balanced'	None
	random_state random_state: int, RandomState-Instanz, default=None Wird verwendet, wenn ``solver`` == 'sag', 'saga' oder 'liblinear', um die Daten zu mischen. Siehe :term:`Glossar ` für Details.	None
	solver solver: {'lbfgs', 'liblinear', 'newton-cg', 'newton-cholesky', 'sag', 'saga'}, Standard='lbfgs' Algorithmus, der im Optimierungsproblem verwendet werden soll. Standard ist 'lbfgs'. Um einen Solver auszuwählen, sollten Sie die folgenden Aspekte berücksichtigen: - 'lbfgs' ist ein guter Standard-Solver, da er für eine breite Palette von Problemen gut funktioniert. - Für :term:`multiclass` Probleme (`n_classes >= 3`) minimieren alle Solver außer 'liblinear' den vollständigen multinomischen Verlust; 'liblinear' löst einen Fehler aus. - 'newton-cholesky' ist eine gute Wahl für `n_samples` >> `n_features * n_classes`, insbesondere mit One-Hot-kodierten kategorialen Merkmalen mit seltenen Kategorien. Beachten Sie, dass der Speicherverbrauch dieses Solvers eine quadratische Abhängigkeit von `n_features * n_classes` hat, da er die vollständige Hesse-Matrix explizit berechnet. - Für kleine Datensätze ist 'liblinear' eine gute Wahl, während 'sag' und 'saga' für große schneller sind; - 'liblinear' kann standardmäßig nur binäre Klassifizierung. Um ein One-vs-Rest-Schema für den Multiklassenfall anzuwenden, kann es mit :class:`~sklearn.multiclass.OneVsRestClassifier` eingepackt werden. .. warning:: Die Wahl des Algorithmus hängt von der gewählten Strafe ab (`l1_ratio=0` für L2-Strafe, `l1_ratio=1` für L1-Strafe und `0 < l1_ratio < 1` für Elastic-Net) und von der (multinomialen) Multiklassenunterstützung: ================= ======================== ====================== solver l1_ratio multinomial multiclass ================= ======================== ====================== 'lbfgs' l1_ratio=0 ja 'liblinear' l1_ratio=1 oder l1_ratio=0 nein 'newton-cg' l1_ratio=0 ja 'newton-cholesky' l1_ratio=0 ja 'sag' l1_ratio=0 ja 'saga' 0<=l1_ratio<=1 ja ================= ======================== ====================== .. note:: Die schnelle Konvergenz von 'sag' und 'saga' ist nur garantiert für Merkmale mit ungefähr gleichem Maßstab. Sie können die Daten mit einem Skalierer aus :mod:`sklearn.preprocessing` vorverarbeiten. .. seealso:: Konsultieren Sie das :ref:`Benutzerhandbuch ` für weitere Informationen zu :class:`LogisticRegression` und insbesondere die :ref:`Tabelle ` mit Zusammenfassung der Solver/Strafe-Unterstützung. .. versionadded:: 0.17 Solver für stochastischen Durchschnittsgradienten (SAG). Multiklassenunterstützung in Version 0.18. .. versionadded:: 0.19 SAGA-Solver. .. versionchanged:: 0.22 Der Standard-Solver wurde von 'liblinear' auf 'lbfgs' in 0.22 geändert. .. versionadded:: 1.2 Newton-Cholesky-Solver. Multiklassenunterstützung in Version 1.6.	'lbfgs'
	max_iter max_iter: int, default=100 Maximale Anzahl von Iterationen, die die Solver zur Konvergenz benötigen.	1000
	verbose verbose: int, default=0 Für die Solver liblinear und lbfgs setzen Sie verbose auf eine beliebige positive Zahl für die Ausführlichkeit.	0
	warm_start warm_start: bool, default=False Wenn auf True gesetzt, wird die Lösung des vorherigen Aufrufs von fit als Initialisierung wiederverwendet, andernfalls wird die vorherige Lösung einfach gelöscht. Nützlich für den liblinear-Solver. Siehe :term:`das Glossar `. .. versionadded:: 0.17 warm_start zur Unterstützung der Solver lbfgs, newton-cg, sag, saga.	False
	n_jobs n_jobs: int, default=None Hat keine Auswirkung. .. deprecated:: 1.8 `n_jobs` ist in Version 1.8 veraltet und wird in 1.10 entfernt.	None

	steps steps: list of tuples Liste von Tupeln (Name des Schritts, Schätzer), die in sequenzieller Reihenfolge verkettet werden sollen. Um mit der scikit-learn API kompatibel zu sein, müssen alle Schritte `fit` definieren. Alle nicht letzten Schritte müssen auch `transform` definieren. Siehe :ref:`Kombination von Schätzern ` für weitere Details.	[('functiontransformer', ...), ('onehotencoder', ...), ...]
	transform_input transform_input: list of str, default=None Die Namen der :term:`Metadaten`-Parameter, die von der Pipeline transformiert werden sollen, bevor sie an den Schritt übergeben werden, der sie benötigt. Dies ermöglicht die Transformation einiger Eingabeparameter zu ``fit`` (außer ``X``), die von den Schritten der Pipeline bis zu dem Schritt transformiert werden, der sie benötigt. Die Anforderung wird über :ref:`Metadaten-Routing ` definiert. Dies kann beispielsweise verwendet werden, um einen Validierungsdatensatz durch die Pipeline zu leiten. Sie können dies nur festlegen, wenn das Metadaten-Routing aktiviert ist, was Sie mit ``sklearn.set_config(enable_metadata_routing=True)`` aktivieren können. .. versionadded:: 1.6	None
	memory memory: str oder Objekt mit der joblib.Memory-Schnittstelle, default=None Wird zum Zwischenspeichern der angepassten Transformer der Pipeline verwendet. Der letzte Schritt wird niemals zwischengespeichert, auch wenn es sich um einen Transformer handelt. Standardmäßig erfolgt keine Zwischenspeicherung. Wenn ein String angegeben wird, ist dies der Pfad zum Zwischenspeicherverzeichnis. Durch Aktivieren der Zwischenspeicherung wird eine Kopie der Transformer vor dem Anpassen ausgelöst. Daher kann die an die Pipeline übergebene Transformer-Instanz nicht direkt inspiziert werden. Verwenden Sie das Attribut `named_steps` oder `steps`, um Schätzer innerhalb der Pipeline zu inspizieren. Das Zwischenspeichern der Transformer ist vorteilhaft, wenn das Anpassen zeitaufwändig ist. Siehe :ref:`sphx_glr_auto_examples_neighbors_plot_caching_nearest_neighbors.py` für ein Beispiel zur Aktivierung der Zwischenspeicherung.	None
	verbose verbose: bool, default=False Wenn True, wird die verstrichene Zeit während des Anpassens jedes Schritts gedruckt, wenn es abgeschlossen ist.	False

	func func: aufrufbar, Standard=None Die aufrufbare Funktion, die für die Transformation verwendet werden soll. Diese wird mit denselben Argumenten wie `transform` aufgerufen, wobei args und kwargs weitergereicht werden. Wenn func None ist, dann ist func die Identitätsfunktion.	<function rf_...x7fb4864dfce0>
	inverse_func inverse_func: aufrufbar, Standard=None Die aufrufbare Funktion, die für die inverse Transformation verwendet werden soll. Diese wird mit denselben Argumenten wie `inverse_transform` aufgerufen, wobei args und kwargs weitergereicht werden. Wenn inverse_func None ist, dann ist inverse_func die Identitätsfunktion.	None
	validate validate: bool, Standard=False Gibt an, dass das Eingabe-Array X vor dem Aufruf von ``func`` überprüft werden soll. Die Möglichkeiten sind: - Wenn False, findet keine Eingabeüberprüfung statt. - Wenn True, wird X in ein 2-dimensionales NumPy-Array oder eine spärliche Matrix konvertiert. Wenn die Konvertierung nicht möglich ist, wird eine Ausnahme ausgelöst. .. versionchanged:: 0.22 Der Standardwert von ``validate`` änderte sich von True auf False.	False
	accept_sparse accept_sparse: bool, Standard=False Gibt an, dass func eine spärliche Matrix als Eingabe akzeptiert. Wenn validate False ist, hat dies keine Auswirkung. Andernfalls, wenn accept_sparse false ist, werden spärliche Matrix-Eingaben eine Ausnahme auslösen.	False
	check_inverse check_inverse: bool, Standard=True Ob geprüft werden soll, ob ``func`` gefolgt von ``inverse_func`` zu den ursprünglichen Eingaben führt. Dies kann für eine Plausibilitätsprüfung verwendet werden und löst eine Warnung aus, wenn die Bedingung nicht erfüllt ist. .. versionadded:: 0.20	True
	feature_names_out feature_names_out: aufrufbar, 'one-to-one' oder None, Standard=None Bestimmt die Liste der Merkmalsnamen, die von der Methode `get_feature_names_out` zurückgegeben werden. Wenn es 'one-to-one' ist, dann sind die Ausgabemerkmalsnamen gleich den Eingabemerkmalsnamen. Wenn es sich um eine aufrufbare Funktion handelt, muss sie zwei positionelle Argumente entgegennehmen: diesen `FunctionTransformer` (`self`) und ein Array von Eingabemerkmalsnamen (`input_features`). Sie muss ein Array von Ausgabemerkmalsnamen zurückgeben. Die Methode `get_feature_names_out` ist nur definiert, wenn `feature_names_out` nicht None ist. Siehe ``get_feature_names_out`` für weitere Details. .. versionadded:: 1.1	None
	kw_args kw_args: dict, Standard=None Dictionary mit zusätzlichen Schlüsselwortargumenten, die an func übergeben werden. .. versionadded:: 0.18	{'model': RandomForestC...ndom_state=10)}
	inv_kw_args inv_kw_args: dict, Standard=None Dictionary mit zusätzlichen Schlüsselwortargumenten, die an inverse_func übergeben werden. .. versionadded:: 0.18	None

	categories categories: 'auto' oder eine Liste von Arrays, Standard='auto' Kategorien (eindeutige Werte) pro Merkmal: - 'auto': Kategorien automatisch aus den Trainingsdaten ermitteln. - Liste: ``categories[i]`` enthält die erwarteten Kategorien in der i-ten Spalte. Die übergebenen Kategorien sollten keine Strings und numerischen Werte innerhalb eines Merkmals mischen und sollten bei numerischen Werten sortiert sein. Die verwendeten Kategorien finden Sie im Attribut ``categories_``. .. versionadded:: 0.20	'auto'
	drop drop: {'first', 'if_binary'} oder ein Array von Form (n_features,), Standard=None Gibt eine Methode zur Auswahl einer der Kategorien pro Merkmal an. Dies ist nützlich in Situationen, in denen perfekt kollineare Merkmale Probleme verursachen, z. B. beim Speisen der resultierenden Daten in ein nicht reguliertes lineares Regressionsmodell. Das Weglassen einer Kategorie bricht jedoch die Symmetrie der ursprünglichen Darstellung und kann daher einen Bias in nachgelagerten Modellen verursachen, z. B. bei strafbewehrten linearen Klassifizierungs- oder Regressionsmodellen. - None: Behalte alle Merkmale bei (Standard). - 'first': Lasse die erste Kategorie in jedem Merkmal weg. Wenn nur eine Kategorie vorhanden ist, wird das Merkmal vollständig weggelassen. - 'if_binary': Lasse die erste Kategorie in jedem binären Merkmal weg. Merkmale mit 1 oder mehr als 2 Kategorien bleiben unberührt. - Array: ``drop[i]`` ist die Kategorie in Merkmal ``X[:, i]``, die weggelassen werden soll. Wenn `max_categories` oder `min_frequency` konfiguriert ist, um seltene Kategorien zu gruppieren, wird das Verhalten beim Weglassen nach der Gruppierung behandelt. .. versionadded:: 0.21 Der Parameter `drop` wurde in 0.21 hinzugefügt. .. versionchanged:: 0.23 Die Option `drop='if_binary'` wurde in 0.23 hinzugefügt. .. versionchanged:: 1.1 Unterstützung für das Weglassen seltener Kategorien.	None
	sparse_output sparse_output: bool, Standard=True Wenn ``True``, wird eine :class:`scipy.sparse.csr_matrix` zurückgegeben, d. h. eine spärliche Matrix im "Compressed Sparse Row" (CSR)-Format. .. versionadded:: 1.2 `sparse` wurde in `sparse_output` umbenannt.	True
	dtype dtype: numerischer Typ, default=np.float64 Gewünschter dtype der Ausgabe.	<class 'numpy.float64'>
	handle_unknown handle_unknown: {'error', 'ignore', 'infrequent_if_exist', 'warn'}, Standard='error' Gibt an, wie unbekannte Kategorien während :meth:`transform` behandelt werden. - 'error': Löst einen Fehler aus, wenn während der Transformation eine unbekannte Kategorie vorhanden ist. - 'ignore': Wenn während der Transformation eine unbekannte Kategorie angetroffen wird, sind die resultierenden One-Hot-kodierten Spalten für dieses Merkmal alle Null. Bei der inversen Transformation wird eine unbekannte Kategorie als None bezeichnet. - 'infrequent_if_exist': Wenn während der Transformation eine unbekannte Kategorie angetroffen wird, werden die resultierenden One-Hot-kodierten Spalten für dieses Merkmal der seltenen Kategorie zugeordnet, falls diese existiert. Die seltene Kategorie wird der letzten Position in der Kodierung zugeordnet. Während der inversen Transformation wird eine unbekannte Kategorie der Kategorie zugeordnet, die als `'infrequent'` bezeichnet wird, falls sie existiert. Wenn die Kategorie `'infrequent'` nicht existiert, dann behandeln :meth:`transform` und :meth:`inverse_transform` eine unbekannte Kategorie wie bei `handle_unknown='ignore'`. Seltene Kategorien existieren basierend auf `min_frequency` und `max_categories`. Lesen Sie mehr im :ref:`Benutzerhandbuch `. - 'warn': Wenn während der Transformation eine unbekannte Kategorie angetroffen wird, wird eine Warnung ausgegeben, und die Kodierung wird dann wie für `handle_unknown="infrequent_if_exist"` beschrieben fortgesetzt. .. versionchanged:: 1.1 `'infrequent_if_exist'` wurde hinzugefügt, um unbekannte Kategorien und seltene Kategorien automatisch zu behandeln. .. versionadded:: 1.6 Die Option `"warn"` wurde in 1.6 hinzugefügt.	'ignore'
	min_frequency min_frequency: int oder float, Standard=None Gibt die minimale Häufigkeit an, unterhalb derer eine Kategorie als selten betrachtet wird. - Wenn `int`, werden Kategorien mit geringerer Kardinalität als selten betrachtet. - Wenn `float`, werden Kategorien mit geringerer Kardinalität als `min_frequency * n_samples` als selten betrachtet. .. versionadded:: 1.1 Lesen Sie mehr im :ref:`Benutzerhandbuch `.	None
	max_categories max_categories: int, Standard=None Gibt eine Obergrenze für die Anzahl der Ausgabemerkmale pro Eingabe- Merkmal an, wenn seltene Kategorien berücksichtigt werden. Wenn es seltene Kategorien gibt, enthält `max_categories` die Kategorie, die die seltenen Kategorien repräsentiert, zusammen mit den häufigen Kategorien. Wenn `None`, gibt es keine Grenze für die Anzahl der Ausgabemerkmale. .. versionadded:: 1.1 Lesen Sie mehr im :ref:`Benutzerhandbuch `.	None
	feature_name_combiner feature_name_combiner: "concat" oder aufrufbar, Standard="concat" Aufrufbare Funktion mit der Signatur `def callable(input_feature, category)`, die einen String zurückgibt. Dies wird verwendet, um Merkmalsnamen zu erstellen, die von :meth:`get_feature_names_out` zurückgegeben werden. `"concat"` verkettet den kodierten Merkmalnamen und die Kategorie mit `feature + "_" + str(category)`. Z. B. erstellt das Merkmal X mit Werten 1, 6, 7 Merkmalnamen `X_1, X_6, X_7`. .. versionadded:: 1.3	'concat'

	func func: aufrufbar, Standard=None Die aufrufbare Funktion, die für die Transformation verwendet werden soll. Diese wird mit denselben Argumenten wie `transform` aufgerufen, wobei args und kwargs weitergereicht werden. Wenn func None ist, dann ist func die Identitätsfunktion.	<function gbd...x7fb4864dd800>
	inverse_func inverse_func: aufrufbar, Standard=None Die aufrufbare Funktion, die für die inverse Transformation verwendet werden soll. Diese wird mit denselben Argumenten wie `inverse_transform` aufgerufen, wobei args und kwargs weitergereicht werden. Wenn inverse_func None ist, dann ist inverse_func die Identitätsfunktion.	None
	validate validate: bool, Standard=False Gibt an, dass das Eingabe-Array X vor dem Aufruf von ``func`` überprüft werden soll. Die Möglichkeiten sind: - Wenn False, findet keine Eingabeüberprüfung statt. - Wenn True, wird X in ein 2-dimensionales NumPy-Array oder eine spärliche Matrix konvertiert. Wenn die Konvertierung nicht möglich ist, wird eine Ausnahme ausgelöst. .. versionchanged:: 0.22 Der Standardwert von ``validate`` änderte sich von True auf False.	False
	accept_sparse accept_sparse: bool, Standard=False Gibt an, dass func eine spärliche Matrix als Eingabe akzeptiert. Wenn validate False ist, hat dies keine Auswirkung. Andernfalls, wenn accept_sparse false ist, werden spärliche Matrix-Eingaben eine Ausnahme auslösen.	False
	check_inverse check_inverse: bool, Standard=True Ob geprüft werden soll, ob ``func`` gefolgt von ``inverse_func`` zu den ursprünglichen Eingaben führt. Dies kann für eine Plausibilitätsprüfung verwendet werden und löst eine Warnung aus, wenn die Bedingung nicht erfüllt ist. .. versionadded:: 0.20	True
	feature_names_out feature_names_out: aufrufbar, 'one-to-one' oder None, Standard=None Bestimmt die Liste der Merkmalsnamen, die von der Methode `get_feature_names_out` zurückgegeben werden. Wenn es 'one-to-one' ist, dann sind die Ausgabemerkmalsnamen gleich den Eingabemerkmalsnamen. Wenn es sich um eine aufrufbare Funktion handelt, muss sie zwei positionelle Argumente entgegennehmen: diesen `FunctionTransformer` (`self`) und ein Array von Eingabemerkmalsnamen (`input_features`). Sie muss ein Array von Ausgabemerkmalsnamen zurückgeben. Die Methode `get_feature_names_out` ist nur definiert, wenn `feature_names_out` nicht None ist. Siehe ``get_feature_names_out`` für weitere Details. .. versionadded:: 1.1	None
	kw_args kw_args: dict, Standard=None Dictionary mit zusätzlichen Schlüsselwortargumenten, die an func übergeben werden. .. versionadded:: 0.18	{'model': GradientBoost...ndom_state=10)}
	inv_kw_args inv_kw_args: dict, Standard=None Dictionary mit zusätzlichen Schlüsselwortargumenten, die an inverse_func übergeben werden. .. versionadded:: 0.18	None

Merkmale-Transformationen mit Baum-Ensembles#

Diese Seite