Hinweis

Zum Ende springen, um den vollständigen Beispielcode herunterzuladen oder dieses Beispiel über JupyterLite oder Binder in Ihrem Browser auszuführen.

Release Highlights für scikit-learn 1.2#

Wir freuen uns, die Veröffentlichung von scikit-learn 1.2 bekannt zu geben! Viele Fehlerbehebungen und Verbesserungen wurden hinzugefügt, ebenso wie einige neue Kernfunktionen. Im Folgenden beschreiben wir einige der wichtigsten Funktionen dieser Version. **Eine vollständige Liste aller Änderungen** finden Sie in den Release Notes.

Um die neueste Version zu installieren (mit pip)

pip install --upgrade scikit-learn

oder mit conda

conda install -c conda-forge scikit-learn

Pandas-Ausgabe mit der `set_output` API#

Die Transformer von scikit-learn unterstützen jetzt die Pandas-Ausgabe mit der set_output API. Um mehr über die set_output API zu erfahren, siehe das Beispiel: Einführung der set_output API und dieses Video, Pandas DataFrame-Ausgabe für scikit-learn Transformer (einige Beispiele).

import numpy as np

from sklearn.compose import ColumnTransformer
from sklearn.datasets import load_iris
from sklearn.preprocessing import KBinsDiscretizer, StandardScaler

X, y = load_iris(as_frame=True, return_X_y=True)
sepal_cols = ["sepal length (cm)", "sepal width (cm)"]
petal_cols = ["petal length (cm)", "petal width (cm)"]

preprocessor = ColumnTransformer(
    [
        ("scaler", StandardScaler(), sepal_cols),
        (
            "kbin",
            KBinsDiscretizer(encode="ordinal", quantile_method="averaged_inverted_cdf"),
            petal_cols,
        ),
    ],
    verbose_feature_names_out=False,
).set_output(transform="pandas")

X_out = preprocessor.fit_transform(X)
X_out.sample(n=5, random_state=0)

	Sepal Länge (cm)	Sepal Breite (cm)	Petal Länge (cm)	Petal Breite (cm)
114	-0.052506	-0.592373	3.0	4.0
62	0.189830	-1.973554	2.0	1.0
33	-0.416010	2.630382	0.0	1.0
107	1.765012	-0.362176	4.0	3.0
7	-1.021849	0.788808	1.0	1.0

Interaktionsbeschränkungen in Histogramm-basierten Gradient Boosting Trees#

HistGradientBoostingRegressor und HistGradientBoostingClassifier unterstützen jetzt Interaktionsbeschränkungen mit dem Parameter interaction_cst. Details finden Sie im Benutzerhandbuch. Im folgenden Beispiel dürfen Features nicht interagieren.

from sklearn.datasets import load_diabetes
from sklearn.ensemble import HistGradientBoostingRegressor

X, y = load_diabetes(return_X_y=True, as_frame=True)

hist_no_interact = HistGradientBoostingRegressor(
    interaction_cst=[[i] for i in range(X.shape[1])], random_state=0
)
hist_no_interact.fit(X, y)

HistGradientBoostingRegressor(interaction_cst=[[0], [1], [2], [3], [4], [5],
                                               [6], [7], [8], [9]],
                              random_state=0)

In einer Jupyter-Umgebung führen Sie diese Zelle bitte erneut aus, um die HTML-Darstellung anzuzeigen, oder vertrauen Sie dem Notebook.
Auf GitHub kann die HTML-Darstellung nicht gerendert werden. Versuchen Sie bitte, diese Seite mit nbviewer.org zu laden.

Neue und erweiterte Anzeigen#

PredictionErrorDisplay bietet eine Möglichkeit, Regressionsmodelle qualitativ zu analysieren.

import matplotlib.pyplot as plt

from sklearn.metrics import PredictionErrorDisplay

fig, axs = plt.subplots(nrows=1, ncols=2, figsize=(12, 5))
_ = PredictionErrorDisplay.from_estimator(
    hist_no_interact, X, y, kind="actual_vs_predicted", ax=axs[0]
)
_ = PredictionErrorDisplay.from_estimator(
    hist_no_interact, X, y, kind="residual_vs_predicted", ax=axs[1]
)

LearningCurveDisplay ist jetzt verfügbar, um Ergebnisse von learning_curve zu plotten.

from sklearn.model_selection import LearningCurveDisplay

_ = LearningCurveDisplay.from_estimator(
    hist_no_interact, X, y, cv=5, n_jobs=2, train_sizes=np.linspace(0.1, 1, 5)
)

PartialDependenceDisplay stellt einen neuen Parameter categorical_features zur Verfügung, um die partielle Abhängigkeit für kategoriale Merkmale mithilfe von Balkendiagrammen und Heatmaps anzuzeigen.

from sklearn.datasets import fetch_openml

X, y = fetch_openml(
    "titanic", version=1, as_frame=True, return_X_y=True, parser="pandas"
)
X = X.select_dtypes(["number", "category"]).drop(columns=["body"])

from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import OrdinalEncoder

categorical_features = ["pclass", "sex", "embarked"]
model = make_pipeline(
    ColumnTransformer(
        transformers=[("cat", OrdinalEncoder(), categorical_features)],
        remainder="passthrough",
    ),
    HistGradientBoostingRegressor(random_state=0),
).fit(X, y)

from sklearn.inspection import PartialDependenceDisplay

fig, ax = plt.subplots(figsize=(14, 4), constrained_layout=True)
_ = PartialDependenceDisplay.from_estimator(
    model,
    X,
    features=["age", "sex", ("pclass", "sex")],
    categorical_features=categorical_features,
    ax=ax,
)

Schnellerer Parser in `fetch_openml`#

fetch_openml unterstützt jetzt einen neuen "pandas"-Parser, der speicher- und CPU-effizienter ist. In v1.4 wird der Standardwert zu parser="auto" geändert, der automatisch den "pandas"-Parser für dichte Daten und "liac-arff" für spärliche Daten verwendet.

X, y = fetch_openml(
    "titanic", version=1, as_frame=True, return_X_y=True, parser="pandas"
)
X.head()

	pclass	Name	geschlecht	Alter	sibsp	parch	ticket	fare	cabin	embarked	boat	body	home.dest
0	1	Allen, Miss. Elisabeth Walton	weiblich	29.0000	0	0	24160	211.3375	B5	S	2	NaN	St Louis, MO
1	1	Allison, Master. Hudson Trevor	männlich	0.9167	1	2	113781	151.5500	C22 C26	S	11	NaN	Montreal, PQ / Chesterville, ON
2	1	Allison, Miss. Helen Loraine	weiblich	2.0000	1	2	113781	151.5500	C22 C26	S	NaN	NaN	Montreal, PQ / Chesterville, ON
3	1	Allison, Mr. Hudson Joshua Creighton	männlich	30.0000	1	2	113781	151.5500	C22 C26	S	NaN	135.0	Montreal, PQ / Chesterville, ON
4	1	Allison, Mrs. Hudson J C (Bessie Waldo Daniels)	weiblich	25.0000	1	2	113781	151.5500	C22 C26	S	NaN	NaN	Montreal, PQ / Chesterville, ON

Experimentelle Array API-Unterstützung in `LinearDiscriminantAnalysis`#

Experimentelle Unterstützung für die Array API Spezifikation wurde zu LinearDiscriminantAnalysis hinzugefügt. Der Schätzer kann jetzt auf jeder Array API-konformen Bibliothek wie CuPy, einer GPU-beschleunigten Array-Bibliothek, ausgeführt werden. Details finden Sie im Benutzerhandbuch.

Verbesserte Effizienz vieler Schätzer#

In Version 1.1 wurde die Effizienz vieler Schätzer, die auf der Berechnung von paarweisen Distanzen basieren (im Wesentlichen Schätzer im Zusammenhang mit Clustering-, Manifold-Learning- und Nachbarschaftssuchalgorithmen), für float64-dichte Eingaben stark verbessert. Insbesondere führten Effizienzverbesserungen zu einem reduzierten Speicherbedarf und einer deutlich besseren Skalierbarkeit auf Multi-Core-Maschinen. In Version 1.2 wurde die Effizienz dieser Schätzer für alle Kombinationen von dichten und spärlichen Eingaben auf float32- und float64-Datensätzen weiter verbessert, mit Ausnahme der spärlich-dichten und dicht-spärlichen Kombinationen für die metrischen Abstände Euklidisch und Quadratisch Euklidisch. Eine detaillierte Liste der betroffenen Schätzer finden Sie im Changelog.

Gesamtlaufzeit des Skripts: (0 Minuten 5,676 Sekunden)

Verwandte Beispiele

Release Highlights für scikit-learn 1.7

Release Highlights für scikit-learn 1.4

Einführung der set_output API

Release Highlights für scikit-learn 1.0

Galerie generiert von Sphinx-Gallery

	loss loss: {'squared_error', 'absolute_error', 'gamma', 'poisson', 'quantile'}, default='squared_error' Die Verlustfunktion, die im Boosting-Prozess verwendet wird. Beachten Sie, dass die "squared error", "gamma" und "poisson" Verluste tatsächlich "half least squares loss", "half gamma deviance" und "half poisson deviance" implementieren, um die Berechnung des Gradienten zu vereinfachen. Darüber hinaus verwenden die Verluste "gamma" und "poisson" intern einen Log-Link, "gamma" erfordert ``y > 0`` und "poisson" erfordert ``y >= 0``. "quantile" verwendet den Pinball-Verlust. .. versionchanged:: 0.23 Option 'poisson' hinzugefügt. .. versionchanged:: 1.1 Option 'quantile' hinzugefügt. .. versionchanged:: 1.3 Option 'gamma' hinzugefügt.	'squared_error'
	quantile quantile: float, default=None Wenn loss "quantile" ist, gibt dieser Parameter an, welches Quantil geschätzt werden soll, und muss zwischen 0 und 1 liegen.	None
	learning_rate learning_rate: float, default=0.1 Die Lernrate, auch bekannt als Shrinkage. Sie wird als multiplikativer Faktor für die Blattwerte verwendet. Verwenden Sie ``1`` für keine Schrumpfung.	0.1
	max_iter max_iter: int, default=100 Die maximale Anzahl von Iterationen des Boosting-Prozesses, d.h. die maximale Anzahl von Bäumen.	100
	max_leaf_nodes max_leaf_nodes: int oder None, default=31 Die maximale Anzahl von Blättern pro Baum. Muss strikt größer als 1 sein. Wenn None, gibt es keine maximale Grenze.	31
	max_depth max_depth: int oder None, default=None Die maximale Tiefe jedes Baumes. Die Tiefe eines Baumes ist die Anzahl der Kanten, die vom Wurzelknoten zum tiefsten Blatt führen. Die Tiefe ist standardmäßig nicht begrenzt.	None
	min_samples_leaf min_samples_leaf: int, default=20 Die Mindestanzahl von Samples pro Blatt. Bei kleinen Datensätzen mit weniger als einigen hundert Samples wird empfohlen, diesen Wert zu senken, da nur sehr flache Bäume gebaut würden.	20
	l2_regularization l2_regularization: float, default=0 Der L2-Regularisierungsparameter, der Blätter mit kleinen Hessianen bestraft. Verwenden Sie ``0`` für keine Regularisierung (Standard).	0.0
	max_features max_features: float, default=1.0 Anteil zufällig ausgewählter Merkmale in jedem Knoten-Split. Dies ist eine Form der Regularisierung, kleinere Werte machen die Bäume zu schwächeren Lernern und können Überanpassung verhindern. Wenn Interaktionsbeschränkungen aus `interaction_cst` vorhanden sind, werden nur erlaubte Merkmale für die Unterstichprobe berücksichtigt. .. versionadded:: 1.4	1.0
	max_bins max_bins: int, default=255 Die maximale Anzahl von Bins, die für nicht fehlende Werte verwendet werden sollen. Vor dem Training wird jedes Merkmal des Eingabearrays `X` in ganzzahlige Bins eingeteilt, was eine viel schnellere Trainingsphase ermöglicht. Merkmale mit einer kleinen Anzahl von eindeutigen Werten verwenden möglicherweise weniger als ``max_bins`` Bins. Zusätzlich zu den ``max_bins`` Bins ist immer ein weiterer Bin für fehlende Werte reserviert. Muss nicht größer als 255 sein.	255
	categorical_features categorical_features: array-like von {bool, int, str} der Form (n_features) oder (n_categorical_features), Standardwert='from_dtype' Gibt die kategorialen Merkmale an. - None : kein Merkmal wird als kategorisch betrachtet. - bool-ähnliches Array : boolesche Maske, die kategoriale Merkmale angibt. - int-ähnliches Array : ganzzahlige Indizes, die kategoriale Merkmale angeben. - str-ähnliches Array: Namen kategorialer Merkmale (vorausgesetzt, die Trainingsdaten haben Merkmalnamen). - `"from_dtype"`: Spalten eines DataFrames mit dtype "category" werden als kategoriale Merkmale betrachtet. Die Eingabe muss ein Objekt sein, das eine ``__dataframe__``-Methode bereitstellt, wie z. B. Pandas oder Polars DataFrames, um diese Funktion zu nutzen. Für jedes kategorische Merkmal dürfen höchstens `max_bins` eindeutige Kategorien vorhanden sein. Negative Werte für kategoriale Merkmale, die als numerische Datentypen kodiert sind, werden als fehlende Werte behandelt. Alle kategorialen Werte werden in Gleitkommazahlen umgewandelt. Das bedeutet, dass die kategorialen Werte 1.0 und 1 als dieselbe Kategorie behandelt werden. Weitere Informationen finden Sie im :ref:`Benutzerhandbuch ` und :ref:`sphx_glr_auto_examples_ensemble_plot_gradient_boosting_categorical.py`. .. versionadded:: 0.24 .. versionchanged:: 1.2 Unterstützung für Merkmalnamen hinzugefügt. .. versionchanged:: 1.4 Option `"from_dtype"` hinzugefügt. .. versionchanged:: 1.6 Der Standardwert wurde von `None` auf `"from_dtype"` geändert.	'from_dtype'
	monotonic_cst monotonic_cst: array-ähnlich von int mit shape (n_features) oder dict, default=None Monotone Einschränkungen, die für jedes Merkmal durchgesetzt werden sollen, werden mit den folgenden Integer-Werten angegeben: - 1: monoton steigend - 0: keine Einschränkung - -1: monoton fallend Wenn ein Dict mit String-Schlüsseln, ordnet es Merkmale zu monotonen Einschränkungen nach Namen zu. Wenn ein Array, werden die Merkmale Einschränkungen nach Position zugeordnet. Siehe :ref:`monotonic_cst_features_names` für ein Anwendungsbeispiel. Weiterlesen im :ref:`Benutzerhandbuch `. .. versionadded:: 0.23 .. versionchanged:: 1.2 Akzeptiert Dict von Einschränkungen mit Merkmalnamen als Schlüssel.	None
	interaction_cst interaction_cst: {"pairwise", "no_interactions"} oder Sequenz von Listen/Tupeln/Sets von int, Standardwert=None Gibt Interaktionsbeschränkungen an, die Mengen von Merkmalen, die miteinander in Kindknotensplits interagieren dürfen. Jeder Eintrag gibt die Menge der Merkmalsindizes an, die miteinander interagieren dürfen. Wenn mehr Merkmale vorhanden sind als in diesen Beschränkungen angegeben, werden sie so behandelt, als wären sie als zusätzliches Set angegeben. Die Zeichenketten "pairwise" und "no_interactions" sind Abkürzungen für das Zulassen von nur paarweisen oder gar keinen Interaktionen, jeweils. Beispielsweise ist bei insgesamt 5 Merkmalen `interaction_cst=[{0, 1}]` äquivalent zu `interaction_cst=[{0, 1}, {2, 3, 4}]`, und gibt an, dass jeder Zweig eines Baumes entweder nur an den Merkmalen 0 und 1 splittet oder nur an den Merkmalen 2, 3 und 4 splittet. Siehe :ref:`dieses Beispiel` zur Verwendung von `interaction_cst`. .. versionadded:: 1.2	[[0], [1], ...]
	warm_start warm_start: bool, default=False Wenn ``True`` gesetzt, wird die Lösung des vorherigen fit-Aufrufs wiederverwendet und weitere Schätzer zum Ensemble hinzugefügt. Damit die Ergebnisse gültig sind, sollte der Schätzer nur auf denselben Daten neu trainiert werden. Siehe :term:`Glossar `.	False
	early_stopping early_stopping: 'auto' oder bool, default='auto' Wenn 'auto', ist Early Stopping aktiviert, wenn die Stichprobengröße größer als 10000 ist oder wenn `X_val` und `y_val` an `fit` übergeben werden. Wenn True, ist Early Stopping aktiviert, andernfalls ist Early Stopping deaktiviert. .. versionadded:: 0.23	'auto'
	scoring scoring: str oder callable oder None, default='loss' Scoring-Methode, die für Early Stopping verwendet wird. Wird nur verwendet, wenn `early_stopping` aktiviert ist. Optionen: - str: siehe :ref:`scoring_string_names` für Optionen. - callable: ein Scorer-Callable-Objekt (z.B. Funktion) mit der Signatur ``scorer(estimator, X, y)``. Siehe :ref:`scoring_callable` für Details. - `None`: der :ref:`Bestimmtheitskoeffizient ` (:math:`R^2`) wird verwendet. - 'loss': Early Stopping wird im Vergleich zum Verlustwert überprüft.	'loss'
	validation_fraction validation_fraction: int oder float oder None, default=0.1 Anteil (oder absolute Größe) der Trainingsdaten, der als Validierungsdaten für Early Stopping zurückgestellt wird. Wenn None, erfolgt Early Stopping auf den Trainingsdaten. Der Wert wird ignoriert, wenn entweder kein Early Stopping durchgeführt wird (z.B. `early_stopping=False`) oder wenn `X_val` und `y_val` an fit übergeben werden.	0.1
	n_iter_no_change n_iter_no_change: int, default=10 Wird verwendet, um zu bestimmen, wann "Early Stop" erfolgen soll. Der Anpassungsprozess wird gestoppt, wenn keiner der letzten ``n_iter_no_change`` Scores besser ist als der ``n_iter_no_change - 1``-te-letzte, bis zu einer gewissen Toleranz. Nur verwendet, wenn Early Stopping durchgeführt wird.	10
	tol tol: float, default=1e-7 Die absolute Toleranz, die beim Vergleichen von Scores während des Early Stoppings verwendet wird. Je höher die Toleranz, desto wahrscheinlicher ist es, dass ein frühes Stoppen erfolgt: eine höhere Toleranz bedeutet, dass es für nachfolgende Iterationen schwieriger ist, als Verbesserung gegenüber dem Referenz-Score zu gelten.	1e-07
	verbose verbose: int, default=0 Die Ausführlichkeitsstufe. Wenn nicht null, werden einige Informationen über den Anpassungsprozess ausgegeben. ``1`` gibt nur eine Zusammenfassung aus, ``2`` gibt Informationen pro Iteration aus.	0
	random_state random_state: int, RandomState-Instanz oder None, default=None Pseudozufallszahlengenerator zur Steuerung der Unterabtastung im Binning-Prozess und der Trainings-/Validierungsdatensatzaufteilung, wenn Early Stopping aktiviert ist. Geben Sie eine Ganzzahl für reproduzierbare Ergebnisse über mehrere Funktionsaufrufe an. Siehe :term:`Glossar `.	0

Release Highlights für scikit-learn 1.2#

Pandas-Ausgabe mit der set_output API#