Hinweis

Zum Ende gehen, um den vollständigen Beispielcode herunterzuladen oder dieses Beispiel in Ihrem Browser über JupyterLite oder Binder auszuführen.

Release Highlights für scikit-learn 1.1#

Wir freuen uns, die Veröffentlichung von scikit-learn 1.1 bekannt zu geben! Viele Fehlerbehebungen und Verbesserungen wurden hinzugefügt, sowie einige neue Schlüsselfunktionen. Nachfolgend werden einige der wichtigsten Funktionen dieser Veröffentlichung detailliert beschrieben. **Für eine vollständige Liste aller Änderungen** siehe die Release Notes.

Um die neueste Version zu installieren (mit pip)

pip install --upgrade scikit-learn

oder mit conda

conda install -c conda-forge scikit-learn

Quantilverlust in `HistGradientBoostingRegressor`#

HistGradientBoostingRegressor kann Quantile mit loss="quantile" und dem neuen Parameter quantile modellieren.

import matplotlib.pyplot as plt
import numpy as np

from sklearn.ensemble import HistGradientBoostingRegressor

# Simple regression function for X * cos(X)
rng = np.random.RandomState(42)
X_1d = np.linspace(0, 10, num=2000)
X = X_1d.reshape(-1, 1)
y = X_1d * np.cos(X_1d) + rng.normal(scale=X_1d / 3)

quantiles = [0.95, 0.5, 0.05]
parameters = dict(loss="quantile", max_bins=32, max_iter=50)
hist_quantiles = {
    f"quantile={quantile:.2f}": HistGradientBoostingRegressor(
        **parameters, quantile=quantile
    ).fit(X, y)
    for quantile in quantiles
}

fig, ax = plt.subplots()
ax.plot(X_1d, y, "o", alpha=0.5, markersize=1)
for quantile, hist in hist_quantiles.items():
    ax.plot(X_1d, hist.predict(X), label=quantile)
_ = ax.legend(loc="lower left")

Ein Anwendungsbeispiel finden Sie unter Features in Histogramm-Gradient-Boosting-Trees

`get_feature_names_out` Verfügbar in allen Transformern#

get_feature_names_out ist jetzt in allen Transformern verfügbar, was die Implementierung von SLEP007 abschließt. Dies ermöglicht Pipeline, die Ausgabefunktionalitätsnamen für komplexere Pipelines zu erstellen.

from sklearn.compose import ColumnTransformer
from sklearn.datasets import fetch_openml
from sklearn.feature_selection import SelectKBest
from sklearn.impute import SimpleImputer
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import OneHotEncoder, StandardScaler

X, y = fetch_openml(
    "titanic", version=1, as_frame=True, return_X_y=True, parser="pandas"
)
numeric_features = ["age", "fare"]
numeric_transformer = make_pipeline(SimpleImputer(strategy="median"), StandardScaler())
categorical_features = ["embarked", "pclass"]

preprocessor = ColumnTransformer(
    [
        ("num", numeric_transformer, numeric_features),
        (
            "cat",
            OneHotEncoder(handle_unknown="ignore", sparse_output=False),
            categorical_features,
        ),
    ],
    verbose_feature_names_out=False,
)
log_reg = make_pipeline(preprocessor, SelectKBest(k=7), LogisticRegression())
log_reg.fit(X, y)

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(transformers=[('num',
                                                  Pipeline(steps=[('simpleimputer',
                                                                   SimpleImputer(strategy='median')),
                                                                  ('standardscaler',
                                                                   StandardScaler())]),
                                                  ['age', 'fare']),
                                                 ('cat',
                                                  OneHotEncoder(handle_unknown='ignore',
                                                                sparse_output=False),
                                                  ['embarked', 'pclass'])],
                                   verbose_feature_names_out=False)),
                ('selectkbest', SelectKBest(k=7)),
                ('logisticregression', LogisticRegression())])

In einer Jupyter-Umgebung führen Sie diese Zelle bitte erneut aus, um die HTML-Darstellung anzuzeigen, oder vertrauen Sie dem Notebook.
Auf GitHub kann die HTML-Darstellung nicht gerendert werden. Versuchen Sie bitte, diese Seite mit nbviewer.org zu laden.

Hier schneiden wir die Pipeline, um alle Schritte außer dem letzten einzubeziehen. Die Ausgabefunktionalitätsnamen dieses Pipeline-Schnitts sind die Merkmale, die in die logistische Regression eingespeist werden. Diese Namen entsprechen direkt den Koeffizienten in der logistischen Regression.

import pandas as pd

log_reg_input_features = log_reg[:-1].get_feature_names_out()
pd.Series(log_reg[-1].coef_.ravel(), index=log_reg_input_features).plot.bar()
plt.tight_layout()

Gruppierung seltener Kategorien in `OneHotEncoder`#

OneHotEncoder unterstützt die Aggregation seltener Kategorien in eine einzige Ausgabe für jedes Merkmal. Die Parameter zur Aktivierung der Sammlung seltener Kategorien sind min_frequency und max_categories. Weitere Informationen finden Sie im Benutzerhandbuch.

import numpy as np

from sklearn.preprocessing import OneHotEncoder

X = np.array(
    [["dog"] * 5 + ["cat"] * 20 + ["rabbit"] * 10 + ["snake"] * 3], dtype=object
).T
enc = OneHotEncoder(min_frequency=6, sparse_output=False).fit(X)
enc.infrequent_categories_

[array(['dog', 'snake'], dtype=object)]

Da Hund und Schlange seltene Kategorien sind, werden sie beim Transformieren zusammen gruppiert.

encoded = enc.transform(np.array([["dog"], ["snake"], ["cat"], ["rabbit"]]))
pd.DataFrame(encoded, columns=enc.get_feature_names_out())

	x0_cat	x0_rabbit	x0_infrequent_sklearn
0	0.0	0.0	1.0
1	0.0	0.0	1.0
2	1.0	0.0	0.0
3	0.0	1.0	0.0

Leistungsverbesserungen#

Reduktionen bei paarweisen Abständen für dichte float64-Datensätze wurden umgestaltet, um die nicht-blockierende Thread-Parallelität besser zu nutzen. Zum Beispiel können neighbors.NearestNeighbors.kneighbors und neighbors.NearestNeighbors.radius_neighbors bis zu 20x bzw. 5x schneller sein als zuvor. Zusammenfassend profitieren die folgenden Funktionen und Schätzer nun von verbesserter Leistung:

Um mehr über die technischen Details dieser Arbeit zu erfahren, können Sie diese Reihe von Blog-Posts lesen.

Darüber hinaus wurde die Berechnung von Verlustfunktionen mithilfe von Cython überarbeitet, was zu Leistungssteigerungen für die folgenden Schätzer führte:

`MiniBatchNMF`: eine Online-Version von NMF#

Die neue Klasse MiniBatchNMF implementiert eine schnellere, aber weniger genaue Version der nicht-negativen Matrixfaktorisierung (NMF). MiniBatchNMF teilt die Daten in Mini-Batches auf und optimiert das NMF-Modell online, indem es die Mini-Batches durchläuft, was es besser für große Datensätze geeignet macht. Insbesondere implementiert es partial_fit, das für das Online-Lernen verwendet werden kann, wenn die Daten nicht von Anfang an verfügbar sind oder wenn die Daten nicht in den Speicher passen.

import numpy as np

from sklearn.decomposition import MiniBatchNMF

rng = np.random.RandomState(0)
n_samples, n_features, n_components = 10, 10, 5
true_W = rng.uniform(size=(n_samples, n_components))
true_H = rng.uniform(size=(n_components, n_features))
X = true_W @ true_H

nmf = MiniBatchNMF(n_components=n_components, random_state=0)

for _ in range(10):
    nmf.partial_fit(X)

W = nmf.transform(X)
H = nmf.components_
X_reconstructed = W @ H

print(
    "relative reconstruction error: ",
    f"{np.sum((X - X_reconstructed) ** 2) / np.sum(X**2):.5f}",
)

relative reconstruction error:  0.00364

`BisectingKMeans`: Teilen und Clustern#

Die neue Klasse BisectingKMeans ist eine Variante von KMeans und verwendet divisives hierarchisches Clustering. Anstatt alle Zentren auf einmal zu erstellen, werden die Zentren schrittweise auf Basis eines vorherigen Clusterings ausgewählt: Ein Cluster wird wiederholt in zwei neue Cluster aufgeteilt, bis die Zielanzahl von Clustern erreicht ist, wodurch dem Clustering eine hierarchische Struktur verliehen wird.

import matplotlib.pyplot as plt

from sklearn.cluster import BisectingKMeans, KMeans
from sklearn.datasets import make_blobs

X, _ = make_blobs(n_samples=1000, centers=2, random_state=0)

km = KMeans(n_clusters=5, random_state=0, n_init="auto").fit(X)
bisect_km = BisectingKMeans(n_clusters=5, random_state=0).fit(X)

fig, ax = plt.subplots(1, 2, figsize=(10, 5))
ax[0].scatter(X[:, 0], X[:, 1], s=10, c=km.labels_)
ax[0].scatter(km.cluster_centers_[:, 0], km.cluster_centers_[:, 1], s=20, c="r")
ax[0].set_title("KMeans")

ax[1].scatter(X[:, 0], X[:, 1], s=10, c=bisect_km.labels_)
ax[1].scatter(
    bisect_km.cluster_centers_[:, 0], bisect_km.cluster_centers_[:, 1], s=20, c="r"
)
_ = ax[1].set_title("BisectingKMeans")

Gesamtlaufzeit des Skripts: (0 Minuten 0,821 Sekunden)

Verwandte Beispiele

Release Highlights für scikit-learn 1.0

Release Highlights für scikit-learn 1.3

Release Highlights für scikit-learn 0.23

Release Highlights für scikit-learn 1.2

Galerie generiert von Sphinx-Gallery

	steps steps: list of tuples Liste von Tupeln (Name des Schritts, Schätzer), die in sequenzieller Reihenfolge verkettet werden sollen. Um mit der scikit-learn API kompatibel zu sein, müssen alle Schritte `fit` definieren. Alle nicht letzten Schritte müssen auch `transform` definieren. Siehe :ref:`Kombination von Schätzern ` für weitere Details.	[('columntransformer', ...), ('selectkbest', ...), ...]
	transform_input transform_input: list of str, default=None Die Namen der :term:`Metadaten`-Parameter, die von der Pipeline transformiert werden sollen, bevor sie an den Schritt übergeben werden, der sie benötigt. Dies ermöglicht die Transformation einiger Eingabeparameter zu ``fit`` (außer ``X``), die von den Schritten der Pipeline bis zu dem Schritt transformiert werden, der sie benötigt. Die Anforderung wird über :ref:`Metadaten-Routing ` definiert. Dies kann beispielsweise verwendet werden, um einen Validierungsdatensatz durch die Pipeline zu leiten. Sie können dies nur festlegen, wenn das Metadaten-Routing aktiviert ist, was Sie mit ``sklearn.set_config(enable_metadata_routing=True)`` aktivieren können. .. versionadded:: 1.6	None
	memory memory: str oder Objekt mit der joblib.Memory-Schnittstelle, default=None Wird zum Zwischenspeichern der angepassten Transformer der Pipeline verwendet. Der letzte Schritt wird niemals zwischengespeichert, auch wenn es sich um einen Transformer handelt. Standardmäßig erfolgt keine Zwischenspeicherung. Wenn ein String angegeben wird, ist dies der Pfad zum Zwischenspeicherverzeichnis. Durch Aktivieren der Zwischenspeicherung wird eine Kopie der Transformer vor dem Anpassen ausgelöst. Daher kann die an die Pipeline übergebene Transformer-Instanz nicht direkt inspiziert werden. Verwenden Sie das Attribut `named_steps` oder `steps`, um Schätzer innerhalb der Pipeline zu inspizieren. Das Zwischenspeichern der Transformer ist vorteilhaft, wenn das Anpassen zeitaufwändig ist. Siehe :ref:`sphx_glr_auto_examples_neighbors_plot_caching_nearest_neighbors.py` für ein Beispiel zur Aktivierung der Zwischenspeicherung.	None
	verbose verbose: bool, default=False Wenn True, wird die verstrichene Zeit während des Anpassens jedes Schritts gedruckt, wenn es abgeschlossen ist.	False

	transformers transformers: Liste von Tupeln Liste von (name, transformer, spalten) Tupeln, die die zu verwendenden Transformer-Objekte für Datenteile spezifizieren. name : str Wie in Pipeline und FeatureUnion ermöglicht dies die Einstellung des Transformers und seiner Parameter über ``set_params`` und die Suche in der Gitter-Suche. transformer : {'drop', 'passthrough'} oder Schätzer Der Schätzer muss :term:`fit` und :term:`transform` unterstützen. Speziell behandelte Zeichenketten 'drop' und 'passthrough' werden ebenfalls akzeptiert, um anzuzeigen, dass die Spalten verworfen oder unverändert übergeben werden sollen. columns : str, array-like von str, int, array-like von int, array-like von bool, slice oder callable Indiziert die Daten auf ihrer zweiten Achse. Ganze Zahlen werden als positionelle Spalten interpretiert, während Zeichenketten DataFrame-Spalten nach Namen referenzieren können. Ein Skalar-String oder eine ganze Zahl sollte verwendet werden, wenn ``transformer`` X als 1D-Array (Vektor) erwartet, andernfalls wird ein 2D-Array an den Transformer übergeben. Ein Callable wird mit den Eingangsdaten `X` aufgerufen und kann beliebige der oben genannten zurückgeben. Um mehrere Spalten nach Namen oder dtype auszuwählen, können Sie :obj:`make_column_selector` verwenden.	[('num', ...), ('cat', ...)]
	remainder remainder: {'drop', 'passthrough'} oder Schätzer, default='drop' Standardmäßig werden nur die in `transformers` spezifizierten Spalten transformiert und im Ergebnis kombiniert, und die nicht spezifizierten Spalten werden verworfen. (Standard von ``'drop'``). Durch Angabe von ``remainder='passthrough'`` werden alle verbleibenden Spalten, die nicht in `transformers` spezifiziert, aber in den an `fit` übergebenen Daten vorhanden waren, automatisch durchgelassen. Diese Teilmenge von Spalten wird mit dem Ergebnis der Transformer verkettet. Für DataFrames werden zusätzliche Spalten, die während `fit` nicht gesehen wurden, aus dem Ergebnis von `transform` ausgeschlossen. Durch Setzen von ``remainder`` auf einen Schätzer verwenden die verbleibenden nicht spezifizierten Spalten den ``remainder``-Schätzer. Der Schätzer muss :term:`fit` und :term:`transform` unterstützen. Beachten Sie, dass die Verwendung dieser Funktion erfordert, dass die DataFrame-Spalten bei `fit` und `transform` die gleiche Reihenfolge haben.	'drop'
	sparse_threshold sparse_threshold: float, default=0.3 Wenn die Ausgabe der verschiedenen Transformer dünnbesetzte Matrizen enthält, werden diese als dünnbesetzte Matrix gestapelt, wenn die Gesamtdichte geringer ist als dieser Wert. Verwenden Sie ``sparse_threshold=0``, um immer dicht zu liefern. Wenn die transformierte Ausgabe nur dichte Daten enthält, wird das gestapelte Ergebnis dicht sein, und dieses Schlüsselwort wird ignoriert.	0.3
	n_jobs n_jobs: int, default=None Anzahl der parallel auszuführenden Jobs. ``None`` bedeutet 1, es sei denn, es befindet sich in einem :obj:`joblib.parallel_backend` Kontext. ``-1`` bedeutet, alle Prozessoren zu verwenden. Siehe :term:`Glossar ` für weitere Details.	None
	transformer_weights transformer_weights: dict, default=None Multiplikative Gewichte für Merkmale pro Transformer. Die Ausgabe des Transformers wird mit diesen Gewichten multipliziert. Schlüssel sind Transformer-Namen, Werte die Gewichte.	None
	verbose verbose: bool, default=False Wenn True, wird die verstrichene Zeit während des Anpassens jedes Transformators gedruckt, wenn er abgeschlossen ist.	False
	verbose_feature_names_out verbose_feature_names_out: bool, str oder Callable[[str, str], str], Standard=True - Wenn True, präfixiert :meth:`ColumnTransformer.get_feature_names_out` alle Funktionsnamen mit dem Namen des Transformers, der diesen Feature generiert hat. Dies ist äquivalent zur Einstellung von `verbose_feature_names_out="{transformer_name}__{feature_name}"`. - Wenn False, präfixiert :meth:`ColumnTransformer.get_feature_names_out` keine Funktionsnamen und gibt einen Fehler aus, wenn Funktionsnamen nicht eindeutig sind. - Wenn ``Callable[[str, str], str]``, benennt :meth:`ColumnTransformer.get_feature_names_out` alle Features mit dem Namen des Transformers um. Das erste Argument des Callables ist der Transformer-Name und das zweite Argument der Feature-Name. Der zurückgegebene String ist der neue Feature-Name. - Wenn ``str``, muss es ein für die Formatierung vorbereiteter String sein. Der angegebene String wird mit zwei Feldnamen formatiert: ``transformer_name`` und ``feature_name``. z.B. ``"{feature_name}__{transformer_name}"``. Siehe die Methode :meth:`str.format` aus der Standardbibliothek für weitere Informationen. .. versionadded:: 1.0 .. versionchanged:: 1.6 `verbose_feature_names_out` kann ein Callable oder ein zu formatierender String sein.	False
	force_int_remainder_cols force_int_remainder_cols: bool, default=False Dieser Parameter hat keine Auswirkung. .. note:: Wenn Sie nicht auf die Liste der Spalten für die verbleibenden Spalten im ``transformers_`` angepassten Attribut zugreifen, müssen Sie diesen Parameter nicht setzen. .. versionadded:: 1.5 .. versionchanged:: 1.7 Der Standardwert für `force_int_remainder_cols` ändert sich von `True` auf `False` in Version 1.7. .. deprecated:: 1.7 `force_int_remainder_cols` ist veraltet und wird in Version 1.9 entfernt.	'deprecated'

	missing_values missing_values: int, float, str, np.nan, None oder pandas.NA, Standard=np.nan Der Platzhalter für die fehlenden Werte. Alle Vorkommen von `missing_values` werden imputiert. Für Pandas-DataFrames mit nullbaren Integer-Datentypen mit fehlenden Werten kann `missing_values` auf `np.nan` oder `pd.NA` gesetzt werden.	nan
	strategy strategy: str oder Callable, Standard='mean' Die Imputationsstrategie. - Wenn "mean", dann ersetzen Sie fehlende Werte mit dem Mittelwert entlang jeder Spalte. Kann nur mit numerischen Daten verwendet werden. - Wenn "median", dann ersetzen Sie fehlende Werte mit dem Median entlang jeder Spalte. Kann nur mit numerischen Daten verwendet werden. - Wenn "most_frequent", dann ersetzen Sie fehlende Werte mit dem häufigsten Wert entlang jeder Spalte. Kann mit Zeichenketten oder numerischen Daten verwendet werden. Wenn es mehr als einen solchen Wert gibt, wird nur der kleinste zurückgegeben. - Wenn "constant", dann ersetzen Sie fehlende Werte mit fill_value. Kann mit Zeichenketten oder numerischen Daten verwendet werden. - Wenn eine Instanz von Callable, dann ersetzen Sie fehlende Werte mit der skalaren Statistik, die durch Ausführen des Callables auf einem dichten 1D- Array mit nicht fehlenden Werten jeder Spalte zurückgegeben wird. .. versionadded:: 0.20 strategy="constant" für die Imputation fester Werte. .. versionadded:: 1.5 strategy=callable für die Imputation benutzerdefinierter Werte.	'median'
	fill_value fill_value: str oder numerischer Wert, Standard=None Wenn strategy == "constant", wird `fill_value` verwendet, um alle Vorkommen von missing_values zu ersetzen. Für Zeichenketten oder Objekt-Datentypen muss `fill_value` eine Zeichenkette sein. Wenn `None`, ist `fill_value` 0 bei der Imputation numerischer Daten und "missing_value" für Zeichenketten oder Objekt-Datentypen.	None
	copy copy: bool, Standard=True Wenn True, wird eine Kopie von X erstellt. Wenn False, wird die Imputation nach Möglichkeit direkt durchgeführt. Beachten Sie, dass in den folgenden Fällen immer eine neue Kopie erstellt wird, auch wenn `copy=False` - Wenn `X` kein Array von Fließkommawerten ist; - Wenn `X` als CSR-Matrix kodiert ist; - Wenn `add_indicator=True`.	True
	add_indicator add_indicator: bool, Standard=False Wenn True, wird ein :class:`MissingIndicator` Transform an die Ausgabe des Imputers angehängt. Dies ermöglicht einem prädiktiven Schätzer, Fehlwerte trotz Imputation zu berücksichtigen. Wenn ein Merkmal zur Fit-/Trainingszeit keine fehlenden Werte hat, erscheint das Merkmal nicht im Fehlwertindikator, auch wenn zur Transformations-/Testzeit fehlende Werte vorhanden sind.	False
	keep_empty_features keep_empty_features: bool, Standard=False Wenn True, werden Merkmale, die ausschließlich aus fehlenden Werten bestehen, wenn `fit` aufgerufen wird, in den Ergebnissen zurückgegeben, wenn `transform` aufgerufen wird. Der imputierte Wert ist immer `0`, außer wenn `strategy="constant"`, in diesem Fall wird stattdessen `fill_value` verwendet. .. versionadded:: 1.2	False

	categories categories: 'auto' oder eine Liste von Arrays, Standard='auto' Kategorien (eindeutige Werte) pro Merkmal: - 'auto': Kategorien automatisch aus den Trainingsdaten ermitteln. - Liste: ``categories[i]`` enthält die erwarteten Kategorien in der i-ten Spalte. Die übergebenen Kategorien sollten keine Strings und numerischen Werte innerhalb eines Merkmals mischen und sollten bei numerischen Werten sortiert sein. Die verwendeten Kategorien finden Sie im Attribut ``categories_``. .. versionadded:: 0.20	'auto'
	drop drop: {'first', 'if_binary'} oder ein Array-like der Form (n_features,), Standard=None Spezifiziert eine Methodik zur Entfernung einer der Kategorien pro Merkmal. Dies ist nützlich in Situationen, in denen perfekt kollineare Merkmale Probleme verursachen, z. B. beim Einspeisen der resultierenden Daten in ein lineares Regressionsmodell ohne Regularisierung. Das Entfernen einer Kategorie bricht jedoch die Symmetrie der ursprünglichen Darstellung und kann daher zu einer Verzerrung in nachgelagerten Modellen führen, z. B. für bestrafte lineare Klassifikations- oder Regressionsmodelle. - None : Alle Merkmale beibehalten (Standard). - 'first' : Die erste Kategorie in jedem Merkmal entfernen. Wenn nur eine Kategorie vorhanden ist, wird das Merkmal vollständig entfernt. - 'if_binary' : Die erste Kategorie in jedem Merkmal mit zwei Kategorien entfernen. Merkmale mit 1 oder mehr als 2 Kategorien bleiben unverändert. - array : ``drop[i]`` ist die Kategorie in Merkmal ``X[:, i]``, die entfernt werden soll. Wenn `max_categories` oder `min_frequency` konfiguriert ist, um seltene Kategorien zu gruppieren, wird das Verhalten des Entfernens nach der Gruppierung behandelt. .. versionadded:: 0.21 Der Parameter `drop` wurde in 0.21 hinzugefügt. .. versionchanged:: 0.23 Die Option `drop='if_binary'` wurde in 0.23 hinzugefügt. .. versionchanged:: 1.1 Unterstützung für das Entfernen seltener Kategorien.	None
	sparse_output sparse_output: bool, Standard=True Wenn ``True``, wird eine :class:`scipy.sparse.csr_matrix` zurückgegeben, d. h. eine spärliche Matrix im "Compressed Sparse Row" (CSR)-Format. .. versionadded:: 1.2 `sparse` wurde in `sparse_output` umbenannt.	False
	dtype dtype: numerischer Typ, default=np.float64 Gewünschter dtype der Ausgabe.	<class 'numpy.float64'>
	handle_unknown handle_unknown: {'error', 'ignore', 'infrequent_if_exist', 'warn'}, Standard='error' Spezifiziert die Art und Weise, wie unbekannte Kategorien während :meth:`transform` behandelt werden. - 'error' : Fehler auslösen, wenn während der Transformation eine unbekannte Kategorie vorhanden ist. - 'ignore' : Wenn während der Transformation eine unbekannte Kategorie auftritt, werden die resultierenden One-Hot-kodierten Spalten für dieses Merkmal alle Nullen sein. Bei der inversen Transformation wird eine unbekannte Kategorie als None bezeichnet. - 'infrequent_if_exist' : Wenn während der Transformation eine unbekannte Kategorie auftritt, werden die resultierenden One-Hot-kodierten Spalten für dieses Merkmal zur seltenen Kategorie zugeordnet, falls diese existiert. Die seltene Kategorie wird an die letzte Position in der Kodierung zugeordnet. Während der inversen Transformation wird eine unbekannte Kategorie der Kategorie zugeordnet, die als 'infrequent' bezeichnet wird, falls diese existiert. Wenn die 'infrequent'-Kategorie nicht existiert, dann behandelt :meth:`transform` und :meth:`inverse_transform` eine unbekannte Kategorie wie bei `handle_unknown='ignore'`. Seltene Kategorien existieren basierend auf `min_frequency` und `max_categories`. Lesen Sie mehr im :ref:`Benutzerhandbuch `. - 'warn' : Wenn während der Transformation eine unbekannte Kategorie auftritt, wird eine Warnung ausgegeben, und die Kodierung wird dann wie für `handle_unknown="infrequent_if_exist"` beschrieben fortgesetzt. .. versionchanged:: 1.1 `'infrequent_if_exist'` wurde hinzugefügt, um unbekannte Kategorien und seltene Kategorien automatisch zu behandeln. .. versionadded:: 1.6 Die Option `"warn"` wurde in 1.6 hinzugefügt.	'ignore'
	min_frequency min_frequency: int oder float, Standard=None Gibt die minimale Häufigkeit an, unterhalb derer eine Kategorie als selten betrachtet wird. - Wenn `int`, werden Kategorien mit geringerer Kardinalität als selten betrachtet. - Wenn `float`, werden Kategorien mit geringerer Kardinalität als `min_frequency * n_samples` als selten betrachtet. .. versionadded:: 1.1 Lesen Sie mehr im :ref:`Benutzerhandbuch `.	None
	max_categories max_categories: int, Standard=None Gibt eine Obergrenze für die Anzahl der Ausgabemerkmale pro Eingabe- Merkmal an, wenn seltene Kategorien berücksichtigt werden. Wenn es seltene Kategorien gibt, enthält `max_categories` die Kategorie, die die seltenen Kategorien repräsentiert, zusammen mit den häufigen Kategorien. Wenn `None`, gibt es keine Grenze für die Anzahl der Ausgabemerkmale. .. versionadded:: 1.1 Lesen Sie mehr im :ref:`Benutzerhandbuch `.	None
	feature_name_combiner feature_name_combiner: "concat" oder aufrufbar, Standard="concat" Aufrufbare Funktion mit der Signatur `def callable(input_feature, category)`, die einen String zurückgibt. Dies wird verwendet, um Merkmalsnamen zu erstellen, die von :meth:`get_feature_names_out` zurückgegeben werden. `"concat"` verkettet den kodierten Merkmalnamen und die Kategorie mit `feature + "_" + str(category)`. Z. B. erstellt das Merkmal X mit Werten 1, 6, 7 Merkmalnamen `X_1, X_6, X_7`. .. versionadded:: 1.3	'concat'

	penalty penalty: {'l1', 'l2', 'elasticnet', None}, default='l2' Gibt die Norm der Strafe an: - `None`: keine Strafe wird hinzugefügt; - `'l2'`: fügt einen L2-Strafbegriff hinzu und ist die Standardwahl; - `'l1'`: fügt einen L1-Strafbegriff hinzu; - `'elasticnet'`: beide L1- und L2-Strafbegriffe werden hinzugefügt. .. warning:: Einige Strafen funktionieren möglicherweise nicht mit einigen Solvern. Siehe den Parameter `solver` unten, um die Kompatibilität zwischen der Strafe und dem Solver zu erfahren. .. versionadded:: 0.19 l1-Strafe mit SAGA-Solver (erlaubt 'multinomial' + L1) .. deprecated:: 1.8 `penalty` wurde in Version 1.8 als veraltet markiert und wird in 1.10 entfernt. Verwenden Sie stattdessen `l1_ratio`. `l1_ratio=0` für `penalty='l2'`, `l1_ratio=1` für `penalty='l1'` und `l1_ratio` auf eine Gleitkommazahl zwischen 0 und 1 gesetzt für `'penalty='elasticnet'`.	'deprecated'
	C C: float, default=1.0 Kehrwert der Regularisierungsstärke; muss eine positive Gleitkommazahl sein. Wie bei Support Vector Machines geben kleinere Werte eine stärkere Regularisierung an. `C=np.inf` führt zu ungestrafter logistischer Regression. Für ein visuelles Beispiel der Auswirkung der Abstimmung des Parameters `C` mit einer L1-Strafe siehe: :ref:`sphx_glr_auto_examples_linear_model_plot_logistic_path.py`.	1.0
	l1_ratio l1_ratio: float, default=0.0 Der Elastic-Net-Mischungsparameter, mit `0 <= l1_ratio <= 1`. Das Setzen von `l1_ratio=1` ergibt eine reine L1-Strafe, das Setzen von `l1_ratio=0` eine reine L2-Strafe. Jeder Wert zwischen 0 und 1 ergibt eine Elastic-Net-Strafe der Form `l1_ratio * L1 + (1 - l1_ratio) * L2`. .. warning:: Bestimmte Werte von `l1_ratio`, d. h. einige Strafen, funktionieren möglicherweise nicht mit einigen Solvern. Siehe den Parameter `solver` unten, um die Kompatibilität zwischen der Strafe und dem Solver zu erfahren. .. versionchanged:: 1.8 Der Standardwert wurde von None auf 0.0 geändert. .. deprecated:: 1.8 `None` ist veraltet und wird in Version 1.10 entfernt. Verwenden Sie immer `l1_ratio`, um den Strafentyp anzugeben.	0.0
	dual dual: bool, default=False Duale (beschränkte) oder primale (regularisierte, siehe auch :ref:`diese Gleichung `) Formulierung. Die duale Formulierung ist nur für die L2-Strafe mit dem liblinear-Solver implementiert. Bevorzugen Sie `dual=False` wenn n_samples > n_features.	False
	tol tol: float, default=1e-4 Toleranz für Abbruchkriterien.	0.0001
	fit_intercept fit_intercept: bool, default=True Gibt an, ob eine Konstante (auch Bias oder Achsenabschnitt genannt) zur Entscheidungsfunktion hinzugefügt werden soll.	True
	intercept_scaling intercept_scaling: float, default=1 Nur nützlich, wenn der Solver `liblinear` verwendet wird und `self.fit_intercept` auf `True` gesetzt ist. In diesem Fall wird `x` zu `[x, self.intercept_scaling]`, d. h. ein "synthetisches" Merkmal mit konstantem Wert gleich `intercept_scaling` wird an den Instanzvektor angehängt. Der Achsenabschnitt wird dann ``intercept_scaling * synthetisches Merkmalsgewicht``. .. note:: Das Gewicht des synthetischen Merkmals unterliegt der L1- oder L2- Regularisierung wie alle anderen Merkmale. Um die Auswirkung der Regularisierung auf das synthetische Merkmalsgewicht (und damit auf den Achsenabschnitt) zu verringern, muss `intercept_scaling` erhöht werden.	1
	class_weight class_weight: dict oder 'balanced', default=None Mit Klassen assoziierte Gewichte in der Form ``{class_label: weight}``. Wenn nicht angegeben, wird angenommen, dass alle Klassen das Gewicht eins haben. Der Modus "balanced" verwendet die Werte von y, um die Gewichte automatisch invers proportional zu den Klassenhaüfigkeiten in den Eingabedaten als ``n_samples / (n_classes * np.bincount(y))`` anzupassen. Beachten Sie, dass diese Gewichte mit sample_weight (übergeben durch die fit-Methode) multipliziert werden, wenn sample_weight angegeben ist. .. versionadded:: 0.17 class_weight='balanced'	None
	random_state random_state: int, RandomState-Instanz, default=None Wird verwendet, wenn ``solver`` == 'sag', 'saga' oder 'liblinear', um die Daten zu mischen. Siehe :term:`Glossar ` für Details.	None
	solver solver: {'lbfgs', 'liblinear', 'newton-cg', 'newton-cholesky', 'sag', 'saga'}, Standard='lbfgs' Algorithmus zur Verwendung im Optimierungsproblem. Standard ist 'lbfgs'. Zur Auswahl eines Solvers sollten Sie folgende Aspekte berücksichtigen: - 'lbfgs' ist ein guter Standard-Solver, da er für eine breite Klasse von Problemen einigermaßen gut funktioniert. - Für :term:`multiclass`-Probleme (`n_classes >= 3`), minimieren alle Solver außer 'liblinear' den vollen multinomischen Verlust, 'liblinear' gibt einen Fehler aus. - 'newton-cholesky' ist eine gute Wahl für `n_samples` >> `n_features * n_classes`, insbesondere mit One-Hot-kodierten kategorialen Merkmalen mit seltenen Kategorien. Beachten Sie, dass der Speicherbedarf dieses Solvers eine quadratische Abhängigkeit von `n_features * n_classes` hat, da er die vollständige Hesse-Matrix explizit berechnet. - Für kleine Datensätze ist 'liblinear' eine gute Wahl, während 'sag' und 'saga' für große schneller sind; - 'liblinear' kann standardmäßig nur binäre Klassifizierung verarbeiten. Um eine One-vs-Rest-Schema für die Multiclass-Einstellung anzuwenden, kann es mit der :class:`~sklearn.multiclass.OneVsRestClassifier` umschlossen werden. .. warning:: Die Wahl des Algorithmus hängt von der gewählten Strafe ab (`l1_ratio=0` für L2-Strafe, `l1_ratio=1` für L1-Strafe und `0 < l1_ratio < 1` für Elastic-Net) und von der (multinomialen) Multiclass-Unterstützung: ================= ======================== ====================== solver l1_ratio multinomial multiclass ================= ======================== ====================== 'lbfgs' l1_ratio=0 ja 'liblinear' l1_ratio=1 oder l1_ratio=0 nein 'newton-cg' l1_ratio=0 ja 'newton-cholesky' l1_ratio=0 ja 'sag' l1_ratio=0 ja 'saga' 0<=l1_ratio<=1 ja ================= ======================== ====================== .. note:: Die schnelle Konvergenz von 'sag' und 'saga' ist nur für Merkmale mit ungefähr gleicher Skalierung garantiert. Sie können die Daten mit einem Skalierer aus :mod:`sklearn.preprocessing` vorverarbeiten. .. seealso:: Siehe das :ref:`Benutzerhandbuch ` für weitere Informationen zu :class:`LogisticRegression` und insbesondere die :ref:`Tabelle ` die Solver-/Strafenunterstützung zusammenfasst. .. versionadded:: 0.17 Stochastic Average Gradient (SAG) Descent Solver. Multiclass-Unterstützung in Version 0.18. .. versionadded:: 0.19 SAGA Solver. .. versionchanged:: 0.22 Der Standard-Solver änderte sich von 'liblinear' zu 'lbfgs' in 0.22. .. versionadded:: 1.2 Newton-Cholesky Solver. Multiclass-Unterstützung in Version 1.6.	'lbfgs'
	max_iter max_iter: int, default=100 Maximale Anzahl von Iterationen, die die Solver zur Konvergenz benötigen.	100
	verbose verbose: int, default=0 Für die Solver liblinear und lbfgs setzen Sie verbose auf eine beliebige positive Zahl für die Ausführlichkeit.	0
	warm_start warm_start: bool, default=False Wenn auf True gesetzt, wird die Lösung des vorherigen Aufrufs von fit als Initialisierung wiederverwendet, andernfalls wird die vorherige Lösung einfach gelöscht. Nützlich für den liblinear-Solver. Siehe :term:`das Glossar `. .. versionadded:: 0.17 warm_start zur Unterstützung der Solver lbfgs, newton-cg, sag, saga.	False
	n_jobs n_jobs: int, default=None Hat keine Auswirkung. .. deprecated:: 1.8 `n_jobs` ist in Version 1.8 veraltet und wird in 1.10 entfernt.	None

	copy copy: bool, Standard=True Wenn False, versuchen Sie, eine Kopie zu vermeiden und stattdessen direkt zu skalieren. Dies ist nicht garantiert, dass es immer direkt funktioniert; z.B. wenn die Daten kein NumPy-Array oder eine scipy.sparse CSR-Matrix sind, kann immer noch eine Kopie zurückgegeben werden.	True
	with_mean with_mean: bool, Standard=True Wenn True, zentrieren Sie die Daten vor der Skalierung. Dies funktioniert nicht (und löst eine Ausnahme aus), wenn versucht, auf Sparse-Matrizen angewendet zu werden, da deren Zentrierung den Aufbau einer dichten Matrix erfordert, die in gängigen Anwendungsfällen wahrscheinlich zu groß ist, um in den Speicher zu passen.	True
	with_std with_std: bool, Standard=True Wenn True, skalieren Sie die Daten auf Einheitsvarianz (oder äquivalent, Einheitsstandardabweichung).	True

	score_func score_func: callable, Standard=f_classif Funktion, die zwei Arrays X und y aufnimmt und ein Paar von Arrays (Scores, pvalues) oder ein einzelnes Array mit Scores zurückgibt. Standard ist f_classif (siehe unten "Siehe auch"). Die Standardfunktion funktioniert nur mit Klassifikationsaufgaben. .. versionadded:: 0.18	<function f_c...x7fb4c0ad7600>
	k k: int oder "all", Standard=10 Anzahl der zu wählenden Top-Merkmale. Die Option "all" umgeht die Auswahl und dient zur Verwendung in einer Parametersuche.	7

Release Highlights für scikit-learn 1.1#

Quantilverlust in HistGradientBoostingRegressor#

get_feature_names_out Verfügbar in allen Transformern#

Gruppierung seltener Kategorien in OneHotEncoder#