Hinweis

Zum Ende springen, um den vollständigen Beispielcode herunterzuladen oder dieses Beispiel über JupyterLite oder Binder in Ihrem Browser auszuführen.

Release Highlights für scikit-learn 0.23#

Wir freuen uns, die Veröffentlichung von scikit-learn 0.23 bekannt zu geben! Viele Fehlerbehebungen und Verbesserungen wurden hinzugefügt, sowie einige neue wichtige Funktionen. Nachfolgend detaillieren wir einige der wichtigsten Funktionen dieser Version. **Für eine vollständige Liste aller Änderungen** siehe die Release Notes.

Um die neueste Version zu installieren (mit pip)

pip install --upgrade scikit-learn

oder mit conda

conda install -c conda-forge scikit-learn

Generalisierte Lineare Modelle und Poisson-Verlust für Gradient Boosting#

Lang erwartete generalisierte lineare Modelle mit nicht-normalen Verlustfunktionen sind nun verfügbar. Insbesondere wurden drei neue Regressoren implementiert: PoissonRegressor, GammaRegressor und TweedieRegressor. Der Poisson-Regressor kann zur Modellierung von positiven Ganzzahlzählungen oder relativen Häufigkeiten verwendet werden. Lesen Sie mehr im Benutzerhandbuch. Zusätzlich unterstützt HistGradientBoostingRegressor einen neuen 'poisson'-Verlust.

import numpy as np

from sklearn.ensemble import HistGradientBoostingRegressor
from sklearn.linear_model import PoissonRegressor
from sklearn.model_selection import train_test_split

n_samples, n_features = 1000, 20
rng = np.random.RandomState(0)
X = rng.randn(n_samples, n_features)
# positive integer target correlated with X[:, 5] with many zeros:
y = rng.poisson(lam=np.exp(X[:, 5]) / 2)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=rng)
glm = PoissonRegressor()
gbdt = HistGradientBoostingRegressor(loss="poisson", learning_rate=0.01)
glm.fit(X_train, y_train)
gbdt.fit(X_train, y_train)
print(glm.score(X_test, y_test))
print(gbdt.score(X_test, y_test))

0.35776189065725783
0.42425183539869415

Umfassende visuelle Darstellung von Schätzern#

Schätzer können nun in Notebooks visualisiert werden, indem die Option display='diagram' aktiviert wird. Dies ist besonders nützlich, um die Struktur von Pipelines und anderen zusammengesetzten Schätzern zusammenzufassen, mit Interaktivität zur Bereitstellung von Details. Klicken Sie auf das Beispielbild unten, um Pipeline-Elemente zu erweitern. Sehen Sie sich Visualizing Composite Estimators an, um zu erfahren, wie Sie diese Funktion nutzen können.

from sklearn import set_config
from sklearn.compose import make_column_transformer
from sklearn.impute import SimpleImputer
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import OneHotEncoder, StandardScaler

set_config(display="diagram")

num_proc = make_pipeline(SimpleImputer(strategy="median"), StandardScaler())

cat_proc = make_pipeline(
    SimpleImputer(strategy="constant", fill_value="missing"),
    OneHotEncoder(handle_unknown="ignore"),
)

preprocessor = make_column_transformer(
    (num_proc, ("feat1", "feat3")), (cat_proc, ("feat0", "feat2"))
)

clf = make_pipeline(preprocessor, LogisticRegression())
clf

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(transformers=[('pipeline-1',
                                                  Pipeline(steps=[('simpleimputer',
                                                                   SimpleImputer(strategy='median')),
                                                                  ('standardscaler',
                                                                   StandardScaler())]),
                                                  ('feat1', 'feat3')),
                                                 ('pipeline-2',
                                                  Pipeline(steps=[('simpleimputer',
                                                                   SimpleImputer(fill_value='missing',
                                                                                 strategy='constant')),
                                                                  ('onehotencoder',
                                                                   OneHotEncoder(handle_unknown='ignore'))]),
                                                  ('feat0', 'feat2'))])),
                ('logisticregression', LogisticRegression())])

In einer Jupyter-Umgebung führen Sie diese Zelle bitte erneut aus, um die HTML-Darstellung anzuzeigen, oder vertrauen Sie dem Notebook.
Auf GitHub kann die HTML-Darstellung nicht gerendert werden. Versuchen Sie bitte, diese Seite mit nbviewer.org zu laden.

Skalierbarkeits- und Stabilitätsverbesserungen für KMeans#

Der KMeans-Schätzer wurde komplett überarbeitet und ist nun deutlich schneller und stabiler. Außerdem ist der Elkan-Algorithmus nun kompatibel mit dünnbesetzten Matrizen. Der Schätzer verwendet OpenMP-basierte Parallelität anstelle von joblib, sodass der Parameter n_jobs keine Auswirkung mehr hat. Weitere Details zur Steuerung der Anzahl der Threads finden Sie in unseren Parallelism-Hinweisen.

import numpy as np
import scipy

from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
from sklearn.metrics import completeness_score
from sklearn.model_selection import train_test_split

rng = np.random.RandomState(0)
X, y = make_blobs(random_state=rng)
X = scipy.sparse.csr_matrix(X)
X_train, X_test, _, y_test = train_test_split(X, y, random_state=rng)
kmeans = KMeans(n_init="auto").fit(X_train)
print(completeness_score(kmeans.predict(X_test), y_test))

0.8483587861238999

Verbesserungen an den histogrammbasierten Gradient Boosting-Schätzern#

Es wurden verschiedene Verbesserungen an HistGradientBoostingClassifier und HistGradientBoostingRegressor vorgenommen. Neben dem oben erwähnten Poisson-Verlust unterstützen diese Schätzer nun Stichprobengewichte. Außerdem wurde ein automatisches Kriterium für Early-Stopping hinzugefügt: Early-Stopping ist standardmäßig aktiviert, wenn die Anzahl der Stichproben 10k überschreitet. Schließlich können Benutzer nun monotone Einschränkungen definieren, um die Vorhersagen basierend auf den Variationen spezifischer Merkmale einzuschränken. Im folgenden Beispiel konstruieren wir ein Ziel, das generell positiv mit dem ersten Merkmal korreliert ist, mit etwas Rauschen. Die Anwendung monontoner Einschränkungen ermöglicht es der Vorhersage, den globalen Effekt des ersten Merkmals zu erfassen, anstatt das Rauschen anzupassen. Ein Anwendungsbeispiel finden Sie unter Features in Histogram Gradient Boosting Trees.

import numpy as np
from matplotlib import pyplot as plt

from sklearn.ensemble import HistGradientBoostingRegressor

# from sklearn.inspection import plot_partial_dependence
from sklearn.inspection import PartialDependenceDisplay
from sklearn.model_selection import train_test_split

n_samples = 500
rng = np.random.RandomState(0)
X = rng.randn(n_samples, 2)
noise = rng.normal(loc=0.0, scale=0.01, size=n_samples)
y = 5 * X[:, 0] + np.sin(10 * np.pi * X[:, 0]) - noise

gbdt_no_cst = HistGradientBoostingRegressor().fit(X, y)
gbdt_cst = HistGradientBoostingRegressor(monotonic_cst=[1, 0]).fit(X, y)

# plot_partial_dependence has been removed in version 1.2. From 1.2, use
# PartialDependenceDisplay instead.
# disp = plot_partial_dependence(
disp = PartialDependenceDisplay.from_estimator(
    gbdt_no_cst,
    X,
    features=[0],
    feature_names=["feature 0"],
    line_kw={"linewidth": 4, "label": "unconstrained", "color": "tab:blue"},
)
# plot_partial_dependence(
PartialDependenceDisplay.from_estimator(
    gbdt_cst,
    X,
    features=[0],
    line_kw={"linewidth": 4, "label": "constrained", "color": "tab:orange"},
    ax=disp.axes_,
)
disp.axes_[0, 0].plot(
    X[:, 0], y, "o", alpha=0.5, zorder=-1, label="samples", color="tab:green"
)
disp.axes_[0, 0].set_ylim(-3, 3)
disp.axes_[0, 0].set_xlim(-1, 1)
plt.legend()
plt.show()

Stichprobengewichtsunterstützung für Lasso und ElasticNet#

Die beiden linearen Regressoren Lasso und ElasticNet unterstützen nun Stichprobengewichte.

import numpy as np

from sklearn.datasets import make_regression
from sklearn.linear_model import Lasso
from sklearn.model_selection import train_test_split

n_samples, n_features = 1000, 20
rng = np.random.RandomState(0)
X, y = make_regression(n_samples, n_features, random_state=rng)
sample_weight = rng.rand(n_samples)
X_train, X_test, y_train, y_test, sw_train, sw_test = train_test_split(
    X, y, sample_weight, random_state=rng
)
reg = Lasso()
reg.fit(X_train, y_train, sample_weight=sw_train)
print(reg.score(X_test, y_test, sw_test))

0.999791942438998

Gesamtlaufzeit des Skripts: (0 Minuten 0,551 Sekunden)

Verwandte Beispiele

Release Highlights für scikit-learn 1.4

Release Highlights für scikit-learn 0.24

Release Highlights für scikit-learn 1.7

Monotone Einschränkungen

Galerie generiert von Sphinx-Gallery

	steps steps: list of tuples Liste von Tupeln (Name des Schritts, Schätzer), die in sequenzieller Reihenfolge verkettet werden sollen. Um mit der scikit-learn API kompatibel zu sein, müssen alle Schritte `fit` definieren. Alle nicht letzten Schritte müssen auch `transform` definieren. Siehe :ref:`Kombination von Schätzern ` für weitere Details.	[('columntransformer', ...), ('logisticregression', ...)]
	transform_input transform_input: list of str, default=None Die Namen der :term:`Metadaten`-Parameter, die von der Pipeline transformiert werden sollen, bevor sie an den Schritt übergeben werden, der sie benötigt. Dies ermöglicht die Transformation einiger Eingabeparameter zu ``fit`` (außer ``X``), die von den Schritten der Pipeline bis zu dem Schritt transformiert werden, der sie benötigt. Die Anforderung wird über :ref:`Metadaten-Routing ` definiert. Dies kann beispielsweise verwendet werden, um einen Validierungsdatensatz durch die Pipeline zu leiten. Sie können dies nur festlegen, wenn das Metadaten-Routing aktiviert ist, was Sie mit ``sklearn.set_config(enable_metadata_routing=True)`` aktivieren können. .. versionadded:: 1.6	None
	memory memory: str oder Objekt mit der joblib.Memory-Schnittstelle, default=None Wird zum Zwischenspeichern der angepassten Transformer der Pipeline verwendet. Der letzte Schritt wird niemals zwischengespeichert, auch wenn es sich um einen Transformer handelt. Standardmäßig erfolgt keine Zwischenspeicherung. Wenn ein String angegeben wird, ist dies der Pfad zum Zwischenspeicherverzeichnis. Durch Aktivieren der Zwischenspeicherung wird eine Kopie der Transformer vor dem Anpassen ausgelöst. Daher kann die an die Pipeline übergebene Transformer-Instanz nicht direkt inspiziert werden. Verwenden Sie das Attribut `named_steps` oder `steps`, um Schätzer innerhalb der Pipeline zu inspizieren. Das Zwischenspeichern der Transformer ist vorteilhaft, wenn das Anpassen zeitaufwändig ist. Siehe :ref:`sphx_glr_auto_examples_neighbors_plot_caching_nearest_neighbors.py` für ein Beispiel zur Aktivierung der Zwischenspeicherung.	None
	verbose verbose: bool, default=False Wenn True, wird die verstrichene Zeit während des Anpassens jedes Schritts gedruckt, wenn es abgeschlossen ist.	False

	transformers transformers: list of tuples Liste von (name, transformer, columns) Tupeln, die die Transformer-Objekte spezifizieren, die auf Teilmengen der Daten angewendet werden sollen. name : str Wie in Pipeline und FeatureUnion ermöglicht dies das Setzen des Transformers und seiner Parameter mittels ``set_params`` und die Suche in der Grid Search. transformer : {'drop', 'passthrough'} oder estimator Estimator muss :term:`fit` und :term:`transform` unterstützen. Speziell behandelte Strings 'drop' und 'passthrough' werden ebenfalls akzeptiert, um anzuzeigen, dass die Spalten verworfen ('drop') oder unverändert weitergegeben ('passthrough') werden sollen. columns : str, array-like von str, int, array-like von int, array-like von bool, slice oder callable Indiziert die Daten auf ihrer zweiten Achse. Ganzzahlen werden als positionsbasierte Spalten interpretiert, während Strings DataFrame-Spalten nach Namen referenzieren können. Ein skalare Zeichenkette oder ganze Zahl sollte verwendet werden, wenn ``transformer`` X als 1D-Array erwartet (Vektor), andernfalls wird ein 2D-Array an den Transformer übergeben. Ein Callable erhält die Eingabedaten `X` und kann jede der obigen zurückgeben. Um mehrere Spalten nach Namen oder dtype auszuwählen, können Sie :obj:`make_column_selector` verwenden.	[('pipeline-1', ...), ('pipeline-2', ...)]
	remainder remainder: {'drop', 'passthrough'} oder Schätzer, default='drop' Standardmäßig werden nur die in `transformers` spezifizierten Spalten transformiert und im Ergebnis kombiniert, und die nicht spezifizierten Spalten werden verworfen. (Standard von ``'drop'``). Durch Angabe von ``remainder='passthrough'`` werden alle verbleibenden Spalten, die nicht in `transformers` spezifiziert, aber in den an `fit` übergebenen Daten vorhanden waren, automatisch durchgelassen. Diese Teilmenge von Spalten wird mit dem Ergebnis der Transformer verkettet. Für DataFrames werden zusätzliche Spalten, die während `fit` nicht gesehen wurden, aus dem Ergebnis von `transform` ausgeschlossen. Durch Setzen von ``remainder`` auf einen Schätzer verwenden die verbleibenden nicht spezifizierten Spalten den ``remainder``-Schätzer. Der Schätzer muss :term:`fit` und :term:`transform` unterstützen. Beachten Sie, dass die Verwendung dieser Funktion erfordert, dass die DataFrame-Spalten bei `fit` und `transform` die gleiche Reihenfolge haben.	'drop'
	sparse_threshold sparse_threshold: float, default=0.3 Wenn die Ausgabe der verschiedenen Transformer dünnbesetzte Matrizen enthält, werden diese als dünnbesetzte Matrix gestapelt, wenn die Gesamtdichte geringer ist als dieser Wert. Verwenden Sie ``sparse_threshold=0``, um immer dicht zu liefern. Wenn die transformierte Ausgabe nur dichte Daten enthält, wird das gestapelte Ergebnis dicht sein, und dieses Schlüsselwort wird ignoriert.	0.3
	n_jobs n_jobs: int, default=None Anzahl der parallel auszuführenden Jobs. ``None`` bedeutet 1, es sei denn, es befindet sich in einem :obj:`joblib.parallel_backend` Kontext. ``-1`` bedeutet, alle Prozessoren zu verwenden. Siehe :term:`Glossar ` für weitere Details.	None
	transformer_weights transformer_weights: dict, default=None Multiplikative Gewichte für Merkmale pro Transformer. Die Ausgabe des Transformers wird mit diesen Gewichten multipliziert. Schlüssel sind Transformer-Namen, Werte die Gewichte.	None
	verbose verbose: bool, default=False Wenn True, wird die verstrichene Zeit während des Anpassens jedes Transformators gedruckt, wenn er abgeschlossen ist.	False
	verbose_feature_names_out verbose_feature_names_out: bool, str oder Callable[[str, str], str], default=True - Wenn True, wird :meth:`ColumnTransformer.get_feature_names_out` allen Feature-Namen den Namen des Transformers voranstellen, der dieses Feature generiert hat. Dies ist äquivalent zur Einstellung `verbose_feature_names_out="{transformer_name}__{feature_name}"`. - Wenn False, wird :meth:`ColumnTransformer.get_feature_names_out` keine Feature-Namen voranstellen und einen Fehler ausgeben, wenn Feature-Namen nicht eindeutig sind. - Wenn ``Callable[[str, str], str]``, wird :meth:`ColumnTransformer.get_feature_names_out` alle Features umbenennen, indem der Name des Transformers verwendet wird. Das erste Argument des Callables ist der Transformer-Name und das zweite Argument ist der Feature-Name. Die zurückgegebene Zeichenkette ist der neue Feature-Name. - Wenn ``str``, muss es eine Zeichenkette sein, die für die Formatierung bereit ist. Die gegebene Zeichenkette wird mit zwei Feldnamen formatiert: ``transformer_name`` und ``feature_name``. z.B. ``"{feature_name}__{transformer_name}"``. Siehe die Methode :meth:`str.format` aus der Standardbibliothek für weitere Informationen. .. versionadded:: 1.0 .. versionchanged:: 1.6 `verbose_feature_names_out` kann ein Callable oder eine zu formatierende Zeichenkette sein.	True
	force_int_remainder_cols force_int_remainder_cols: bool, default=False Dieser Parameter hat keine Auswirkung. .. note:: Wenn Sie nicht auf die Liste der Spalten für die verbleibenden Spalten im ``transformers_`` angepassten Attribut zugreifen, müssen Sie diesen Parameter nicht setzen. .. versionadded:: 1.5 .. versionchanged:: 1.7 Der Standardwert für `force_int_remainder_cols` ändert sich von `True` auf `False` in Version 1.7. .. deprecated:: 1.7 `force_int_remainder_cols` ist veraltet und wird in Version 1.9 entfernt.	'deprecated'

	missing_values missing_values: int, float, str, np.nan, None oder pandas.NA, Standard=np.nan Der Platzhalter für die fehlenden Werte. Alle Vorkommen von `missing_values` werden imputiert. Für Pandas-DataFrames mit nullbaren Integer-Datentypen mit fehlenden Werten kann `missing_values` auf `np.nan` oder `pd.NA` gesetzt werden.	nan
	strategy strategy: str oder Callable, default='mean' Die Imputationsstrategie. - Wenn "mean", dann fehlende Werte durch den Mittelwert entlang jeder Spalte ersetzen. Kann nur mit numerischen Daten verwendet werden. - Wenn "median", dann fehlende Werte durch den Median entlang jeder Spalte ersetzen. Kann nur mit numerischen Daten verwendet werden. - Wenn "most_frequent", dann fehlende Werte durch den häufigsten Wert entlang jeder Spalte ersetzen. Kann mit Zeichenketten oder numerischen Daten verwendet werden. Wenn es mehr als einen solchen Wert gibt, wird nur der kleinste zurückgegeben. - Wenn "constant", dann fehlende Werte durch fill_value ersetzen. Kann mit Zeichenketten oder numerischen Daten verwendet werden. - Wenn eine Instanz von Callable, dann fehlende Werte durch die skalare Statistik ersetzen, die durch Ausführen des Callables auf einem dichten 1D-Array mit nicht-fehlenden Werten jeder Spalte zurückgegeben wird. .. versionadded:: 0.20 strategy="constant" für die feste Wertimputation. .. versionadded:: 1.5 strategy=callable für benutzerdefinierte Wertimputation.	'median'
	fill_value fill_value: str oder numerischer Wert, Standard=None Wenn strategy == "constant", wird `fill_value` verwendet, um alle Vorkommen von missing_values zu ersetzen. Für Zeichenketten oder Objekt-Datentypen muss `fill_value` eine Zeichenkette sein. Wenn `None`, ist `fill_value` 0 bei der Imputation numerischer Daten und "missing_value" für Zeichenketten oder Objekt-Datentypen.	None
	copy copy: bool, Standard=True Wenn True, wird eine Kopie von X erstellt. Wenn False, wird die Imputation nach Möglichkeit direkt durchgeführt. Beachten Sie, dass in den folgenden Fällen immer eine neue Kopie erstellt wird, auch wenn `copy=False` - Wenn `X` kein Array von Fließkommawerten ist; - Wenn `X` als CSR-Matrix kodiert ist; - Wenn `add_indicator=True`.	True
	add_indicator add_indicator: bool, Standard=False Wenn True, wird ein :class:`MissingIndicator` Transform an die Ausgabe des Imputers angehängt. Dies ermöglicht einem prädiktiven Schätzer, Fehlwerte trotz Imputation zu berücksichtigen. Wenn ein Merkmal zur Fit-/Trainingszeit keine fehlenden Werte hat, erscheint das Merkmal nicht im Fehlwertindikator, auch wenn zur Transformations-/Testzeit fehlende Werte vorhanden sind.	False
	keep_empty_features keep_empty_features: bool, Standard=False Wenn True, werden Merkmale, die ausschließlich aus fehlenden Werten bestehen, wenn `fit` aufgerufen wird, in den Ergebnissen zurückgegeben, wenn `transform` aufgerufen wird. Der imputierte Wert ist immer `0`, außer wenn `strategy="constant"`, in diesem Fall wird stattdessen `fill_value` verwendet. .. versionadded:: 1.2	False

	copy copy: bool, Standard=True Wenn False, versuchen Sie, eine Kopie zu vermeiden und stattdessen direkt zu skalieren. Dies ist nicht garantiert, dass es immer direkt funktioniert; z.B. wenn die Daten kein NumPy-Array oder eine scipy.sparse CSR-Matrix sind, kann immer noch eine Kopie zurückgegeben werden.	True
	with_mean with_mean: bool, Standard=True Wenn True, zentrieren Sie die Daten vor der Skalierung. Dies funktioniert nicht (und löst eine Ausnahme aus), wenn versucht, auf Sparse-Matrizen angewendet zu werden, da deren Zentrierung den Aufbau einer dichten Matrix erfordert, die in gängigen Anwendungsfällen wahrscheinlich zu groß ist, um in den Speicher zu passen.	True
	with_std with_std: bool, Standard=True Wenn True, skalieren Sie die Daten auf Einheitsvarianz (oder äquivalent, Einheitsstandardabweichung).	True

	missing_values missing_values: int, float, str, np.nan, None oder pandas.NA, Standard=np.nan Der Platzhalter für die fehlenden Werte. Alle Vorkommen von `missing_values` werden imputiert. Für Pandas-DataFrames mit nullbaren Integer-Datentypen mit fehlenden Werten kann `missing_values` auf `np.nan` oder `pd.NA` gesetzt werden.	nan
	strategy strategy: str oder Callable, default='mean' Die Imputationsstrategie. - Wenn "mean", dann fehlende Werte durch den Mittelwert entlang jeder Spalte ersetzen. Kann nur mit numerischen Daten verwendet werden. - Wenn "median", dann fehlende Werte durch den Median entlang jeder Spalte ersetzen. Kann nur mit numerischen Daten verwendet werden. - Wenn "most_frequent", dann fehlende Werte durch den häufigsten Wert entlang jeder Spalte ersetzen. Kann mit Zeichenketten oder numerischen Daten verwendet werden. Wenn es mehr als einen solchen Wert gibt, wird nur der kleinste zurückgegeben. - Wenn "constant", dann fehlende Werte durch fill_value ersetzen. Kann mit Zeichenketten oder numerischen Daten verwendet werden. - Wenn eine Instanz von Callable, dann fehlende Werte durch die skalare Statistik ersetzen, die durch Ausführen des Callables auf einem dichten 1D-Array mit nicht-fehlenden Werten jeder Spalte zurückgegeben wird. .. versionadded:: 0.20 strategy="constant" für die feste Wertimputation. .. versionadded:: 1.5 strategy=callable für benutzerdefinierte Wertimputation.	'constant'
	fill_value fill_value: str oder numerischer Wert, Standard=None Wenn strategy == "constant", wird `fill_value` verwendet, um alle Vorkommen von missing_values zu ersetzen. Für Zeichenketten oder Objekt-Datentypen muss `fill_value` eine Zeichenkette sein. Wenn `None`, ist `fill_value` 0 bei der Imputation numerischer Daten und "missing_value" für Zeichenketten oder Objekt-Datentypen.	'missing'
	copy copy: bool, Standard=True Wenn True, wird eine Kopie von X erstellt. Wenn False, wird die Imputation nach Möglichkeit direkt durchgeführt. Beachten Sie, dass in den folgenden Fällen immer eine neue Kopie erstellt wird, auch wenn `copy=False` - Wenn `X` kein Array von Fließkommawerten ist; - Wenn `X` als CSR-Matrix kodiert ist; - Wenn `add_indicator=True`.	True
	add_indicator add_indicator: bool, Standard=False Wenn True, wird ein :class:`MissingIndicator` Transform an die Ausgabe des Imputers angehängt. Dies ermöglicht einem prädiktiven Schätzer, Fehlwerte trotz Imputation zu berücksichtigen. Wenn ein Merkmal zur Fit-/Trainingszeit keine fehlenden Werte hat, erscheint das Merkmal nicht im Fehlwertindikator, auch wenn zur Transformations-/Testzeit fehlende Werte vorhanden sind.	False
	keep_empty_features keep_empty_features: bool, Standard=False Wenn True, werden Merkmale, die ausschließlich aus fehlenden Werten bestehen, wenn `fit` aufgerufen wird, in den Ergebnissen zurückgegeben, wenn `transform` aufgerufen wird. Der imputierte Wert ist immer `0`, außer wenn `strategy="constant"`, in diesem Fall wird stattdessen `fill_value` verwendet. .. versionadded:: 1.2	False

	categories categories: 'auto' oder eine Liste von Arrays, Standard='auto' Kategorien (eindeutige Werte) pro Merkmal: - 'auto': Kategorien automatisch aus den Trainingsdaten ermitteln. - Liste: ``categories[i]`` enthält die erwarteten Kategorien in der i-ten Spalte. Die übergebenen Kategorien sollten keine Strings und numerischen Werte innerhalb eines Merkmals mischen und sollten bei numerischen Werten sortiert sein. Die verwendeten Kategorien finden Sie im Attribut ``categories_``. .. versionadded:: 0.20	'auto'
	drop drop: {'first', 'if_binary'} oder ein Array-ähnliches von Shape (n_features,), default=None Gibt eine Methodik zur Auswahl einer der Kategorien pro Merkmal an, die verworfen werden soll. Dies ist nützlich in Situationen, in denen perfekt kollineare Merkmale Probleme verursachen, wie z.B. beim Einspeisen der resultierenden Daten in ein nicht-regularisiertes lineares Regressionsmodell. Das Verwerfen einer Kategorie bricht jedoch die Symmetrie der ursprünglichen Darstellung und kann daher einen Bias in nachgelagerten Modellen verursachen, z.B. für bestrafte lineare Klassifizierungs- oder Regressionsmodelle. - None : Alle Merkmale beibehalten (Standard). - 'first' : Die erste Kategorie in jedem Merkmal verwerfen. Wenn nur eine Kategorie vorhanden ist, wird das Merkmal vollständig verworfen. - 'if_binary' : Die erste Kategorie in jedem Merkmal mit zwei Kategorien verwerfen. Merkmale mit 1 oder mehr als 2 Kategorien werden unverändert gelassen. - array : ``drop[i]`` ist die Kategorie im Merkmal ``X[:, i]``, die verworfen werden soll. Wenn `max_categories` oder `min_frequency` konfiguriert sind, um seltene Kategorien zu gruppieren, wird das Verhalten des Verwerfens nach der Gruppierung gehandhabt. .. versionadded:: 0.21 Der Parameter `drop` wurde in 0.21 hinzugefügt. .. versionchanged:: 0.23 Die Option `drop='if_binary'` wurde in 0.23 hinzugefügt. .. versionchanged:: 1.1 Unterstützung für das Verwerfen seltener Kategorien.	None
	sparse_output sparse_output: bool, Standard=True Wenn ``True``, wird eine :class:`scipy.sparse.csr_matrix` zurückgegeben, d. h. eine spärliche Matrix im "Compressed Sparse Row" (CSR)-Format. .. versionadded:: 1.2 `sparse` wurde in `sparse_output` umbenannt.	True
	dtype dtype: numerischer Typ, default=np.float64 Gewünschter dtype der Ausgabe.	<class 'numpy.float64'>
	handle_unknown handle_unknown: {'error', 'ignore', 'infrequent_if_exist', 'warn'}, default='error' Gibt die Art und Weise an, wie unbekannte Kategorien während :meth:`transform` behandelt werden. - 'error' : Fehler ausgeben, wenn während des Transformierens eine unbekannte Kategorie vorhanden ist. - 'ignore' : Wenn während des Transformierens eine unbekannte Kategorie angetroffen wird, werden die resultierenden One-Hot-kodierten Spalten für dieses Merkmal alle Nullen sein. Bei der inversen Transformation wird eine unbekannte Kategorie als None gekennzeichnet. - 'infrequent_if_exist' : Wenn während des Transformierens eine unbekannte Kategorie angetroffen wird, werden die resultierenden One-Hot-kodierten Spalten für dieses Merkmal der seltenen Kategorie zugeordnet, falls diese existiert. Die seltene Kategorie wird der letzten Position in der Kodierung zugeordnet. Während der inversen Transformation wird eine unbekannte Kategorie der Kategorie zugeordnet, die als `'infrequent'` gekennzeichnet ist, falls diese existiert. Wenn die `'infrequent'` Kategorie nicht existiert, dann behandelt :meth:`transform` und :meth:`inverse_transform` eine unbekannte Kategorie wie bei `handle_unknown='ignore'`. Seltene Kategorien existieren basierend auf `min_frequency` und `max_categories`. Lesen Sie mehr im :ref:`Benutzerhandbuch `. - 'warn' : Wenn während des Transformierens eine unbekannte Kategorie angetroffen wird, wird eine Warnung ausgegeben, und die Kodierung wird wie für `handle_unknown="infrequent_if_exist"` beschrieben fortgesetzt. .. versionchanged:: 1.1 `'infrequent_if_exist'` wurde hinzugefügt, um unbekannte Kategorien und seltene Kategorien automatisch zu behandeln. .. versionadded:: 1.6 Die Option `"warn"` wurde in 1.6 hinzugefügt.	'ignore'
	min_frequency min_frequency: int oder float, Standard=None Gibt die minimale Häufigkeit an, unterhalb derer eine Kategorie als selten betrachtet wird. - Wenn `int`, werden Kategorien mit geringerer Kardinalität als selten betrachtet. - Wenn `float`, werden Kategorien mit geringerer Kardinalität als `min_frequency * n_samples` als selten betrachtet. .. versionadded:: 1.1 Lesen Sie mehr im :ref:`Benutzerhandbuch `.	None
	max_categories max_categories: int, Standard=None Gibt eine Obergrenze für die Anzahl der Ausgabemerkmale pro Eingabe- Merkmal an, wenn seltene Kategorien berücksichtigt werden. Wenn es seltene Kategorien gibt, enthält `max_categories` die Kategorie, die die seltenen Kategorien repräsentiert, zusammen mit den häufigen Kategorien. Wenn `None`, gibt es keine Grenze für die Anzahl der Ausgabemerkmale. .. versionadded:: 1.1 Lesen Sie mehr im :ref:`Benutzerhandbuch `.	None
	feature_name_combiner feature_name_combiner: "concat" oder aufrufbar, Standard="concat" Aufrufbare Funktion mit der Signatur `def callable(input_feature, category)`, die einen String zurückgibt. Dies wird verwendet, um Merkmalsnamen zu erstellen, die von :meth:`get_feature_names_out` zurückgegeben werden. `"concat"` verkettet den kodierten Merkmalnamen und die Kategorie mit `feature + "_" + str(category)`. Z. B. erstellt das Merkmal X mit Werten 1, 6, 7 Merkmalnamen `X_1, X_6, X_7`. .. versionadded:: 1.3	'concat'

	penalty penalty: {'l1', 'l2', 'elasticnet', None}, default='l2' Gibt die Norm der Strafe an: - `None`: keine Strafe wird hinzugefügt; - `'l2'`: fügt einen L2-Strafbegriff hinzu und ist die Standardwahl; - `'l1'`: fügt einen L1-Strafbegriff hinzu; - `'elasticnet'`: beide L1- und L2-Strafbegriffe werden hinzugefügt. .. warning:: Einige Strafen funktionieren möglicherweise nicht mit einigen Solvern. Siehe den Parameter `solver` unten, um die Kompatibilität zwischen der Strafe und dem Solver zu erfahren. .. versionadded:: 0.19 l1-Strafe mit SAGA-Solver (erlaubt 'multinomial' + L1) .. deprecated:: 1.8 `penalty` wurde in Version 1.8 als veraltet markiert und wird in 1.10 entfernt. Verwenden Sie stattdessen `l1_ratio`. `l1_ratio=0` für `penalty='l2'`, `l1_ratio=1` für `penalty='l1'` und `l1_ratio` auf eine Gleitkommazahl zwischen 0 und 1 gesetzt für `'penalty='elasticnet'`.	'deprecated'
	C C: float, default=1.0 Kehrwert der Regularisierungsstärke; muss eine positive Gleitkommazahl sein. Wie bei Support Vector Machines geben kleinere Werte eine stärkere Regularisierung an. `C=np.inf` führt zu ungestrafter logistischer Regression. Für ein visuelles Beispiel der Auswirkung der Abstimmung des Parameters `C` mit einer L1-Strafe siehe: :ref:`sphx_glr_auto_examples_linear_model_plot_logistic_path.py`.	1.0
	l1_ratio l1_ratio: float, default=0.0 Der Elastic-Net-Mischungsparameter, mit `0 <= l1_ratio <= 1`. Das Setzen von `l1_ratio=1` ergibt eine reine L1-Strafe, das Setzen von `l1_ratio=0` eine reine L2-Strafe. Jeder Wert zwischen 0 und 1 ergibt eine Elastic-Net-Strafe der Form `l1_ratio * L1 + (1 - l1_ratio) * L2`. .. warning:: Bestimmte Werte von `l1_ratio`, d. h. einige Strafen, funktionieren möglicherweise nicht mit einigen Solvern. Siehe den Parameter `solver` unten, um die Kompatibilität zwischen der Strafe und dem Solver zu erfahren. .. versionchanged:: 1.8 Der Standardwert wurde von None auf 0.0 geändert. .. deprecated:: 1.8 `None` ist veraltet und wird in Version 1.10 entfernt. Verwenden Sie immer `l1_ratio`, um den Strafentyp anzugeben.	0.0
	dual dual: bool, default=False Duale (beschränkte) oder primale (regularisierte, siehe auch :ref:`diese Gleichung `) Formulierung. Die duale Formulierung ist nur für die L2-Strafe mit dem liblinear-Solver implementiert. Bevorzugen Sie `dual=False` wenn n_samples > n_features.	False
	tol tol: float, default=1e-4 Toleranz für Abbruchkriterien.	0.0001
	fit_intercept fit_intercept: bool, default=True Gibt an, ob eine Konstante (auch Bias oder Achsenabschnitt genannt) zur Entscheidungsfunktion hinzugefügt werden soll.	True
	intercept_scaling intercept_scaling: float, default=1 Nur nützlich, wenn der Solver `liblinear` verwendet wird und `self.fit_intercept` auf `True` gesetzt ist. In diesem Fall wird `x` zu `[x, self.intercept_scaling]`, d. h. ein "synthetisches" Merkmal mit konstantem Wert gleich `intercept_scaling` wird an den Instanzvektor angehängt. Der Achsenabschnitt wird dann ``intercept_scaling * synthetisches Merkmalsgewicht``. .. note:: Das Gewicht des synthetischen Merkmals unterliegt der L1- oder L2- Regularisierung wie alle anderen Merkmale. Um die Auswirkung der Regularisierung auf das synthetische Merkmalsgewicht (und damit auf den Achsenabschnitt) zu verringern, muss `intercept_scaling` erhöht werden.	1
	class_weight class_weight: dict oder 'balanced', default=None Mit Klassen assoziierte Gewichte in der Form ``{class_label: weight}``. Wenn nicht angegeben, wird angenommen, dass alle Klassen das Gewicht eins haben. Der Modus "balanced" verwendet die Werte von y, um die Gewichte automatisch invers proportional zu den Klassenhaüfigkeiten in den Eingabedaten als ``n_samples / (n_classes * np.bincount(y))`` anzupassen. Beachten Sie, dass diese Gewichte mit sample_weight (übergeben durch die fit-Methode) multipliziert werden, wenn sample_weight angegeben ist. .. versionadded:: 0.17 class_weight='balanced'	None
	random_state random_state: int, RandomState-Instanz, default=None Wird verwendet, wenn ``solver`` == 'sag', 'saga' oder 'liblinear', um die Daten zu mischen. Siehe :term:`Glossar ` für Details.	None
	solver solver: {'lbfgs', 'liblinear', 'newton-cg', 'newton-cholesky', 'sag', 'saga'}, default='lbfgs' Algorithmus zur Verwendung im Optimierungsproblem. Standard ist 'lbfgs'. Um einen Solver zu wählen, sollten Sie folgende Aspekte berücksichtigen: - 'lbfgs' ist ein guter Standard-Solver, da er für eine breite Klasse von Problemen vernünftigerweise gut funktioniert. - Für :term:`multiclass` Probleme (`n_classes >= 3`) minimieren alle Solver außer 'liblinear' den vollen multinomialen Verlust; 'liblinear' wird einen Fehler ausgeben. - 'newton-cholesky' ist eine gute Wahl für `n_samples` >> `n_features * n_classes`, insbesondere mit One-Hot-kodierten kategorialen Merkmalen mit seltenen Kategorien. Beachten Sie, dass die Speichernutzung dieses Solvers eine quadratische Abhängigkeit von `n_features * n_classes` aufweist, da er explizit die vollständige Hesse-Matrix berechnet. - Für kleine Datensätze ist 'liblinear' eine gute Wahl, während 'sag' und 'saga' für große schneller sind; - 'liblinear' kann standardmäßig nur binäre Klassifizierung. Um ein One-vs-Rest-Schema für die Multiklassen-Einstellung anzuwenden, kann es mit dem :class:`~sklearn.multiclass.OneVsRestClassifier` umhüllt werden. .. warning:: Die Wahl des Algorithmus hängt von der gewählten Strafe ab (l1_ratio=0 für L2-Strafe, l1_ratio=1 für L1-Strafe und 0 < l1_ratio < 1 für Elastic-Net) und von der Unterstützung für (multinomiale) Multiklassen: ================= ======================== ====================== solver l1_ratio multinomial multiclass ================= ======================== ====================== 'lbfgs' l1_ratio=0 ja 'liblinear' l1_ratio=1 oder l1_ratio=0 nein 'newton-cg' l1_ratio=0 ja 'newton-cholesky' l1_ratio=0 ja 'sag' l1_ratio=0 ja 'saga' 0<=l1_ratio<=1 ja ================= ======================== ====================== .. note:: Die schnelle Konvergenz von 'sag' und 'saga' ist nur garantiert, wenn die Merkmale ungefähr die gleiche Skala haben. Sie können die Daten mit einem Scaler aus :mod:`sklearn.preprocessing` vorverarbeiten. .. seealso:: Siehe das :ref:`Benutzerhandbuch ` für weitere Informationen zu :class:`LogisticRegression` und insbesondere die :ref:`Tabelle ` mit einer Zusammenfassung der Solver/Penalty-Unterstützungen. .. versionadded:: 0.17 Stochastic Average Gradient (SAG) Descent Solver. Multinomiale Unterstützung in Version 0.18. .. versionadded:: 0.19 SAGA Solver. .. versionchanged:: 0.22 Der Standard-Solver wurde in 0.22 von 'liblinear' auf 'lbfgs' geändert. .. versionadded:: 1.2 Newton-Cholesky Solver. Multinomiale Unterstützung in Version 1.6.	'lbfgs'
	max_iter max_iter: int, default=100 Maximale Anzahl von Iterationen, die die Solver zur Konvergenz benötigen.	100
	verbose verbose: int, default=0 Für die Solver liblinear und lbfgs setzen Sie verbose auf eine beliebige positive Zahl für die Ausführlichkeit.	0
	warm_start warm_start: bool, default=False Wenn auf True gesetzt, wird die Lösung des vorherigen Aufrufs von fit als Initialisierung wiederverwendet, andernfalls wird die vorherige Lösung einfach gelöscht. Nützlich für den liblinear-Solver. Siehe :term:`das Glossar `. .. versionadded:: 0.17 warm_start zur Unterstützung der Solver lbfgs, newton-cg, sag, saga.	False
	n_jobs n_jobs: int, default=None Hat keine Auswirkung. .. deprecated:: 1.8 `n_jobs` ist in Version 1.8 veraltet und wird in 1.10 entfernt.	None