Hinweis

Gehen Sie zum Ende, um den vollständigen Beispielcode herunterzuladen oder dieses Beispiel über JupyterLite oder Binder in Ihrem Browser auszuführen.

Häufige Fallstricke bei der Interpretation von Koeffizienten linearer Modelle#

In linearen Modellen wird der Zielwert als lineare Kombination der Merkmale modelliert (siehe die Sektion Lineare Modelle im Benutzerhandbuch für eine Beschreibung einer Reihe von in scikit-learn verfügbaren linearen Modellen). Koeffizienten in multiplen linearen Modellen stellen die Beziehung zwischen dem gegebenen Merkmal, \(X_i\), und dem Ziel, \(y\), dar, unter der Annahme, dass alle anderen Merkmale konstant bleiben (bedingte Abhängigkeit). Dies unterscheidet sich vom Plotten von \(X_i\) gegen \(y\) und dem Anpassen einer linearen Beziehung: In diesem Fall werden alle möglichen Werte der anderen Merkmale bei der Schätzung berücksichtigt (marginale Abhängigkeit).

Dieses Beispiel gibt einige Hinweise zur Interpretation von Koeffizienten in linearen Modellen und weist auf Probleme hin, die auftreten, wenn entweder das lineare Modell zur Beschreibung des Datensatzes nicht geeignet ist oder wenn Merkmale korreliert sind.

Hinweis

Beachten Sie, dass die Merkmale \(X\) und das Ergebnis \(y\) im Allgemeinen das Ergebnis eines Datengenerierungsprozesses sind, der uns unbekannt ist. Machine-Learning-Modelle werden trainiert, um die unbeobachtete mathematische Funktion, die \(X\) mit \(y\) verbindet, aus Stichprobendaten zu approximieren. Daher muss jede Interpretation eines Modells nicht unbedingt auf den wahren Datengenerierungsprozess verallgemeinert werden. Dies gilt insbesondere, wenn das Modell von schlechter Qualität ist oder wenn die Stichprobendaten nicht repräsentativ für die Population sind.

Wir verwenden Daten aus der „Current Population Survey“ von 1985, um den Lohn (wage) als Funktion verschiedener Merkmale wie Erfahrung (experience), Alter (age) oder Bildung (education) vorherzusagen.

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import scipy as sp
import seaborn as sns

Der Datensatz: Löhne#

Wir rufen die Daten von OpenML ab. Beachten Sie, dass das Setzen des Parameters as_frame auf True die Daten als Pandas-Datenrahmen abruft.

from sklearn.datasets import fetch_openml

survey = fetch_openml(data_id=534, as_frame=True)

Anschließend identifizieren wir die Merkmale X und das Ziel y: Die Spalte WAGE ist unsere Zielvariable (d. h. die Variable, die wir vorhersagen wollen).

X = survey.data[survey.feature_names]
X.describe(include="all")

	BILDUNG	SÜDEN	GESCHLECHT	ERFAHRUNG	GEWERKSCHAFT	ALTER	RASSE	BERUF	SEKTOR	VERHEIRATET
Anzahl	534.000000	534	534	534.000000	534	534.000000	534	534	534	534
einzigartig	NaN	2	2	NaN	2	NaN	3	6	3	2
am häufigsten	NaN	no	männlich	NaN	nicht Mitglied	NaN	Weiß	Andere	Andere	Verheiratet
Häufigkeit	NaN	378	289	NaN	438	NaN	440	156	411	350
Mittelwert	13.018727	NaN	NaN	17.822097	NaN	36.833333	NaN	NaN	NaN	NaN
Standardabweichung	2.615373	NaN	NaN	12.379710	NaN	11.726573	NaN	NaN	NaN	NaN
Minimum	2.000000	NaN	NaN	0.000000	NaN	18.000000	NaN	NaN	NaN	NaN
25%	12.000000	NaN	NaN	8.000000	NaN	28.000000	NaN	NaN	NaN	NaN
50%	12.000000	NaN	NaN	15.000000	NaN	35.000000	NaN	NaN	NaN	NaN
75%	15.000000	NaN	NaN	26.000000	NaN	44.000000	NaN	NaN	NaN	NaN
Maximum	18.000000	NaN	NaN	55.000000	NaN	64.000000	NaN	NaN	NaN	NaN

Beachten Sie, dass der Datensatz kategoriale und numerische Variablen enthält. Wir müssen dies bei der anschließenden Vorverarbeitung des Datensatzes berücksichtigen.

X.head()

	BILDUNG	SÜDEN	GESCHLECHT	ERFAHRUNG	GEWERKSCHAFT	ALTER	RASSE	BERUF	SEKTOR	VERHEIRATET
0	8	no	weiblich	21	nicht Mitglied	35	Hispanic	Andere	Fertigung	Verheiratet
1	9	no	weiblich	42	nicht Mitglied	57	Weiß	Andere	Fertigung	Verheiratet
2	12	no	männlich	1	nicht Mitglied	19	Weiß	Andere	Fertigung	Unverheiratet
3	12	no	männlich	4	nicht Mitglied	22	Weiß	Andere	Andere	Unverheiratet
4	12	no	männlich	17	nicht Mitglied	35	Weiß	Andere	Andere	Verheiratet

Unser Ziel für die Vorhersage: der Lohn. Löhne werden als Gleitkommazahl in Dollar pro Stunde beschrieben.

y = survey.target.values.ravel()
survey.target.head()

  5.10
  4.95
  6.67
  4.00
  7.50
Name: WAGE, dtype: float64

Wir teilen die Stichprobe in einen Trainings- und einen Testdatensatz auf. Nur der Trainingsdatensatz wird in der folgenden explorativen Analyse verwendet. Dies ist eine Möglichkeit, eine reale Situation zu emulieren, in der Vorhersagen für ein unbekanntes Ziel durchgeführt werden und wir nicht möchten, dass unsere Analyse und Entscheidungen durch unser Wissen über die Testdaten verzerrt werden.

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

Zuerst erhalten wir einige Einblicke, indem wir uns die Verteilungen der Variablen und die paarweisen Beziehungen zwischen ihnen ansehen. Es werden nur numerische Variablen verwendet. In der folgenden Grafik stellt jeder Punkt eine Stichprobe dar.

train_dataset = X_train.copy()
train_dataset.insert(0, "WAGE", y_train)
_ = sns.pairplot(train_dataset, kind="reg", diag_kind="kde")

plot linear model coefficient interpretation

Eine genauere Betrachtung der WAGE-Verteilung zeigt, dass sie einen langen Schwanz hat. Aus diesem Grund sollten wir ihren Logarithmus nehmen, um sie annähernd in eine Normalverteilung zu überführen (lineare Modelle wie Ridge oder Lasso funktionieren am besten bei einer Normalverteilung des Fehlers).

Das WAGE steigt mit steigender BILDUNG. Beachten Sie, dass die hier dargestellte Abhängigkeit zwischen WAGE und BILDUNG eine marginale Abhängigkeit ist, d. h. sie beschreibt das Verhalten einer bestimmten Variablen, ohne die anderen festzuhalten.

Außerdem sind ERFAHRUNG und ALTER stark linear korreliert.

Die Machine-Learning-Pipeline#

Um unsere Machine-Learning-Pipeline zu entwerfen, prüfen wir zunächst manuell die Art der Daten, mit denen wir es zu tun haben

survey.data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 534 entries, 0 to 533
Data columns (total 10 columns):
 #   Column      Non-Null Count  Dtype
---  ------      --------------  -----
 0   EDUCATION   534 non-null    int64
 1   SOUTH       534 non-null    category
 2   SEX         534 non-null    category
 3   EXPERIENCE  534 non-null    int64
 4   UNION       534 non-null    category
 5   AGE         534 non-null    int64
 6   RACE        534 non-null    category
 7   OCCUPATION  534 non-null    category
 8   SECTOR      534 non-null    category
 9   MARR        534 non-null    category
dtypes: category(7), int64(3)
memory usage: 17.3 KB

Wie bereits gesehen, enthält der Datensatz Spalten mit unterschiedlichen Datentypen und wir müssen für jeden Datentyp eine spezifische Vorverarbeitung anwenden. Insbesondere kategoriale Variablen können nicht in lineare Modelle einbezogen werden, wenn sie nicht zuerst als ganze Zahlen kodiert sind. Um zu vermeiden, dass kategoriale Merkmale als geordnete Werte behandelt werden, müssen wir sie one-hot-kodieren. Unser Vorverarbeiter wird

die kategorialen Spalten one-hot-kodieren (d. h. eine Spalte pro Kategorie generieren), nur für nicht-binäre kategoriale Variablen;
als erster Ansatz (wir werden später sehen, wie sich die Normalisierung numerischer Werte auf unsere Diskussion auswirkt), die numerischen Werte unverändert lassen.

from sklearn.compose import make_column_transformer
from sklearn.preprocessing import OneHotEncoder

categorical_columns = ["RACE", "OCCUPATION", "SECTOR", "MARR", "UNION", "SEX", "SOUTH"]
numerical_columns = ["EDUCATION", "EXPERIENCE", "AGE"]

preprocessor = make_column_transformer(
    (OneHotEncoder(drop="if_binary"), categorical_columns),
    remainder="passthrough",
    verbose_feature_names_out=False,  # avoid to prepend the preprocessor names
)

Wir verwenden einen Ridge-Regressoren mit einer sehr geringen Regularisierung, um den Logarithmus des Lohns zu modellieren.

from sklearn.compose import TransformedTargetRegressor
from sklearn.linear_model import Ridge
from sklearn.pipeline import make_pipeline

model = make_pipeline(
    preprocessor,
    TransformedTargetRegressor(
        regressor=Ridge(alpha=1e-10), func=np.log10, inverse_func=sp.special.exp10
    ),
)

Verarbeitung des Datensatzes#

Zuerst passen wir das Modell an.

model.fit(X_train, y_train)

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(remainder='passthrough',
                                   transformers=[('onehotencoder',
                                                  OneHotEncoder(drop='if_binary'),
                                                  ['RACE', 'OCCUPATION',
                                                   'SECTOR', 'MARR', 'UNION',
                                                   'SEX', 'SOUTH'])],
                                   verbose_feature_names_out=False)),
                ('transformedtargetregressor',
                 TransformedTargetRegressor(func=<ufunc 'log10'>,
                                            inverse_func=<ufunc 'exp10'>,
                                            regressor=Ridge(alpha=1e-10)))])

In einer Jupyter-Umgebung führen Sie diese Zelle bitte erneut aus, um die HTML-Darstellung anzuzeigen, oder vertrauen Sie dem Notebook.
Auf GitHub kann die HTML-Darstellung nicht gerendert werden. Versuchen Sie bitte, diese Seite mit nbviewer.org zu laden.

Dann prüfen wir die Leistung des berechneten Modells, indem wir seine Vorhersagen gegen die tatsächlichen Werte auf dem Testdatensatz plotten und den Median-Absolutfehler berechnen.

from sklearn.metrics import PredictionErrorDisplay, median_absolute_error

mae_train = median_absolute_error(y_train, model.predict(X_train))
y_pred = model.predict(X_test)
mae_test = median_absolute_error(y_test, y_pred)
scores = {
    "MedAE on training set": f"{mae_train:.2f} $/hour",
    "MedAE on testing set": f"{mae_test:.2f} $/hour",
}

_, ax = plt.subplots(figsize=(5, 5))
display = PredictionErrorDisplay.from_predictions(
    y_test, y_pred, kind="actual_vs_predicted", ax=ax, scatter_kwargs={"alpha": 0.5}
)
ax.set_title("Ridge model, small regularization")
for name, score in scores.items():
    ax.plot([], [], " ", label=f"{name}: {score}")
ax.legend(loc="upper left")
plt.tight_layout()

Das gelernte Modell ist weit davon entfernt, gute Vorhersagen zu treffen: Dies ist offensichtlich, wenn man sich die obige Grafik ansieht, wo gute Vorhersagen auf der schwarzen gestrichelten Linie liegen sollten.

Im folgenden Abschnitt interpretieren wir die Koeffizienten des Modells. Während wir dies tun, sollten wir bedenken, dass jede Schlussfolgerung, die wir ziehen, sich auf das von uns gebaute Modell bezieht und nicht auf den wahren (realen) Generierungsprozess der Daten.

Interpretation von Koeffizienten: Skalierung ist wichtig#

Zunächst einmal können wir uns die Werte der Koeffizienten des von uns angepassten Regressors ansehen.

feature_names = model[:-1].get_feature_names_out()

coefs = pd.DataFrame(
    model[-1].regressor_.coef_,
    columns=["Coefficients"],
    index=feature_names,
)

coefs

	Koeffizienten
RACE_Hispanic	-0.013520
RACE_Other	-0.009077
RACE_White	0.022593
OCCUPATION_Clerical	0.000045
OCCUPATION_Management	0.090528
OCCUPATION_Other	-0.025102
OCCUPATION_Professional	0.071964
OCCUPATION_Sales	-0.046636
OCCUPATION_Service	-0.091053
SECTOR_Construction	-0.000198
SECTOR_Manufacturing	0.031255
SECTOR_Other	-0.031026
MARR_Unmarried	-0.032405
UNION_not_member	-0.117154
SEX_male	0.090808
SOUTH_yes	-0.033823
BILDUNG	0.054699
ERFAHRUNG	0.035005
ALTER	-0.030867

Der AGE-Koeffizient ist in „Dollar/Stunde pro Lebensjahr“ ausgedrückt, während der EDUCATION-Koeffizient in „Dollar/Stunde pro Bildungsjahr“ ausgedrückt wird. Diese Darstellung der Koeffizienten hat den Vorteil, dass die praktischen Vorhersagen des Modells klar ersichtlich sind: Eine Erhöhung des ALTER um \(1\) Jahr bedeutet eine Verringerung um \(0.030867\) Dollar/Stunde, während eine Erhöhung der BILDUNG um \(1\) Jahr eine Erhöhung um \(0.054699\) Dollar/Stunde bedeutet. Kategoriale Variablen (wie UNION oder SEX) sind dagegen dimensionlose Zahlen, die entweder den Wert 0 oder 1 annehmen. Ihre Koeffizienten werden in Dollar/Stunde ausgedrückt. Dann können wir die Größe verschiedener Koeffizienten nicht vergleichen, da die Merkmale aufgrund ihrer unterschiedlichen Maßeinheiten unterschiedliche natürliche Skalen und somit Wertebereiche haben. Dies wird deutlicher, wenn wir die Koeffizienten plotten.

coefs.plot.barh(figsize=(9, 7))
plt.title("Ridge model, small regularization")
plt.axvline(x=0, color=".5")
plt.xlabel("Raw coefficient values")
plt.subplots_adjust(left=0.3)

Tatsächlich erscheint aus der obigen Grafik der wichtigste Faktor bei der Bestimmung des WAGE die Variable UNION zu sein, auch wenn unsere Intuition uns sagen könnte, dass Variablen wie ERFAHRUNG mehr Einfluss haben sollten.

Die Betrachtung des Koeffizientenplots zur Beurteilung der Merkmalswichtigkeit kann irreführend sein, da einige davon auf einer kleinen Skala variieren, während andere, wie AGE, stark schwanken.

Dies wird deutlich, wenn wir die Standardabweichungen verschiedener Merkmale vergleichen.

X_train_preprocessed = pd.DataFrame(
    model[:-1].transform(X_train), columns=feature_names
)

X_train_preprocessed.std(axis=0).plot.barh(figsize=(9, 7))
plt.title("Feature ranges")
plt.xlabel("Std. dev. of feature values")
plt.subplots_adjust(left=0.3)

Das Multiplizieren der Koeffizienten mit der Standardabweichung des zugehörigen Merkmals würde alle Koeffizienten auf die gleiche Maßeinheit reduzieren. Wie wir später sehen werden, ist dies gleichbedeutend mit der Normalisierung numerischer Variablen auf ihre Standardabweichung, da \(y = \sum{coef_i \times X_i} = \sum{(coef_i \times std_i) \times (X_i / std_i)}\).

Auf diese Weise betonen wir, dass je größer die Varianz eines Merkmals ist, desto größer ist das Gewicht des entsprechenden Koeffizienten auf die Ausgabe, wenn alle anderen Faktoren gleich sind.

coefs = pd.DataFrame(
    model[-1].regressor_.coef_ * X_train_preprocessed.std(axis=0),
    columns=["Coefficient importance"],
    index=feature_names,
)
coefs.plot(kind="barh", figsize=(9, 7))
plt.xlabel("Coefficient values corrected by the feature's std. dev.")
plt.title("Ridge model, small regularization")
plt.axvline(x=0, color=".5")
plt.subplots_adjust(left=0.3)

Nachdem die Koeffizienten skaliert wurden, können wir sie sicher vergleichen.

Hinweis

Warum deutet die obige Grafik darauf hin, dass eine Zunahme des Alters zu einer Abnahme des Lohns führt? Warum besagt der anfängliche Pairplot das Gegenteil? Dieser Unterschied ist der Unterschied zwischen marginaler und bedingter Abhängigkeit.

Die obige Grafik gibt Auskunft über die Abhängigkeiten zwischen einem bestimmten Merkmal und dem Ziel, wenn alle anderen Merkmale konstant bleiben, d. h. über **bedingte Abhängigkeiten**. Eine Zunahme des ALTER führt zu einer Abnahme des LOHN, wenn alle anderen Merkmale konstant bleiben. Im Gegensatz dazu führt eine Zunahme der ERFAHRUNG zu einer Zunahme des LOHN, wenn alle anderen Merkmale konstant bleiben. Außerdem sind ALTER, ERFAHRUNG und BILDUNG die drei Variablen, die das Modell am meisten beeinflussen.

Interpretation von Koeffizienten: Vorsicht bei Kausalität#

Lineare Modelle sind ein großartiges Werkzeug zur Messung statistischer Zusammenhänge, aber wir sollten vorsichtig sein, wenn wir Aussagen über Kausalität treffen, da Korrelation nicht immer Kausalität impliziert. Dies ist in den Sozialwissenschaften besonders schwierig, da die Variablen, die wir beobachten, nur als Stellvertreter für den zugrundeliegenden kausalen Prozess dienen.

In unserem speziellen Fall können wir die BILDUNG eines Individuums als Stellvertreter für seine berufliche Eignung betrachten, die eigentliche Variable, an der wir interessiert sind, aber nicht beobachten können. Wir würden sicherlich gerne glauben, dass ein längerer Schulbesuch die technische Kompetenz erhöht, aber es ist auch gut möglich, dass die Kausalität in die andere Richtung geht. Das heißt, wer technisch kompetent ist, bleibt tendenziell länger in der Schule.

Ein Arbeitgeber wird sich wahrscheinlich nicht darum kümmern, welcher Fall vorliegt (oder ob es sich um eine Mischung aus beidem handelt), solange er davon überzeugt ist, dass eine Person mit mehr BILDUNG besser für den Job geeignet ist, wird er gerne einen höheren LOHN zahlen.

Diese Vermischung von Effekten wird problematisch, wenn man über eine Form von Intervention nachdenkt, z. B. staatliche Subventionen für Universitätsabschlüsse oder Werbematerialien, die Einzelpersonen ermutigen, ein Hochschulstudium aufzunehmen. Der Nutzen dieser Maßnahmen könnte sich als überbewertet erweisen, insbesondere wenn der Grad der Vermischung stark ist. Unser Modell sagt eine Erhöhung des Stundenlohns um \(0.054699\) für jedes Bildungsjahr voraus. Der tatsächliche kausale Effekt könnte aufgrund dieser Vermischung geringer sein.

Überprüfung der Variabilität der Koeffizienten#

Wir können die Koeffizientenvariabilität mittels Kreuzvalidierung überprüfen: Es ist eine Form der Datenperturbation (verwandt mit Resampling).

Wenn die Koeffizienten bei Änderung des Eingabedatensatzes signifikant variieren, ist ihre Robustheit nicht garantiert, und sie sollten wahrscheinlich mit Vorsicht interpretiert werden.

from sklearn.model_selection import RepeatedKFold, cross_validate

cv = RepeatedKFold(n_splits=5, n_repeats=5, random_state=0)
cv_model = cross_validate(
    model,
    X,
    y,
    cv=cv,
    return_estimator=True,
    n_jobs=2,
)

coefs = pd.DataFrame(
    [
        est[-1].regressor_.coef_ * est[:-1].transform(X.iloc[train_idx]).std(axis=0)
        for est, (train_idx, _) in zip(cv_model["estimator"], cv.split(X, y))
    ],
    columns=feature_names,
)

plt.figure(figsize=(9, 7))
sns.stripplot(data=coefs, orient="h", palette="dark:k", alpha=0.5)
sns.boxplot(data=coefs, orient="h", color="cyan", saturation=0.5, whis=10)
plt.axvline(x=0, color=".5")
plt.xlabel("Coefficient importance")
plt.title("Coefficient importance and its variability")
plt.suptitle("Ridge model, small regularization")
plt.subplots_adjust(left=0.3)

Ridge model, small regularization, Coefficient importance and its variability

Das Problem korrelierter Variablen#

Die Koeffizienten für ALTER und ERFAHRUNG sind von starker Variabilität betroffen, was auf die Kollinearität zwischen den beiden Merkmalen zurückzuführen sein könnte: Da ALTER und ERFAHRUNG im Datensatz gemeinsam variieren, ist ihre Wirkung schwer auseinanderzuhalten.

Um diese Interpretation zu überprüfen, plotten wir die Variabilität des Koeffizienten für ALTER und ERFAHRUNG.

plt.xlabel("Age coefficient")
plt.ylabel("Experience coefficient")
plt.grid(True)
plt.xlim(-0.4, 0.5)
plt.ylim(-0.4, 0.5)
plt.scatter(coefs["AGE"], coefs["EXPERIENCE"])
_ = plt.title("Co-variations of coefficients for AGE and EXPERIENCE across folds")

Co-variations of coefficients for AGE and EXPERIENCE across folds

Zwei Regionen sind bevölkert: Wenn der ERFAHRUNGS-Koeffizient positiv ist, ist der ALTER-Koeffizient negativ und umgekehrt.

Um weiterzugehen, entfernen wir eines der beiden Merkmale, ALTER, und prüfen die Auswirkungen auf die Modellstabilität.

column_to_drop = ["AGE"]

cv_model = cross_validate(
    model,
    X.drop(columns=column_to_drop),
    y,
    cv=cv,
    return_estimator=True,
    n_jobs=2,
)

coefs = pd.DataFrame(
    [
        est[-1].regressor_.coef_
        * est[:-1].transform(X.drop(columns=column_to_drop).iloc[train_idx]).std(axis=0)
        for est, (train_idx, _) in zip(cv_model["estimator"], cv.split(X, y))
    ],
    columns=feature_names[:-1],
)

plt.figure(figsize=(9, 7))
sns.stripplot(data=coefs, orient="h", palette="dark:k", alpha=0.5)
sns.boxplot(data=coefs, orient="h", color="cyan", saturation=0.5)
plt.axvline(x=0, color=".5")
plt.title("Coefficient importance and its variability")
plt.xlabel("Coefficient importance")
plt.suptitle("Ridge model, small regularization, AGE dropped")
plt.subplots_adjust(left=0.3)

Ridge model, small regularization, AGE dropped, Coefficient importance and its variability

Die Schätzung des ERFAHRUNGS-Koeffizienten zeigt nun eine deutlich reduzierte Variabilität. ERFAHRUNG bleibt für alle während der Kreuzvalidierung trainierten Modelle wichtig.

Vorverarbeitung numerischer Variablen#

Wie oben erwähnt (siehe „Die Machine-Learning-Pipeline“), könnten wir auch wählen, numerische Werte vor dem Training des Modells zu skalieren. Dies kann nützlich sein, wenn wir eine ähnliche Regularisierung auf alle anwenden, wie beim Ridge-Verfahren. Der Vorverarbeiter wird neu definiert, um den Mittelwert zu subtrahieren und die Variablen auf Einheitsvarianz zu skalieren.

from sklearn.preprocessing import StandardScaler

preprocessor = make_column_transformer(
    (OneHotEncoder(drop="if_binary"), categorical_columns),
    (StandardScaler(), numerical_columns),
)

Das Modell bleibt unverändert.

model = make_pipeline(
    preprocessor,
    TransformedTargetRegressor(
        regressor=Ridge(alpha=1e-10), func=np.log10, inverse_func=sp.special.exp10
    ),
)
model.fit(X_train, y_train)

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(transformers=[('onehotencoder',
                                                  OneHotEncoder(drop='if_binary'),
                                                  ['RACE', 'OCCUPATION',
                                                   'SECTOR', 'MARR', 'UNION',
                                                   'SEX', 'SOUTH']),
                                                 ('standardscaler',
                                                  StandardScaler(),
                                                  ['EDUCATION', 'EXPERIENCE',
                                                   'AGE'])])),
                ('transformedtargetregressor',
                 TransformedTargetRegressor(func=<ufunc 'log10'>,
                                            inverse_func=<ufunc 'exp10'>,
                                            regressor=Ridge(alpha=1e-10)))])

In einer Jupyter-Umgebung führen Sie diese Zelle bitte erneut aus, um die HTML-Darstellung anzuzeigen, oder vertrauen Sie dem Notebook.
Auf GitHub kann die HTML-Darstellung nicht gerendert werden. Versuchen Sie bitte, diese Seite mit nbviewer.org zu laden.

Auch hier prüfen wir die Leistung des berechneten Modells anhand des Median-Absolutfehlers.

mae_train = median_absolute_error(y_train, model.predict(X_train))
y_pred = model.predict(X_test)
mae_test = median_absolute_error(y_test, y_pred)
scores = {
    "MedAE on training set": f"{mae_train:.2f} $/hour",
    "MedAE on testing set": f"{mae_test:.2f} $/hour",
}

_, ax = plt.subplots(figsize=(5, 5))
display = PredictionErrorDisplay.from_predictions(
    y_test, y_pred, kind="actual_vs_predicted", ax=ax, scatter_kwargs={"alpha": 0.5}
)
ax.set_title("Ridge model, small regularization")
for name, score in scores.items():
    ax.plot([], [], " ", label=f"{name}: {score}")
ax.legend(loc="upper left")
plt.tight_layout()

Für die Koeffizientenanalyse ist diesmal keine Skalierung erforderlich, da sie im Vorverarbeitungsschritt durchgeführt wurde.

coefs = pd.DataFrame(
    model[-1].regressor_.coef_,
    columns=["Coefficients importance"],
    index=feature_names,
)
coefs.plot.barh(figsize=(9, 7))
plt.title("Ridge model, small regularization, normalized variables")
plt.xlabel("Raw coefficient values")
plt.axvline(x=0, color=".5")
plt.subplots_adjust(left=0.3)

Ridge model, small regularization, normalized variables

Wir untersuchen nun die Koeffizienten über mehrere Kreuzvalidierungs-Folds.

cv_model = cross_validate(
    model,
    X,
    y,
    cv=cv,
    return_estimator=True,
    n_jobs=2,
)
coefs = pd.DataFrame(
    [est[-1].regressor_.coef_ for est in cv_model["estimator"]], columns=feature_names
)

plt.figure(figsize=(9, 7))
sns.stripplot(data=coefs, orient="h", palette="dark:k", alpha=0.5)
sns.boxplot(data=coefs, orient="h", color="cyan", saturation=0.5, whis=10)
plt.axvline(x=0, color=".5")
plt.title("Coefficient variability")
plt.subplots_adjust(left=0.3)

Das Ergebnis ist dem nicht-normalisierten Fall recht ähnlich.

Lineare Modelle mit Regularisierung#

In der Praxis des maschinellen Lernens wird die Ridge-Regression häufiger mit nicht unerheblicher Regularisierung verwendet.

Oben haben wir diese Regularisierung auf einen sehr geringen Betrag beschränkt. Regularisierung verbessert die Konditionierung des Problems und reduziert die Varianz der Schätzungen. RidgeCV wendet Kreuzvalidierung an, um zu bestimmen, welcher Wert des Regularisierungsparameters (alpha) für die Vorhersage am besten geeignet ist.

from sklearn.linear_model import RidgeCV

alphas = np.logspace(-10, 10, 21)  # alpha values to be chosen from by cross-validation
model = make_pipeline(
    preprocessor,
    TransformedTargetRegressor(
        regressor=RidgeCV(alphas=alphas),
        func=np.log10,
        inverse_func=sp.special.exp10,
    ),
)
model.fit(X_train, y_train)

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(transformers=[('onehotencoder',
                                                  OneHotEncoder(drop='if_binary'),
                                                  ['RACE', 'OCCUPATION',
                                                   'SECTOR', 'MARR', 'UNION',
                                                   'SEX', 'SOUTH']),
                                                 ('standardscaler',
                                                  StandardScaler(),
                                                  ['EDUCATION', 'EXPERIENCE',
                                                   'AGE'])])),
                ('transformedtargetregressor',
                 TransformedTargetRegressor(func=<ufunc 'log10'>,
                                            inverse_func=<ufunc 'exp10'>,
                                            regressor=RidgeCV(alphas=array([1.e-10, 1.e-09, 1.e-08, 1.e-07, 1.e-06, 1.e-05, 1.e-04, 1.e-03,
       1.e-02, 1.e-01, 1.e+00, 1.e+01, 1.e+02, 1.e+03, 1.e+04, 1.e+05,
       1.e+06, 1.e+07, 1.e+08, 1.e+09, 1.e+10]))))])

In einer Jupyter-Umgebung führen Sie diese Zelle bitte erneut aus, um die HTML-Darstellung anzuzeigen, oder vertrauen Sie dem Notebook.
Auf GitHub kann die HTML-Darstellung nicht gerendert werden. Versuchen Sie bitte, diese Seite mit nbviewer.org zu laden.

Zuerst prüfen wir, welcher Wert von \(\alpha\) ausgewählt wurde.

model[-1].regressor_.alpha_

10.0

Dann prüfen wir die Qualität der Vorhersagen.

mae_train = median_absolute_error(y_train, model.predict(X_train))
y_pred = model.predict(X_test)
mae_test = median_absolute_error(y_test, y_pred)
scores = {
    "MedAE on training set": f"{mae_train:.2f} $/hour",
    "MedAE on testing set": f"{mae_test:.2f} $/hour",
}

_, ax = plt.subplots(figsize=(5, 5))
display = PredictionErrorDisplay.from_predictions(
    y_test, y_pred, kind="actual_vs_predicted", ax=ax, scatter_kwargs={"alpha": 0.5}
)
ax.set_title("Ridge model, optimum regularization")
for name, score in scores.items():
    ax.plot([], [], " ", label=f"{name}: {score}")
ax.legend(loc="upper left")
plt.tight_layout()

Die Fähigkeit, die Daten des regulierten Modells zu reproduzieren, ist ähnlich der des nicht-regulierten Modells.

coefs = pd.DataFrame(
    model[-1].regressor_.coef_,
    columns=["Coefficients importance"],
    index=feature_names,
)
coefs.plot.barh(figsize=(9, 7))
plt.title("Ridge model, with regularization, normalized variables")
plt.xlabel("Raw coefficient values")
plt.axvline(x=0, color=".5")
plt.subplots_adjust(left=0.3)

Ridge model, with regularization, normalized variables

Die Koeffizienten sind signifikant unterschiedlich. Die Koeffizienten für ALTER und ERFAHRUNG sind beide positiv, aber sie haben nun weniger Einfluss auf die Vorhersage.

Die Regularisierung reduziert den Einfluss korrelierter Variablen auf das Modell, da das Gewicht zwischen den beiden prädiktiven Variablen geteilt wird, sodass keine von ihnen allein starke Gewichte hätte.

Auf der anderen Seite sind die mit Regularisierung erhaltenen Gewichte stabiler (siehe den Abschnitt Ridge-Regression und Klassifizierung im Benutzerhandbuch). Diese erhöhte Stabilität ist aus der Darstellung ersichtlich, die aus Datenperturbationen in einer Kreuzvalidierung gewonnen wurde. Diese Darstellung kann mit der vorherigen verglichen werden.

cv_model = cross_validate(
    model,
    X,
    y,
    cv=cv,
    return_estimator=True,
    n_jobs=2,
)
coefs = pd.DataFrame(
    [est[-1].regressor_.coef_ for est in cv_model["estimator"]], columns=feature_names
)

plt.xlabel("Age coefficient")
plt.ylabel("Experience coefficient")
plt.grid(True)
plt.xlim(-0.4, 0.5)
plt.ylim(-0.4, 0.5)
plt.scatter(coefs["AGE"], coefs["EXPERIENCE"])
_ = plt.title("Co-variations of coefficients for AGE and EXPERIENCE across folds")

Lineare Modelle mit dünnbesetzten Koeffizienten#

Eine weitere Möglichkeit, korrelierte Variablen im Datensatz zu berücksichtigen, ist die Schätzung von dünnbesetzten Koeffizienten. In gewisser Weise haben wir dies bereits manuell getan, als wir die AGE-Spalte in einer früheren Ridge-Schätzung verworfen haben.

Lasso-Modelle (siehe den Abschnitt Lasso im Benutzerhandbuch) schätzen dünnbesetzte Koeffizienten. LassoCV wendet Kreuzvalidierung an, um zu bestimmen, welcher Wert des Regularisierungsparameters (alpha) am besten für die Modellschätzung geeignet ist.

from sklearn.linear_model import LassoCV

alphas = np.logspace(-10, 10, 21)  # alpha values to be chosen from by cross-validation
model = make_pipeline(
    preprocessor,
    TransformedTargetRegressor(
        regressor=LassoCV(alphas=alphas, max_iter=100_000),
        func=np.log10,
        inverse_func=sp.special.exp10,
    ),
)

_ = model.fit(X_train, y_train)

Zuerst überprüfen wir, welcher Wert von \(\alpha\) ausgewählt wurde.

model[-1].regressor_.alpha_

np.float64(0.001)

Dann prüfen wir die Qualität der Vorhersagen.

mae_train = median_absolute_error(y_train, model.predict(X_train))
y_pred = model.predict(X_test)
mae_test = median_absolute_error(y_test, y_pred)
scores = {
    "MedAE on training set": f"{mae_train:.2f} $/hour",
    "MedAE on testing set": f"{mae_test:.2f} $/hour",
}

_, ax = plt.subplots(figsize=(6, 6))
display = PredictionErrorDisplay.from_predictions(
    y_test, y_pred, kind="actual_vs_predicted", ax=ax, scatter_kwargs={"alpha": 0.5}
)
ax.set_title("Lasso model, optimum regularization")
for name, score in scores.items():
    ax.plot([], [], " ", label=f"{name}: {score}")
ax.legend(loc="upper left")
plt.tight_layout()

Für unseren Datensatz ist das Modell wieder nicht sehr prädiktiv.

coefs = pd.DataFrame(
    model[-1].regressor_.coef_,
    columns=["Coefficients importance"],
    index=feature_names,
)
coefs.plot(kind="barh", figsize=(9, 7))
plt.title("Lasso model, optimum regularization, normalized variables")
plt.axvline(x=0, color=".5")
plt.subplots_adjust(left=0.3)

Lasso model, optimum regularization, normalized variables

Ein Lasso-Modell identifiziert die Korrelation zwischen ALTER und ERFAHRUNG und unterdrückt eine davon zugunsten der Vorhersage.

Es ist wichtig zu bedenken, dass die verworfenen Koeffizienten möglicherweise selbst noch mit dem Ergebnis zusammenhängen: Das Modell hat sich entschieden, sie zu unterdrücken, weil sie auf den anderen Merkmalen wenig oder keine zusätzliche Information bringen. Darüber hinaus ist diese Auswahl bei korrelierten Merkmalen instabil und sollte mit Vorsicht interpretiert werden.

Tatsächlich können wir die Variabilität der Koeffizienten über die Folds hinweg überprüfen.

cv_model = cross_validate(
    model,
    X,
    y,
    cv=cv,
    return_estimator=True,
    n_jobs=2,
)
coefs = pd.DataFrame(
    [est[-1].regressor_.coef_ for est in cv_model["estimator"]], columns=feature_names
)

plt.figure(figsize=(9, 7))
sns.stripplot(data=coefs, orient="h", palette="dark:k", alpha=0.5)
sns.boxplot(data=coefs, orient="h", color="cyan", saturation=0.5, whis=100)
plt.axvline(x=0, color=".5")
plt.title("Coefficient variability")
plt.subplots_adjust(left=0.3)

Wir beobachten, dass die Koeffizienten für ALTER und ERFAHRUNG stark davon abhängen, welcher Fold verwendet wird.

Falsche kausale Interpretation#

Politiker möchten vielleicht den Effekt von Bildung auf Lohn kennen, um zu beurteilen, ob eine bestimmte Politik zur Förderung von mehr Bildung wirtschaftlich sinnvoll wäre. Während Machine-Learning-Modelle hervorragend darin sind, statistische Zusammenhänge zu messen, sind sie im Allgemeinen nicht in der Lage, kausale Effekte zu inferieren.

Es könnte verlockend sein, den Koeffizienten von Bildung auf Lohn aus unserem letzten Modell (oder einem beliebigen Modell) zu betrachten und zu dem Schluss zu kommen, dass er den wahren Effekt einer Änderung der standardisierten Bildungs variable auf die Löhne erfasst.

Leider gibt es wahrscheinlich unbeobachtete Störvariablen, die diesen Koeffizienten entweder aufblähen oder verzerren. Eine Störvariable ist eine Variable, die sowohl BILDUNG als auch LOHN verursacht. Ein Beispiel für eine solche Variable ist die Fähigkeit. Vermutlich streben fähigere Personen eher eine höhere Bildung an und verdienen gleichzeitig wahrscheinlich einen höheren Stundenlohn bei jedem Bildungsniveau. In diesem Fall induziert die Fähigkeit eine positive verzerrte Variable (OVB) auf den Bildungs koeffizienten und übertreibt damit den Effekt von Bildung auf Löhne.

Siehe die Fehler von Machine Learning bei der Inferenz kausaler Effekte für einen simulierten Fall von Fähigkeits-OVB.

Gelehrte Lektionen#

Koeffizienten müssen auf die gleiche Maßeinheit skaliert werden, um die Merkmalswichtigkeit wiederherzustellen. Eine Skalierung mit der Standardabweichung des Merkmals ist ein nützlicher Anhaltspunkt.
Koeffizienten in multivariaten linearen Modellen stellen die Abhängigkeit zwischen einem bestimmten Merkmal und dem Ziel dar, **bedingt** auf den anderen Merkmalen.
Korrelierte Merkmale induzieren Instabilitäten in den Koeffizienten linearer Modelle und ihre Effekte können nicht gut auseinandergezogen werden.
Unterschiedliche lineare Modelle reagieren unterschiedlich auf Merkmalskorrelationen, und die Koeffizienten können sich erheblich voneinander unterscheiden.
Die Inspektion von Koeffizienten über die Folds einer Kreuzvalidierungsschleife gibt eine Vorstellung von ihrer Stabilität.
Die Interpretation von Kausalität ist schwierig, wenn Stör effekte vorliegen. Wenn die Beziehung zwischen zwei Variablen auch von etwas Unbeobachtetem beeinflusst wird, sollten wir vorsichtig sein, wenn wir Schlussfolgerungen über Kausalität ziehen.

Gesamtlaufzeit des Skripts: (0 Minuten 9,893 Sekunden)

Verwandte Beispiele

Ridge-Koeffizienten als Funktion der L2-Regularisierung

Versagen des maschinellen Lernens bei der Inferenz kausaler Effekte

Ridge-Koeffizienten als Funktion der Regularisierung plotten

Auswirkung der Modellregularisierung auf Trainings- und Testfehler

Galerie generiert von Sphinx-Gallery

	steps steps: list of tuples Liste von Tupeln (Name des Schritts, Schätzer), die in sequenzieller Reihenfolge verkettet werden sollen. Um mit der scikit-learn API kompatibel zu sein, müssen alle Schritte `fit` definieren. Alle nicht letzten Schritte müssen auch `transform` definieren. Siehe :ref:`Kombination von Schätzern ` für weitere Details.	[('columntransformer', ...), ('transformedtargetregressor', ...)]
	transform_input transform_input: list of str, default=None Die Namen der :term:`Metadaten`-Parameter, die von der Pipeline transformiert werden sollen, bevor sie an den Schritt übergeben werden, der sie benötigt. Dies ermöglicht die Transformation einiger Eingabeparameter zu ``fit`` (außer ``X``), die von den Schritten der Pipeline bis zu dem Schritt transformiert werden, der sie benötigt. Die Anforderung wird über :ref:`Metadaten-Routing ` definiert. Dies kann beispielsweise verwendet werden, um einen Validierungsdatensatz durch die Pipeline zu leiten. Sie können dies nur festlegen, wenn das Metadaten-Routing aktiviert ist, was Sie mit ``sklearn.set_config(enable_metadata_routing=True)`` aktivieren können. .. versionadded:: 1.6	None
	memory memory: str oder Objekt mit der joblib.Memory-Schnittstelle, default=None Wird zum Zwischenspeichern der angepassten Transformer der Pipeline verwendet. Der letzte Schritt wird niemals zwischengespeichert, auch wenn es sich um einen Transformer handelt. Standardmäßig erfolgt keine Zwischenspeicherung. Wenn ein String angegeben wird, ist dies der Pfad zum Zwischenspeicherverzeichnis. Durch Aktivieren der Zwischenspeicherung wird eine Kopie der Transformer vor dem Anpassen ausgelöst. Daher kann die an die Pipeline übergebene Transformer-Instanz nicht direkt inspiziert werden. Verwenden Sie das Attribut `named_steps` oder `steps`, um Schätzer innerhalb der Pipeline zu inspizieren. Das Zwischenspeichern der Transformer ist vorteilhaft, wenn das Anpassen zeitaufwändig ist. Siehe :ref:`sphx_glr_auto_examples_neighbors_plot_caching_nearest_neighbors.py` für ein Beispiel zur Aktivierung der Zwischenspeicherung.	None
	verbose verbose: bool, default=False Wenn True, wird die verstrichene Zeit während des Anpassens jedes Schritts gedruckt, wenn es abgeschlossen ist.	False

	transformers transformers: Liste von Tupeln Liste von (name, transformer, columns) Tupeln, die die Transformer-Objekte spezifizieren, die auf Teilmengen der Daten angewendet werden. name : str Wie in Pipeline und FeatureUnion erlaubt dies, den Transformer und seine Parameter mit ``set_params`` einzustellen und in einer Grid Search zu suchen. transformer : {'drop', 'passthrough'} oder Schätzer Der Schätzer muss :term:`fit` und :term:`transform` unterstützen. Speziell behandelte Zeichenketten 'drop' und 'passthrough' werden ebenfalls akzeptiert, um das Verwerfen von Spalten oder das Durchleiten ohne Transformation anzuzeigen. columns : str, array-ähnlich von str, int, array-ähnlich von int, array-ähnlich von bool, slice oder callable Indiziert die Daten auf ihrer zweiten Achse. Ganzzahlen werden als positionelle Spalten interpretiert, während Zeichenketten DataFrame-Spalten nach Namen referenzieren können. Eine Skalarzeichenkette oder Ganzzahl sollte verwendet werden, wo ``transformer`` erwartet, dass X eine 1d array-ähnliche (Vektor) ist, andernfalls wird eine 2d-Array an den Transformer übergeben. Ein callable erhält die Eingabedaten `X` und kann beliebige der obigen zurückgeben. Um mehrere Spalten nach Namen oder dtype auszuwählen, können Sie :obj:`make_column_selector` verwenden.	[('onehotencoder', ...)]
	remainder remainder: {'drop', 'passthrough'} oder Schätzer, default='drop' Standardmäßig werden nur die in `transformers` spezifizierten Spalten transformiert und im Ergebnis kombiniert, und die nicht spezifizierten Spalten werden verworfen. (Standard von ``'drop'``). Durch Angabe von ``remainder='passthrough'`` werden alle verbleibenden Spalten, die nicht in `transformers` spezifiziert, aber in den an `fit` übergebenen Daten vorhanden waren, automatisch durchgelassen. Diese Teilmenge von Spalten wird mit dem Ergebnis der Transformer verkettet. Für DataFrames werden zusätzliche Spalten, die während `fit` nicht gesehen wurden, aus dem Ergebnis von `transform` ausgeschlossen. Durch Setzen von ``remainder`` auf einen Schätzer verwenden die verbleibenden nicht spezifizierten Spalten den ``remainder``-Schätzer. Der Schätzer muss :term:`fit` und :term:`transform` unterstützen. Beachten Sie, dass die Verwendung dieser Funktion erfordert, dass die DataFrame-Spalten bei `fit` und `transform` die gleiche Reihenfolge haben.	'passthrough'
	sparse_threshold sparse_threshold: float, default=0.3 Wenn die Ausgabe der verschiedenen Transformer dünnbesetzte Matrizen enthält, werden diese als dünnbesetzte Matrix gestapelt, wenn die Gesamtdichte geringer ist als dieser Wert. Verwenden Sie ``sparse_threshold=0``, um immer dicht zu liefern. Wenn die transformierte Ausgabe nur dichte Daten enthält, wird das gestapelte Ergebnis dicht sein, und dieses Schlüsselwort wird ignoriert.	0.3
	n_jobs n_jobs: int, default=None Anzahl der parallel auszuführenden Jobs. ``None`` bedeutet 1, es sei denn, es befindet sich in einem :obj:`joblib.parallel_backend` Kontext. ``-1`` bedeutet, alle Prozessoren zu verwenden. Siehe :term:`Glossar ` für weitere Details.	None
	transformer_weights transformer_weights: dict, default=None Multiplikative Gewichte für Merkmale pro Transformer. Die Ausgabe des Transformers wird mit diesen Gewichten multipliziert. Schlüssel sind Transformer-Namen, Werte die Gewichte.	None
	verbose verbose: bool, default=False Wenn True, wird die verstrichene Zeit während des Anpassens jedes Transformators gedruckt, wenn er abgeschlossen ist.	False
	verbose_feature_names_out verbose_feature_names_out: bool, str oder Callable[[str, str], str], Standardwert=True - Wenn True, präfixiert :meth:`ColumnTransformer.get_feature_names_out` alle Merkmalsnamen mit dem Namen des Transformers, der dieses Merkmal generiert hat. Es ist äquivalent zum Setzen von `verbose_feature_names_out="{transformer_name}__{feature_name}"`. - Wenn False, präfixiert :meth:`ColumnTransformer.get_feature_names_out` keine Merkmalsnamen und gibt einen Fehler aus, wenn Merkmalsnamen nicht eindeutig sind. - Wenn ``Callable[[str, str], str]``, benennt :meth:`ColumnTransformer.get_feature_names_out` alle Merkmale mit dem Namen des Transformers um. Das erste Argument des Callables ist der Transformer-Name und das zweite Argument ist der Merkmalsname. Die zurückgegebene Zeichenkette ist der neue Merkmalsname. - Wenn ``str``, muss es eine Zeichenkette sein, die für die Formatierung bereit ist. Die gegebene Zeichenkette wird mithilfe zweier Feldnamen formatiert: ``transformer_name`` und ``feature_name``. z.B. ``"{feature_name}__{transformer_name}"``. Siehe die Methode :meth:`str.format` aus der Standardbibliothek für weitere Informationen. .. versionadded:: 1.0 .. versionchanged:: 1.6 `verbose_feature_names_out` kann ein callable oder eine Zeichenkette zum Formatieren sein.	False
	force_int_remainder_cols force_int_remainder_cols: bool, default=False Dieser Parameter hat keine Auswirkung. .. note:: Wenn Sie nicht auf die Liste der Spalten für die verbleibenden Spalten im ``transformers_`` angepassten Attribut zugreifen, müssen Sie diesen Parameter nicht setzen. .. versionadded:: 1.5 .. versionchanged:: 1.7 Der Standardwert für `force_int_remainder_cols` ändert sich von `True` auf `False` in Version 1.7. .. deprecated:: 1.7 `force_int_remainder_cols` ist veraltet und wird in Version 1.9 entfernt.	'deprecated'

	categories categories: 'auto' oder eine Liste von Arrays, Standard='auto' Kategorien (eindeutige Werte) pro Merkmal: - 'auto': Kategorien automatisch aus den Trainingsdaten ermitteln. - Liste: ``categories[i]`` enthält die erwarteten Kategorien in der i-ten Spalte. Die übergebenen Kategorien sollten keine Strings und numerischen Werte innerhalb eines Merkmals mischen und sollten bei numerischen Werten sortiert sein. Die verwendeten Kategorien finden Sie im Attribut ``categories_``. .. versionadded:: 0.20	'auto'
	drop drop: {'first', 'if_binary'} oder ein array-ähnliches von Shape (n_features,), Standardwert=None Spezifiziert eine Methode zum Verwerfen einer der Kategorien pro Merkmal. Dies ist nützlich in Situationen, in denen perfekt kollineare Merkmale Probleme verursachen, z. B. beim Einspeisen der resultierenden Daten in ein nicht-regularisiertes lineares Regressionsmodell. Das Verwerfen einer Kategorie bricht jedoch die Symmetrie der ursprünglichen Darstellung und kann daher einen Bias in nachfolgenden Modellen induzieren, zum Beispiel für strafende lineare Klassifikations- oder Regressionsmodelle. - None : behält alle Merkmale bei (Standard). - 'first' : verwirft die erste Kategorie in jedem Merkmal. Wenn nur eine Kategorie vorhanden ist, wird das Merkmal vollständig verworfen. - 'if_binary' : verwirft die erste Kategorie in jedem Merkmal mit zwei Kategorien. Merkmale mit 1 oder mehr als 2 Kategorien bleiben unverändert. - array : ``drop[i]`` ist die Kategorie im Merkmal ``X[:, i]``, die verworfen werden soll. Wenn `max_categories` oder `min_frequency` konfiguriert ist, um seltene Kategorien zu gruppieren, wird das Verwerfen nach der Gruppierung gehandhabt. .. versionadded:: 0.21 Der Parameter `drop` wurde in 0.21 hinzugefügt. .. versionchanged:: 0.23 Die Option `drop='if_binary'` wurde in 0.23 hinzugefügt. .. versionchanged:: 1.1 Unterstützung für das Verwerfen seltener Kategorien.	'if_binary'
	sparse_output sparse_output: bool, Standard=True Wenn ``True``, wird eine :class:`scipy.sparse.csr_matrix` zurückgegeben, d. h. eine spärliche Matrix im "Compressed Sparse Row" (CSR)-Format. .. versionadded:: 1.2 `sparse` wurde in `sparse_output` umbenannt.	True
	dtype dtype: numerischer Typ, default=np.float64 Gewünschter dtype der Ausgabe.	<class 'numpy.float64'>
	handle_unknown handle_unknown: {'error', 'ignore', 'infrequent_if_exist', 'warn'}, Standardwert='error' Spezifiziert die Art und Weise, wie unbekannte Kategorien während :meth:`transform` behandelt werden. - 'error' : Löst einen Fehler aus, wenn während der Transformation eine unbekannte Kategorie vorhanden ist. - 'ignore' : Wenn während der Transformation eine unbekannte Kategorie angetroffen wird, sind die resultierenden One-Hot-kodierten Spalten für dieses Merkmal alle Nullen. Bei der inversen Transformation wird eine unbekannte Kategorie als None bezeichnet. - 'infrequent_if_exist' : Wenn während der Transformation eine unbekannte Kategorie angetroffen wird, werden die resultierenden One-Hot-kodierten Spalten für dieses Merkmal auf die seltene Kategorie abgebildet, falls diese existiert. Die seltene Kategorie wird an die letzte Position in der Kodierung abgebildet. Während der inversen Transformation wird eine unbekannte Kategorie auf die Kategorie abgebildet, die als `'infrequent'` bezeichnet wird, falls diese existiert. Wenn die `'infrequent'`-Kategorie nicht existiert, behandelt :meth:`transform` und :meth:`inverse_transform` eine unbekannte Kategorie wie bei `handle_unknown='ignore'`. Seltene Kategorien existieren basierend auf `min_frequency` und `max_categories`. Lesen Sie mehr im :ref:`Benutzerhandbuch `. - 'warn' : Wenn während der Transformation eine unbekannte Kategorie angetroffen wird, wird eine Warnung ausgegeben, und die Kodierung wird dann wie für `handle_unknown="infrequent_if_exist"` beschrieben fortgesetzt. .. versionchanged:: 1.1 `'infrequent_if_exist'` wurde hinzugefügt, um unbekannte Kategorien und seltene Kategorien automatisch zu behandeln. .. versionadded:: 1.6 Die Option `"warn"` wurde in 1.6 hinzugefügt.	'error'
	min_frequency min_frequency: int oder float, Standard=None Gibt die minimale Häufigkeit an, unterhalb derer eine Kategorie als selten betrachtet wird. - Wenn `int`, werden Kategorien mit geringerer Kardinalität als selten betrachtet. - Wenn `float`, werden Kategorien mit geringerer Kardinalität als `min_frequency * n_samples` als selten betrachtet. .. versionadded:: 1.1 Lesen Sie mehr im :ref:`Benutzerhandbuch `.	None
	max_categories max_categories: int, Standard=None Gibt eine Obergrenze für die Anzahl der Ausgabemerkmale pro Eingabe- Merkmal an, wenn seltene Kategorien berücksichtigt werden. Wenn es seltene Kategorien gibt, enthält `max_categories` die Kategorie, die die seltenen Kategorien repräsentiert, zusammen mit den häufigen Kategorien. Wenn `None`, gibt es keine Grenze für die Anzahl der Ausgabemerkmale. .. versionadded:: 1.1 Lesen Sie mehr im :ref:`Benutzerhandbuch `.	None
	feature_name_combiner feature_name_combiner: "concat" oder aufrufbar, Standard="concat" Aufrufbare Funktion mit der Signatur `def callable(input_feature, category)`, die einen String zurückgibt. Dies wird verwendet, um Merkmalsnamen zu erstellen, die von :meth:`get_feature_names_out` zurückgegeben werden. `"concat"` verkettet den kodierten Merkmalnamen und die Kategorie mit `feature + "_" + str(category)`. Z. B. erstellt das Merkmal X mit Werten 1, 6, 7 Merkmalnamen `X_1, X_6, X_7`. .. versionadded:: 1.3	'concat'

	regressor regressor: Objekt, Standardwert=None Regressoren-Objekt wie abgeleitet von :class:`~sklearn.base.RegressorMixin`. Dieser Regressor wird automatisch jedes Mal geklont, bevor er angepasst wird. Wenn `regressor ist None`, wird :class:`~sklearn.linear_model.LinearRegression` erstellt und verwendet.	Ridge(alpha=1e-10)
	transformer transformer: Objekt, Standardwert=None Schätzer-Objekt wie abgeleitet von :class:`~sklearn.base.TransformerMixin`. Kann nicht gleichzeitig mit `func` und `inverse_func` gesetzt werden. Wenn `transformer ist None` sowie `func` und `inverse_func`, ist der Transformer ein Identitäts- Transformer. Beachten Sie, dass der Transformer während des Anpassens geklont wird. Außerdem beschränkt der Transformer `y` auf ein Numpy-Array.	None
	func func: Funktion, Standardwert=None Funktion, die auf `y` angewendet wird, bevor sie an :meth:`fit` übergeben wird. Kann nicht gleichzeitig mit `transformer` gesetzt werden. Wenn `func ist None`, ist die verwendete Funktion die Identitätsfunktion. Wenn `func` gesetzt ist, muss auch `inverse_func` bereitgestellt werden. Die Funktion muss ein 2-dimensionales Array zurückgeben.	<ufunc 'log10'>
	inverse_func inverse_func: Funktion, Standardwert=None Funktion, die auf die Vorhersage des Regressors angewendet wird. Kann nicht gleichzeitig mit `transformer` gesetzt werden. Die inverse Funktion wird verwendet, um Vorhersagen in den gleichen Raum der ursprünglichen Trainingslabels zurückzugeben. Wenn `inverse_func` gesetzt ist, muss auch `func` bereitgestellt werden. Die inverse Funktion muss ein 2-dimensionales Array zurückgeben.	<ufunc 'exp10'>
	check_inverse check_inverse: bool, Standardwert=True Ob überprüft werden soll, ob `transform` gefolgt von `inverse_transform` oder `func` gefolgt von `inverse_func` zu den ursprünglichen Zielen führt.	True

	alpha alpha: {float, ndarray von Shape (n_targets,)}, Standardwert=1.0 Konstante, die den L2-Term multipliziert und die Regularisierungsstärke kontrolliert. `alpha` muss eine nicht-negative Gleitkommazahl sein, d.h. im Bereich `[0, inf)`. Wenn `alpha = 0`, ist das Ziel äquivalent zu gewöhnlicher kleinster Quadrate, gelöst durch das :class:`LinearRegression` Objekt. Aus numerischen Gründen wird die Verwendung von `alpha = 0` mit dem `Ridge`-Objekt nicht empfohlen. Stattdessen sollten Sie das :class:`LinearRegression` Objekt verwenden. Wenn ein Array übergeben wird, werden die Strafen als spezifisch für die Zielwerte angenommen. Daher müssen sie in der Anzahl übereinstimmen.	1e-10
	fit_intercept fit_intercept: bool, Standardwert=True Ob der Achsenabschnitt für dieses Modell angepasst werden soll. Wenn auf false gesetzt, wird kein Achsenabschnitt in den Berechnungen verwendet (d. h. ``X`` und ``y`` werden als zentriert angenommen).	True
	copy_X copy_X: bool, Standardwert=True Wenn True, wird X kopiert; andernfalls kann es überschrieben werden.	True
	max_iter max_iter: int, Standardwert=None Maximale Anzahl von Iterationen für den Konjugierten Gradienten-Solver. Für die Solver 'sparse_cg' und 'lsqr' wird der Standardwert von scipy.sparse.linalg bestimmt. Für den Solver 'sag' beträgt der Standardwert 1000. Für den Solver 'lbfgs' beträgt der Standardwert 15000.	None
	tol tol: float, Standardwert=1e-4 Die Präzision der Lösung (`coef_`) wird durch `tol` bestimmt, welches ein anderes Konvergenzkriterium für jeden Solver spezifiziert: - 'svd': `tol` hat keine Auswirkung. - 'cholesky': `tol` hat keine Auswirkung. - 'sparse_cg': Norm der Residuen kleiner als `tol`. - 'lsqr': `tol` wird als atol und btol von scipy.sparse.linalg.lsqr gesetzt, welche die Norm des Residuenvektors in Bezug auf die Normen von Matrix und Koeffizienten steuern. - 'sag' und 'saga': relative Änderung von coef kleiner als `tol`. - 'lbfgs': Maximum des absoluten (projizierten) Gradienten=max\|Residuen\| kleiner als `tol`. .. versionchanged:: 1.2 Standardwert von 1e-3 auf 1e-4 geändert, um mit anderen linearen Modellen konsistent zu sein.	0.0001
	solver solver: {'auto', 'svd', 'cholesky', 'lsqr', 'sparse_cg', 'sag', 'saga', 'lbfgs'}, Standardwert='auto' Solver, der in den rechnerischen Routinen verwendet werden soll: - 'auto' wählt den Solver automatisch basierend auf dem Datentyp aus. - 'svd' verwendet eine Singulärwertzerlegung von X, um die Ridge- Koeffizienten zu berechnen. Dies ist der stabilste Solver, insbesondere stabiler für singuläre Matrizen als 'cholesky' auf Kosten der Geschwindigkeit. - 'cholesky' verwendet die Standardfunktion :func:`scipy.linalg.solve`, um eine geschlossene Lösungsform zu erhalten. - 'sparse_cg' verwendet den Konjugierten Gradienten-Solver, wie er in :func:`scipy.sparse.linalg.cg` gefunden wird. Als iterativer Algorithmus ist dieser Solver für große Datenmengen geeigneter als 'cholesky' (Möglichkeit zur Einstellung von `tol` und `max_iter`). - 'lsqr' verwendet die dedizierte regulierte Least-Squares-Routine :func:`scipy.sparse.linalg.lsqr`. Es ist der schnellste und verwendet ein iteratives Verfahren. - 'sag' verwendet einen stochastischen Durchschnittsgradienten-Abstieg, und 'saga' verwendet seine verbesserte, unverzerrte Version namens SAGA. Beide Methoden verwenden ebenfalls ein iteratives Verfahren und sind oft schneller als andere Solver, wenn sowohl n_samples als auch n_features groß sind. Beachten Sie, dass 'sag' und 'saga' eine schnelle Konvergenz nur auf Merkmalen mit ungefähr gleicher Skalierung garantiert ist. Sie können die Daten mit einem Skalierer aus :mod:`sklearn.preprocessing` vorverarbeiten. - 'lbfgs' verwendet den L-BFGS-B-Algorithmus, implementiert in :func:`scipy.optimize.minimize`. Es kann nur verwendet werden, wenn `positive` True ist. Alle Solver außer 'svd' unterstützen sowohl dichte als auch sparse Daten. Jedoch unterstützen nur 'lsqr', 'sag', 'sparse_cg' und 'lbfgs' sparse Eingaben, wenn `fit_intercept` True ist. .. versionadded:: 0.17 Stochastischer Durchschnittsgradienten-Solver. .. versionadded:: 0.19 SAGA-Solver.	'auto'
	positive positive: bool, Standardwert=False Wenn auf ``True`` gesetzt, erzwingt es positive Koeffizienten. Nur der Solver 'lbfgs' wird in diesem Fall unterstützt.	False
	random_state random_state: int, RandomState-Instanz, Standardwert=None Wird verwendet, wenn ``solver`` == 'sag' oder 'saga', um die Daten zu mischen. Siehe :term:`Glossary ` für Details. .. versionadded:: 0.17 `random_state` zur Unterstützung des stochastischen Durchschnittsgradienten.	None

	transformers transformers: Liste von Tupeln Liste von (name, transformer, columns) Tupeln, die die Transformer-Objekte spezifizieren, die auf Teilmengen der Daten angewendet werden. name : str Wie in Pipeline und FeatureUnion erlaubt dies, den Transformer und seine Parameter mit ``set_params`` einzustellen und in einer Grid Search zu suchen. transformer : {'drop', 'passthrough'} oder Schätzer Der Schätzer muss :term:`fit` und :term:`transform` unterstützen. Speziell behandelte Zeichenketten 'drop' und 'passthrough' werden ebenfalls akzeptiert, um das Verwerfen von Spalten oder das Durchleiten ohne Transformation anzuzeigen. columns : str, array-ähnlich von str, int, array-ähnlich von int, array-ähnlich von bool, slice oder callable Indiziert die Daten auf ihrer zweiten Achse. Ganzzahlen werden als positionelle Spalten interpretiert, während Zeichenketten DataFrame-Spalten nach Namen referenzieren können. Eine Skalarzeichenkette oder Ganzzahl sollte verwendet werden, wo ``transformer`` erwartet, dass X eine 1d array-ähnliche (Vektor) ist, andernfalls wird eine 2d-Array an den Transformer übergeben. Ein callable erhält die Eingabedaten `X` und kann beliebige der obigen zurückgeben. Um mehrere Spalten nach Namen oder dtype auszuwählen, können Sie :obj:`make_column_selector` verwenden.	[('onehotencoder', ...), ('standardscaler', ...)]
	remainder remainder: {'drop', 'passthrough'} oder Schätzer, default='drop' Standardmäßig werden nur die in `transformers` spezifizierten Spalten transformiert und im Ergebnis kombiniert, und die nicht spezifizierten Spalten werden verworfen. (Standard von ``'drop'``). Durch Angabe von ``remainder='passthrough'`` werden alle verbleibenden Spalten, die nicht in `transformers` spezifiziert, aber in den an `fit` übergebenen Daten vorhanden waren, automatisch durchgelassen. Diese Teilmenge von Spalten wird mit dem Ergebnis der Transformer verkettet. Für DataFrames werden zusätzliche Spalten, die während `fit` nicht gesehen wurden, aus dem Ergebnis von `transform` ausgeschlossen. Durch Setzen von ``remainder`` auf einen Schätzer verwenden die verbleibenden nicht spezifizierten Spalten den ``remainder``-Schätzer. Der Schätzer muss :term:`fit` und :term:`transform` unterstützen. Beachten Sie, dass die Verwendung dieser Funktion erfordert, dass die DataFrame-Spalten bei `fit` und `transform` die gleiche Reihenfolge haben.	'drop'
	sparse_threshold sparse_threshold: float, default=0.3 Wenn die Ausgabe der verschiedenen Transformer dünnbesetzte Matrizen enthält, werden diese als dünnbesetzte Matrix gestapelt, wenn die Gesamtdichte geringer ist als dieser Wert. Verwenden Sie ``sparse_threshold=0``, um immer dicht zu liefern. Wenn die transformierte Ausgabe nur dichte Daten enthält, wird das gestapelte Ergebnis dicht sein, und dieses Schlüsselwort wird ignoriert.	0.3
	n_jobs n_jobs: int, default=None Anzahl der parallel auszuführenden Jobs. ``None`` bedeutet 1, es sei denn, es befindet sich in einem :obj:`joblib.parallel_backend` Kontext. ``-1`` bedeutet, alle Prozessoren zu verwenden. Siehe :term:`Glossar ` für weitere Details.	None
	transformer_weights transformer_weights: dict, default=None Multiplikative Gewichte für Merkmale pro Transformer. Die Ausgabe des Transformers wird mit diesen Gewichten multipliziert. Schlüssel sind Transformer-Namen, Werte die Gewichte.	None
	verbose verbose: bool, default=False Wenn True, wird die verstrichene Zeit während des Anpassens jedes Transformators gedruckt, wenn er abgeschlossen ist.	False
	verbose_feature_names_out verbose_feature_names_out: bool, str oder Callable[[str, str], str], Standardwert=True - Wenn True, präfixiert :meth:`ColumnTransformer.get_feature_names_out` alle Merkmalsnamen mit dem Namen des Transformers, der dieses Merkmal generiert hat. Es ist äquivalent zum Setzen von `verbose_feature_names_out="{transformer_name}__{feature_name}"`. - Wenn False, präfixiert :meth:`ColumnTransformer.get_feature_names_out` keine Merkmalsnamen und gibt einen Fehler aus, wenn Merkmalsnamen nicht eindeutig sind. - Wenn ``Callable[[str, str], str]``, benennt :meth:`ColumnTransformer.get_feature_names_out` alle Merkmale mit dem Namen des Transformers um. Das erste Argument des Callables ist der Transformer-Name und das zweite Argument ist der Merkmalsname. Die zurückgegebene Zeichenkette ist der neue Merkmalsname. - Wenn ``str``, muss es eine Zeichenkette sein, die für die Formatierung bereit ist. Die gegebene Zeichenkette wird mithilfe zweier Feldnamen formatiert: ``transformer_name`` und ``feature_name``. z.B. ``"{feature_name}__{transformer_name}"``. Siehe die Methode :meth:`str.format` aus der Standardbibliothek für weitere Informationen. .. versionadded:: 1.0 .. versionchanged:: 1.6 `verbose_feature_names_out` kann ein callable oder eine Zeichenkette zum Formatieren sein.	True
	force_int_remainder_cols force_int_remainder_cols: bool, default=False Dieser Parameter hat keine Auswirkung. .. note:: Wenn Sie nicht auf die Liste der Spalten für die verbleibenden Spalten im ``transformers_`` angepassten Attribut zugreifen, müssen Sie diesen Parameter nicht setzen. .. versionadded:: 1.5 .. versionchanged:: 1.7 Der Standardwert für `force_int_remainder_cols` ändert sich von `True` auf `False` in Version 1.7. .. deprecated:: 1.7 `force_int_remainder_cols` ist veraltet und wird in Version 1.9 entfernt.	'deprecated'

	copy copy: bool, Standard=True Wenn False, versuchen Sie, eine Kopie zu vermeiden und stattdessen direkt zu skalieren. Dies ist nicht garantiert, dass es immer direkt funktioniert; z.B. wenn die Daten kein NumPy-Array oder eine scipy.sparse CSR-Matrix sind, kann immer noch eine Kopie zurückgegeben werden.	True
	with_mean with_mean: bool, Standard=True Wenn True, zentrieren Sie die Daten vor der Skalierung. Dies funktioniert nicht (und löst eine Ausnahme aus), wenn versucht, auf Sparse-Matrizen angewendet zu werden, da deren Zentrierung den Aufbau einer dichten Matrix erfordert, die in gängigen Anwendungsfällen wahrscheinlich zu groß ist, um in den Speicher zu passen.	True
	with_std with_std: bool, Standard=True Wenn True, skalieren Sie die Daten auf Einheitsvarianz (oder äquivalent, Einheitsstandardabweichung).	True

	regressor regressor: Objekt, Standardwert=None Regressoren-Objekt wie abgeleitet von :class:`~sklearn.base.RegressorMixin`. Dieser Regressor wird automatisch jedes Mal geklont, bevor er angepasst wird. Wenn `regressor ist None`, wird :class:`~sklearn.linear_model.LinearRegression` erstellt und verwendet.	RidgeCV(alpha...+09, 1.e+10]))
	transformer transformer: Objekt, Standardwert=None Schätzer-Objekt wie abgeleitet von :class:`~sklearn.base.TransformerMixin`. Kann nicht gleichzeitig mit `func` und `inverse_func` gesetzt werden. Wenn `transformer ist None` sowie `func` und `inverse_func`, ist der Transformer ein Identitäts- Transformer. Beachten Sie, dass der Transformer während des Anpassens geklont wird. Außerdem beschränkt der Transformer `y` auf ein Numpy-Array.	None
	func func: Funktion, Standardwert=None Funktion, die auf `y` angewendet wird, bevor sie an :meth:`fit` übergeben wird. Kann nicht gleichzeitig mit `transformer` gesetzt werden. Wenn `func ist None`, ist die verwendete Funktion die Identitätsfunktion. Wenn `func` gesetzt ist, muss auch `inverse_func` bereitgestellt werden. Die Funktion muss ein 2-dimensionales Array zurückgeben.	<ufunc 'log10'>
	inverse_func inverse_func: Funktion, Standardwert=None Funktion, die auf die Vorhersage des Regressors angewendet wird. Kann nicht gleichzeitig mit `transformer` gesetzt werden. Die inverse Funktion wird verwendet, um Vorhersagen in den gleichen Raum der ursprünglichen Trainingslabels zurückzugeben. Wenn `inverse_func` gesetzt ist, muss auch `func` bereitgestellt werden. Die inverse Funktion muss ein 2-dimensionales Array zurückgeben.	<ufunc 'exp10'>
	check_inverse check_inverse: bool, Standardwert=True Ob überprüft werden soll, ob `transform` gefolgt von `inverse_transform` oder `func` gefolgt von `inverse_func` zu den ursprünglichen Zielen führt.	True

	alphas alphas: array-ähnlich von Shape (n_alphas,), Standardwert=(0.1, 1.0, 10.0) Array von zu versuchenden Alpha-Werten. Regularisierungsstärke; muss eine positive Gleitkommazahl sein. Regularisierung verbessert die Konditionierung des Problems und reduziert die Varianz der Schätzungen. Größere Werte bedeuten stärkere Regularisierung. Alpha entspricht ``1 / (2C)`` in anderen linearen Modellen wie :class:`~sklearn.linear_model.LogisticRegression` oder :class:`~sklearn.svm.LinearSVC`. Bei Verwendung der Leave-One-Out-Kreuzvalidierung müssen alphas streng positiv sein.	array([1.e-10...e+09, 1.e+10])
	fit_intercept fit_intercept: bool, Standardwert=True Ob der Achsenabschnitt für dieses Modell berechnet werden soll. Wenn auf false gesetzt, wird kein Achsenabschnitt in den Berechnungen verwendet (d. h. die Daten werden als zentriert betrachtet).	True
	scoring scoring: str, callable, Standardwert=None Die für die Kreuzvalidierung zu verwendende Bewertungsfunktion. Optionen: - str: siehe :ref:`scoring_string_names` für Optionen. - callable: ein Bewertungs-Callable-Objekt (z. B. Funktion) mit Signatur ``scorer(estimator, X, y)``. Siehe :ref:`scoring_callable` für Details. - `None`: negativ :ref:`mittlerer quadratischer Fehler `, wenn cv None ist (d. h. bei Verwendung der Leave-One-Out-Kreuzvalidierung), oder :ref:`Bestimmtheitsmaß ` (:math:`R^2`) andernfalls.	None
	cv cv: int, Kreuzvalidierungsgenerator oder ein iterierbares Objekt, Standardwert=None Bestimmt die Strategie für die Kreuzvalidierungsaufteilung. Mögliche Eingaben für cv sind: - None, um die effiziente Leave-One-Out-Kreuzvalidierung zu verwenden - Ganzzahl, um die Anzahl der Folds anzugeben. - :term:`CV-Splitter`, - Ein iterierbares Objekt, das (Trainings-, Test-)Aufteilungen als Index-Arrays liefert. Bei Ganzzahl-/None-Eingaben wird, wenn ``y`` binär oder multiklass ist, :class:`~sklearn.model_selection.StratifiedKFold` verwendet, andernfalls :class:`~sklearn.model_selection.KFold` verwendet. Siehe :ref:`Benutzerhandbuch ` für die verschiedenen Kreuzvalidierungsstrategien, die hier verwendet werden können.	None
	gcv_mode gcv_mode: {'auto', 'svd', 'eigen'}, Standardwert='auto' Flag, das angibt, welche Strategie bei der Durchführung der Leave-One-Out-Kreuzvalidierung verwendet werden soll. Optionen sind:: 'auto' : verwendet 'svd', wenn n_samples > n_features, andernfalls 'eigen' 'svd' : erzwingt die Verwendung der Singulärwertzerlegung von X, wenn X dicht ist, Eigenwertzerlegung von X^T.X, wenn X dünn ist. 'eigen' : erzwingt die Berechnung über die Eigenwertzerlegung von X.X^T Der 'auto'-Modus ist der Standard und zielt darauf ab, die günstigere Option der beiden basierend auf der Form der Trainingsdaten auszuwählen.	None
	store_cv_results store_cv_results: bool, Standardwert=False Flag, das angibt, ob die Kreuzvalidierungswerte, die jedem Alpha entsprechen, im Attribut ``cv_results_`` (siehe unten) gespeichert werden sollen. Dieses Flag ist nur kompatibel mit ``cv=None`` (d. h. mit Leave-One-Out-Kreuzvalidierung). .. versionchanged:: 1.5 Der Parametername wurde von `store_cv_values` in `store_cv_results` geändert.	False
	alpha_per_target alpha_per_target: bool, Standardwert=False Flag, das angibt, ob der Alpha-Wert (aus der Liste `alphas` ausgewählt) für jeden Zielwert separat optimiert werden soll (für Multi-Output Einstellungen: mehrere Vorhersageziele). Wenn auf `True` gesetzt, enthält nach dem Anpassen das Attribut `alpha_` einen Wert für jedes Ziel. Wenn auf `False` gesetzt, wird ein einzelnes Alpha für alle Ziele verwendet. .. versionadded:: 0.24	False

Häufige Fallstricke bei der Interpretation von Koeffizienten linearer Modelle#

Der Datensatz: Löhne#

Die Machine-Learning-Pipeline#

Verarbeitung des Datensatzes#

Interpretation von Koeffizienten: Skalierung ist wichtig#

Interpretation von Koeffizienten: Vorsicht bei Kausalität#

Überprüfung der Variabilität der Koeffizienten#

Das Problem korrelierter Variablen#

Vorverarbeitung numerischer Variablen#

Lineare Modelle mit Regularisierung#

Lineare Modelle mit dünnbesetzten Koeffizienten#

Falsche kausale Interpretation#

Gelehrte Lektionen#

Diese Seite