Hinweis

Zum Ende, um den vollständigen Beispielcode herunterzuladen oder dieses Beispiel über JupyterLite oder Binder in Ihrem Browser auszuführen.

Modellkomplexität und kreuzvalidierte Punktzahl ausbalancieren#

Dieses Beispiel demonstriert, wie die Modellkomplexität und die kreuzvalidierte Punktzahl ausbalanciert werden, indem eine angemessene Genauigkeit innerhalb von 1 Standardabweichung der besten Genauigkeit erzielt wird, während die Anzahl der PCA-Komponenten minimiert wird [1]. Es verwendet GridSearchCV mit einem benutzerdefinierten Refit-Callable, um das optimale Modell auszuwählen.

Die Abbildung zeigt den Kompromiss zwischen der kreuzvalidierten Punktzahl und der Anzahl der PCA-Komponenten. Der ausgewogene Fall ist, wenn n_components=10 und accuracy=0.88 ist, was in den Bereich innerhalb von 1 Standardabweichung der besten Genauigkeitspunktzahl fällt.

Referenzen#

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

import matplotlib.pyplot as plt
import numpy as np
import polars as pl

from sklearn.datasets import load_digits
from sklearn.decomposition import PCA
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV, ShuffleSplit
from sklearn.pipeline import Pipeline

Einleitung#

Beim Abstimmen von Hyperparametern wollen wir oft Modellkomplexität und Leistung ausbalancieren. Die „Ein-Standardfehler“-Regel ist ein gängiger Ansatz: Wählen Sie das einfachste Modell, dessen Leistung innerhalb eines Standardfehlers der Leistung des besten Modells liegt. Dies hilft, Überanpassung zu vermeiden, indem einfachere Modelle bevorzugt werden, wenn ihre Leistung statistisch vergleichbar mit komplexeren Modellen ist.

Hilfsfunktionen#

Wir definieren zwei Hilfsfunktionen

lower_bound: Berechnet die Schwelle für akzeptable Leistung (beste Punktzahl - 1 Std.)
best_low_complexity: Wählt das Modell mit den wenigsten PCA-Komponenten aus, das diesen Schwellenwert überschreitet

def lower_bound(cv_results):
    """
    Calculate the lower bound within 1 standard deviation
    of the best `mean_test_scores`.

    Parameters
    ----------
    cv_results : dict of numpy(masked) ndarrays
        See attribute cv_results_ of `GridSearchCV`

    Returns
    -------
    float
        Lower bound within 1 standard deviation of the
        best `mean_test_score`.
    """
    best_score_idx = np.argmax(cv_results["mean_test_score"])

    return (
        cv_results["mean_test_score"][best_score_idx]
        - cv_results["std_test_score"][best_score_idx]
    )


def best_low_complexity(cv_results):
    """
    Balance model complexity with cross-validated score.

    Parameters
    ----------
    cv_results : dict of numpy(masked) ndarrays
        See attribute cv_results_ of `GridSearchCV`.

    Return
    ------
    int
        Index of a model that has the fewest PCA components
        while has its test score within 1 standard deviation of the best
        `mean_test_score`.
    """
    threshold = lower_bound(cv_results)
    candidate_idx = np.flatnonzero(cv_results["mean_test_score"] >= threshold)
    best_idx = candidate_idx[
        cv_results["param_reduce_dim__n_components"][candidate_idx].argmin()
    ]
    return best_idx

Pipeline und Parametergitter einrichten#

Wir erstellen eine Pipeline mit zwei Schritten

Dimensionsreduktion mittels PCA
Klassifizierung mittels LogisticRegression

Wir suchen nach verschiedenen Anzahlen von PCA-Komponenten, um die optimale Komplexität zu finden.

pipe = Pipeline(
    [
        ("reduce_dim", PCA(random_state=42)),
        ("classify", LogisticRegression(random_state=42, C=0.01, max_iter=1000)),
    ]
)

param_grid = {"reduce_dim__n_components": [6, 8, 10, 15, 20, 25, 35, 45, 55]}

Suche mit GridSearchCV durchführen#

Wir verwenden GridSearchCV mit unserer benutzerdefinierten Funktion best_low_complexity als Refit-Parameter. Diese Funktion wählt das Modell mit den wenigsten PCA-Komponenten aus, das immer noch innerhalb einer Standardabweichung des besten Modells leistet.

grid = GridSearchCV(
    pipe,
    # Use a non-stratified CV strategy to make sure that the inter-fold
    # standard deviation of the test scores is informative.
    cv=ShuffleSplit(n_splits=30, random_state=0),
    n_jobs=1,  # increase this on your machine to use more physical cores
    param_grid=param_grid,
    scoring="accuracy",
    refit=best_low_complexity,
    return_train_score=True,
)

Laden des Digits-Datensatzes und Anpassen des Modells#

X, y = load_digits(return_X_y=True)
grid.fit(X, y)

GridSearchCV(cv=ShuffleSplit(n_splits=30, random_state=0, test_size=None, train_size=None),
             estimator=Pipeline(steps=[('reduce_dim', PCA(random_state=42)),
                                       ('classify',
                                        LogisticRegression(C=0.01,
                                                           max_iter=1000,
                                                           random_state=42))]),
             n_jobs=1,
             param_grid={'reduce_dim__n_components': [6, 8, 10, 15, 20, 25, 35,
                                                      45, 55]},
             refit=<function best_low_complexity at 0x7fb4a1b64b80>,
             return_train_score=True, scoring='accuracy')

In einer Jupyter-Umgebung führen Sie diese Zelle bitte erneut aus, um die HTML-Darstellung anzuzeigen, oder vertrauen Sie dem Notebook.
Auf GitHub kann die HTML-Darstellung nicht gerendert werden. Versuchen Sie bitte, diese Seite mit nbviewer.org zu laden.

Ergebnisse visualisieren#

Wir erstellen ein Balkendiagramm, das die Testpunktzahlen für verschiedene Anzahlen von PCA-Komponenten zeigt, zusammen mit horizontalen Linien, die die beste Punktzahl und den Schwellenwert einer Standardabweichung angeben.

n_components = grid.cv_results_["param_reduce_dim__n_components"]
test_scores = grid.cv_results_["mean_test_score"]

# Create a polars DataFrame for better data manipulation and visualization
results_df = pl.DataFrame(
    {
        "n_components": n_components,
        "mean_test_score": test_scores,
        "std_test_score": grid.cv_results_["std_test_score"],
        "mean_train_score": grid.cv_results_["mean_train_score"],
        "std_train_score": grid.cv_results_["std_train_score"],
        "mean_fit_time": grid.cv_results_["mean_fit_time"],
        "rank_test_score": grid.cv_results_["rank_test_score"],
    }
)

# Sort by number of components
results_df = results_df.sort("n_components")

# Calculate the lower bound threshold
lower = lower_bound(grid.cv_results_)

# Get the best model information
best_index_ = grid.best_index_
best_components = n_components[best_index_]
best_score = grid.cv_results_["mean_test_score"][best_index_]

# Add a column to mark the selected model
results_df = results_df.with_columns(
    pl.when(pl.col("n_components") == best_components)
    .then(pl.lit("Selected"))
    .otherwise(pl.lit("Regular"))
    .alias("model_type")
)

# Get the number of CV splits from the results
n_splits = sum(
    1
    for key in grid.cv_results_.keys()
    if key.startswith("split") and key.endswith("test_score")
)

# Extract individual scores for each split
test_scores = np.array(
    [
        [grid.cv_results_[f"split{i}_test_score"][j] for i in range(n_splits)]
        for j in range(len(n_components))
    ]
)
train_scores = np.array(
    [
        [grid.cv_results_[f"split{i}_train_score"][j] for i in range(n_splits)]
        for j in range(len(n_components))
    ]
)

# Calculate mean and std of test scores
mean_test_scores = np.mean(test_scores, axis=1)
std_test_scores = np.std(test_scores, axis=1)

# Find best score and threshold
best_mean_score = np.max(mean_test_scores)
threshold = best_mean_score - std_test_scores[np.argmax(mean_test_scores)]

# Create a single figure for visualization
fig, ax = plt.subplots(figsize=(12, 8))

# Plot individual points
for i, comp in enumerate(n_components):
    # Plot individual test points
    plt.scatter(
        [comp] * n_splits,
        test_scores[i],
        alpha=0.2,
        color="blue",
        s=20,
        label="Individual test scores" if i == 0 else "",
    )
    # Plot individual train points
    plt.scatter(
        [comp] * n_splits,
        train_scores[i],
        alpha=0.2,
        color="green",
        s=20,
        label="Individual train scores" if i == 0 else "",
    )

# Plot mean lines with error bands
plt.plot(
    n_components,
    np.mean(test_scores, axis=1),
    "-",
    color="blue",
    linewidth=2,
    label="Mean test score",
)
plt.fill_between(
    n_components,
    np.mean(test_scores, axis=1) - np.std(test_scores, axis=1),
    np.mean(test_scores, axis=1) + np.std(test_scores, axis=1),
    alpha=0.15,
    color="blue",
)

plt.plot(
    n_components,
    np.mean(train_scores, axis=1),
    "-",
    color="green",
    linewidth=2,
    label="Mean train score",
)
plt.fill_between(
    n_components,
    np.mean(train_scores, axis=1) - np.std(train_scores, axis=1),
    np.mean(train_scores, axis=1) + np.std(train_scores, axis=1),
    alpha=0.15,
    color="green",
)

# Add threshold lines
plt.axhline(
    best_mean_score,
    color="#9b59b6",  # Purple
    linestyle="--",
    label="Best score",
    linewidth=2,
)
plt.axhline(
    threshold,
    color="#e67e22",  # Orange
    linestyle="--",
    label="Best score - 1 std",
    linewidth=2,
)

# Highlight selected model
plt.axvline(
    best_components,
    color="#9b59b6",  # Purple
    alpha=0.2,
    linewidth=8,
    label="Selected model",
)

# Set titles and labels
plt.xlabel("Number of PCA components", fontsize=12)
plt.ylabel("Score", fontsize=12)
plt.title("Model Selection: Balancing Complexity and Performance", fontsize=14)
plt.grid(True, linestyle="--", alpha=0.7)
plt.legend(
    bbox_to_anchor=(1.02, 1),
    loc="upper left",
    borderaxespad=0,
)

# Set axis properties
plt.xticks(n_components)
plt.ylim((0.85, 1.0))

# # Adjust layout
plt.tight_layout()

Model Selection: Balancing Complexity and Performance

Ergebnisse ausgeben#

Wir geben Informationen über das ausgewählte Modell aus, einschließlich seiner Komplexität und Leistung. Wir zeigen auch eine zusammenfassende Tabelle aller Modelle mit polaren Daten.

print("Best model selected by the one-standard-error rule:")
print(f"Number of PCA components: {best_components}")
print(f"Accuracy score: {best_score:.4f}")
print(f"Best possible accuracy: {np.max(test_scores):.4f}")
print(f"Accuracy threshold (best - 1 std): {lower:.4f}")

# Create a summary table with polars
summary_df = results_df.select(
    pl.col("n_components"),
    pl.col("mean_test_score").round(4).alias("test_score"),
    pl.col("std_test_score").round(4).alias("test_std"),
    pl.col("mean_train_score").round(4).alias("train_score"),
    pl.col("std_train_score").round(4).alias("train_std"),
    pl.col("mean_fit_time").round(3).alias("fit_time"),
    pl.col("rank_test_score").alias("rank"),
)

# Add a column to mark the selected model
summary_df = summary_df.with_columns(
    pl.when(pl.col("n_components") == best_components)
    .then(pl.lit("*"))
    .otherwise(pl.lit(""))
    .alias("selected")
)

print("\nModel comparison table:")
print(summary_df)

Best model selected by the one-standard-error rule:
Number of PCA components: 25
Accuracy score: 0.9643
Best possible accuracy: 0.9944
Accuracy threshold (best - 1 std): 0.9623

Model comparison table:
shape: (9, 8)
┌──────────────┬────────────┬──────────┬─────────────┬───────────┬──────────┬──────┬──────────┐
│ n_components ┆ test_score ┆ test_std ┆ train_score ┆ train_std ┆ fit_time ┆ rank ┆ selected │
│ ---          ┆ ---        ┆ ---      ┆ ---         ┆ ---       ┆ ---      ┆ ---  ┆ ---      │
│ i64          ┆ f64        ┆ f64      ┆ f64         ┆ f64       ┆ f64      ┆ i32  ┆ str      │
╞══════════════╪════════════╪══════════╪═════════════╪═══════════╪══════════╪══════╪══════════╡
│ 6            ┆ 0.8631     ┆ 0.0241   ┆ 0.8697      ┆ 0.0048    ┆ 0.092    ┆ 9    ┆          │
│ 8            ┆ 0.9037     ┆ 0.0192   ┆ 0.9146      ┆ 0.0028    ┆ 0.084    ┆ 8    ┆          │
│ 10           ┆ 0.9341     ┆ 0.0148   ┆ 0.9493      ┆ 0.0023    ┆ 0.058    ┆ 7    ┆          │
│ 15           ┆ 0.95       ┆ 0.0162   ┆ 0.9662      ┆ 0.0022    ┆ 0.055    ┆ 6    ┆          │
│ 20           ┆ 0.9563     ┆ 0.0144   ┆ 0.9759      ┆ 0.0019    ┆ 0.055    ┆ 5    ┆          │
│ 25           ┆ 0.9643     ┆ 0.0126   ┆ 0.9836      ┆ 0.0014    ┆ 0.052    ┆ 4    ┆ *        │
│ 35           ┆ 0.9685     ┆ 0.0115   ┆ 0.9903      ┆ 0.0013    ┆ 0.055    ┆ 3    ┆          │
│ 45           ┆ 0.9711     ┆ 0.0093   ┆ 0.9926      ┆ 0.001     ┆ 0.058    ┆ 2    ┆          │
│ 55           ┆ 0.9717     ┆ 0.0093   ┆ 0.993       ┆ 0.001     ┆ 0.061    ┆ 1    ┆          │
└──────────────┴────────────┴──────────┴─────────────┴───────────┴──────────┴──────┴──────────┘

Schlussfolgerung#

Die Ein-Standardfehler-Regel hilft uns, ein einfacheres Modell (weniger PCA-Komponenten) auszuwählen und gleichzeitig eine Leistung beizubehalten, die statistisch mit dem besten Modell vergleichbar ist. Dieser Ansatz kann helfen, Überanpassung zu verhindern und die Modellinterpretierbarkeit und Effizienz zu verbessern.

In diesem Beispiel haben wir gesehen, wie diese Regel mit einem benutzerdefinierten Refit-Callable mit GridSearchCV implementiert wird.

Wichtige Erkenntnisse

Die Ein-Standardfehler-Regel liefert eine gute Faustregel zur Auswahl einfacherer Modelle
Benutzerdefinierte Refit-Callables in GridSearchCV ermöglichen flexible Modell-Auswahlstrategien
Die Visualisierung von Trainings- und Testpunktzahlen hilft bei der Identifizierung potenzieller Überanpassung

Dieser Ansatz kann auf andere Modellauswahl-Szenarien angewendet werden, bei denen die Ausbalancierung von Komplexität und Leistung wichtig ist, oder in Fällen, in denen eine anwendungsfallspezifische Auswahl des "besten" Modells gewünscht wird.

# Display the figure
plt.show()

Gesamtlaufzeit des Skripts: (0 Minuten 18,332 Sekunden)

Verwandte Beispiele

Pipelining: Verkettung einer PCA und einer logistischen Regression

Benutzerdefinierte Refit-Strategie einer Gitter-Suche mit Kreuzvalidierung

Verzögerte Merkmale für Zeitreihen-Prognose

Rekursive Merkmalseliminierung mit Kreuzvalidierung

Galerie generiert von Sphinx-Gallery

	estimator estimator: Estimator-Objekt Es wird angenommen, dass dies die scikit-learn-Estimator-Schnittstelle implementiert. Entweder muss der Estimator eine ``score``-Funktion bereitstellen, oder ``scoring`` muss übergeben werden.	Pipeline(step...m_state=42))])
	param_grid param_grid: dict oder Liste von Dictionaries Dictionary mit Parameternamen (`str`) als Schlüssel und Listen von zu versuchenden Parametereinstellungen als Werte, oder eine Liste solcher Dictionaries, in welchem Fall die von jedem Dictionary im Gitter aufgespannten Gitter durchsucht werden. Dies ermöglicht die Suche über jede Sequenz von Parametereinstellungen.	{'reduce_dim__n_components': [6, 8, ...]}
	scoring scoring: str, callable, list, tuple oder dict, default=None Strategie zur Bewertung der Leistung des kreuzvalidierten Modells auf dem Testdatensatz. Wenn `scoring` eine einzelne Punktzahl darstellt, kann man verwenden: - einen einzelnen String (siehe :ref:`scoring_string_names`); - ein Callable (siehe :ref:`scoring_callable`), das einen einzelnen Wert zurückgibt; - `None`, das :ref:`Standard-Bewertungskriterium des Estimators ` wird verwendet. Wenn `scoring` mehrere Punktzahlen darstellt, kann man verwenden: - eine Liste oder ein Tupel eindeutiger Strings; - ein Callable, das ein Dictionary zurückgibt, dessen Schlüssel die Metriknamen und dessen Werte die Metrikpunktzahlen sind; - ein Dictionary mit Metriknamen als Schlüssel und Callables als Werte. Siehe :ref:`multimetric_grid_search` für ein Beispiel.	'accuracy'
	n_jobs n_jobs: int, default=None Anzahl der parallel auszuführenden Jobs. ``None`` bedeutet 1, es sei denn, es befindet sich in einem :obj:`joblib.parallel_backend`-Kontext. ``-1`` bedeutet die Verwendung aller Prozessoren. Siehe :term:`Glossar ` für weitere Details. .. versionchanged:: v0.20 Standardwert von `n_jobs` wurde von 1 auf None geändert.	1
	refit refit: bool, str oder callable, default=True Refitiert einen Estimator mit den besten gefundenen Parametern auf dem gesamten Datensatz. Bei mehrfacher Metrikauswertung muss dies ein `str` sein, der den Scorer bezeichnet, der zur Ermittlung der besten Parameter für das Refitting des Estimators am Ende verwendet wird. Wenn andere Überlegungen als die maximale Punktzahl bei der Auswahl eines besten Estimators im Spiel sind, kann ``refit`` auf eine Funktion gesetzt werden, die den ausgewählten ``best_index_`` basierend auf ``cv_results_`` zurückgibt. In diesem Fall werden ``best_estimator_`` und ``best_params_`` entsprechend dem zurückgegebenen ``best_index_`` gesetzt, während das Attribut ``best_score_`` nicht verfügbar ist. Der refittierte Estimator ist unter dem Attribut ``best_estimator_`` verfügbar und ermöglicht die direkte Verwendung von ``predict`` auf dieser ``GridSearchCV``-Instanz. Auch bei mehrfacher Metrikauswertung sind die Attribute ``best_index_``, ``best_score_`` und ``best_params_`` nur verfügbar, wenn ``refit`` gesetzt ist und alle in Bezug auf diesen spezifischen Scorer bestimmt werden. Siehe den Parameter ``scoring``, um mehr über mehrfache Metrikauswertung zu erfahren. Siehe :ref:`sphx_glr_auto_examples_model_selection_plot_grid_search_digits.py` um zu sehen, wie eine benutzerdefinierte Auswahlstrategie mit einem Callable über `refit` entworfen wird. Siehe :ref:`dieses Beispiel ` für ein Beispiel, wie ``refit=callable`` verwendet wird, um Modellkomplexität und kreuzvalidierte Punktzahl auszubalancieren. .. versionchanged:: 0.20 Unterstützung für Callable hinzugefügt.	<function bes...x7fb4a1b64b80>
	cv cv: int, cross-validation generator oder ein Iterable, default=None Bestimmt die Kreuzvalidierungs-Splitting-Strategie. Mögliche Eingaben für cv sind: - None, um die Standard-5-Falt-Kreuzvalidierung zu verwenden, - Ganzzahl, um die Anzahl der Faltungen in einem `(Stratified)KFold` anzugeben, - :term:`CV-Splitter`, - Ein Iterable, das (Trainings-, Test-)Splits als Index-Arrays liefert. Bei Ganzzahl-/None-Eingaben wird, wenn der Estimator ein Klassifikator ist und ``y`` entweder binär oder multiklass ist, :class:`StratifiedKFold` verwendet. In allen anderen Fällen wird :class:`KFold` verwendet. Diese Splitter werden mit `shuffle=False` instanziiert, sodass die Splits über Aufrufe hinweg gleich sind. Siehe das :ref:`Benutzerhandbuch ` für die verschiedenen Kreuzvalidierungsstrategien, die hier verwendet werden können. .. versionchanged:: 0.22 Standardwert von ``cv``, wenn None, wurde von 3-Falt auf 5-Falt geändert.	ShuffleSplit(...ain_size=None)
	verbose verbose: int Steuert die Ausführlichkeit: Je höher, desto mehr Nachrichten. - >1 : Die Berechnungszeit für jede Faltung und jeden Parameterkandidaten wird angezeigt; - >2 : Die Punktzahl wird ebenfalls angezeigt; - >3 : Die Faltungs- und Parameterkandidatenindizes werden ebenfalls angezeigt, zusammen mit der Startzeit der Berechnung.	0
	pre_dispatch pre_dispatch: int oder str, default='2n_jobs' Steuert die Anzahl der Jobs, die während der parallelen Ausführung ausgeliefert werden. Die Reduzierung dieser Anzahl kann nützlich sein, um eine Explosion des Speicherverbrauchs zu vermeiden, wenn mehr Jobs ausgeliefert werden, als CPUs verarbeiten können. Dieser Parameter kann sein: - None, in diesem Fall werden alle Jobs sofort erstellt und gespawnt. Verwenden Sie dies für leichte und schnell laufende Jobs, um Verzögerungen durch On-Demand- Spawning der Jobs zu vermeiden - Eine Ganzzahl, die die genaue Gesamtzahl der gespawnten Jobs angibt - Ein String, der einen Ausdruck als Funktion von n_jobs angibt, z. B. '2n_jobs'	'2*n_jobs'
	error_score error_score: 'raise' oder numerisch, default=np.nan Wert, der der Punktzahl zugewiesen wird, wenn beim Anpassen des Estimators ein Fehler auftritt. Wenn auf 'raise' gesetzt, wird der Fehler ausgelöst. Wenn eine numerische Zahl angegeben wird, wird FitFailedWarning ausgelöst. Dieser Parameter beeinflusst den Refit-Schritt nicht, der immer den Fehler auslösen wird.	nan
	return_train_score return_train_score: bool, default=False Wenn ``False``, enthält das Attribut ``cv_results_`` keine Trainingspunktzahlen. Die Berechnung von Trainingspunktzahlen wird verwendet, um Einblicke zu gewinnen, wie verschiedene Parametereinstellungen den Kompromiss zwischen Überanpassung/Unteranpassung beeinflussen. Die Berechnung der Punktzahlen auf dem Trainingsdatensatz kann jedoch rechenintensiv sein und ist nicht unbedingt erforderlich, um die Parameter auszuwählen, die die beste Generalisierungsleistung erzielen. .. versionadded:: 0.19 .. versionchanged:: 0.21 Der Standardwert wurde von ``True`` auf ``False`` geändert.	True

	n_components n_components: int, float oder 'mle', default=None Anzahl der zu behaltenden Komponenten. Wenn n_components nicht gesetzt ist, werden alle Komponenten beibehalten:: n_components == min(n_samples, n_features) Wenn ``n_components == 'mle'`` und ``svd_solver == 'full'``, wird Minka's MLE verwendet, um die Dimension zu erraten. Die Verwendung von ``n_components == 'mle'`` interpretiert ``svd_solver == 'auto'`` als ``svd_solver == 'full'``. Wenn ``0 < n_components < 1`` und ``svd_solver == 'full'``, werden die Anzahl der Komponenten so ausgewählt, dass der zu erklärende Varianzbetrag größer als der durch n_components angegebene Prozentsatz ist. Wenn ``svd_solver == 'arpack'``, muss die Anzahl der Komponenten strikt kleiner als das Minimum von n_features und n_samples sein. Daher ergibt der Fall None:: n_components == min(n_samples, n_features) - 1	25
	copy copy: bool, default=True Wenn False, werden die an fit übergebenen Daten überschrieben und das Ausführen von fit(X).transform(X) liefert nicht die erwarteten Ergebnisse. Verwenden Sie stattdessen fit_transform(X).	True
	whiten whiten: bool, default=False Wenn True (standardmäßig False), werden die `components_`-Vektoren mit der Quadratwurzel von n_samples multipliziert und dann durch die Singulärwerte geteilt, um unkorrelierte Ausgaben mit Einheitskomponentenvarianzen zu gewährleisten. Das Whitening entfernt einige Informationen aus dem transformierten Signal (die relativen Varianzskalen der Komponenten), kann aber manchmal die Vorhersagegenauigkeit nachgeschalteter Estimator verbessern, indem sie die Daten einige hartkodierte Annahmen respektieren lassen.	False
	svd_solver svd_solver: {'auto', 'full', 'covariance_eigh', 'arpack', 'randomized'}, default='auto' "auto" : Der Solver wird nach einer Standardrichtlinie 'auto' basierend auf `X.shape` und `n_components` ausgewählt: Wenn die Eingabedaten weniger als 1000 Merkmale und mehr als das 10-fache der Stichproben haben, wird der Solver "covariance_eigh" verwendet. Andernfalls, wenn die Eingabedaten größer als 500x500 sind und die zu extrahierende Anzahl von Komponenten weniger als 80% der kleinsten Dimension der Daten beträgt, dann wird die effizientere "randomisierte" Methode ausgewählt. Andernfalls wird die exakte "volle" SVD berechnet und optional danach gekürzt. "full" : Führt exakte volle SVD unter Verwendung des Standard-LAPACK-Solvers über `scipy.linalg.svd` aus und wählt die Komponenten durch Nachbearbeitung aus. "covariance_eigh" : Berechnet die Kovarianzmatrix (auf zentrierten Daten) vorab, führt eine klassische Eigenwertzerlegung der Kovarianzmatrix durch, typischerweise mit LAPACK, und wählt die Komponenten durch Nachbearbeitung aus. Dieser Solver ist sehr effizient für n_samples >> n_features und kleine n_features. Er ist jedoch sonst nicht handhabbar für große n_features (großer Speicherbedarf zur Materialisierung der Kovarianzmatrix). Beachten Sie auch, dass dieser Solver im Vergleich zum "full"-Solver die Konditionszahl effektiv verdoppelt und daher numerisch weniger stabil ist (z. B. bei Eingabedaten mit einem großen Bereich von Singulärwerten). "arpack" : Führt SVD auf `n_components` gekürzt aus, indem der ARPACK-Solver über `scipy.sparse.linalg.svds` aufgerufen wird. Er erfordert strikt `0 < n_components < min(X.shape)` "randomized" : Führt randomisierte SVD nach der Methode von Halko et al. aus. .. versionadded:: 0.18.0 .. versionchanged:: 1.5 Der 'covariance_eigh'-Solver wurde hinzugefügt.	'auto'
	tol tol: float, default=0.0 Toleranz für Singulärwerte, die von svd_solver == 'arpack' berechnet werden. Muss im Bereich [0.0, unendlich) liegen. .. versionadded:: 0.18.0	0.0
	iterated_power iterated_power: int oder 'auto', default='auto' Anzahl der Iterationen für die Potenzmethode, berechnet durch svd_solver == 'randomized'. Muss im Bereich [0, unendlich) liegen. .. versionadded:: 0.18.0	'auto'
	n_oversamples n_oversamples: int, default=10 Dieser Parameter ist nur relevant, wenn `svd_solver="randomized"`. Er entspricht der zusätzlichen Anzahl von Zufallsvektoren, um den Bereich von `X` abzutasten und eine ordnungsgemäße Konditionierung zu gewährleisten. Siehe :func:`~sklearn.utils.extmath.randomized_svd` für weitere Details. .. versionadded:: 1.1	10
	power_iteration_normalizer power_iteration_normalizer: {'auto', 'QR', 'LU', 'none'}, default='auto' Potenziterationsnormalisierer für den randomisierten SVD-Solver. Wird nicht von ARPACK verwendet. Siehe :func:`~sklearn.utils.extmath.randomized_svd` für weitere Details. .. versionadded:: 1.1	'auto'
	random_state random_state: int, RandomState-Instanz oder None, default=None Wird verwendet, wenn die Solver 'arpack' oder 'randomized' verwendet werden. Übergeben Sie eine Ganzzahl für reproduzierbare Ergebnisse über mehrere Funktionsaufrufe hinweg. Siehe :term:`Glossar `. .. versionadded:: 0.18.0	42

	penalty penalty: {'l1', 'l2', 'elasticnet', None}, default='l2' Gibt die Norm der Strafe an: - `None`: keine Strafe wird hinzugefügt; - `'l2'`: fügt einen L2-Strafbegriff hinzu und ist die Standardwahl; - `'l1'`: fügt einen L1-Strafbegriff hinzu; - `'elasticnet'`: beide L1- und L2-Strafbegriffe werden hinzugefügt. .. warning:: Einige Strafen funktionieren möglicherweise nicht mit einigen Solvern. Siehe den Parameter `solver` unten, um die Kompatibilität zwischen der Strafe und dem Solver zu erfahren. .. versionadded:: 0.19 l1-Strafe mit SAGA-Solver (erlaubt 'multinomial' + L1) .. deprecated:: 1.8 `penalty` wurde in Version 1.8 als veraltet markiert und wird in 1.10 entfernt. Verwenden Sie stattdessen `l1_ratio`. `l1_ratio=0` für `penalty='l2'`, `l1_ratio=1` für `penalty='l1'` und `l1_ratio` auf eine Gleitkommazahl zwischen 0 und 1 gesetzt für `'penalty='elasticnet'`.	'deprecated'
	C C: float, default=1.0 Kehrwert der Regularisierungsstärke; muss eine positive Gleitkommazahl sein. Wie bei Support Vector Machines geben kleinere Werte eine stärkere Regularisierung an. `C=np.inf` führt zu ungestrafter logistischer Regression. Für ein visuelles Beispiel der Auswirkung der Abstimmung des Parameters `C` mit einer L1-Strafe siehe: :ref:`sphx_glr_auto_examples_linear_model_plot_logistic_path.py`.	0.01
	l1_ratio l1_ratio: float, default=0.0 Der Elastic-Net-Mischungsparameter, mit `0 <= l1_ratio <= 1`. Das Setzen von `l1_ratio=1` ergibt eine reine L1-Strafe, das Setzen von `l1_ratio=0` eine reine L2-Strafe. Jeder Wert zwischen 0 und 1 ergibt eine Elastic-Net-Strafe der Form `l1_ratio * L1 + (1 - l1_ratio) * L2`. .. warning:: Bestimmte Werte von `l1_ratio`, d. h. einige Strafen, funktionieren möglicherweise nicht mit einigen Solvern. Siehe den Parameter `solver` unten, um die Kompatibilität zwischen der Strafe und dem Solver zu erfahren. .. versionchanged:: 1.8 Der Standardwert wurde von None auf 0.0 geändert. .. deprecated:: 1.8 `None` ist veraltet und wird in Version 1.10 entfernt. Verwenden Sie immer `l1_ratio`, um den Strafentyp anzugeben.	0.0
	dual dual: bool, default=False Duale (beschränkte) oder primale (regularisierte, siehe auch :ref:`diese Gleichung `) Formulierung. Die duale Formulierung ist nur für die L2-Strafe mit dem liblinear-Solver implementiert. Bevorzugen Sie `dual=False` wenn n_samples > n_features.	False
	tol tol: float, default=1e-4 Toleranz für Abbruchkriterien.	0.0001
	fit_intercept fit_intercept: bool, default=True Gibt an, ob eine Konstante (auch Bias oder Achsenabschnitt genannt) zur Entscheidungsfunktion hinzugefügt werden soll.	True
	intercept_scaling intercept_scaling: float, default=1 Nur nützlich, wenn der Solver `liblinear` verwendet wird und `self.fit_intercept` auf `True` gesetzt ist. In diesem Fall wird `x` zu `[x, self.intercept_scaling]`, d. h. ein "synthetisches" Merkmal mit konstantem Wert gleich `intercept_scaling` wird an den Instanzvektor angehängt. Der Achsenabschnitt wird dann ``intercept_scaling * synthetisches Merkmalsgewicht``. .. note:: Das Gewicht des synthetischen Merkmals unterliegt der L1- oder L2- Regularisierung wie alle anderen Merkmale. Um die Auswirkung der Regularisierung auf das synthetische Merkmalsgewicht (und damit auf den Achsenabschnitt) zu verringern, muss `intercept_scaling` erhöht werden.	1
	class_weight class_weight: dict oder 'balanced', default=None Mit Klassen assoziierte Gewichte in der Form ``{class_label: weight}``. Wenn nicht angegeben, wird angenommen, dass alle Klassen das Gewicht eins haben. Der Modus "balanced" verwendet die Werte von y, um die Gewichte automatisch invers proportional zu den Klassenhaüfigkeiten in den Eingabedaten als ``n_samples / (n_classes * np.bincount(y))`` anzupassen. Beachten Sie, dass diese Gewichte mit sample_weight (übergeben durch die fit-Methode) multipliziert werden, wenn sample_weight angegeben ist. .. versionadded:: 0.17 class_weight='balanced'	None
	random_state random_state: int, RandomState-Instanz, default=None Wird verwendet, wenn ``solver`` == 'sag', 'saga' oder 'liblinear', um die Daten zu mischen. Siehe :term:`Glossar ` für Details.	42
	solver solver: {'lbfgs', 'liblinear', 'newton-cg', 'newton-cholesky', 'sag', 'saga'}, default='lbfgs' Algorithmus, der im Optimierungsproblem verwendet wird. Standard ist 'lbfgs'. Bei der Auswahl eines Solvers könnten Sie folgende Aspekte berücksichtigen: - 'lbfgs' ist ein guter Standard-Solver, da er für eine breite Palette von Problemen gute Ergebnisse liefert. - Für :term:`multiclass`-Probleme (`n_classes` >= 3) minimieren alle Solver außer 'liblinear' den vollständigen multinomalen Verlust, 'liblinear' löst einen Fehler aus. - 'newton-cholesky' ist eine gute Wahl für `n_samples` >> `n_features * n_classes`, insbesondere mit One-Hot-kodierten kategorialen Merkmalen mit seltenen Kategorien. Beachten Sie, dass die Speichernutzung dieses Solvers eine quadratische Abhängigkeit von `n_features * n_classes` hat, da er die vollständige Hesse-Matrix explizit berechnet. - Für kleine Datensätze ist 'liblinear' eine gute Wahl, während 'sag' und 'saga' für große schneller sind; - 'liblinear' kann standardmäßig nur binäre Klassifizierung verarbeiten. Um ein One-vs-Rest-Schema für die Multiklassen-Einstellung anzuwenden, kann es mit :class:`~sklearn.multiclass.OneVsRestClassifier` umhüllt werden. .. warning:: Die Wahl des Algorithmus hängt von der gewählten Strafe ab (`l1_ratio=0` für L2-Strafe, `l1_ratio=1` für L1-Strafe und `0 < l1_ratio < 1` für Elastic-Net) und von der (multinomialen) Multiklassen-Unterstützung: ================= ======================== ====================== solver l1_ratio multinomial multiclass ================= ======================== ====================== 'lbfgs' l1_ratio=0 ja 'liblinear' l1_ratio=1 oder l1_ratio=0 nein 'newton-cg' l1_ratio=0 ja 'newton-cholesky' l1_ratio=0 ja 'sag' l1_ratio=0 ja 'saga' 0<=l1_ratio<=1 ja ================= ======================== ====================== .. note:: Die schnelle Konvergenz von 'sag' und 'saga' ist nur bei Merkmalen mit annähernd gleicher Skalierung garantiert. Sie können die Daten mit einem Skalierer aus :mod:`sklearn.preprocessing` vorverarbeiten. .. seealso:: Siehe das :ref:`Benutzerhandbuch ` für weitere Informationen zu :class:`LogisticRegression` und insbesondere die :ref:`Tabelle ` , die die Solver/Strafunterstützung zusammenfasst. .. versionadded:: 0.17 Stochastic Average Gradient (SAG) Descent Solver. Multinomale Unterstützung in Version 0.18. .. versionadded:: 0.19 SAGA-Solver. .. versionchanged:: 0.22 Der Standard-Solver wurde in 0.22 von 'liblinear' auf 'lbfgs' geändert. .. versionadded:: 1.2 newton-cholesky Solver. Multinomale Unterstützung in Version 1.6.	'lbfgs'
	max_iter max_iter: int, default=100 Maximale Anzahl von Iterationen, die die Solver zur Konvergenz benötigen.	1000
	verbose verbose: int, default=0 Für die Solver liblinear und lbfgs setzen Sie verbose auf eine beliebige positive Zahl für die Ausführlichkeit.	0
	warm_start warm_start: bool, default=False Wenn auf True gesetzt, wird die Lösung des vorherigen Aufrufs von fit als Initialisierung wiederverwendet, andernfalls wird die vorherige Lösung einfach gelöscht. Nützlich für den liblinear-Solver. Siehe :term:`das Glossar `. .. versionadded:: 0.17 warm_start zur Unterstützung der Solver lbfgs, newton-cg, sag, saga.	False
	n_jobs n_jobs: int, default=None Hat keine Auswirkung. .. deprecated:: 1.8 `n_jobs` ist in Version 1.8 veraltet und wird in 1.10 entfernt.	None