Hinweis

Zum Ende springen, um den vollständigen Beispielcode herunterzuladen oder dieses Beispiel über JupyterLite oder Binder in Ihrem Browser auszuführen.

Auswahl der Dimensionsreduktion mit Pipeline und GridSearchCV#

Dieses Beispiel konstruiert eine Pipeline, die eine Dimensionsreduktion gefolgt von einer Vorhersage mit einem Support Vector Classifier durchführt. Es demonstriert die Verwendung von GridSearchCV und Pipeline, um über verschiedene Klassen von Schätzern in einem einzigen CV-Durchlauf zu optimieren – unüberwachte PCA und NMF Dimensionsreduktionen werden während der Grid-Suche mit der univariaten Merkmalsauswahl verglichen.

Zusätzlich kann Pipeline mit dem Argument memory instanziiert werden, um die Transformer innerhalb der Pipeline zu cachen und das wiederholte Anpassen derselben Transformer zu vermeiden.

Beachten Sie, dass die Verwendung von memory zur Aktivierung von Caching interessant wird, wenn das Anpassen eines Transformers kostspielig ist.

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

Illustration von `Pipeline` und `GridSearchCV`#

import matplotlib.pyplot as plt
import numpy as np

from sklearn.datasets import load_digits
from sklearn.decomposition import NMF, PCA
from sklearn.feature_selection import SelectKBest, mutual_info_classif
from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import MinMaxScaler
from sklearn.svm import LinearSVC

X, y = load_digits(return_X_y=True)

pipe = Pipeline(
    [
        ("scaling", MinMaxScaler()),
        # the reduce_dim stage is populated by the param_grid
        ("reduce_dim", "passthrough"),
        ("classify", LinearSVC(dual=False, max_iter=10000)),
    ]
)

N_FEATURES_OPTIONS = [2, 4, 8]
C_OPTIONS = [1, 10, 100, 1000]
param_grid = [
    {
        "reduce_dim": [PCA(iterated_power=7), NMF(max_iter=1_000)],
        "reduce_dim__n_components": N_FEATURES_OPTIONS,
        "classify__C": C_OPTIONS,
    },
    {
        "reduce_dim": [SelectKBest(mutual_info_classif)],
        "reduce_dim__k": N_FEATURES_OPTIONS,
        "classify__C": C_OPTIONS,
    },
]
reducer_labels = ["PCA", "NMF", "KBest(mutual_info_classif)"]

grid = GridSearchCV(pipe, n_jobs=1, param_grid=param_grid)
grid.fit(X, y)

GridSearchCV(estimator=Pipeline(steps=[('scaling', MinMaxScaler()),
                                       ('reduce_dim', 'passthrough'),
                                       ('classify',
                                        LinearSVC(dual=False,
                                                  max_iter=10000))]),
             n_jobs=1,
             param_grid=[{'classify__C': [1, 10, 100, 1000],
                          'reduce_dim': [PCA(iterated_power=7),
                                         NMF(max_iter=1000)],
                          'reduce_dim__n_components': [2, 4, 8]},
                         {'classify__C': [1, 10, 100, 1000],
                          'reduce_dim': [SelectKBest(score_func=<function mutual_info_classif at 0x7fb4c0ad4f40>)],
                          'reduce_dim__k': [2, 4, 8]}])

In einer Jupyter-Umgebung führen Sie diese Zelle bitte erneut aus, um die HTML-Darstellung anzuzeigen, oder vertrauen Sie dem Notebook.
Auf GitHub kann die HTML-Darstellung nicht gerendert werden. Versuchen Sie bitte, diese Seite mit nbviewer.org zu laden.

import pandas as pd

mean_scores = np.array(grid.cv_results_["mean_test_score"])
# scores are in the order of param_grid iteration, which is alphabetical
mean_scores = mean_scores.reshape(len(C_OPTIONS), -1, len(N_FEATURES_OPTIONS))
# select score for best C
mean_scores = mean_scores.max(axis=0)
# create a dataframe to ease plotting
mean_scores = pd.DataFrame(
    mean_scores.T, index=N_FEATURES_OPTIONS, columns=reducer_labels
)

ax = mean_scores.plot.bar()
ax.set_title("Comparing feature reduction techniques")
ax.set_xlabel("Reduced number of features")
ax.set_ylabel("Digit classification accuracy")
ax.set_ylim((0, 1))
ax.legend(loc="upper left")

plt.show()

Transformer im Cache speichern innerhalb einer `Pipeline`#

Es ist manchmal lohnenswert, den Zustand eines bestimmten Transformers zu speichern, da er wiederverwendet werden könnte. Die Verwendung einer Pipeline in GridSearchCV führt zu solchen Situationen. Daher verwenden wir das Argument memory, um das Caching zu aktivieren.

Warnung

Beachten Sie, dass dieses Beispiel jedoch nur eine Veranschaulichung ist, da für diesen speziellen Fall das Anpassen von PCA nicht unbedingt langsamer ist als das Laden des Caches. Verwenden Sie daher den Konstruktorparameter memory, wenn das Anpassen eines Transformers kostspielig ist.

from shutil import rmtree

from joblib import Memory

# Create a temporary folder to store the transformers of the pipeline
location = "cachedir"
memory = Memory(location=location, verbose=10)
cached_pipe = Pipeline(
    [("reduce_dim", PCA()), ("classify", LinearSVC(dual=False, max_iter=10000))],
    memory=memory,
)

# This time, a cached pipeline will be used within the grid search


# Delete the temporary cache before exiting
memory.clear(warn=False)
rmtree(location)

Die Anpassung von PCA wird nur bei der Auswertung der ersten Konfiguration des Parameters C des LinearSVC Klassifikators berechnet. Die anderen Konfigurationen von C lösen das Laden der gecachten PCA-Schätzerdaten aus, was zu einer Zeitersparnis führt. Daher ist die Verwendung des Cachings der Pipeline mit memory sehr vorteilhaft, wenn das Anpassen eines Transformers kostspielig ist.

Gesamtlaufzeit des Skripts: (0 Minuten 42,909 Sekunden)

Verwandte Beispiele

Inkrementelles PCA

Merkmalsagglomeration vs. univariate Auswahl

Verkettung mehrerer Merkmalsextraktionsmethoden

Caching nächster Nachbarn

Galerie generiert von Sphinx-Gallery

	estimator estimator: Estimator-Objekt Es wird angenommen, dass dies die scikit-learn-Estimator-Schnittstelle implementiert. Entweder muss der Estimator eine ``score``-Funktion bereitstellen, oder ``scoring`` muss übergeben werden.	Pipeline(step...iter=10000))])
	param_grid param_grid: dict oder Liste von Dictionaries Dictionary mit Parameternamen (`str`) als Schlüssel und Listen von zu versuchenden Parametereinstellungen als Werte, oder eine Liste solcher Dictionaries, in welchem Fall die von jedem Dictionary im Gitter aufgespannten Gitter durchsucht werden. Dies ermöglicht die Suche über jede Sequenz von Parametereinstellungen.	[{'classify__C': [1, 10, ...], 'reduce_dim': [PCA(iterated_power=7), NMF(max_iter=1000)], 'reduce_dim__n_components': [2, 4, ...]}, {'classify__C': [1, 10, ...], 'reduce_dim': [SelectKBest(s...7fb4c0ad4f40>)], 'reduce_dim__k': [2, 4, ...]}]
	scoring scoring: str, callable, list, tuple oder dict, default=None Strategie zur Bewertung der Leistung des kreuzvalidierten Modells auf dem Testdatensatz. Wenn `scoring` eine einzelne Punktzahl darstellt, kann man verwenden: - einen einzelnen String (siehe :ref:`scoring_string_names`); - ein Callable (siehe :ref:`scoring_callable`), das einen einzelnen Wert zurückgibt; - `None`, das :ref:`Standard-Bewertungskriterium des Estimators ` wird verwendet. Wenn `scoring` mehrere Punktzahlen darstellt, kann man verwenden: - eine Liste oder ein Tupel eindeutiger Strings; - ein Callable, das ein Dictionary zurückgibt, dessen Schlüssel die Metriknamen und dessen Werte die Metrikpunktzahlen sind; - ein Dictionary mit Metriknamen als Schlüssel und Callables als Werte. Siehe :ref:`multimetric_grid_search` für ein Beispiel.	None
	n_jobs n_jobs: int, default=None Anzahl der parallel auszuführenden Jobs. ``None`` bedeutet 1, es sei denn, es befindet sich in einem :obj:`joblib.parallel_backend`-Kontext. ``-1`` bedeutet die Verwendung aller Prozessoren. Siehe :term:`Glossar ` für weitere Details. .. versionchanged:: v0.20 Standardwert von `n_jobs` wurde von 1 auf None geändert.	1
	refit refit: bool, str, oder callable, Standard=True Passt einen Schätzer mit den besten gefundenen Parametern auf dem gesamten Datensatz neu an. Bei mehreren Metrikauswertungen muss dies ein `str` sein, der den zur erneuten Anpassung des Schätzers am Ende verwendeten Scorrer bezeichnet. Wenn es neben der maximalen Punktzahl andere Erwägungen bei der Auswahl eines besten Schätzers gibt, kann ``refit`` auf eine Funktion gesetzt werden, die den ausgewählten ``best_index_`` basierend auf ``cv_results_`` zurückgibt. In diesem Fall werden ``best_estimator_`` und ``best_params_`` entsprechend dem zurückgegebenen ``best_index_`` gesetzt, während das Attribut ``best_score_`` nicht verfügbar ist. Der neu angepasste Schätzer ist unter dem Attribut ``best_estimator_`` verfügbar und ermöglicht die direkte Verwendung von ``predict`` auf dieser ``GridSearchCV``-Instanz. Ebenso sind bei mehreren Metrikauswertungen die Attribute ``best_index_``, ``best_score_`` und ``best_params_`` nur verfügbar, wenn ``refit`` gesetzt ist und alle bezüglich dieses spezifischen Scorers bestimmt werden. Siehe den Parameter ``scoring``, um mehr über die Auswertung mehrerer Metriken zu erfahren. Siehe :ref:`sphx_glr_auto_examples_model_selection_plot_grid_search_digits.py` , um zu sehen, wie eine benutzerdefinierte Auswahlstrategie mit einem callable über `refit` entworfen wird. Siehe :ref:`dieses Beispiel ` für ein Beispiel, wie ``refit=callable`` verwendet wird, um die Modellkomplexität und die kreuzvalidierte Punktzahl auszubalancieren. .. versionchanged:: 0.20 Unterstützung für callable hinzugefügt.	True
	cv cv: int, cross-validation generator oder ein Iterable, default=None Bestimmt die Kreuzvalidierungs-Splitting-Strategie. Mögliche Eingaben für cv sind: - None, um die Standard-5-Falt-Kreuzvalidierung zu verwenden, - Ganzzahl, um die Anzahl der Faltungen in einem `(Stratified)KFold` anzugeben, - :term:`CV-Splitter`, - Ein Iterable, das (Trainings-, Test-)Splits als Index-Arrays liefert. Bei Ganzzahl-/None-Eingaben wird, wenn der Estimator ein Klassifikator ist und ``y`` entweder binär oder multiklass ist, :class:`StratifiedKFold` verwendet. In allen anderen Fällen wird :class:`KFold` verwendet. Diese Splitter werden mit `shuffle=False` instanziiert, sodass die Splits über Aufrufe hinweg gleich sind. Siehe das :ref:`Benutzerhandbuch ` für die verschiedenen Kreuzvalidierungsstrategien, die hier verwendet werden können. .. versionchanged:: 0.22 Standardwert von ``cv``, wenn None, wurde von 3-Falt auf 5-Falt geändert.	None
	verbose verbose: int Steuert die Ausführlichkeit: Je höher, desto mehr Nachrichten. - >1 : Die Berechnungszeit für jede Faltung und jeden Parameterkandidaten wird angezeigt; - >2 : Die Punktzahl wird ebenfalls angezeigt; - >3 : Die Faltungs- und Parameterkandidatenindizes werden ebenfalls angezeigt, zusammen mit der Startzeit der Berechnung.	0
	pre_dispatch pre_dispatch: int oder str, default='2n_jobs' Steuert die Anzahl der Jobs, die während der parallelen Ausführung ausgeliefert werden. Die Reduzierung dieser Anzahl kann nützlich sein, um eine Explosion des Speicherverbrauchs zu vermeiden, wenn mehr Jobs ausgeliefert werden, als CPUs verarbeiten können. Dieser Parameter kann sein: - None, in diesem Fall werden alle Jobs sofort erstellt und gespawnt. Verwenden Sie dies für leichte und schnell laufende Jobs, um Verzögerungen durch On-Demand- Spawning der Jobs zu vermeiden - Eine Ganzzahl, die die genaue Gesamtzahl der gespawnten Jobs angibt - Ein String, der einen Ausdruck als Funktion von n_jobs angibt, z. B. '2n_jobs'	'2*n_jobs'
	error_score error_score: 'raise' oder numerisch, default=np.nan Wert, der der Punktzahl zugewiesen wird, wenn beim Anpassen des Estimators ein Fehler auftritt. Wenn auf 'raise' gesetzt, wird der Fehler ausgelöst. Wenn eine numerische Zahl angegeben wird, wird FitFailedWarning ausgelöst. Dieser Parameter beeinflusst den Refit-Schritt nicht, der immer den Fehler auslösen wird.	nan
	return_train_score return_train_score: bool, default=False Wenn ``False``, enthält das Attribut ``cv_results_`` keine Trainingspunktzahlen. Die Berechnung von Trainingspunktzahlen wird verwendet, um Einblicke zu gewinnen, wie verschiedene Parametereinstellungen den Kompromiss zwischen Überanpassung/Unteranpassung beeinflussen. Die Berechnung der Punktzahlen auf dem Trainingsdatensatz kann jedoch rechenintensiv sein und ist nicht unbedingt erforderlich, um die Parameter auszuwählen, die die beste Generalisierungsleistung erzielen. .. versionadded:: 0.19 .. versionchanged:: 0.21 Der Standardwert wurde von ``True`` auf ``False`` geändert.	False

	feature_range feature_range: tuple (min, max), Standard=(0, 1) Gewünschter Bereich der transformierten Daten.	(0, ...)
	copy copy: bool, Standard=True Auf False setzen, um eine In-Place-Zeilennormalisierung durchzuführen und eine Kopie zu vermeiden (wenn die Eingabe bereits ein Numpy-Array ist).	True
	clip clip: bool, Standard=False Auf True setzen, um transformierte Werte von zurückgehaltenen Daten auf den angegebenen `feature_range` zu begrenzen. Da dieser Parameter Werte begrenzt, kann `inverse_transform` die Originaldaten möglicherweise nicht wiederherstellen. .. note:: Das Setzen von `clip=True` verhindert keine Feature-Drift (eine Verteilungsverschiebung zwischen Trainings- und Testdaten). Die transformierten Werte werden auf den `feature_range` begrenzt, was hilft, unerwünschte Verhaltensweisen in Modellen zu vermeiden, die empfindlich auf außerhalb des Bereichs liegende Eingaben reagieren (z. B. lineare Modelle). Mit Vorsicht verwenden, da das Begrenzen die Verteilung von Testdaten verzerren kann. .. versionadded:: 0.24	False

	n_components n_components: int, float oder 'mle', default=None Anzahl der zu behaltenden Komponenten. Wenn n_components nicht gesetzt ist, werden alle Komponenten beibehalten:: n_components == min(n_samples, n_features) Wenn ``n_components == 'mle'`` und ``svd_solver == 'full'``, wird Minka's MLE verwendet, um die Dimension zu erraten. Die Verwendung von ``n_components == 'mle'`` interpretiert ``svd_solver == 'auto'`` als ``svd_solver == 'full'``. Wenn ``0 < n_components < 1`` und ``svd_solver == 'full'``, werden die Anzahl der Komponenten so ausgewählt, dass der zu erklärende Varianzbetrag größer als der durch n_components angegebene Prozentsatz ist. Wenn ``svd_solver == 'arpack'``, muss die Anzahl der Komponenten strikt kleiner als das Minimum von n_features und n_samples sein. Daher ergibt der Fall None:: n_components == min(n_samples, n_features) - 1	8
	copy copy: bool, default=True Wenn False, werden die an fit übergebenen Daten überschrieben und das Ausführen von fit(X).transform(X) liefert nicht die erwarteten Ergebnisse. Verwenden Sie stattdessen fit_transform(X).	True
	whiten whiten: bool, default=False Wenn True (standardmäßig False), werden die `components_`-Vektoren mit der Quadratwurzel von n_samples multipliziert und dann durch die Singulärwerte geteilt, um unkorrelierte Ausgaben mit Einheitskomponentenvarianzen zu gewährleisten. Das Whitening entfernt einige Informationen aus dem transformierten Signal (die relativen Varianzskalen der Komponenten), kann aber manchmal die Vorhersagegenauigkeit nachgeschalteter Estimator verbessern, indem sie die Daten einige hartkodierte Annahmen respektieren lassen.	False
	svd_solver svd_solver: {'auto', 'full', 'covariance_eigh', 'arpack', 'randomized'}, Standard='auto' "auto" : Der Solver wird durch eine Standardrichtlinie 'auto' basierend auf `X.shape` und `n_components` ausgewählt: Wenn die Eingabedaten weniger als 1000 Merkmale und mehr als das 10-fache der Stichproben haben, wird der Solver "covariance_eigh" verwendet. Andernfalls, wenn die Eingabedaten größer als 500x500 sind und die Anzahl der zu extrahierenden Komponenten weniger als 80 % der kleinsten Dimension der Daten beträgt, wird die effizientere "randomisierte" Methode ausgewählt. Andernfalls wird die exakte "volle" SVD berechnet und optional danach gekürzt. "full" : Führt eine exakte volle SVD durch Aufruf des Standard-LAPACK-Solvers über `scipy.linalg.svd` durch und wählt die Komponenten durch Nachbearbeitung aus. "covariance_eigh" : Berechnet im Voraus die Kovarianzmatrix (auf zentrierten Daten), führt eine klassische Eigenwertzerlegung der Kovarianzmatrix durch, typischerweise unter Verwendung von LAPACK, und wählt die Komponenten durch Nachbearbeitung aus. Dieser Solver ist sehr effizient für n_samples >> n_features und kleine n_features. Er ist jedoch ansonsten für große n_features nicht handhabbar (großer Speicherbedarf zur Materialisierung der Kovarianzmatrix). Beachten Sie auch, dass dieser Solver im Vergleich zum "full"-Solver die Konditionszahl effektiv verdoppelt und daher weniger numerisch stabil ist (z. B. bei Eingabedaten mit einem großen Bereich von singulären Werten). "arpack" : Führt eine SVD durch, die auf `n_components` gekürzt ist, und ruft den ARPACK-Solver über `scipy.sparse.linalg.svds` auf. Es erfordert strengstens `0 < n_components < min(X.shape)`. "randomized" : Führt eine randomisierte SVD nach der Methode von Halko et al. durch. .. versionadded:: 0.18.0 .. versionchanged:: 1.5 Der Solver 'covariance_eigh' wurde hinzugefügt.	'auto'
	tol tol: float, default=0.0 Toleranz für Singulärwerte, die von svd_solver == 'arpack' berechnet werden. Muss im Bereich [0.0, unendlich) liegen. .. versionadded:: 0.18.0	0.0
	iterated_power iterated_power: int oder 'auto', default='auto' Anzahl der Iterationen für die Potenzmethode, berechnet durch svd_solver == 'randomized'. Muss im Bereich [0, unendlich) liegen. .. versionadded:: 0.18.0	7
	n_oversamples n_oversamples: int, default=10 Dieser Parameter ist nur relevant, wenn `svd_solver="randomized"`. Er entspricht der zusätzlichen Anzahl von Zufallsvektoren, um den Bereich von `X` abzutasten und eine ordnungsgemäße Konditionierung zu gewährleisten. Siehe :func:`~sklearn.utils.extmath.randomized_svd` für weitere Details. .. versionadded:: 1.1	10
	power_iteration_normalizer power_iteration_normalizer: {'auto', 'QR', 'LU', 'none'}, default='auto' Potenziterationsnormalisierer für den randomisierten SVD-Solver. Wird nicht von ARPACK verwendet. Siehe :func:`~sklearn.utils.extmath.randomized_svd` für weitere Details. .. versionadded:: 1.1	'auto'
	random_state random_state: int, RandomState-Instanz oder None, default=None Wird verwendet, wenn die Solver 'arpack' oder 'randomized' verwendet werden. Übergeben Sie eine Ganzzahl für reproduzierbare Ergebnisse über mehrere Funktionsaufrufe hinweg. Siehe :term:`Glossar `. .. versionadded:: 0.18.0	None

	penalty penalty: {'l1', 'l2'}, Standard='l2' Gibt die Norm an, die bei der Penalizierung verwendet wird. Die 'l2'-Penalizierung ist die Standardeinstellung bei SVC. Die 'l1'-Penalizierung führt zu spärlichen ``coef_``-Vektoren.	'l2'
	loss loss: {'hinge', 'squared_hinge'}, Standard='squared_hinge' Gibt die Verlustfunktion an. 'hinge' ist der Standard-SVM-Verlust (z. B. von der SVC-Klasse verwendet), während 'squared_hinge' das Quadrat des Hinge-Verlusts ist. Die Kombination von ``penalty='l1'`` und ``loss='hinge'`` wird nicht unterstützt.	'squared_hinge'
	dual dual: "auto" oder bool, Standard="auto" Wählt den Algorithmus, um entweder das duale oder das primale Optimierungsproblem zu lösen. Bevorzugen Sie dual=False, wenn n_samples > n_features. `dual="auto"` wählt den Wert des Parameters automatisch basierend auf den Werten von `n_samples`, `n_features`, `loss`, `multi_class` und `penalty` aus. Wenn `n_samples` < `n_features` und der Optimierer den gewählten `loss`, `multi_class` und `penalty` unterstützt, wird dual auf True gesetzt, andernfalls wird es auf False gesetzt. .. versionchanged:: 1.3 Die Option `"auto"` wurde in Version 1.3 hinzugefügt und wird in Version 1.5 Standard sein.	False
	tol tol: float, default=1e-4 Toleranz für Abbruchkriterien.	0.0001
	C C: float, Standard=1.0 Regularisierungsparameter. Die Stärke der Regularisierung ist umgekehrt proportional zu C. Muss strikt positiv sein. Für eine intuitive Visualisierung der Auswirkungen der Skalierung des Regularisierungsparameters C siehe :ref:`sphx_glr_auto_examples_svm_plot_svm_scale_c.py`.	1
	multi_class multi_class: {'ovr', 'crammer_singer'}, Standard='ovr' Bestimmt die Multiklassenstrategie, wenn `y` mehr als zwei Klassen enthält. ``"ovr"`` trainiert n_Klassen One-vs-Rest-Klassifikatoren, während ``"crammer_singer"`` ein gemeinsames Ziel über alle Klassen optimiert. Während `crammer_singer` aus theoretischer Sicht interessant ist, da er konsistent ist, wird er in der Praxis selten verwendet, da er selten zu besseren Genauigkeiten führt und teurer zu berechnen ist. Wenn ``"crammer_singer"`` gewählt wird, werden die Optionen loss, penalty und dual ignoriert.	'ovr'
	fit_intercept fit_intercept: bool, Standard=True Ob ein Achsenabschnitt angepasst werden soll oder nicht. Wenn auf True gesetzt, wird der Merkmalsvektor erweitert, um einen Achsenabschnittsterm aufzunehmen: `[x_1, ..., x_n, 1]`, wobei 1 dem Achsenabschnitt entspricht. Wenn auf False gesetzt, wird kein Achsenabschnitt in den Berechnungen verwendet (d. h. die Daten werden als zentriert erwartet).	True
	intercept_scaling intercept_scaling: float, Standard=1.0 Wenn `fit_intercept` True ist, wird der Instanzvektor x zu ``[x_1, ..., x_n, intercept_scaling]``, d. h. ein "synthetisches" Merkmal mit einem konstanten Wert gleich `intercept_scaling` wird an den Instanzvektor angehängt. Der Achsenabschnitt wird zu intercept_scaling * Gewicht des synthetischen Merkmals. Beachten Sie, dass liblinear intern den Achsenabschnitt bestraft und ihn wie jeden anderen Term im Merkmalsvektor behandelt. Um die Auswirkung der Regularisierung auf den Achsenabschnitt zu verringern, kann der Parameter `intercept_scaling` auf einen Wert größer als 1 gesetzt werden; je höher der Wert von `intercept_scaling`, desto geringer die Auswirkung der Regularisierung darauf. Dann werden die Gewichte zu `[w_x_1, ..., w_x_n, w_intercept*intercept_scaling]`, wobei `w_x_1, ..., w_x_n` die Merkmalsgewichte darstellen und das Achsenabschnittsgewicht mit `intercept_scaling` skaliert wird. Diese Skalierung ermöglicht es dem Achsenabschnittsterm, ein anderes Regularisierungsverhalten zu haben als die anderen Merkmale.	1
	class_weight class_weight: dict oder 'balanced', Standard=None Setzt den Parameter C der Klasse i auf ``class_weight[i]C`` für SVC. Wenn nicht angegeben, wird angenommen, dass alle Klassen das Gewicht eins haben. Der Modus "balanced" verwendet die Werte von y, um die Gewichte automatisch umgekehrt proportional zu den Klassenhäufigkeiten in den Eingabedaten als ``n_samples / (n_classes np.bincount(y))`` anzupassen.	None
	verbose verbose: int, Standard=0 Aktiviert die detaillierte Ausgabe. Beachten Sie, dass diese Einstellung eine prozessinterne Laufzeiteinstellung in liblinear nutzt, die, wenn sie aktiviert ist, in einer Multithread-Umgebung möglicherweise nicht richtig funktioniert.	0
	random_state random_state: int, RandomState-Instanz oder None, Standard=None Steuert die pseudo-zufällige Zahlengenerierung zum Mischen der Daten für die duale Koordinatenabstiegsmethode (wenn ``dual=True``). Wenn ``dual=False`` ist, ist die zugrundeliegende Implementierung von :class:`LinearSVC` nicht zufällig und ``random_state`` hat keine Auswirkungen auf die Ergebnisse. Geben Sie eine Ganzzahl für reproduzierbare Ausgaben über mehrere Funktionsaufrufe an. Siehe :term:`Glossary `.	None
	max_iter max_iter: int, Standard=1000 Die maximale Anzahl der durchzuführenden Iterationen.	10000

Auswahl der Dimensionsreduktion mit Pipeline und GridSearchCV#

Illustration von Pipeline und GridSearchCV#

Transformer im Cache speichern innerhalb einer Pipeline#

Diese Seite

Illustration von `Pipeline` und `GridSearchCV`#

Transformer im Cache speichern innerhalb einer `Pipeline`#