Hinweis

Gehe zum Ende, um den vollständigen Beispielcode herunterzuladen oder dieses Beispiel über JupyterLite oder Binder in deinem Browser auszuführen.

Pipeline ANOVA SVM#

Dieses Beispiel zeigt, wie eine Merkmalsauswahl einfach in eine Machine-Learning-Pipeline integriert werden kann.

Wir zeigen auch, dass Sie einfach Teile der Pipeline inspizieren können.

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

Wir beginnen mit der Generierung eines binären Klassifizierungsdatensatzes. Anschließend teilen wir den Datensatz in zwei Untergruppen auf.

from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split

X, y = make_classification(
    n_features=20,
    n_informative=3,
    n_redundant=0,
    n_classes=2,
    n_clusters_per_class=2,
    random_state=42,
)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

Ein häufiger Fehler bei der Merkmalsauswahl ist die Suche nach einer Teilmenge diskriminierender Merkmale im gesamten Datensatz, anstatt nur den Trainingsdatensatz zu verwenden. Die Verwendung der Pipeline von scikit-learn verhindert solche Fehler.

Hier demonstrieren wir, wie eine Pipeline aufgebaut wird, bei der der erste Schritt die Merkmalsauswahl ist.

Beim Aufruf von fit auf den Trainingsdaten wird eine Teilmenge von Merkmalen ausgewählt und der Index dieser ausgewählten Merkmale gespeichert. Der Merkmalsselektor reduziert anschließend die Anzahl der Merkmale und übergibt diese Teilmenge an den Klassifikator, der trainiert wird.

from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.pipeline import make_pipeline
from sklearn.svm import LinearSVC

anova_filter = SelectKBest(f_classif, k=3)
clf = LinearSVC()
anova_svm = make_pipeline(anova_filter, clf)
anova_svm.fit(X_train, y_train)

Pipeline(steps=[('selectkbest', SelectKBest(k=3)), ('linearsvc', LinearSVC())])

In einer Jupyter-Umgebung führen Sie diese Zelle bitte erneut aus, um die HTML-Darstellung anzuzeigen, oder vertrauen Sie dem Notebook.
Auf GitHub kann die HTML-Darstellung nicht gerendert werden. Versuchen Sie bitte, diese Seite mit nbviewer.org zu laden.

Nachdem das Training abgeschlossen ist, können wir Vorhersagen für neue, unsichtbare Stichproben treffen. In diesem Fall wählt der Merkmalsselektor nur die diskriminierendsten Merkmale basierend auf den während des Trainings gespeicherten Informationen aus. Dann werden die Daten an den Klassifikator übergeben, der die Vorhersage trifft.

Hier zeigen wir die endgültigen Metriken über einen Klassifizierungsbericht.

from sklearn.metrics import classification_report

y_pred = anova_svm.predict(X_test)
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.92      0.80      0.86        15
           1       0.75      0.90      0.82        10

    accuracy                           0.84        25
   macro avg       0.84      0.85      0.84        25
weighted avg       0.85      0.84      0.84        25

Beachten Sie, dass Sie einen Schritt in der Pipeline inspizieren können. Zum Beispiel könnten wir uns für die Parameter des Klassifikators interessieren. Da wir drei Merkmale ausgewählt haben, erwarten wir drei Koeffizienten.

anova_svm[-1].coef_

array([[0.75788833, 0.27161955, 0.26113448]])

Wir wissen jedoch nicht, welche Merkmale aus dem ursprünglichen Datensatz ausgewählt wurden. Wir könnten auf verschiedene Weisen vorgehen. Hier werden wir die Transformation dieser Koeffizienten invertieren, um Informationen über den ursprünglichen Raum zu erhalten.

anova_svm[:-1].inverse_transform(anova_svm[-1].coef_)

array([[0.        , 0.        , 0.75788833, 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.27161955,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.26113448]])

Wir sehen, dass die Merkmale mit nicht-null Koeffizienten die vom ersten Schritt ausgewählten Merkmale sind.

Gesamtlaufzeit des Skripts: (0 Minuten 0,014 Sekunden)

Verwandte Beispiele

Rekursive Merkmalseliminierung mit Kreuzvalidierung

Modellbasierte und sequentielle Merkmalsauswahl

Benutzerdefinierte Refit-Strategie einer Gitter-Suche mit Kreuzvalidierung

Univariate Merkmalsauswahl

Galerie generiert von Sphinx-Gallery

	steps steps: list of tuples Liste von Tupeln (Name des Schritts, Schätzer), die in sequenzieller Reihenfolge verkettet werden sollen. Um mit der scikit-learn API kompatibel zu sein, müssen alle Schritte `fit` definieren. Alle nicht letzten Schritte müssen auch `transform` definieren. Siehe :ref:`Kombination von Schätzern ` für weitere Details.	[('selectkbest', ...), ('linearsvc', ...)]
	transform_input transform_input: list of str, default=None Die Namen der :term:`Metadaten`-Parameter, die von der Pipeline transformiert werden sollen, bevor sie an den Schritt übergeben werden, der sie benötigt. Dies ermöglicht die Transformation einiger Eingabeparameter zu ``fit`` (außer ``X``), die von den Schritten der Pipeline bis zu dem Schritt transformiert werden, der sie benötigt. Die Anforderung wird über :ref:`Metadaten-Routing ` definiert. Dies kann beispielsweise verwendet werden, um einen Validierungsdatensatz durch die Pipeline zu leiten. Sie können dies nur festlegen, wenn das Metadaten-Routing aktiviert ist, was Sie mit ``sklearn.set_config(enable_metadata_routing=True)`` aktivieren können. .. versionadded:: 1.6	None
	memory memory: str oder Objekt mit der joblib.Memory-Schnittstelle, default=None Wird zum Zwischenspeichern der angepassten Transformer der Pipeline verwendet. Der letzte Schritt wird niemals zwischengespeichert, auch wenn es sich um einen Transformer handelt. Standardmäßig erfolgt keine Zwischenspeicherung. Wenn ein String angegeben wird, ist dies der Pfad zum Zwischenspeicherverzeichnis. Durch Aktivieren der Zwischenspeicherung wird eine Kopie der Transformer vor dem Anpassen ausgelöst. Daher kann die an die Pipeline übergebene Transformer-Instanz nicht direkt inspiziert werden. Verwenden Sie das Attribut `named_steps` oder `steps`, um Schätzer innerhalb der Pipeline zu inspizieren. Das Zwischenspeichern der Transformer ist vorteilhaft, wenn das Anpassen zeitaufwändig ist. Siehe :ref:`sphx_glr_auto_examples_neighbors_plot_caching_nearest_neighbors.py` für ein Beispiel zur Aktivierung der Zwischenspeicherung.	None
	verbose verbose: bool, default=False Wenn True, wird die verstrichene Zeit während des Anpassens jedes Schritts gedruckt, wenn es abgeschlossen ist.	False

	penalty penalty: {'l1', 'l2'}, Standard='l2' Gibt die Norm an, die bei der Penalizierung verwendet wird. Die 'l2'-Penalizierung ist die Standardeinstellung bei SVC. Die 'l1'-Penalizierung führt zu spärlichen ``coef_``-Vektoren.	'l2'
	loss loss: {'hinge', 'squared_hinge'}, Standard='squared_hinge' Gibt die Verlustfunktion an. 'hinge' ist der Standard-SVM-Verlust (z. B. von der SVC-Klasse verwendet), während 'squared_hinge' das Quadrat des Hinge-Verlusts ist. Die Kombination von ``penalty='l1'`` und ``loss='hinge'`` wird nicht unterstützt.	'squared_hinge'
	dual dual: "auto" oder bool, Standard="auto" Wählt den Algorithmus, um entweder das duale oder das primale Optimierungsproblem zu lösen. Bevorzugen Sie dual=False, wenn n_samples > n_features. `dual="auto"` wählt den Wert des Parameters automatisch basierend auf den Werten von `n_samples`, `n_features`, `loss`, `multi_class` und `penalty` aus. Wenn `n_samples` < `n_features` und der Optimierer den gewählten `loss`, `multi_class` und `penalty` unterstützt, wird dual auf True gesetzt, andernfalls wird es auf False gesetzt. .. versionchanged:: 1.3 Die Option `"auto"` wurde in Version 1.3 hinzugefügt und wird in Version 1.5 Standard sein.	'auto'
	tol tol: float, default=1e-4 Toleranz für Abbruchkriterien.	0.0001
	C C: float, Standard=1.0 Regularisierungsparameter. Die Stärke der Regularisierung ist umgekehrt proportional zu C. Muss strikt positiv sein. Für eine intuitive Visualisierung der Auswirkungen der Skalierung des Regularisierungsparameters C siehe :ref:`sphx_glr_auto_examples_svm_plot_svm_scale_c.py`.	1.0
	multi_class multi_class: {'ovr', 'crammer_singer'}, Standard='ovr' Bestimmt die Multiklassenstrategie, wenn `y` mehr als zwei Klassen enthält. ``"ovr"`` trainiert n_Klassen One-vs-Rest-Klassifikatoren, während ``"crammer_singer"`` ein gemeinsames Ziel über alle Klassen optimiert. Während `crammer_singer` aus theoretischer Sicht interessant ist, da er konsistent ist, wird er in der Praxis selten verwendet, da er selten zu besseren Genauigkeiten führt und teurer zu berechnen ist. Wenn ``"crammer_singer"`` gewählt wird, werden die Optionen loss, penalty und dual ignoriert.	'ovr'
	fit_intercept fit_intercept: bool, Standard=True Ob ein Achsenabschnitt angepasst werden soll oder nicht. Wenn auf True gesetzt, wird der Merkmalsvektor erweitert, um einen Achsenabschnittsterm aufzunehmen: `[x_1, ..., x_n, 1]`, wobei 1 dem Achsenabschnitt entspricht. Wenn auf False gesetzt, wird kein Achsenabschnitt in den Berechnungen verwendet (d. h. die Daten werden als zentriert erwartet).	True
	intercept_scaling intercept_scaling: float, Standard=1.0 Wenn `fit_intercept` True ist, wird der Instanzvektor x zu ``[x_1, ..., x_n, intercept_scaling]``, d.h. ein "synthetisches" Merkmal mit einem konstanten Wert gleich `intercept_scaling` wird an den Instanzvektor angehängt. Der Achsenabschnitt wird intercept_scaling * synthetisches Merkmal Gewicht. Beachten Sie, dass liblinear intern den Achsenabschnitt bestraft und ihn wie jeden anderen Term im Merkmalsvektor behandelt. Um die Auswirkung der Regularisierung auf den Achsenabschnitt zu reduzieren, kann der Parameter `intercept_scaling` auf einen Wert größer als 1 gesetzt werden; je höher der Wert von `intercept_scaling`, desto geringer die Auswirkung der Regularisierung auf ihn. Dann werden die Gewichte zu `[w_x_1, ..., w_x_n, w_intercept*intercept_scaling]`, wobei `w_x_1, ..., w_x_n` die Merkmalgewichte darstellen und das Achsenabschnittgewicht mit `intercept_scaling` skaliert wird. Diese Skalierung ermöglicht es dem Achsenabschnittsterm, ein anderes Regularisierungsverhalten als die anderen Merkmale zu haben.	1
	class_weight class_weight: dict oder 'balanced', Standard=None Setzt den Parameter C der Klasse i auf ``class_weight[i]C`` für SVC. Wenn nicht angegeben, wird angenommen, dass alle Klassen das Gewicht eins haben. Der Modus "balanced" verwendet die Werte von y, um die Gewichte automatisch umgekehrt proportional zu den Klassenhäufigkeiten in den Eingabedaten als ``n_samples / (n_classes np.bincount(y))`` anzupassen.	None
	verbose verbose: int, Standard=0 Aktiviert die detaillierte Ausgabe. Beachten Sie, dass diese Einstellung eine prozessinterne Laufzeiteinstellung in liblinear nutzt, die, wenn sie aktiviert ist, in einer Multithread-Umgebung möglicherweise nicht richtig funktioniert.	0
	random_state random_state: int, RandomState-Instanz oder None, Standard=None Steuert die pseudo-zufällige Zahlengenerierung zum Mischen der Daten für die duale Koordinatenabstiegsmethode (wenn ``dual=True``). Wenn ``dual=False`` ist, ist die zugrundeliegende Implementierung von :class:`LinearSVC` nicht zufällig und ``random_state`` hat keine Auswirkungen auf die Ergebnisse. Geben Sie eine Ganzzahl für reproduzierbare Ausgaben über mehrere Funktionsaufrufe an. Siehe :term:`Glossary `.	None
	max_iter max_iter: int, Standard=1000 Die maximale Anzahl der durchzuführenden Iterationen.	1000

	score_func score_func: callable, Standard=f_classif Funktion, die zwei Arrays X und y aufnimmt und ein Paar von Arrays (Scores, pvalues) oder ein einzelnes Array mit Scores zurückgibt. Standard ist f_classif (siehe unten "Siehe auch"). Die Standardfunktion funktioniert nur mit Klassifikationsaufgaben. .. versionadded:: 0.18	<function f_c...x7fb4c0ad7600>
	k k: int oder "all", Standard=10 Anzahl der auszuwählenden Top-Merkmale. Die Option "all" umgeht die Auswahl und kann bei der Parametersuche verwendet werden.	3

Pipeline ANOVA SVM#

Diese Seite