Hinweis

Gehen Sie zum Ende, um den vollständigen Beispielcode herunterzuladen oder dieses Beispiel über JupyterLite oder Binder in Ihrem Browser auszuführen.

Post-hoc-Tuning des Entscheidungsschwellenwerts#

Sobald ein binärer Klassifikator trainiert ist, gibt die Methode predict Klassenvorhersagen aus, die einer Schwellenwertbildung entweder des decision_function oder des predict_proba-Outputs entsprechen. Der Standard-Schwellenwert ist als Posterior-Wahrscheinlichkeitsschätzung von 0.5 oder als Entscheidungs-Score von 0.0 definiert. Diese Standardstrategie ist jedoch möglicherweise nicht optimal für die jeweilige Aufgabe.

Dieses Beispiel zeigt, wie die TunedThresholdClassifierCV verwendet werden kann, um den Entscheidungsschwellenwert basierend auf einer interessierenden Metrik zu optimieren.

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

Der Diabetes-Datensatz#

Zur Veranschaulichung des Tunings des Entscheidungsschwellenwerts verwenden wir den Diabetes-Datensatz. Dieser Datensatz ist auf OpenML verfügbar: https://www.openml.org/d/37. Wir verwenden die Funktion fetch_openml, um diesen Datensatz abzurufen.

from sklearn.datasets import fetch_openml

diabetes = fetch_openml(data_id=37, as_frame=True, parser="pandas")
data, target = diabetes.data, diabetes.target

Wir betrachten das Ziel, um die Art des Problems zu verstehen, mit dem wir es zu tun haben.

target.value_counts()

class
tested_negative    500
tested_positive    268
Name: count, dtype: int64

Wir sehen, dass wir es mit einem binären Klassifikationsproblem zu tun haben. Da die Labels nicht als 0 und 1 kodiert sind, machen wir deutlich, dass wir die Klasse "tested_negative" als negative Klasse (die auch die häufigste ist) und die Klasse "tested_positive" als positive Klasse betrachten.

neg_label, pos_label = target.value_counts().index

Wir können auch beobachten, dass dieses binäre Problem leicht unausgewogen ist, da wir etwa doppelt so viele Stichproben aus der negativen Klasse wie aus der positiven Klasse haben. Bei der Auswertung sollten wir diesen Aspekt berücksichtigen, um die Ergebnisse zu interpretieren.

Unser Standard-Klassifikator#

Wir definieren ein grundlegendes prädiktives Modell, das aus einem Skalierer gefolgt von einem logistischen Regressionsklassifikator besteht.

from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler

model = make_pipeline(StandardScaler(), LogisticRegression())
model

Pipeline(steps=[('standardscaler', StandardScaler()),
                ('logisticregression', LogisticRegression())])

In einer Jupyter-Umgebung führen Sie diese Zelle bitte erneut aus, um die HTML-Darstellung anzuzeigen, oder vertrauen Sie dem Notebook.
Auf GitHub kann die HTML-Darstellung nicht gerendert werden. Versuchen Sie bitte, diese Seite mit nbviewer.org zu laden.

Wir evaluieren unser Modell mittels Kreuzvalidierung. Wir verwenden die Genauigkeit und die balancierte Genauigkeit, um die Leistung unseres Modells zu berichten. Die balancierte Genauigkeit ist eine Metrik, die weniger empfindlich auf Klassenungleichgewichte reagiert und es uns ermöglicht, den Genauigkeitswert in Perspektive zu setzen.

Die Kreuzvalidierung ermöglicht es uns, die Varianz des Entscheidungsschwellenwerts über verschiedene Datenaufteilungen hinweg zu untersuchen. Da der Datensatz jedoch eher klein ist, wäre es nachteilig, mehr als 5 Folds zur Bewertung der Dispersion zu verwenden. Daher verwenden wir eine RepeatedStratifiedKFold, bei der wir mehrere Wiederholungen einer 5-fach-Kreuzvalidierung anwenden.

import pandas as pd

from sklearn.model_selection import RepeatedStratifiedKFold, cross_validate

scoring = ["accuracy", "balanced_accuracy"]
cv_scores = [
    "train_accuracy",
    "test_accuracy",
    "train_balanced_accuracy",
    "test_balanced_accuracy",
]
cv = RepeatedStratifiedKFold(n_splits=5, n_repeats=10, random_state=42)
cv_results_vanilla_model = pd.DataFrame(
    cross_validate(
        model,
        data,
        target,
        scoring=scoring,
        cv=cv,
        return_train_score=True,
        return_estimator=True,
    )
)
cv_results_vanilla_model[cv_scores].aggregate(["mean", "std"]).T

	Mittelwert	Standardabweichung
train_accuracy	0.779751	0.007822
test_accuracy	0.770926	0.030585
train_balanced_accuracy	0.732913	0.009788
test_balanced_accuracy	0.723665	0.035914

Unser prädiktives Modell ist erfolgreich darin, die Beziehung zwischen den Daten und dem Ziel zu erfassen. Die Trainings- und Testergebnisse liegen nahe beieinander, was bedeutet, dass unser prädiktives Modell kein Overfitting aufweist. Wir können auch beobachten, dass die balancierte Genauigkeit aufgrund des zuvor erwähnten Klassenungleichgewichts niedriger ist als die Genauigkeit.

Für diesen Klassifikator belassen wir den Entscheidungsschwellenwert, der zur Umwandlung der Wahrscheinlichkeit der positiven Klasse in eine Klassenvorhersage verwendet wird, bei seinem Standardwert: 0.5. Dieser Schwellenwert ist jedoch möglicherweise nicht optimal. Wenn unser Interesse darin besteht, die balancierte Genauigkeit zu maximieren, sollten wir einen anderen Schwellenwert auswählen, der diese Metrik maximiert.

Der Meta-Schätzer TunedThresholdClassifierCV ermöglicht die Optimierung des Entscheidungsschwellenwerts eines Klassifikators unter Berücksichtigung einer interessierenden Metrik.

Tuning des Entscheidungsschwellenwerts#

Wir erstellen eine TunedThresholdClassifierCV und konfigurieren sie, um die balancierte Genauigkeit zu maximieren. Wir evaluieren das Modell unter Verwendung derselben Kreuzvalidierungsstrategie wie zuvor.

from sklearn.model_selection import TunedThresholdClassifierCV

tuned_model = TunedThresholdClassifierCV(estimator=model, scoring="balanced_accuracy")
cv_results_tuned_model = pd.DataFrame(
    cross_validate(
        tuned_model,
        data,
        target,
        scoring=scoring,
        cv=cv,
        return_train_score=True,
        return_estimator=True,
    )
)
cv_results_tuned_model[cv_scores].aggregate(["mean", "std"]).T

	Mittelwert	Standardabweichung
train_accuracy	0.752470	0.015579
test_accuracy	0.739950	0.036592
train_balanced_accuracy	0.757915	0.009747
test_balanced_accuracy	0.744029	0.035445

Im Vergleich zum Standardmodell beobachten wir, dass der Score der balancierten Genauigkeit gestiegen ist. Dies geht natürlich auf Kosten eines niedrigeren Genauigkeits-Scores. Das bedeutet, dass unser Modell nun sensitiver für die positive Klasse ist, aber mehr Fehler bei der negativen Klasse macht.

Es ist jedoch wichtig zu beachten, dass dieses optimierte prädiktive Modell intern dasselbe Modell wie das Standardmodell ist: Sie haben die gleichen angepassten Koeffizienten.

import matplotlib.pyplot as plt

vanilla_model_coef = pd.DataFrame(
    [est[-1].coef_.ravel() for est in cv_results_vanilla_model["estimator"]],
    columns=diabetes.feature_names,
)
tuned_model_coef = pd.DataFrame(
    [est.estimator_[-1].coef_.ravel() for est in cv_results_tuned_model["estimator"]],
    columns=diabetes.feature_names,
)

fig, ax = plt.subplots(ncols=2, figsize=(12, 4), sharex=True, sharey=True)
vanilla_model_coef.boxplot(ax=ax[0])
ax[0].set_ylabel("Coefficient value")
ax[0].set_title("Vanilla model")
tuned_model_coef.boxplot(ax=ax[1])
ax[1].set_title("Tuned model")
_ = fig.suptitle("Coefficients of the predictive models")

Coefficients of the predictive models, Vanilla model, Tuned model

Nur der Entscheidungsschwellenwert jedes Modells wurde während der Kreuzvalidierung geändert.

decision_threshold = pd.Series(
    [est.best_threshold_ for est in cv_results_tuned_model["estimator"]],
)
ax = decision_threshold.plot.kde()
ax.axvline(
    decision_threshold.mean(),
    color="k",
    linestyle="--",
    label=f"Mean decision threshold: {decision_threshold.mean():.2f}",
)
ax.set_xlabel("Decision threshold")
ax.legend(loc="upper right")
_ = ax.set_title(
    "Distribution of the decision threshold \nacross different cross-validation folds"
)

Distribution of the decision threshold across different cross-validation folds

Im Durchschnitt maximiert ein Entscheidungsschwellenwert von etwa 0.32 die balancierte Genauigkeit, was vom Standard-Entscheidungsschwellenwert von 0.5 abweicht. Daher ist die Optimierung des Entscheidungsschwellenwerts besonders wichtig, wenn die Ausgabe des prädiktiven Modells zur Entscheidungsfindung verwendet wird. Außerdem sollte die zur Optimierung des Entscheidungsschwellenwerts verwendete Metrik sorgfältig ausgewählt werden. Hier haben wir die balancierte Genauigkeit verwendet, aber sie ist möglicherweise nicht die am besten geeignete Metrik für das vorliegende Problem. Die Wahl der "richtigen" Metrik ist in der Regel problemabhängig und erfordert möglicherweise Fachwissen. Weitere Informationen finden Sie im Beispiel mit dem Titel Post-Tuning des Entscheidungsschwellenwerts für kostensensitive Lernverfahren.

Gesamtlaufzeit des Skripts: (0 Minuten 33,969 Sekunden)

Verwandte Beispiele

Post-Hoc-Anpassung des Entscheidungsschwellenwerts für kostenempfindliches Lernen

Release Highlights für scikit-learn 1.5

Auswirkung der Änderung des Schwellenwerts für Self-Training

Beispiele für die Verwendung von FrozenEstimator

Galerie generiert von Sphinx-Gallery

	steps steps: list of tuples Liste von Tupeln (Name des Schritts, Schätzer), die in sequenzieller Reihenfolge verkettet werden sollen. Um mit der scikit-learn API kompatibel zu sein, müssen alle Schritte `fit` definieren. Alle nicht letzten Schritte müssen auch `transform` definieren. Siehe :ref:`Kombination von Schätzern ` für weitere Details.	[('standardscaler', ...), ('logisticregression', ...)]
	transform_input transform_input: list of str, default=None Die Namen der :term:`Metadaten`-Parameter, die von der Pipeline transformiert werden sollen, bevor sie an den Schritt übergeben werden, der sie benötigt. Dies ermöglicht die Transformation einiger Eingabeparameter zu ``fit`` (außer ``X``), die von den Schritten der Pipeline bis zu dem Schritt transformiert werden, der sie benötigt. Die Anforderung wird über :ref:`Metadaten-Routing ` definiert. Dies kann beispielsweise verwendet werden, um einen Validierungsdatensatz durch die Pipeline zu leiten. Sie können dies nur festlegen, wenn das Metadaten-Routing aktiviert ist, was Sie mit ``sklearn.set_config(enable_metadata_routing=True)`` aktivieren können. .. versionadded:: 1.6	None
	memory memory: str oder Objekt mit der joblib.Memory-Schnittstelle, default=None Wird zum Zwischenspeichern der angepassten Transformer der Pipeline verwendet. Der letzte Schritt wird niemals zwischengespeichert, auch wenn es sich um einen Transformer handelt. Standardmäßig erfolgt keine Zwischenspeicherung. Wenn ein String angegeben wird, ist dies der Pfad zum Zwischenspeicherverzeichnis. Durch Aktivieren der Zwischenspeicherung wird eine Kopie der Transformer vor dem Anpassen ausgelöst. Daher kann die an die Pipeline übergebene Transformer-Instanz nicht direkt inspiziert werden. Verwenden Sie das Attribut `named_steps` oder `steps`, um Schätzer innerhalb der Pipeline zu inspizieren. Das Zwischenspeichern der Transformer ist vorteilhaft, wenn das Anpassen zeitaufwändig ist. Siehe :ref:`sphx_glr_auto_examples_neighbors_plot_caching_nearest_neighbors.py` für ein Beispiel zur Aktivierung der Zwischenspeicherung.	None
	verbose verbose: bool, default=False Wenn True, wird die verstrichene Zeit während des Anpassens jedes Schritts gedruckt, wenn es abgeschlossen ist.	False

	penalty penalty: {'l1', 'l2', 'elasticnet', None}, default='l2' Gibt die Norm der Strafe an: - `None`: keine Strafe wird hinzugefügt; - `'l2'`: fügt einen L2-Strafbegriff hinzu und ist die Standardwahl; - `'l1'`: fügt einen L1-Strafbegriff hinzu; - `'elasticnet'`: beide L1- und L2-Strafbegriffe werden hinzugefügt. .. warning:: Einige Strafen funktionieren möglicherweise nicht mit einigen Solvern. Siehe den Parameter `solver` unten, um die Kompatibilität zwischen der Strafe und dem Solver zu erfahren. .. versionadded:: 0.19 l1-Strafe mit SAGA-Solver (erlaubt 'multinomial' + L1) .. deprecated:: 1.8 `penalty` wurde in Version 1.8 als veraltet markiert und wird in 1.10 entfernt. Verwenden Sie stattdessen `l1_ratio`. `l1_ratio=0` für `penalty='l2'`, `l1_ratio=1` für `penalty='l1'` und `l1_ratio` auf eine Gleitkommazahl zwischen 0 und 1 gesetzt für `'penalty='elasticnet'`.	'deprecated'
	C C: float, default=1.0 Kehrwert der Regularisierungsstärke; muss eine positive Gleitkommazahl sein. Wie bei Support Vector Machines geben kleinere Werte eine stärkere Regularisierung an. `C=np.inf` führt zu ungestrafter logistischer Regression. Für ein visuelles Beispiel der Auswirkung der Abstimmung des Parameters `C` mit einer L1-Strafe siehe: :ref:`sphx_glr_auto_examples_linear_model_plot_logistic_path.py`.	1.0
	l1_ratio l1_ratio: float, default=0.0 Der Elastic-Net-Mischungsparameter, mit `0 <= l1_ratio <= 1`. Das Setzen von `l1_ratio=1` ergibt eine reine L1-Strafe, das Setzen von `l1_ratio=0` eine reine L2-Strafe. Jeder Wert zwischen 0 und 1 ergibt eine Elastic-Net-Strafe der Form `l1_ratio * L1 + (1 - l1_ratio) * L2`. .. warning:: Bestimmte Werte von `l1_ratio`, d. h. einige Strafen, funktionieren möglicherweise nicht mit einigen Solvern. Siehe den Parameter `solver` unten, um die Kompatibilität zwischen der Strafe und dem Solver zu erfahren. .. versionchanged:: 1.8 Der Standardwert wurde von None auf 0.0 geändert. .. deprecated:: 1.8 `None` ist veraltet und wird in Version 1.10 entfernt. Verwenden Sie immer `l1_ratio`, um den Strafentyp anzugeben.	0.0
	dual dual: bool, default=False Duale (beschränkte) oder primale (regularisierte, siehe auch :ref:`diese Gleichung `) Formulierung. Die duale Formulierung ist nur für die L2-Strafe mit dem liblinear-Solver implementiert. Bevorzugen Sie `dual=False` wenn n_samples > n_features.	False
	tol tol: float, default=1e-4 Toleranz für Abbruchkriterien.	0.0001
	fit_intercept fit_intercept: bool, default=True Gibt an, ob eine Konstante (auch Bias oder Achsenabschnitt genannt) zur Entscheidungsfunktion hinzugefügt werden soll.	True
	intercept_scaling intercept_scaling: float, default=1 Nur nützlich, wenn der Solver `liblinear` verwendet wird und `self.fit_intercept` auf `True` gesetzt ist. In diesem Fall wird `x` zu `[x, self.intercept_scaling]`, d. h. ein "synthetisches" Merkmal mit konstantem Wert gleich `intercept_scaling` wird an den Instanzvektor angehängt. Der Achsenabschnitt wird dann ``intercept_scaling * synthetisches Merkmalsgewicht``. .. note:: Das Gewicht des synthetischen Merkmals unterliegt der L1- oder L2- Regularisierung wie alle anderen Merkmale. Um die Auswirkung der Regularisierung auf das synthetische Merkmalsgewicht (und damit auf den Achsenabschnitt) zu verringern, muss `intercept_scaling` erhöht werden.	1
	class_weight class_weight: dict oder 'balanced', default=None Mit Klassen assoziierte Gewichte in der Form ``{class_label: weight}``. Wenn nicht angegeben, wird angenommen, dass alle Klassen das Gewicht eins haben. Der Modus "balanced" verwendet die Werte von y, um die Gewichte automatisch invers proportional zu den Klassenhaüfigkeiten in den Eingabedaten als ``n_samples / (n_classes * np.bincount(y))`` anzupassen. Beachten Sie, dass diese Gewichte mit sample_weight (übergeben durch die fit-Methode) multipliziert werden, wenn sample_weight angegeben ist. .. versionadded:: 0.17 class_weight='balanced'	None
	random_state random_state: int, RandomState-Instanz, default=None Wird verwendet, wenn ``solver`` == 'sag', 'saga' oder 'liblinear', um die Daten zu mischen. Siehe :term:`Glossar ` für Details.	None
	solver solver: {'lbfgs', 'liblinear', 'newton-cg', 'newton-cholesky', 'sag', 'saga'}, standardmäßig 'lbfgs' Algorithmus, der im Optimierungsproblem verwendet wird. Standard ist 'lbfgs'. Bei der Auswahl eines Solvers sollten Sie möglicherweise die folgenden Aspekte berücksichtigen: - 'lbfgs' ist ein guter Standard-Solver, da er für eine breite Klasse von Problemen vernünftige Ergebnisse liefert. - Bei :term:`multiclass`-Problemen (`n_classes >= 3`) minimieren alle Solver außer 'liblinear' den vollständigen multinomischen Verlust; 'liblinear' löst einen Fehler aus. - 'newton-cholesky' ist eine gute Wahl für `n_samples` >> `n_features * n_classes`, insbesondere bei One-Hot-kodierten kategorialen Merkmalen mit seltenen Kategorien. Beachten Sie, dass die Speichernutzung dieses Solvers eine quadratische Abhängigkeit von `n_features * n_classes` aufweist, da er die vollständige Hesse-Matrix explizit berechnet. - Bei kleinen Datensätzen ist 'liblinear' eine gute Wahl, während 'sag' und 'saga' für große Datensätze schneller sind; - 'liblinear' kann standardmäßig nur binäre Klassifizierung verarbeiten. Um ein One-vs-Rest-Schema für das Multiklassen-Setting anzuwenden, kann es mit der :class:`~sklearn.multiclass.OneVsRestClassifier` umschlossen werden. .. warning:: Die Wahl des Algorithmus hängt von der gewählten Strafe ab (`l1_ratio=0` für L2-Strafe, `l1_ratio=1` für L1-Strafe und `0 < l1_ratio < 1` für Elastic-Net) und von der (multinomialen) Multiklassen-Unterstützung: ================= ======================== ====================== solver l1_ratio multinomial multiclass ================= ======================== ====================== 'lbfgs' l1_ratio=0 ja 'liblinear' l1_ratio=1 oder l1_ratio=0 nein 'newton-cg' l1_ratio=0 ja 'newton-cholesky' l1_ratio=0 ja 'sag' l1_ratio=0 ja 'saga' 0<=l1_ratio<=1 ja ================= ======================== ====================== .. note:: Die schnelle Konvergenz von 'sag' und 'saga' ist nur für Merkmale mit ungefähr gleicher Skalierung garantiert. Sie können die Daten mit einem Skalierer aus :mod:`sklearn.preprocessing` vorverarbeiten. .. seealso:: Siehe das :ref:`Handbuch ` für weitere Informationen zu :class:`LogisticRegression` und insbesondere die :ref:`Tabelle ` , die die Solver/Strafe-Unterstützung zusammenfasst. .. versionadded:: 0.17 Stochastic Average Gradient (SAG) Descent Solver. Multinominale Unterstützung in Version 0.18. .. versionadded:: 0.19 SAGA-Solver. .. versionchanged:: 0.22 Der Standard-Solver änderte sich von 'liblinear' zu 'lbfgs' in 0.22. .. versionadded:: 1.2 newton-cholesky-Solver. Multinominale Unterstützung in Version 1.6.	'lbfgs'
	max_iter max_iter: int, default=100 Maximale Anzahl von Iterationen, die die Solver zur Konvergenz benötigen.	100
	verbose verbose: int, default=0 Für die Solver liblinear und lbfgs setzen Sie verbose auf eine beliebige positive Zahl für die Ausführlichkeit.	0
	warm_start warm_start: bool, default=False Wenn auf True gesetzt, wird die Lösung des vorherigen Aufrufs von fit als Initialisierung wiederverwendet, andernfalls wird die vorherige Lösung einfach gelöscht. Nützlich für den liblinear-Solver. Siehe :term:`das Glossar `. .. versionadded:: 0.17 warm_start zur Unterstützung der Solver lbfgs, newton-cg, sag, saga.	False
	n_jobs n_jobs: int, default=None Hat keine Auswirkung. .. deprecated:: 1.8 `n_jobs` ist in Version 1.8 veraltet und wird in 1.10 entfernt.	None

	copy copy: bool, Standard=True Wenn False, versuchen Sie, eine Kopie zu vermeiden und stattdessen direkt zu skalieren. Dies ist nicht garantiert, dass es immer direkt funktioniert; z.B. wenn die Daten kein NumPy-Array oder eine scipy.sparse CSR-Matrix sind, kann immer noch eine Kopie zurückgegeben werden.	True
	with_mean with_mean: bool, Standard=True Wenn True, zentrieren Sie die Daten vor der Skalierung. Dies funktioniert nicht (und löst eine Ausnahme aus), wenn versucht, auf Sparse-Matrizen angewendet zu werden, da deren Zentrierung den Aufbau einer dichten Matrix erfordert, die in gängigen Anwendungsfällen wahrscheinlich zu groß ist, um in den Speicher zu passen.	True
	with_std with_std: bool, Standard=True Wenn True, skalieren Sie die Daten auf Einheitsvarianz (oder äquivalent, Einheitsstandardabweichung).	True

Post-hoc-Tuning des Entscheidungsschwellenwerts#

Der Diabetes-Datensatz#

Unser Standard-Klassifikator#

Tuning des Entscheidungsschwellenwerts#

Diese Seite