Hinweis

Zum Ende springen, um den vollständigen Beispielcode herunterzuladen oder dieses Beispiel über JupyterLite oder Binder in Ihrem Browser auszuführen.

Precision-Recall#

Beispiel für die Precision-Recall-Metrik zur Bewertung der Qualität von Klassifikator-Ausgaben.

Precision-Recall ist ein nützliches Maß für den Erfolg einer Vorhersage, wenn die Klassen sehr unausgewogen sind. In der Information Retrieval ist Präzision ein Maß für den Anteil relevanter Elemente unter den tatsächlich zurückgegebenen Elementen, während Recall ein Maß für den Anteil der zurückgegebenen Elemente unter allen Elementen ist, die zurückgegeben hätten werden sollen. „Relevanz“ bezieht sich hier auf Elemente mit positivem Label, d. h. True Positives und False Positives.

Präzision (\(P\)) ist definiert als die Anzahl der True Positives (\(T_p\)) geteilt durch die Summe aus True Positives und False Positives (\(F_p\)).

\[P = \frac{T_p}{T_p+F_p}\]

Recall (\(R\)) ist definiert als die Anzahl der True Positives (\(T_p\)) geteilt durch die Summe aus True Positives und False Negatives (\(F_n\)).

\[R = \frac{T_p}{T_p + F_n}\]

Die Precision-Recall-Kurve zeigt den Kompromiss zwischen Präzision und Recall für verschiedene Schwellenwerte. Ein hoher Flächeninhalt unter der Kurve repräsentiert sowohl einen hohen Recall als auch eine hohe Präzision. Hohe Präzision wird erreicht, indem wenige False Positives in den zurückgegebenen Ergebnissen vorhanden sind, und hoher Recall wird erreicht, indem wenige False Negatives in den relevanten Ergebnissen vorhanden sind. Hohe Werte für beides zeigen, dass der Klassifikator genaue Ergebnisse liefert (hohe Präzision) und gleichzeitig die Mehrheit aller relevanten Ergebnisse zurückgibt (hoher Recall).

Ein System mit hohem Recall, aber niedriger Präzision gibt die meisten relevanten Elemente zurück, aber der Anteil der falsch gelabelten zurückgegebenen Ergebnisse ist hoch. Ein System mit hoher Präzision, aber niedrigem Recall ist genau das Gegenteil: Es gibt nur sehr wenige der relevanten Elemente zurück, aber die meisten seiner vorhergesagten Labels sind korrekt, wenn sie mit den tatsächlichen Labels verglichen werden. Ein ideales System mit hoher Präzision und hohem Recall gibt die meisten relevanten Elemente zurück, wobei die meisten Ergebnisse korrekt gelabelt sind.

Die Definition der Präzision (\(\frac{T_p}{T_p + F_p}\)) zeigt, dass eine Absenkung des Schwellenwerts eines Klassifikators den Nenner erhöhen kann, indem die Anzahl der zurückgegebenen Ergebnisse erhöht wird. Wenn der Schwellenwert zuvor zu hoch eingestellt war, können die neuen Ergebnisse alle True Positives sein, was die Präzision erhöht. Wenn der vorherige Schwellenwert etwa richtig oder zu niedrig war, führt eine weitere Absenkung des Schwellenwerts zu False Positives, was die Präzision verringert.

Recall ist definiert als \(\frac{T_p}{T_p+F_n}\), wobei \(T_p+F_n\) nicht vom Klassifikator-Schwellenwert abhängt. Eine Änderung des Klassifikator-Schwellenwerts kann nur den Zähler, \(T_p\), ändern. Eine Absenkung des Klassifikator-Schwellenwerts kann den Recall erhöhen, indem die Anzahl der True Positive Ergebnisse erhöht wird. Es ist auch möglich, dass eine Absenkung des Schwellenwerts den Recall unverändert lässt, während die Präzision schwankt. Daher nimmt die Präzision nicht zwangsläufig mit dem Recall ab.

Die Beziehung zwischen Recall und Präzision kann im Treppenbereich des Plots beobachtet werden – an den Kanten dieser Stufen reduziert eine kleine Änderung des Schwellenwerts die Präzision erheblich, mit nur einem geringen Gewinn an Recall.

Average Precision (AP) fasst einen solchen Plot als gewichteten Mittelwert der Präzisionen zusammen, die bei jedem Schwellenwert erzielt werden, wobei die Erhöhung des Recalls gegenüber dem vorherigen Schwellenwert als Gewicht verwendet wird.

\(\text{AP} = \sum_n (R_n - R_{n-1}) P_n\)

wobei \(P_n\) und \(R_n\) Präzision und Recall beim n-ten Schwellenwert sind. Ein Paar \((R_k, P_k)\) wird als Betriebspunkt bezeichnet.

AP und die trapezförmige Fläche unter den Betriebspunkten (sklearn.metrics.auc) sind gängige Methoden zur Zusammenfassung einer Precision-Recall-Kurve, die zu unterschiedlichen Ergebnissen führen. Lesen Sie mehr im Benutzerhandbuch.

Precision-Recall-Kurven werden typischerweise in der binären Klassifizierung verwendet, um die Ausgabe eines Klassifikators zu untersuchen. Um die Precision-Recall-Kurve und die Average Precision auf die Multi-Klassen- oder Multi-Label-Klassifizierung zu erweitern, ist es notwendig, die Ausgabe zu binarisieren. Eine Kurve kann pro Label gezeichnet werden, aber man kann auch eine Precision-Recall-Kurve zeichnen, indem jedes Element der Label-Indikator-Matrix als binäre Vorhersage betrachtet wird (Mikro-Mittelwertbildung).

Hinweis

Siehe auch sklearn.metrics.average_precision_score,: sklearn.metrics.recall_score, sklearn.metrics.precision_score, sklearn.metrics.f1_score

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

In binären Klassifizierungsszenarien#

Datensatz und Modell#

Wir verwenden einen Linear SVC-Klassifikator, um zwei Arten von Schwertlilien zu unterscheiden.

import numpy as np

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

X, y = load_iris(return_X_y=True)

# Add noisy features
random_state = np.random.RandomState(0)
n_samples, n_features = X.shape
X = np.concatenate([X, random_state.randn(n_samples, 200 * n_features)], axis=1)

# Limit to the two first classes, and split into training and test
X_train, X_test, y_train, y_test = train_test_split(
    X[y < 2], y[y < 2], test_size=0.5, random_state=random_state
)

Linear SVC erwartet, dass jedes Merkmal einen ähnlichen Wertebereich hat. Daher werden wir die Daten zuerst mit einem StandardScaler skalieren.

from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import LinearSVC

classifier = make_pipeline(StandardScaler(), LinearSVC(random_state=random_state))
classifier.fit(X_train, y_train)

Pipeline(steps=[('standardscaler', StandardScaler()),
                ('linearsvc',
                 LinearSVC(random_state=RandomState(MT19937) at 0x7FB4A32A1040))])

In einer Jupyter-Umgebung führen Sie diese Zelle bitte erneut aus, um die HTML-Darstellung anzuzeigen, oder vertrauen Sie dem Notebook.
Auf GitHub kann die HTML-Darstellung nicht gerendert werden. Versuchen Sie bitte, diese Seite mit nbviewer.org zu laden.

Plotten der Precision-Recall-Kurve#

Um die Precision-Recall-Kurve zu zeichnen, sollten Sie PrecisionRecallDisplay verwenden. Tatsächlich gibt es zwei verfügbare Methoden, je nachdem, ob Sie die Vorhersagen des Klassifikators bereits berechnet haben oder nicht.

Lassen Sie uns zuerst die Precision-Recall-Kurve ohne die Klassifikator-Vorhersagen zeichnen. Wir verwenden from_estimator, die die Vorhersagen für uns berechnet, bevor die Kurve gezeichnet wird.

from sklearn.metrics import PrecisionRecallDisplay

display = PrecisionRecallDisplay.from_estimator(
    classifier, X_test, y_test, name="LinearSVC", plot_chance_level=True, despine=True
)
_ = display.ax_.set_title("2-class Precision-Recall curve")

Wenn wir bereits die geschätzten Wahrscheinlichkeiten oder Scores für unser Modell haben, können wir from_predictions verwenden.

y_score = classifier.decision_function(X_test)

display = PrecisionRecallDisplay.from_predictions(
    y_test, y_score, name="LinearSVC", plot_chance_level=True, despine=True
)
_ = display.ax_.set_title("2-class Precision-Recall curve")

In Multi-Label-Einstellungen#

Die Precision-Recall-Kurve unterstützt nicht das Multi-Label-Setting. Man kann jedoch entscheiden, wie man diesen Fall behandelt. Wir zeigen unten ein solches Beispiel.

Erstellen von Multi-Label-Daten, Anpassen und Vorhersagen#

Wir erstellen einen Multi-Label-Datensatz, um die Präzision-Recall in Multi-Label-Einstellungen zu illustrieren.

from sklearn.preprocessing import label_binarize

# Use label_binarize to be multi-label like settings
Y = label_binarize(y, classes=[0, 1, 2])
n_classes = Y.shape[1]

# Split into training and test
X_train, X_test, Y_train, Y_test = train_test_split(
    X, Y, test_size=0.5, random_state=random_state
)

Wir verwenden OneVsRestClassifier für Multi-Label-Vorhersagen.

from sklearn.multiclass import OneVsRestClassifier

classifier = OneVsRestClassifier(
    make_pipeline(StandardScaler(), LinearSVC(random_state=random_state))
)
classifier.fit(X_train, Y_train)
y_score = classifier.decision_function(X_test)

Der Average Precision Score in Multi-Label-Einstellungen#

from sklearn.metrics import average_precision_score, precision_recall_curve

# For each class
precision = dict()
recall = dict()
average_precision = dict()
for i in range(n_classes):
    precision[i], recall[i], _ = precision_recall_curve(Y_test[:, i], y_score[:, i])
    average_precision[i] = average_precision_score(Y_test[:, i], y_score[:, i])

# A "micro-average": quantifying score on all classes jointly
precision["micro"], recall["micro"], _ = precision_recall_curve(
    Y_test.ravel(), y_score.ravel()
)
average_precision["micro"] = average_precision_score(Y_test, y_score, average="micro")

Plotten der mikro-gemittelten Precision-Recall-Kurve#

from collections import Counter

display = PrecisionRecallDisplay(
    recall=recall["micro"],
    precision=precision["micro"],
    average_precision=average_precision["micro"],
    prevalence_pos_label=Counter(Y_test.ravel())[1] / Y_test.size,
)
display.plot(plot_chance_level=True, despine=True)
_ = display.ax_.set_title("Micro-averaged over all classes")

Plotten der Precision-Recall-Kurve für jede Klasse und Iso-F1-Kurven#

from itertools import cycle

import matplotlib.pyplot as plt

# setup plot details
colors = cycle(["navy", "turquoise", "darkorange", "cornflowerblue", "teal"])

_, ax = plt.subplots(figsize=(7, 8))

f_scores = np.linspace(0.2, 0.8, num=4)
lines, labels = [], []
for f_score in f_scores:
    x = np.linspace(0.01, 1)
    y = f_score * x / (2 * x - f_score)
    (l,) = plt.plot(x[y >= 0], y[y >= 0], color="gray", alpha=0.2)
    plt.annotate("f1={0:0.1f}".format(f_score), xy=(0.9, y[45] + 0.02))

display = PrecisionRecallDisplay(
    recall=recall["micro"],
    precision=precision["micro"],
    average_precision=average_precision["micro"],
)
display.plot(ax=ax, name="Micro-average precision-recall", color="gold")

for i, color in zip(range(n_classes), colors):
    display = PrecisionRecallDisplay(
        recall=recall[i],
        precision=precision[i],
        average_precision=average_precision[i],
    )
    display.plot(
        ax=ax, name=f"Precision-recall for class {i}", color=color, despine=True
    )

# add the legend for the iso-f1 curves
handles, labels = display.ax_.get_legend_handles_labels()
handles.extend([l])
labels.extend(["iso-f1 curves"])
# set the legend and the axes
ax.legend(handles=handles, labels=labels, loc="best")
ax.set_title("Extension of Precision-Recall curve to multi-class")

plt.show()

Extension of Precision-Recall curve to multi-class

Gesamtlaufzeit des Skripts: (0 Minuten 2,113 Sekunden)

Verwandte Beispiele

Benutzerdefinierte Refit-Strategie einer Gitter-Suche mit Kreuzvalidierung

Visualisierungen mit Display-Objekten

Schwachstellen-Inverse Kovarianzschätzung

Post-Hoc-Anpassung des Entscheidungsschwellenwerts für kostenempfindliches Lernen

Galerie generiert von Sphinx-Gallery

	steps steps: list of tuples Liste von Tupeln (Name des Schritts, Schätzer), die in sequenzieller Reihenfolge verkettet werden sollen. Um mit der scikit-learn API kompatibel zu sein, müssen alle Schritte `fit` definieren. Alle nicht letzten Schritte müssen auch `transform` definieren. Siehe :ref:`Kombination von Schätzern ` für weitere Details.	[('standardscaler', ...), ('linearsvc', ...)]
	transform_input transform_input: list of str, default=None Die Namen der :term:`Metadaten`-Parameter, die von der Pipeline transformiert werden sollen, bevor sie an den Schritt übergeben werden, der sie benötigt. Dies ermöglicht die Transformation einiger Eingabeparameter zu ``fit`` (außer ``X``), die von den Schritten der Pipeline bis zu dem Schritt transformiert werden, der sie benötigt. Die Anforderung wird über :ref:`Metadaten-Routing ` definiert. Dies kann beispielsweise verwendet werden, um einen Validierungsdatensatz durch die Pipeline zu leiten. Sie können dies nur festlegen, wenn das Metadaten-Routing aktiviert ist, was Sie mit ``sklearn.set_config(enable_metadata_routing=True)`` aktivieren können. .. versionadded:: 1.6	None
	memory memory: str oder Objekt mit der joblib.Memory-Schnittstelle, default=None Wird zum Zwischenspeichern der angepassten Transformer der Pipeline verwendet. Der letzte Schritt wird niemals zwischengespeichert, auch wenn es sich um einen Transformer handelt. Standardmäßig erfolgt keine Zwischenspeicherung. Wenn ein String angegeben wird, ist dies der Pfad zum Zwischenspeicherverzeichnis. Durch Aktivieren der Zwischenspeicherung wird eine Kopie der Transformer vor dem Anpassen ausgelöst. Daher kann die an die Pipeline übergebene Transformer-Instanz nicht direkt inspiziert werden. Verwenden Sie das Attribut `named_steps` oder `steps`, um Schätzer innerhalb der Pipeline zu inspizieren. Das Zwischenspeichern der Transformer ist vorteilhaft, wenn das Anpassen zeitaufwändig ist. Siehe :ref:`sphx_glr_auto_examples_neighbors_plot_caching_nearest_neighbors.py` für ein Beispiel zur Aktivierung der Zwischenspeicherung.	None
	verbose verbose: bool, default=False Wenn True, wird die verstrichene Zeit während des Anpassens jedes Schritts gedruckt, wenn es abgeschlossen ist.	False

	penalty penalty: {'l1', 'l2'}, Standard='l2' Gibt die Norm an, die bei der Penalizierung verwendet wird. Die 'l2'-Penalizierung ist die Standardeinstellung bei SVC. Die 'l1'-Penalizierung führt zu spärlichen ``coef_``-Vektoren.	'l2'
	loss loss: {'hinge', 'squared_hinge'}, Standard='squared_hinge' Gibt die Verlustfunktion an. 'hinge' ist der Standard-SVM-Verlust (z. B. von der SVC-Klasse verwendet), während 'squared_hinge' das Quadrat des Hinge-Verlusts ist. Die Kombination von ``penalty='l1'`` und ``loss='hinge'`` wird nicht unterstützt.	'squared_hinge'
	dual dual: "auto" oder bool, Standard="auto" Wählt den Algorithmus, um entweder das duale oder das primale Optimierungsproblem zu lösen. Bevorzugen Sie dual=False, wenn n_samples > n_features. `dual="auto"` wählt den Wert des Parameters automatisch basierend auf den Werten von `n_samples`, `n_features`, `loss`, `multi_class` und `penalty` aus. Wenn `n_samples` < `n_features` und der Optimierer den gewählten `loss`, `multi_class` und `penalty` unterstützt, wird dual auf True gesetzt, andernfalls wird es auf False gesetzt. .. versionchanged:: 1.3 Die Option `"auto"` wurde in Version 1.3 hinzugefügt und wird in Version 1.5 Standard sein.	'auto'
	tol tol: float, default=1e-4 Toleranz für Abbruchkriterien.	0.0001
	C C: float, Standard=1.0 Regularisierungsparameter. Die Stärke der Regularisierung ist umgekehrt proportional zu C. Muss strikt positiv sein. Für eine intuitive Visualisierung der Auswirkungen der Skalierung des Regularisierungsparameters C siehe :ref:`sphx_glr_auto_examples_svm_plot_svm_scale_c.py`.	1.0
	multi_class multi_class: {'ovr', 'crammer_singer'}, Standard='ovr' Bestimmt die Multiklassenstrategie, wenn `y` mehr als zwei Klassen enthält. ``"ovr"`` trainiert n_Klassen One-vs-Rest-Klassifikatoren, während ``"crammer_singer"`` ein gemeinsames Ziel über alle Klassen optimiert. Während `crammer_singer` aus theoretischer Sicht interessant ist, da er konsistent ist, wird er in der Praxis selten verwendet, da er selten zu besseren Genauigkeiten führt und teurer zu berechnen ist. Wenn ``"crammer_singer"`` gewählt wird, werden die Optionen loss, penalty und dual ignoriert.	'ovr'
	fit_intercept fit_intercept: bool, Standard=True Ob ein Achsenabschnitt angepasst werden soll oder nicht. Wenn auf True gesetzt, wird der Merkmalsvektor erweitert, um einen Achsenabschnittsterm aufzunehmen: `[x_1, ..., x_n, 1]`, wobei 1 dem Achsenabschnitt entspricht. Wenn auf False gesetzt, wird kein Achsenabschnitt in den Berechnungen verwendet (d. h. die Daten werden als zentriert erwartet).	True
	intercept_scaling intercept_scaling: float, default=1.0 Wenn `fit_intercept` True ist, wird der Instanzvektor x zu ``[x_1, ..., x_n, intercept_scaling]``, d. h. ein "synthetisches" Merkmal mit einem konstanten Wert gleich `intercept_scaling` wird an den Instanzvektor angehängt. Der Achsenabschnitt wird zu intercept_scaling * Gewicht des synthetischen Merkmals. Beachten Sie, dass liblinear intern den Achsenabschnitt bestraft und ihn wie jeden anderen Term im Merkmalsvektor behandelt. Um die Auswirkung der Regularisierung auf den Achsenabschnitt zu verringern, kann der Parameter `intercept_scaling` auf einen Wert größer als 1 gesetzt werden; je höher der Wert von `intercept_scaling`, desto geringer die Auswirkung der Regularisierung darauf. Dann werden die Gewichte zu `[w_x_1, ..., w_x_n, w_intercept*intercept_scaling]`, wobei `w_x_1, ..., w_x_n` die Merkmalgewichte darstellen und das Gewicht des Achsenabschnitts mit `intercept_scaling` skaliert wird. Diese Skalierung ermöglicht es dem Achsenabschnittsterm, ein anderes Regularisierungsverhalten zu haben als die anderen Merkmale.	1
	class_weight class_weight: dict oder 'balanced', Standard=None Setzt den Parameter C der Klasse i auf ``class_weight[i]C`` für SVC. Wenn nicht angegeben, wird angenommen, dass alle Klassen das Gewicht eins haben. Der Modus "balanced" verwendet die Werte von y, um die Gewichte automatisch umgekehrt proportional zu den Klassenhäufigkeiten in den Eingabedaten als ``n_samples / (n_classes np.bincount(y))`` anzupassen.	None
	verbose verbose: int, Standard=0 Aktiviert die detaillierte Ausgabe. Beachten Sie, dass diese Einstellung eine prozessinterne Laufzeiteinstellung in liblinear nutzt, die, wenn sie aktiviert ist, in einer Multithread-Umgebung möglicherweise nicht richtig funktioniert.	0
	random_state random_state: int, RandomState-Instanz oder None, Standard=None Steuert die pseudo-zufällige Zahlengenerierung zum Mischen der Daten für die duale Koordinatenabstiegsmethode (wenn ``dual=True``). Wenn ``dual=False`` ist, ist die zugrundeliegende Implementierung von :class:`LinearSVC` nicht zufällig und ``random_state`` hat keine Auswirkungen auf die Ergebnisse. Geben Sie eine Ganzzahl für reproduzierbare Ausgaben über mehrere Funktionsaufrufe an. Siehe :term:`Glossary `.	RandomState(M...0x7FB4A32A1040
	max_iter max_iter: int, Standard=1000 Die maximale Anzahl der durchzuführenden Iterationen.	1000

	copy copy: bool, Standard=True Wenn False, versuchen Sie, eine Kopie zu vermeiden und stattdessen direkt zu skalieren. Dies ist nicht garantiert, dass es immer direkt funktioniert; z.B. wenn die Daten kein NumPy-Array oder eine scipy.sparse CSR-Matrix sind, kann immer noch eine Kopie zurückgegeben werden.	True
	with_mean with_mean: bool, Standard=True Wenn True, zentrieren Sie die Daten vor der Skalierung. Dies funktioniert nicht (und löst eine Ausnahme aus), wenn versucht, auf Sparse-Matrizen angewendet zu werden, da deren Zentrierung den Aufbau einer dichten Matrix erfordert, die in gängigen Anwendungsfällen wahrscheinlich zu groß ist, um in den Speicher zu passen.	True
	with_std with_std: bool, Standard=True Wenn True, skalieren Sie die Daten auf Einheitsvarianz (oder äquivalent, Einheitsstandardabweichung).	True