Hinweis

Zum Ende springen, um den vollständigen Beispielcode herunterzuladen oder dieses Beispiel über JupyterLite oder Binder in Ihrem Browser auszuführen.

Nachbearbeitung des Entscheidungsschwellenwerts für kostenorientiertes Lernen#

Sobald ein Klassifikator trainiert ist, gibt die Ausgabe der Methode predict Klassenvorhersagen aus, die einer Schwellenwertbildung entweder der Ausgabe von decision_function oder von predict_proba entsprechen. Für einen binären Klassifikator ist der Standard-Schwellenwert eine Schätzung der Posterior-Wahrscheinlichkeit von 0,5 oder ein Entscheidungswert von 0,0.

Diese Standardstrategie ist jedoch für die jeweilige Aufgabe höchstwahrscheinlich nicht optimal. Hier verwenden wir den "Statlog" German Credit Datensatz [1], um einen Anwendungsfall zu veranschaulichen. In diesem Datensatz besteht die Aufgabe darin, vorherzusagen, ob eine Person eine "gute" oder "schlechte" Bonität hat. Darüber hinaus wird eine Kostenmatrix bereitgestellt, die die Kosten für Fehlklassifizierungen angibt. Insbesondere ist die Fehlklassifizierung eines "schlechten" Kredits als "gut" im Durchschnitt fünfmal teurer als die Fehlklassifizierung eines "guten" Kredits als "schlecht".

Wir verwenden TunedThresholdClassifierCV, um den Grenzwert der Entscheidungfunktion auszuwählen, der die angegebene geschäftliche Kosten minimiert.

Im zweiten Teil des Beispiels erweitern wir diesen Ansatz weiter, indem wir das Problem der Betrugserkennung bei Kreditkartentransaktionen betrachten: In diesem Fall hängt die geschäftliche Kennzahl vom Betrag jeder einzelnen Transaktion ab.

Referenzen

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

Kostenorientiertes Lernen mit konstanten Gewinnen und Kosten#

In diesem ersten Abschnitt veranschaulichen wir die Verwendung von TunedThresholdClassifierCV in einem Szenario des kostenorientierten Lernens, wenn die Gewinne und Kosten, die mit jedem Eintrag der Konfusionsmatrix verbunden sind, konstant sind. Wir verwenden das Problem, das in [2] mit dem "Statlog" German Credit Datensatz [1] vorgestellt wurde.

"Statlog" German Credit Datensatz#

Wir laden den German Credit Datensatz von OpenML.

import sklearn
from sklearn.datasets import fetch_openml

sklearn.set_config(transform_output="pandas")

german_credit = fetch_openml(data_id=31, as_frame=True, parser="pandas")
X, y = german_credit.data, german_credit.target

Wir prüfen die verfügbaren Merkmalstypen in X.

X.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 20 columns):
 #   Column                  Non-Null Count  Dtype
---  ------                  --------------  -----
 checking_status         1000 non-null   category
 duration                1000 non-null   int64
 credit_history          1000 non-null   category
 purpose                 1000 non-null   category
 credit_amount           1000 non-null   int64
 savings_status          1000 non-null   category
 employment              1000 non-null   category
 installment_commitment  1000 non-null   int64
 personal_status         1000 non-null   category
 other_parties           1000 non-null   category
residence_since         1000 non-null   int64
property_magnitude      1000 non-null   category
age                     1000 non-null   int64
other_payment_plans     1000 non-null   category
housing                 1000 non-null   category
existing_credits        1000 non-null   int64
job                     1000 non-null   category
num_dependents          1000 non-null   int64
own_telephone           1000 non-null   category
foreign_worker          1000 non-null   category
dtypes: category(13), int64(7)
memory usage: 69.9 KB

Viele Merkmale sind kategorial und typischerweise als Zeichenketten kodiert. Wir müssen diese Kategorien kodieren, wenn wir unser Vorhersagemodell entwickeln. Lassen Sie uns die Zielvariablen überprüfen.

y.value_counts()

class
good    700
bad     300
Name: count, dtype: int64

Eine weitere Beobachtung ist, dass der Datensatz unausgeglichen ist. Wir müssen bei der Bewertung unseres Vorhersagemodells vorsichtig sein und eine Familie von Metriken verwenden, die für dieses Szenario angepasst sind.

Darüber hinaus stellen wir fest, dass die Zielvariable als Zeichenkette kodiert ist. Einige Metriken (z. B. Präzision und Recall) erfordern die Angabe des interessierenden Labels, auch "positives Label" genannt. Hier definieren wir, dass unser Ziel darin besteht, vorherzusagen, ob eine Stichprobe einen "schlechten" oder keinen "schlechten" Kredit hat.

pos_label, neg_label = "bad", "good"

Um unsere Analyse durchzuführen, teilen wir unseren Datensatz mit einer einzigen geschichteten Aufteilung auf.

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=0)

Wir sind bereit, unser Vorhersagemodell und die zugehörige Bewertungsstrategie zu entwerfen.

Bewertungsmetriken#

In diesem Abschnitt definieren wir eine Reihe von Metriken, die wir später verwenden. Um den Effekt der Anpassung des Grenzwerts zu sehen, bewerten wir das Vorhersagemodell anhand der Receiver Operating Characteristic (ROC)-Kurve und der Precision-Recall-Kurve. Die auf diesen Diagrammen dargestellten Werte sind daher die True Positive Rate (TPR), auch bekannt als Recall oder Sensitivität, und die False Positive Rate (FPR), auch bekannt als Spezifität, für die ROC-Kurve sowie Präzision und Recall für die Precision-Recall-Kurve.

Von diesen vier Metriken stellt scikit-learn keinen Score für die FPR zur Verfügung. Wir müssen daher eine kleine benutzerdefinierte Funktion definieren, um diese zu berechnen.

from sklearn.metrics import confusion_matrix


def fpr_score(y, y_pred, neg_label, pos_label):
    cm = confusion_matrix(y, y_pred, labels=[neg_label, pos_label])
    tn, fp, _, _ = cm.ravel()
    tnr = tn / (tn + fp)
    return 1 - tnr

Wie bereits erwähnt, ist das "positive Label" nicht als Wert "1" definiert, und das Aufrufen einiger Metriken mit diesem nicht standardmäßigen Wert führt zu einem Fehler. Wir müssen den Metriken die Angabe des "positiven Labels" übergeben.

Wir definieren daher einen scikit-learn-Score mit make_scorer, bei dem die Informationen übergeben werden. Wir speichern alle benutzerdefinierten Scores in einem Wörterbuch. Um sie zu verwenden, müssen wir das trainierte Modell, die Daten und die Zielvariable übergeben, auf der wir das Vorhersagemodell bewerten möchten.

from sklearn.metrics import make_scorer, precision_score, recall_score

tpr_score = recall_score  # TPR and recall are the same metric
scoring = {
    "precision": make_scorer(precision_score, pos_label=pos_label),
    "recall": make_scorer(recall_score, pos_label=pos_label),
    "fpr": make_scorer(fpr_score, neg_label=neg_label, pos_label=pos_label),
    "tpr": make_scorer(tpr_score, pos_label=pos_label),
}

Darüber hinaus definiert die Originalforschung [1] eine benutzerdefinierte Geschäftsmetrik. Wir bezeichnen eine "Geschäftsmetrik" als jede Metrikfunktion, die quantifizieren soll, wie sich die Vorhersagen (korrekt oder falsch) auf den Geschäftswert der Bereitstellung eines bestimmten Machine-Learning-Modells in einem spezifischen Anwendungskontext auswirken könnten. Für unsere Kreditvorhersageaufgabe stellen die Autoren eine benutzerdefinierte Kostenmatrix zur Verfügung, die besagt, dass die Klassifizierung eines "schlechten" Kredits als "gut" 5-mal teurer ist als das Gegenteil: Für das Finanzinstitut ist es weniger kostspielig, einem potenziellen Kunden, der nicht ausfällt, keinen Kredit zu gewähren (und somit einen guten Kunden zu verpassen, der ansonsten sowohl den Kredit zurückgezahlt als auch Zinsen gezahlt hätte), als einem Kunden, der ausfällt, einen Kredit zu gewähren.

Wir definieren eine Python-Funktion, die die Konfusionsmatrix gewichtet und die Gesamtkosten zurückgibt. Die Zeilen der Konfusionsmatrix enthalten die Zählungen der beobachteten Klassen, während die Spalten die Zählungen der vorhergesagten Klassen enthalten. Denken Sie daran, dass wir hier "schlecht" als positive Klasse betrachten (zweite Zeile und Spalte). Scikit-learn-Modellauswahl-Tools erwarten, dass wir die Konvention einhalten, dass "höher" "besser" bedeutet. Daher weist die folgende Gewinnmatrix den beiden Arten von Vorhersagefehlern negative Gewinne (Kosten) zu:

ein Gewinn von -1 für jeden falsch positiven Fall ("guter" Kredit als "schlecht" eingestuft),
ein Gewinn von -5 für jeden falsch negativen Fall ("schlechter" Kredit als "gut" eingestuft),
ein Gewinn von 0 für richtig positive und richtig negative Fälle.

Beachten Sie, dass wir theoretisch, da unser Modell kalibriert ist und unser Datensatz repräsentativ und ausreichend groß ist, den Schwellenwert nicht anpassen müssen, sondern ihn sicher auf 1/5 des Kostenverhältnisses setzen können, wie in Gleichung (2) in Elkans Arbeit angegeben [2].

import numpy as np


def credit_gain_score(y, y_pred, neg_label, pos_label):
    cm = confusion_matrix(y, y_pred, labels=[neg_label, pos_label])

    gain_matrix = np.array(
        [
            [0, -1],  # -1 gain for false positives
            [-5, 0],  # -5 gain for false negatives
        ]
    )
    return np.sum(cm * gain_matrix)


scoring["credit_gain"] = make_scorer(
    credit_gain_score, neg_label=neg_label, pos_label=pos_label
)

Vanilla-Vorhersagemodell#

Wir verwenden HistGradientBoostingClassifier als Vorhersagemodell, das kategoriale Merkmale und fehlende Werte nativ verarbeitet.

from sklearn.ensemble import HistGradientBoostingClassifier

model = HistGradientBoostingClassifier(
    categorical_features="from_dtype", random_state=0
).fit(X_train, y_train)
model

HistGradientBoostingClassifier(random_state=0)

In einer Jupyter-Umgebung führen Sie diese Zelle bitte erneut aus, um die HTML-Darstellung anzuzeigen, oder vertrauen Sie dem Notebook.
Auf GitHub kann die HTML-Darstellung nicht gerendert werden. Versuchen Sie bitte, diese Seite mit nbviewer.org zu laden.

Wir bewerten die Leistung unseres Vorhersagemodells mithilfe der ROC- und Precision-Recall-Kurven.

import matplotlib.pyplot as plt

from sklearn.metrics import PrecisionRecallDisplay, RocCurveDisplay

fig, axs = plt.subplots(nrows=1, ncols=2, figsize=(14, 6))

PrecisionRecallDisplay.from_estimator(
    model, X_test, y_test, pos_label=pos_label, ax=axs[0], name="GBDT"
)
axs[0].plot(
    scoring["recall"](model, X_test, y_test),
    scoring["precision"](model, X_test, y_test),
    marker="o",
    markersize=10,
    color="tab:blue",
    label="Default cut-off point at a probability of 0.5",
)
axs[0].set_title("Precision-Recall curve")
axs[0].legend()

RocCurveDisplay.from_estimator(
    model,
    X_test,
    y_test,
    pos_label=pos_label,
    ax=axs[1],
    name="GBDT",
    plot_chance_level=True,
)
axs[1].plot(
    scoring["fpr"](model, X_test, y_test),
    scoring["tpr"](model, X_test, y_test),
    marker="o",
    markersize=10,
    color="tab:blue",
    label="Default cut-off point at a probability of 0.5",
)
axs[1].set_title("ROC curve")
axs[1].legend()
_ = fig.suptitle("Evaluation of the vanilla GBDT model")

Evaluation of the vanilla GBDT model, Precision-Recall curve, ROC curve

Wir erinnern uns, dass diese Kurven Einblicke in die statistische Leistung des Vorhersagemodells für verschiedene Schwellenwerte geben. Für die Precision-Recall-Kurve sind die berichteten Metriken die Präzision und der Recall, und für die ROC-Kurve sind die berichteten Metriken die TPR (gleich dem Recall) und die FPR.

Hier entsprechen die verschiedenen Schwellenwerte unterschiedlichen Ebenen der Posterior-Wahrscheinlichkeitsschätzungen im Bereich von 0 bis 1. Standardmäßig verwendet model.predict einen Schwellenwert von 0,5 Wahrscheinlichkeitsschätzung. Die Metriken für einen solchen Schwellenwert werden mit dem blauen Punkt auf den Kurven dargestellt: Es entspricht der statistischen Leistung des Modells bei Verwendung von model.predict.

Wir erinnern uns jedoch, dass das ursprüngliche Ziel darin bestand, die Kosten zu minimieren (oder den Gewinn zu maximieren), wie in der Geschäftsmetrik definiert. Wir können den Wert der Geschäftsmetrik berechnen

print(f"Business defined metric: {scoring['credit_gain'](model, X_test, y_test)}")

Business defined metric: -232

An diesem Punkt wissen wir nicht, ob ein anderer Schwellenwert zu einem größeren Gewinn führen kann. Um den optimalen zu finden, müssen wir den Kosten-Gewinn mithilfe der Geschäftsmetrik für alle möglichen Schwellenwerte berechnen und den besten auswählen. Diese Strategie kann von Hand etwas mühsam zu implementieren sein, aber die Klasse TunedThresholdClassifierCV ist hier, um uns zu helfen. Sie berechnet automatisch die Kosten-Gewinne für alle möglichen Schwellenwerte und optimiert für das `scoring`.

Anpassung des Entscheidungsschwellenwerts#

Wir verwenden TunedThresholdClassifierCV, um den Entscheidungsschwellenwert anzupassen. Wir müssen die zu optimierende Geschäftsmetrik sowie das positive Label angeben. Intern wird der optimale Entscheidungsschwellenwert so gewählt, dass er die Geschäftsmetrik über Kreuzvalidierung maximiert. Standardmäßig wird eine 5-fache geschichtete Kreuzvalidierung verwendet.

from sklearn.model_selection import TunedThresholdClassifierCV

tuned_model = TunedThresholdClassifierCV(
    estimator=model,
    scoring=scoring["credit_gain"],
    store_cv_results=True,  # necessary to inspect all results
)
tuned_model.fit(X_train, y_train)
print(f"{tuned_model.best_threshold_=:0.2f}")

tuned_model.best_threshold_=0.02

Wir plotten die ROC- und Precision-Recall-Kurven für das Vanilla-Modell und das angepasste Modell. Außerdem plotten wir die Entscheidungsschwellenwerte, die jedes Modell verwenden würde. Da wir später denselben Code wiederverwenden, definieren wir eine Funktion, die die Plots generiert.

def plot_roc_pr_curves(vanilla_model, tuned_model, *, title):
    fig, axs = plt.subplots(nrows=1, ncols=3, figsize=(21, 6))

    linestyles = ("dashed", "dotted")
    markerstyles = ("o", ">")
    colors = ("tab:blue", "tab:orange")
    names = ("Vanilla GBDT", "Tuned GBDT")
    for idx, (est, linestyle, marker, color, name) in enumerate(
        zip((vanilla_model, tuned_model), linestyles, markerstyles, colors, names)
    ):
        decision_threshold = getattr(est, "best_threshold_", 0.5)
        PrecisionRecallDisplay.from_estimator(
            est,
            X_test,
            y_test,
            pos_label=pos_label,
            linestyle=linestyle,
            color=color,
            ax=axs[0],
            name=name,
        )
        axs[0].plot(
            scoring["recall"](est, X_test, y_test),
            scoring["precision"](est, X_test, y_test),
            marker,
            markersize=10,
            color=color,
            label=f"Cut-off point at probability of {decision_threshold:.2f}",
        )
        RocCurveDisplay.from_estimator(
            est,
            X_test,
            y_test,
            pos_label=pos_label,
            curve_kwargs=dict(linestyle=linestyle, color=color),
            ax=axs[1],
            name=name,
            plot_chance_level=idx == 1,
        )
        axs[1].plot(
            scoring["fpr"](est, X_test, y_test),
            scoring["tpr"](est, X_test, y_test),
            marker,
            markersize=10,
            color=color,
            label=f"Cut-off point at probability of {decision_threshold:.2f}",
        )

    axs[0].set_title("Precision-Recall curve")
    axs[0].legend()
    axs[1].set_title("ROC curve")
    axs[1].legend()

    axs[2].plot(
        tuned_model.cv_results_["thresholds"],
        tuned_model.cv_results_["scores"],
        color="tab:orange",
    )
    axs[2].plot(
        tuned_model.best_threshold_,
        tuned_model.best_score_,
        "o",
        markersize=10,
        color="tab:orange",
        label="Optimal cut-off point for the business metric",
    )
    axs[2].legend()
    axs[2].set_xlabel("Decision threshold (probability)")
    axs[2].set_ylabel("Objective score (using cost-matrix)")
    axs[2].set_title("Objective score as a function of the decision threshold")
    fig.suptitle(title)

title = "Comparison of the cut-off point for the vanilla and tuned GBDT model"
plot_roc_pr_curves(model, tuned_model, title=title)

Comparison of the cut-off point for the vanilla and tuned GBDT model, Precision-Recall curve, ROC curve, Objective score as a function of the decision threshold

Die erste Bemerkung ist, dass beide Klassifikatoren exakt dieselben ROC- und Precision-Recall-Kurven haben. Dies ist zu erwarten, da der Klassifikator standardmäßig auf denselben Trainingsdaten trainiert wird. In einem späteren Abschnitt werden wir die verfügbaren Optionen bezüglich Modellretraining und Kreuzvalidierung ausführlicher diskutieren.

Die zweite Bemerkung ist, dass die Entscheidungsschwellenwerte des Vanilla- und des angepassten Modells unterschiedlich sind. Um zu verstehen, warum das angepasste Modell diesen Entscheidungsschwellenwert gewählt hat, können wir uns das Diagramm auf der rechten Seite ansehen, das den Zielfunktionswert plottet, der exakt derselbe wie unsere Geschäftsmetrik ist. Wir sehen, dass der optimale Schwellenwert dem Maximum des Zielfunktionswerts entspricht. Dieses Maximum wird für einen Entscheidungsschwellenwert erreicht, der viel niedriger als 0,5 ist: Das angepasste Modell erzielt einen viel höheren Recall auf Kosten einer signifikant niedrigeren Präzision: Das angepasste Modell ist viel eifriger, das "schlechte" Klassenlabel einem größeren Anteil von Personen zuzuordnen.

Wir können nun prüfen, ob die Wahl dieses Entscheidungsschwellenwerts zu einem besseren Score auf dem Testdatensatz führt

print(f"Business defined metric: {scoring['credit_gain'](tuned_model, X_test, y_test)}")

Business defined metric: -134

Wir beobachten, dass die Anpassung des Entscheidungsschwellenwerts unsere geschäftlichen Gewinne fast verdoppelt.

Überlegungen zu Modellretraining und Kreuzvalidierung#

Im obigen Experiment haben wir die Standardeinstellungen von TunedThresholdClassifierCV verwendet. Insbesondere wird der Entscheidungsschwellenwert mithilfe einer 5-fachen geschichteten Kreuzvalidierung angepasst. Außerdem wird das zugrunde liegende Vorhersagemodell nach Auswahl des Entscheidungsschwellenwerts auf den gesamten Trainingsdaten neu trainiert.

Diese beiden Strategien können durch Angabe der Parameter refit und cv geändert werden. Man könnte beispielsweise einen trainierten estimator angeben und cv="prefit" setzen, in diesem Fall wird der Entscheidungsschwellenwert auf dem gesamten zum Zeitpunkt des Trainings bereitgestellten Datensatz ermittelt. Außerdem wird der zugrunde liegende Klassifikator durch Setzen von refit=False nicht neu trainiert. Hier können wir versuchen, ein solches Experiment durchzuführen.

model.fit(X_train, y_train)
tuned_model.set_params(cv="prefit", refit=False).fit(X_train, y_train)
print(f"{tuned_model.best_threshold_=:0.2f}")

tuned_model.best_threshold_=0.28

Dann bewerten wir unser Modell mit demselben Ansatz wie zuvor

title = "Tuned GBDT model without refitting and using the entire dataset"
plot_roc_pr_curves(model, tuned_model, title=title)

Tuned GBDT model without refitting and using the entire dataset, Precision-Recall curve, ROC curve, Objective score as a function of the decision threshold

Wir stellen fest, dass der optimale Entscheidungsschwellenwert von dem im vorherigen Experiment gefundenen abweicht. Wenn wir uns das Diagramm auf der rechten Seite ansehen, stellen wir fest, dass der geschäftliche Gewinn ein breites Plateau mit einem nahezu optimalen Gewinn von 0 über einen großen Bereich von Entscheidungsschwellenwerten aufweist. Dieses Verhalten ist symptomatisch für Overfitting. Da wir die Kreuzvalidierung deaktiviert haben, haben wir den Entscheidungsschwellenwert auf demselben Satz wie das trainierte Modell angepasst, und das ist der Grund für das beobachtete Overfitting.

Diese Option sollte daher mit Vorsicht verwendet werden. Man muss sicherstellen, dass die zum Trainieren des `estimator` an TunedThresholdClassifierCV bereitgestellten Daten nicht dieselben sind wie die Daten, die zum Trainieren des zugrunde liegenden Klassifikators verwendet wurden. Dies kann manchmal vorkommen, wenn die Idee darin besteht, das Vorhersagemodell einfach auf einem völlig neuen Validierungsdatensatz zu optimieren, ohne ein kostspieliges vollständiges Retraining.

Wenn die Kreuzvalidierung zu kostspielig ist, ist eine mögliche Alternative die Verwendung einer einzigen Train-Test-Aufteilung, indem eine Gleitkommazahl im Bereich [0, 1] für den Parameter cv angegeben wird. Dies teilt die Daten in einen Trainings- und einen Testsatz auf. Lassen Sie uns diese Option untersuchen

tuned_model.set_params(cv=0.75).fit(X_train, y_train)

TunedThresholdClassifierCV(cv=0.75,
                           estimator=HistGradientBoostingClassifier(random_state=0),
                           refit=False,
                           scoring=make_scorer(credit_gain_score, response_method='predict', neg_label=good, pos_label=bad),
                           store_cv_results=True)

In einer Jupyter-Umgebung führen Sie diese Zelle bitte erneut aus, um die HTML-Darstellung anzuzeigen, oder vertrauen Sie dem Notebook.
Auf GitHub kann die HTML-Darstellung nicht gerendert werden. Versuchen Sie bitte, diese Seite mit nbviewer.org zu laden.

title = "Tuned GBDT model without refitting and using the entire dataset"
plot_roc_pr_curves(model, tuned_model, title=title)

In Bezug auf den Entscheidungsschwellenwert beobachten wir, dass das Optimum dem Fall der mehrfachen wiederholten Kreuzvalidierung ähnelt. Seien Sie sich jedoch bewusst, dass ein einzelner Split die Variabilität des Fit/Predict-Prozesses nicht berücksichtigt und wir daher nicht wissen können, ob eine Varianz im Entscheidungsschwellenwert vorhanden ist. Die wiederholte Kreuzvalidierung mittelt diesen Effekt aus.

Eine weitere Beobachtung betrifft die ROC- und Precision-Recall-Kurven des angepassten Modells. Wie erwartet unterscheiden sich diese Kurven von denen des Vanilla-Modells, da wir den zugrunde liegenden Klassifikator auf einer Teilmenge der während des Trainings bereitgestellten Daten trainiert und einen Validierungsdatensatz für die Anpassung des Entscheidungsschwellenwerts reserviert haben.

Kostenorientiertes Lernen, wenn Gewinne und Kosten nicht konstant sind#

Wie in [2] angegeben, sind Gewinne und Kosten in realen Problemen im Allgemeinen nicht konstant. In diesem Abschnitt verwenden wir ein ähnliches Beispiel wie in [2] für das Problem der Erkennung von Betrug bei Kreditkartentransaktionsaufzeichnungen.

Der Kreditkartendatensatz#

credit_card = fetch_openml(data_id=1597, as_frame=True, parser="pandas")
credit_card.frame.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 284807 entries, 0 to 284806
Data columns (total 30 columns):
 #   Column  Non-Null Count   Dtype
---  ------  --------------   -----
 V1      284807 non-null  float64
 V2      284807 non-null  float64
 V3      284807 non-null  float64
 V4      284807 non-null  float64
 V5      284807 non-null  float64
 V6      284807 non-null  float64
 V7      284807 non-null  float64
 V8      284807 non-null  float64
 V9      284807 non-null  float64
 V10     284807 non-null  float64
V11     284807 non-null  float64
V12     284807 non-null  float64
V13     284807 non-null  float64
V14     284807 non-null  float64
V15     284807 non-null  float64
V16     284807 non-null  float64
V17     284807 non-null  float64
V18     284807 non-null  float64
V19     284807 non-null  float64
V20     284807 non-null  float64
V21     284807 non-null  float64
V22     284807 non-null  float64
V23     284807 non-null  float64
V24     284807 non-null  float64
V25     284807 non-null  float64
V26     284807 non-null  float64
V27     284807 non-null  float64
V28     284807 non-null  float64
Amount  284807 non-null  float64
Class   284807 non-null  category
dtypes: category(1), float64(29)
memory usage: 63.3 MB

Der Datensatz enthält Informationen über Kreditkarteneinträge, von denen einige betrügerisch und andere legitim sind. Das Ziel ist daher, vorherzusagen, ob ein Kreditkarteneintrag betrügerisch ist oder nicht.

columns_to_drop = ["Class"]
data = credit_card.frame.drop(columns=columns_to_drop)
target = credit_card.frame["Class"].astype(int)

Zuerst überprüfen wir die Klassenverteilung der Datensätze.

target.value_counts(normalize=True)

Class
0    0.998273
1    0.001727
Name: proportion, dtype: float64

Der Datensatz ist stark unausgeglichen, wobei betrügerische Transaktionen nur 0,17 % der Daten ausmachen. Da wir daran interessiert sind, ein Machine-Learning-Modell zu trainieren, sollten wir auch sicherstellen, dass wir genügend Stichproben in der Minderheitsklasse haben, um das Modell zu trainieren.

target.value_counts()

Class
0    284315
1       492
Name: count, dtype: int64

Wir stellen fest, dass wir ungefähr 500 Stichproben haben, was am unteren Ende der Anzahl der für das Training eines Machine-Learning-Modells erforderlichen Stichproben liegt. Zusätzlich zur Zielverteilung überprüfen wir die Verteilung des Betrags der betrügerischen Transaktionen.

fraud = target == 1
amount_fraud = data["Amount"][fraud]
_, ax = plt.subplots()
ax.hist(amount_fraud, bins=30)
ax.set_title("Amount of fraud transaction")
_ = ax.set_xlabel("Amount (€)")

Das Problem mit einer Geschäftsmetrik lösen#

Nun erstellen wir die Geschäftsmetrik, die vom Betrag jeder Transaktion abhängt. Wir definieren die Kostenmatrix ähnlich wie in [2]. Die Annahme einer legitimen Transaktion bringt einen Gewinn von 2 % des Transaktionsbetrags. Die Annahme einer betrügerischen Transaktion führt jedoch zu einem Verlust des Transaktionsbetrags. Wie in [2] angegeben, sind die Gewinne und Verluste im Zusammenhang mit Ablehnungen (von betrügerischen und legitimen Transaktionen) nicht einfach zu definieren. Hier definieren wir, dass die Ablehnung einer legitimen Transaktion mit einem Verlust von 5 € geschätzt wird, während die Ablehnung einer betrügerischen Transaktion mit einem Gewinn von 50 € geschätzt wird. Daher definieren wir die folgende Funktion, um den Gesamtgewinn einer gegebenen Entscheidung zu berechnen

def business_metric(y_true, y_pred, amount):
    mask_true_positive = (y_true == 1) & (y_pred == 1)
    mask_true_negative = (y_true == 0) & (y_pred == 0)
    mask_false_positive = (y_true == 0) & (y_pred == 1)
    mask_false_negative = (y_true == 1) & (y_pred == 0)
    fraudulent_refuse = mask_true_positive.sum() * 50
    fraudulent_accept = -amount[mask_false_negative].sum()
    legitimate_refuse = mask_false_positive.sum() * -5
    legitimate_accept = (amount[mask_true_negative] * 0.02).sum()
    return fraudulent_refuse + fraudulent_accept + legitimate_refuse + legitimate_accept

Aus dieser Geschäftsmetrik erstellen wir einen scikit-learn-Score, der, gegeben einen trainierten Klassifikator und einen Testdatensatz, die Geschäftsmetrik berechnet. In diesem Zusammenhang verwenden wir die Fabrik make_scorer. Die Variable amount ist ein zusätzliches Metadatum, das an den Score übergeben werden muss, und wir müssen Metadaten-Routing verwenden, um diese Informationen zu berücksichtigen.

sklearn.set_config(enable_metadata_routing=True)
business_scorer = make_scorer(business_metric).set_score_request(amount=True)

An diesem Punkt stellen wir fest, dass der Betrag der Transaktion zweimal verwendet wird: einmal als Merkmal zum Trainieren unseres Vorhersagemodells und einmal als Metadatum zur Berechnung der Geschäftsmetrik und damit der statistischen Leistung unseres Modells. Wenn es als Merkmal verwendet wird, benötigen wir nur eine Spalte in data, die den Betrag jeder Transaktion enthält. Um diese Informationen als Metadaten zu verwenden, benötigen wir eine externe Variable, die wir an den Score oder das Modell übergeben können, das diese Metadaten intern an den Score weiterleitet. Lassen Sie uns also diese Variable erstellen.

amount = credit_card.frame["Amount"].to_numpy()

from sklearn.model_selection import train_test_split

data_train, data_test, target_train, target_test, amount_train, amount_test = (
    train_test_split(
        data, target, amount, stratify=target, test_size=0.5, random_state=42
    )
)

Wir bewerten zunächst einige Basisrichtlinien als Referenz. Erinnern Sie sich, dass Klasse "0" die legitime Klasse und Klasse "1" die betrügerische Klasse ist.

from sklearn.dummy import DummyClassifier

always_accept_policy = DummyClassifier(strategy="constant", constant=0)
always_accept_policy.fit(data_train, target_train)
benefit = business_scorer(
    always_accept_policy, data_test, target_test, amount=amount_test
)
print(f"Benefit of the 'always accept' policy: {benefit:,.2f}€")

Benefit of the 'always accept' policy: 221,445.07€

Eine Richtlinie, die alle Transaktionen als legitim betrachtet, würde einen Gewinn von rund 220.000 € erzielen. Wir machen dieselbe Bewertung für einen Klassifikator, der alle Transaktionen als betrügerisch einstuft.

always_reject_policy = DummyClassifier(strategy="constant", constant=1)
always_reject_policy.fit(data_train, target_train)
benefit = business_scorer(
    always_reject_policy, data_test, target_test, amount=amount_test
)
print(f"Benefit of the 'always reject' policy: {benefit:,.2f}€")

Benefit of the 'always reject' policy: -698,490.00€

Eine solche Richtlinie würde zu einem katastrophalen Verlust führen: rund 670.000 €. Dies ist zu erwarten, da die überwiegende Mehrheit der Transaktionen legitim ist und die Richtlinie diese zu einem nicht unerheblichen Kostenpunkt ablehnen würde.

Ein Vorhersagemodell, das die Entscheidungen über Akzeptanz/Ablehnung pro Transaktion anpasst, sollte es uns idealerweise ermöglichen, einen Gewinn zu erzielen, der größer ist als die 220.000 € unserer besten konstanten Basisrichtlinien.

Wir beginnen mit einem logistischen Regressionsmodell mit dem Standard-Entscheidungsschwellenwert von 0,5. Hier passen wir den Hyperparameter C der logistischen Regression mit einer geeigneten Scoring-Regel (dem Log-Loss) an, um sicherzustellen, dass die vom `predict_proba`-Methode zurückgegebenen Wahrscheinlichkeitsvorhersagen des Modells so genau wie möglich sind, unabhängig von der Wahl des Entscheidungsschwellenwerts.

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler

logistic_regression = make_pipeline(StandardScaler(), LogisticRegression())
param_grid = {"logisticregression__C": np.logspace(-6, 6, 13)}
model = GridSearchCV(logistic_regression, param_grid, scoring="neg_log_loss").fit(
    data_train, target_train
)
model

GridSearchCV(estimator=Pipeline(steps=[('standardscaler', StandardScaler()),
                                       ('logisticregression',
                                        LogisticRegression())]),
             param_grid={'logisticregression__C': array([1.e-06, 1.e-05, 1.e-04, 1.e-03, 1.e-02, 1.e-01, 1.e+00, 1.e+01,
       1.e+02, 1.e+03, 1.e+04, 1.e+05, 1.e+06])},
             scoring='neg_log_loss')

In einer Jupyter-Umgebung führen Sie diese Zelle bitte erneut aus, um die HTML-Darstellung anzuzeigen, oder vertrauen Sie dem Notebook.
Auf GitHub kann die HTML-Darstellung nicht gerendert werden. Versuchen Sie bitte, diese Seite mit nbviewer.org zu laden.

print(
    "Benefit of logistic regression with default threshold: "
    f"{business_scorer(model, data_test, target_test, amount=amount_test):,.2f}€"
)

Benefit of logistic regression with default threshold: 244,919.87€

Die Geschäftsmetrik zeigt, dass unser Vorhersagemodell mit einem Standard-Entscheidungsschwellenwert bereits besser abschneidet als die Basisrichtlinie in Bezug auf den Gewinn, und es wäre bereits vorteilhaft, es zur Annahme oder Ablehnung von Transaktionen zu verwenden, anstatt alle Transaktionen zu akzeptieren.

Anpassung des Entscheidungsschwellenwerts#

Nun stellt sich die Frage: Ist unser Modell für die Art der Entscheidung, die wir treffen wollen, optimal? Bislang haben wir die Entscheidungsschwelle nicht optimiert. Wir verwenden TunedThresholdClassifierCV, um die Entscheidung anhand unseres Business-Scorers zu optimieren. Um eine verschachtelte Kreuzvalidierung zu vermeiden, verwenden wir den besten Schätzer, der während des vorherigen Grid-Search gefunden wurde.

tuned_model = TunedThresholdClassifierCV(
    estimator=model.best_estimator_,
    scoring=business_scorer,
    thresholds=100,
    n_jobs=2,
)

Da unser Business-Scorer den Betrag jeder Transaktion benötigt, müssen wir diese Information in der fit-Methode übergeben. Die TunedThresholdClassifierCV ist dafür zuständig, diese Metadaten automatisch an den zugrunde liegenden Scorer weiterzuleiten.

tuned_model.fit(data_train, target_train, amount=amount_train)

TunedThresholdClassifierCV(estimator=Pipeline(steps=[('standardscaler',
                                                      StandardScaler()),
                                                     ('logisticregression',
                                                      LogisticRegression(C=np.float64(100.0)))]),
                           n_jobs=2,
                           scoring=make_scorer(business_metric, response_method='predict'))

In einer Jupyter-Umgebung führen Sie diese Zelle bitte erneut aus, um die HTML-Darstellung anzuzeigen, oder vertrauen Sie dem Notebook.
Auf GitHub kann die HTML-Darstellung nicht gerendert werden. Versuchen Sie bitte, diese Seite mit nbviewer.org zu laden.

Wir beobachten, dass die abgestimmte Entscheidungsschwelle weit von den standardmäßigen 0,5 entfernt ist.

print(f"Tuned decision threshold: {tuned_model.best_threshold_:.2f}")

Tuned decision threshold: 0.03

print(
    "Benefit of logistic regression with a tuned threshold: "
    f"{business_scorer(tuned_model, data_test, target_test, amount=amount_test):,.2f}€"
)

Benefit of logistic regression with a tuned threshold: 249,433.39€

Wir beobachten, dass die Abstimmung der Entscheidungsschwelle den erwarteten Gewinn bei der Bereitstellung unseres Modells erhöht – wie durch die Geschäftsmetrik angezeigt. Es ist daher, wann immer möglich, wertvoll, die Entscheidungsschwelle in Bezug auf die Geschäftsmetrik zu optimieren.

Manuelles Setzen der Entscheidungsschwelle anstelle ihrer Abstimmung#

Im vorherigen Beispiel haben wir TunedThresholdClassifierCV verwendet, um die optimale Entscheidungsschwelle zu finden. In einigen Fällen haben wir jedoch möglicherweise Vorwissen über das vorliegende Problem und sind möglicherweise bereit, die Entscheidungsschwelle manuell festzulegen.

Die Klasse FixedThresholdClassifier ermöglicht es uns, die Entscheidungsschwelle manuell festzulegen. Zum Zeitpunkt der Vorhersage verhält sie sich wie das vorherige abgestimmte Modell, aber während des Anpassungsprozesses wird keine Suche durchgeführt. Beachten Sie, dass wir hier FrozenEstimator verwenden, um das prädiktive Modell zu umschließen, um ein erneutes Anpassen zu vermeiden.

Hier verwenden wir die im vorherigen Abschnitt gefundene Entscheidungsschwelle wieder, um ein neues Modell zu erstellen und zu überprüfen, ob es die gleichen Ergebnisse liefert.

from sklearn.frozen import FrozenEstimator
from sklearn.model_selection import FixedThresholdClassifier

model_fixed_threshold = FixedThresholdClassifier(
    estimator=FrozenEstimator(model), threshold=tuned_model.best_threshold_
)

business_score = business_scorer(
    model_fixed_threshold, data_test, target_test, amount=amount_test
)
print(f"Benefit of logistic regression with a tuned threshold:  {business_score:,.2f}€")

Benefit of logistic regression with a tuned threshold:  249,433.39€

Wir beobachten, dass wir exakt die gleichen Ergebnisse erzielt haben, der Anpassungsprozess jedoch viel schneller war, da wir keine Hyperparameter-Suche durchgeführt haben.

Schließlich kann die Schätzung der (durchschnittlichen) Geschäftsmetrik selbst unzuverlässig sein, insbesondere wenn die Anzahl der Datenpunkte in der Minderheitsklasse sehr gering ist. Jede Geschäftsmetrik, die durch Kreuzvalidierung einer Geschäftsmetrik auf historischen Daten (Offline-Evaluierung) geschätzt wird, sollte idealerweise durch A/B-Tests auf Live-Daten (Online-Evaluierung) bestätigt werden. Beachten Sie jedoch, dass A/B-Tests von Modellen außerhalb des Rahmens der scikit-learn-Bibliothek selbst liegen.

Am Ende deaktivieren wir die Konfigurationsflagge für das Metadaten-Routing.

.. GENERATED FROM PYTHON SOURCE LINES 694-695

sklearn.set_config(enable_metadata_routing=False)

Gesamtlaufzeit des Skripts: (0 Minuten 35,875 Sekunden)

Verwandte Beispiele

Post-hoc-Anpassung des Cut-off-Punkts der Entscheidungskfunktion

Release Highlights für scikit-learn 1.5

Präzisions-Rückruf

Benutzerdefinierte Refit-Strategie einer Gitter-Suche mit Kreuzvalidierung

Galerie generiert von Sphinx-Gallery

	loss loss: {'log_loss'}, default='log_loss' Die für den Boosting-Prozess zu verwendende Verlustfunktion. Für binäre Klassifizierungsprobleme ist 'log_loss' auch bekannt als logistischer Verlust, binomiale Abweichung oder binäre Kreuzentropie. Intern passt das Modell einen Baum pro Boosting-Iteration an und verwendet die logistische Sigmoid-Funktion (expit) als inverse Link-Funktion, um die vorhergesagte Wahrscheinlichkeit der positiven Klasse zu berechnen. Für Multiklassen-Klassifizierungsprobleme ist 'log_loss' auch bekannt als multinomielle Abweichung oder kategorische Kreuzentropie. Intern passt das Modell einen Baum pro Boosting-Iteration und pro Klasse an und verwendet die Softmax-Funktion als inverse Link-Funktion, um die vorhergesagten Wahrscheinlichkeiten der Klassen zu berechnen.	'log_loss'
	learning_rate learning_rate: float, default=0.1 Die Lernrate, auch bekannt als Shrinkage. Sie wird als multiplikativer Faktor für die Blattwerte verwendet. Verwenden Sie ``1`` für keine Schrumpfung.	0.1
	max_iter max_iter: int, default=100 Die maximale Anzahl von Iterationen des Boosting-Prozesses, d. h. die maximale Anzahl von Bäumen für die binäre Klassifizierung. Für die Multiklassen- Klassifizierung werden pro Iteration `n_classes` Bäume aufgebaut.	100
	max_leaf_nodes max_leaf_nodes: int oder None, default=31 Die maximale Anzahl von Blättern pro Baum. Muss strikt größer als 1 sein. Wenn None, gibt es keine maximale Grenze.	31
	max_depth max_depth: int oder None, default=None Die maximale Tiefe jedes Baumes. Die Tiefe eines Baumes ist die Anzahl der Kanten, die vom Wurzelknoten zum tiefsten Blatt führen. Die Tiefe ist standardmäßig nicht begrenzt.	None
	min_samples_leaf min_samples_leaf: int, default=20 Die Mindestanzahl von Samples pro Blatt. Bei kleinen Datensätzen mit weniger als einigen hundert Samples wird empfohlen, diesen Wert zu senken, da nur sehr flache Bäume gebaut würden.	20
	l2_regularization l2_regularization: float, default=0 Der L2-Regularisierungsparameter, der Blätter mit kleinen Hessianen bestraft. Verwenden Sie ``0`` für keine Regularisierung (Standard).	0.0
	max_features max_features: float, default=1.0 Anteil zufällig ausgewählter Merkmale in jedem Knoten-Split. Dies ist eine Form der Regularisierung, kleinere Werte machen die Bäume zu schwächeren Lernern und können Überanpassung verhindern. Wenn Interaktionsbeschränkungen aus `interaction_cst` vorhanden sind, werden nur erlaubte Merkmale für die Unterstichprobe berücksichtigt. .. versionadded:: 1.4	1.0
	max_bins max_bins: int, default=255 Die maximale Anzahl von Bins, die für nicht fehlende Werte verwendet werden sollen. Vor dem Training wird jedes Merkmal des Eingabearrays `X` in ganzzahlige Bins eingeteilt, was eine viel schnellere Trainingsphase ermöglicht. Merkmale mit einer kleinen Anzahl von eindeutigen Werten verwenden möglicherweise weniger als ``max_bins`` Bins. Zusätzlich zu den ``max_bins`` Bins ist immer ein weiterer Bin für fehlende Werte reserviert. Muss nicht größer als 255 sein.	255
	categorical_features categorical_features: array-like von {bool, int, str} der Form (n_features,) oder (n_categorical_features,), default='from_dtype' Gibt die kategorialen Merkmale an. - None : kein Merkmal wird als kategorial betrachtet. - Boolesches Array-ähnliches : boolesche Maske, die kategoriale Merkmale angibt. - Ganzzahl-Array-ähnliches : Ganzzahl-Indizes, die kategoriale Merkmale angeben. - str Array-ähnlich: Namen kategorialer Merkmale (vorausgesetzt, die Trainingsdaten haben Merkmalnamen). - `"from_dtype"`: DataFrame-Spalten mit dtype "category" werden als kategoriale Merkmale betrachtet. Die Eingabe muss ein Objekt sein, das eine ``__dataframe__``-Methode bereitstellt, wie z. B. Pandas oder Polars DataFrames, um diese Funktion zu nutzen. Für jedes kategoriale Merkmal darf es höchstens `max_bins` eindeutige Kategorien geben. Negative Werte für kategoriale Merkmale, die als numerische Datentypen kodiert sind, werden als fehlende Werte behandelt. Alle kategorialen Werte werden in Gleitkommazahlen umgewandelt. Das bedeutet, dass kategoriale Werte von 1.0 und 1 als dieselbe Kategorie behandelt werden. Weitere Informationen finden Sie im :ref:`Benutzerhandbuch `. .. versionadded:: 0.24 .. versionchanged:: 1.2 Unterstützung für Merkmalnamen hinzugefügt. .. versionchanged:: 1.4 Option `"from_dtype"` hinzugefügt. .. versionchanged:: 1.6 Der Standardwert wurde von `None` zu `"from_dtype"` geändert.	'from_dtype'
	monotonic_cst monotonic_cst: array-like von int der Form (n_features,) oder dict, default=None Monotone Einschränkungen, die für jedes Merkmal erzwungen werden sollen, werden mit den folgenden Ganzzahlwerten angegeben: - 1: monotone Zunahme - 0: keine Einschränkung - -1: monotone Abnahme Wenn ein Dict mit str-Schlüsseln, ordnet es Merkmale monotonen Einschränkungen nach Namen zu. Wenn ein Array, werden die Merkmale durch Position den Einschränkungen zugeordnet. Siehe :ref:`monotonic_cst_features_names` für ein Anwendungsbeispiel. Die Einschränkungen sind nur für binäre Klassifizierungen gültig und gelten für die Wahrscheinlichkeit der positiven Klasse. Weitere Informationen finden Sie im :ref:`Benutzerhandbuch `. .. versionadded:: 0.23 .. versionchanged:: 1.2 Dict von Einschränkungen mit Merkmalnamen als Schlüsseln akzeptiert.	None
	interaction_cst interaction_cst: {"pairwise", "no_interactions"} oder Sequenz von Listen/Tupeln/Sets von int, default=None Gibt Interaktionseinschränkungen an, die Mengen von Merkmalen, die miteinander in Kindknotensplits interagieren können. Jeder Eintrag gibt die Menge der Merkmalsindizes an, die miteinander interagieren dürfen. Wenn mehr Merkmale vorhanden sind als in diesen Einschränkungen angegeben, werden sie so behandelt, als wären sie als zusätzliches Set angegeben worden. Die Strings "pairwise" und "no_interactions" sind Kurzformen für die Erlaubnis nur von paarweisen oder gar keinen Interaktionen. Zum Beispiel bei 5 Merkmalen insgesamt ist `interaction_cst=[{0, 1}]` äquivalent zu `interaction_cst=[{0, 1}, {2, 3, 4}]`, und gibt an, dass jeder Zweig eines Baumes entweder nur Merkmale 0 und 1 aufteilt oder nur Merkmale 2, 3 und 4. Siehe :ref:`dieses Beispiel` zur Verwendung von `interaction_cst`. .. versionadded:: 1.2	None
	warm_start warm_start: bool, default=False Wenn ``True`` gesetzt, wird die Lösung des vorherigen fit-Aufrufs wiederverwendet und weitere Schätzer zum Ensemble hinzugefügt. Damit die Ergebnisse gültig sind, sollte der Schätzer nur auf denselben Daten neu trainiert werden. Siehe :term:`Glossar `.	False
	early_stopping early_stopping: 'auto' oder bool, default='auto' Wenn 'auto', ist Early Stopping aktiviert, wenn die Stichprobengröße größer als 10000 ist oder wenn `X_val` und `y_val` an `fit` übergeben werden. Wenn True, ist Early Stopping aktiviert, andernfalls ist Early Stopping deaktiviert. .. versionadded:: 0.23	'auto'
	scoring scoring: str oder callable oder None, default='loss' Bewertungsmethode zur Verwendung für frühes Stoppen. Nur verwendet, wenn `early_stopping` aktiviert ist. Optionen: - str: siehe :ref:`scoring_string_names` für Optionen. - callable: ein aufrufbares Bewertungsobjekt (z. B. Funktion) mit der Signatur ``scorer(estimator, X, y)``. Weitere Informationen finden Sie unter :ref:`scoring_callable`. - `None`: :ref:`accuracy ` wird verwendet. - 'loss': frühes Stoppen wird in Bezug auf den Verlustwert geprüft.	'loss'
	validation_fraction validation_fraction: int oder float oder None, default=0.1 Anteil (oder absolute Größe) der Trainingsdaten, der als Validierungsdaten für Early Stopping zurückgestellt wird. Wenn None, erfolgt Early Stopping auf den Trainingsdaten. Der Wert wird ignoriert, wenn entweder kein Early Stopping durchgeführt wird (z.B. `early_stopping=False`) oder wenn `X_val` und `y_val` an fit übergeben werden.	0.1
	n_iter_no_change n_iter_no_change: int, default=10 Wird verwendet, um zu bestimmen, wann "Early Stop" erfolgen soll. Der Anpassungsprozess wird gestoppt, wenn keiner der letzten ``n_iter_no_change`` Scores besser ist als der ``n_iter_no_change - 1``-te-letzte, bis zu einer gewissen Toleranz. Nur verwendet, wenn Early Stopping durchgeführt wird.	10
	tol tol: float, default=1e-7 Die absolute Toleranz, die beim Vergleichen von Scores verwendet wird. Je höher die Toleranz, desto wahrscheinlicher stoppen wir frühzeitig: eine höhere Toleranz bedeutet, dass es für nachfolgende Iterationen schwieriger sein wird, als Verbesserung gegenüber dem Referenzscore betrachtet zu werden.	1e-07
	verbose verbose: int, default=0 Die Ausführlichkeitsstufe. Wenn nicht null, werden einige Informationen über den Anpassungsprozess ausgegeben. ``1`` gibt nur eine Zusammenfassung aus, ``2`` gibt Informationen pro Iteration aus.	0
	random_state random_state: int, RandomState-Instanz oder None, default=None Pseudozufallszahlengenerator zur Steuerung der Unterabtastung im Binning-Prozess und der Trainings-/Validierungsdatensatzaufteilung, wenn Early Stopping aktiviert ist. Geben Sie eine Ganzzahl für reproduzierbare Ergebnisse über mehrere Funktionsaufrufe an. Siehe :term:`Glossar `.	0
	class_weight class_weight: dict oder 'balanced', default=None Mit Klassen verbundene Gewichte im Format `{class_label: weight}`. Wenn nicht angegeben, wird angenommen, dass alle Klassen ein Gewicht von eins haben. Der Modus "balanced" verwendet die Werte von y, um die Gewichte automatisch invers proportional zu den Klassenhäufigkeiten in den Eingabedaten anzupassen als `n_samples / (n_classes * np.bincount(y))`. Beachten Sie, dass diese Gewichte mit sample_weight (über die fit-Methode übergeben) multipliziert werden, wenn `sample_weight` angegeben ist. .. versionadded:: 1.2	None

	estimator estimator: estimator instance Der Klassifikator, trainiert oder nicht, für den wir den Entscheidungsschwellenwert optimieren möchten, der während `predict` verwendet wird.	HistGradientB...andom_state=0)
	scoring scoring: str oder callable, default="balanced_accuracy" Die zu optimierende Zielfunktion. Kann einer der folgenden sein: - str: Zeichenkette, die einer Scoring-Funktion für binäre Klassifizierung zugeordnet ist, siehe :ref:`scoring_string_names` für Optionen. - callable: ein aufrufbares Bewertungsobjekt (z. B. Funktion) mit der Signatur ``scorer(estimator, X, y)``. Weitere Informationen finden Sie unter :ref:`scoring_callable`.	make_scorer(c...pos_label=bad)
	response_method response_method: {"auto", "decision_function", "predict_proba"}, default="auto" Methoden des Klassifikators `estimator`, die der Entscheidungsfunktion entsprechen, für die wir einen Schwellenwert finden möchten. Es kann sein: * wenn `"auto"`, versucht es für jeden Klassifikator, `"predict_proba"` oder `"decision_function"` in dieser Reihenfolge aufzurufen. * andernfalls eine von `"predict_proba"` oder `"decision_function"`. Wenn die Methode vom Klassifikator nicht implementiert wird, wird ein Fehler ausgelöst.	'auto'
	thresholds thresholds: int oder array-ähnlich, default=100 Die Anzahl der zu verwendenden Entscheidungsschwellenwerte bei der Diskretisierung der Ausgabe des Klassifikators `method`. Geben Sie ein Array-ähnliches Objekt an, um die zu verwendenden Schwellenwerte manuell festzulegen.	100
	cv cv: int, float, cross-validation generator, iterable oder "prefit", default=None Bestimmt die Strategie der Kreuzvalidierungsaufteilung zum Trainieren des Klassifikators. Mögliche Eingaben für cv sind: - `None`, um die standardmäßige 5-fache geschichtete K-Fold-Kreuzvalidierung zu verwenden; - Eine Ganzzahl, um die Anzahl der Folds in einem geschichteten k-fold anzugeben; - Eine Gleitkommazahl, um eine einzelne Shuffle-Split anzugeben. Die Gleitkommazahl sollte in (0, 1) liegen und die Größe des Validierungsdatensatzes darstellen; - Ein Objekt, das als Kreuzvalidierungsgenerator verwendet wird; - Ein Iterable, das Trainings- und Testsplits liefert; - `"prefit"`, um die Kreuzvalidierung zu umgehen. Siehe :ref:`Benutzerhandbuch ` für die verschiedenen Kreuzvalidierungsstrategien, die hier verwendet werden können. .. warning:: Die Verwendung von `cv="prefit"` und die Übergabe desselben Datensatzes für das Training von `estimator` und die Anpassung des Grenzwerts unterliegt unerwünschtem Overfitting. Sie können auf :ref:`TunedThresholdClassifierCV_no_cv` für ein Beispiel verweisen. Diese Option sollte nur verwendet werden, wenn der Datensatz, der zum Trainieren von `estimator` verwendet wurde, sich vom Datensatz unterscheidet, der zur Anpassung des Grenzwerts verwendet wurde (durch Aufruf von :meth:`TunedThresholdClassifierCV.fit`).	0.75
	refit refit: bool, default=True Ob der Klassifikator nach dem Ermitteln des Entscheidungsschwellenwerts auf dem gesamten Trainingsdatensatz neu trainiert werden soll oder nicht. Beachten Sie, dass die Erzwingung von `refit=False` bei Kreuzvalidierungen mit mehr als einem Split einen Fehler auslöst. Ebenso löst `refit=True` in Kombination mit `cv="prefit"` einen Fehler aus.	False
	n_jobs n_jobs: int, default=None Die Anzahl der parallel auszuführenden Jobs. Wenn `cv` eine Kreuzvalidierungsstrategie darstellt, wird das Training und die Bewertung auf jedem Daten-Split parallel durchgeführt. ``None`` bedeutet 1, es sei denn, es befindet sich in einem :obj:`joblib.parallel_backend` Kontext. ``-1`` bedeutet die Verwendung aller Prozessoren. Siehe :term:`Glossar ` für weitere Details.	None
	random_state random_state: int, RandomState-Instanz oder None, default=None Steuert die Zufälligkeit der Kreuzvalidierung, wenn `cv` eine Gleitkommazahl ist. Siehe :term:`Glossar `.	None
	store_cv_results store_cv_results: bool, default=False Ob alle Scores und Schwellenwerte, die während des Kreuzvalidierungsprozesses berechnet wurden, gespeichert werden sollen.	True

	loss loss: {'log_loss'}, default='log_loss' Die für den Boosting-Prozess zu verwendende Verlustfunktion. Für binäre Klassifizierungsprobleme ist 'log_loss' auch bekannt als logistischer Verlust, binomiale Abweichung oder binäre Kreuzentropie. Intern passt das Modell einen Baum pro Boosting-Iteration an und verwendet die logistische Sigmoid-Funktion (expit) als inverse Link-Funktion, um die vorhergesagte Wahrscheinlichkeit der positiven Klasse zu berechnen. Für Multiklassen-Klassifizierungsprobleme ist 'log_loss' auch bekannt als multinomielle Abweichung oder kategorische Kreuzentropie. Intern passt das Modell einen Baum pro Boosting-Iteration und pro Klasse an und verwendet die Softmax-Funktion als inverse Link-Funktion, um die vorhergesagten Wahrscheinlichkeiten der Klassen zu berechnen.	'log_loss'
	learning_rate learning_rate: float, default=0.1 Die Lernrate, auch bekannt als Shrinkage. Sie wird als multiplikativer Faktor für die Blattwerte verwendet. Verwenden Sie ``1`` für keine Schrumpfung.	0.1
	max_iter max_iter: int, default=100 Die maximale Anzahl von Iterationen des Boosting-Prozesses, d. h. die maximale Anzahl von Bäumen für die binäre Klassifizierung. Für die Multiklassen- Klassifizierung werden pro Iteration `n_classes` Bäume aufgebaut.	100
	max_leaf_nodes max_leaf_nodes: int oder None, default=31 Die maximale Anzahl von Blättern pro Baum. Muss strikt größer als 1 sein. Wenn None, gibt es keine maximale Grenze.	31
	max_depth max_depth: int oder None, default=None Die maximale Tiefe jedes Baumes. Die Tiefe eines Baumes ist die Anzahl der Kanten, die vom Wurzelknoten zum tiefsten Blatt führen. Die Tiefe ist standardmäßig nicht begrenzt.	None
	min_samples_leaf min_samples_leaf: int, default=20 Die Mindestanzahl von Samples pro Blatt. Bei kleinen Datensätzen mit weniger als einigen hundert Samples wird empfohlen, diesen Wert zu senken, da nur sehr flache Bäume gebaut würden.	20
	l2_regularization l2_regularization: float, default=0 Der L2-Regularisierungsparameter, der Blätter mit kleinen Hessianen bestraft. Verwenden Sie ``0`` für keine Regularisierung (Standard).	0.0
	max_features max_features: float, default=1.0 Anteil zufällig ausgewählter Merkmale in jedem Knoten-Split. Dies ist eine Form der Regularisierung, kleinere Werte machen die Bäume zu schwächeren Lernern und können Überanpassung verhindern. Wenn Interaktionsbeschränkungen aus `interaction_cst` vorhanden sind, werden nur erlaubte Merkmale für die Unterstichprobe berücksichtigt. .. versionadded:: 1.4	1.0
	max_bins max_bins: int, default=255 Die maximale Anzahl von Bins, die für nicht fehlende Werte verwendet werden sollen. Vor dem Training wird jedes Merkmal des Eingabearrays `X` in ganzzahlige Bins eingeteilt, was eine viel schnellere Trainingsphase ermöglicht. Merkmale mit einer kleinen Anzahl von eindeutigen Werten verwenden möglicherweise weniger als ``max_bins`` Bins. Zusätzlich zu den ``max_bins`` Bins ist immer ein weiterer Bin für fehlende Werte reserviert. Muss nicht größer als 255 sein.	255
	categorical_features categorical_features: array-like von {bool, int, str} der Form (n_features,) oder (n_categorical_features,), default='from_dtype' Gibt die kategorialen Merkmale an. - None : kein Merkmal wird als kategorial betrachtet. - Boolesches Array-ähnliches : boolesche Maske, die kategoriale Merkmale angibt. - Ganzzahl-Array-ähnliches : Ganzzahl-Indizes, die kategoriale Merkmale angeben. - str Array-ähnlich: Namen kategorialer Merkmale (vorausgesetzt, die Trainingsdaten haben Merkmalnamen). - `"from_dtype"`: DataFrame-Spalten mit dtype "category" werden als kategoriale Merkmale betrachtet. Die Eingabe muss ein Objekt sein, das eine ``__dataframe__``-Methode bereitstellt, wie z. B. Pandas oder Polars DataFrames, um diese Funktion zu nutzen. Für jedes kategoriale Merkmal darf es höchstens `max_bins` eindeutige Kategorien geben. Negative Werte für kategoriale Merkmale, die als numerische Datentypen kodiert sind, werden als fehlende Werte behandelt. Alle kategorialen Werte werden in Gleitkommazahlen umgewandelt. Das bedeutet, dass kategoriale Werte von 1.0 und 1 als dieselbe Kategorie behandelt werden. Weitere Informationen finden Sie im :ref:`Benutzerhandbuch `. .. versionadded:: 0.24 .. versionchanged:: 1.2 Unterstützung für Merkmalnamen hinzugefügt. .. versionchanged:: 1.4 Option `"from_dtype"` hinzugefügt. .. versionchanged:: 1.6 Der Standardwert wurde von `None` zu `"from_dtype"` geändert.	'from_dtype'
	monotonic_cst monotonic_cst: array-like von int der Form (n_features,) oder dict, default=None Monotone Einschränkungen, die für jedes Merkmal erzwungen werden sollen, werden mit den folgenden Ganzzahlwerten angegeben: - 1: monotone Zunahme - 0: keine Einschränkung - -1: monotone Abnahme Wenn ein Dict mit str-Schlüsseln, ordnet es Merkmale monotonen Einschränkungen nach Namen zu. Wenn ein Array, werden die Merkmale durch Position den Einschränkungen zugeordnet. Siehe :ref:`monotonic_cst_features_names` für ein Anwendungsbeispiel. Die Einschränkungen sind nur für binäre Klassifizierungen gültig und gelten für die Wahrscheinlichkeit der positiven Klasse. Weitere Informationen finden Sie im :ref:`Benutzerhandbuch `. .. versionadded:: 0.23 .. versionchanged:: 1.2 Dict von Einschränkungen mit Merkmalnamen als Schlüsseln akzeptiert.	None
	interaction_cst interaction_cst: {"pairwise", "no_interactions"} oder Sequenz von Listen/Tupeln/Sets von int, default=None Gibt Interaktionseinschränkungen an, die Mengen von Merkmalen, die miteinander in Kindknotensplits interagieren können. Jeder Eintrag gibt die Menge der Merkmalsindizes an, die miteinander interagieren dürfen. Wenn mehr Merkmale vorhanden sind als in diesen Einschränkungen angegeben, werden sie so behandelt, als wären sie als zusätzliches Set angegeben worden. Die Strings "pairwise" und "no_interactions" sind Kurzformen für die Erlaubnis nur von paarweisen oder gar keinen Interaktionen. Zum Beispiel bei 5 Merkmalen insgesamt ist `interaction_cst=[{0, 1}]` äquivalent zu `interaction_cst=[{0, 1}, {2, 3, 4}]`, und gibt an, dass jeder Zweig eines Baumes entweder nur Merkmale 0 und 1 aufteilt oder nur Merkmale 2, 3 und 4. Siehe :ref:`dieses Beispiel` zur Verwendung von `interaction_cst`. .. versionadded:: 1.2	None
	warm_start warm_start: bool, default=False Wenn ``True`` gesetzt, wird die Lösung des vorherigen fit-Aufrufs wiederverwendet und weitere Schätzer zum Ensemble hinzugefügt. Damit die Ergebnisse gültig sind, sollte der Schätzer nur auf denselben Daten neu trainiert werden. Siehe :term:`Glossar `.	False
	early_stopping early_stopping: 'auto' oder bool, default='auto' Wenn 'auto', ist Early Stopping aktiviert, wenn die Stichprobengröße größer als 10000 ist oder wenn `X_val` und `y_val` an `fit` übergeben werden. Wenn True, ist Early Stopping aktiviert, andernfalls ist Early Stopping deaktiviert. .. versionadded:: 0.23	'auto'
	scoring scoring: str oder callable oder None, default='loss' Bewertungsmethode zur Verwendung für frühes Stoppen. Nur verwendet, wenn `early_stopping` aktiviert ist. Optionen: - str: siehe :ref:`scoring_string_names` für Optionen. - callable: ein aufrufbares Bewertungsobjekt (z. B. Funktion) mit der Signatur ``scorer(estimator, X, y)``. Weitere Informationen finden Sie unter :ref:`scoring_callable`. - `None`: :ref:`accuracy ` wird verwendet. - 'loss': frühes Stoppen wird in Bezug auf den Verlustwert geprüft.	'loss'
	validation_fraction validation_fraction: int oder float oder None, default=0.1 Anteil (oder absolute Größe) der Trainingsdaten, der als Validierungsdaten für Early Stopping zurückgestellt wird. Wenn None, erfolgt Early Stopping auf den Trainingsdaten. Der Wert wird ignoriert, wenn entweder kein Early Stopping durchgeführt wird (z.B. `early_stopping=False`) oder wenn `X_val` und `y_val` an fit übergeben werden.	0.1
	n_iter_no_change n_iter_no_change: int, default=10 Wird verwendet, um zu bestimmen, wann "Early Stop" erfolgen soll. Der Anpassungsprozess wird gestoppt, wenn keiner der letzten ``n_iter_no_change`` Scores besser ist als der ``n_iter_no_change - 1``-te-letzte, bis zu einer gewissen Toleranz. Nur verwendet, wenn Early Stopping durchgeführt wird.	10
	tol tol: float, default=1e-7 Die absolute Toleranz, die beim Vergleichen von Scores verwendet wird. Je höher die Toleranz, desto wahrscheinlicher stoppen wir frühzeitig: eine höhere Toleranz bedeutet, dass es für nachfolgende Iterationen schwieriger sein wird, als Verbesserung gegenüber dem Referenzscore betrachtet zu werden.	1e-07
	verbose verbose: int, default=0 Die Ausführlichkeitsstufe. Wenn nicht null, werden einige Informationen über den Anpassungsprozess ausgegeben. ``1`` gibt nur eine Zusammenfassung aus, ``2`` gibt Informationen pro Iteration aus.	0
	random_state random_state: int, RandomState-Instanz oder None, default=None Pseudozufallszahlengenerator zur Steuerung der Unterabtastung im Binning-Prozess und der Trainings-/Validierungsdatensatzaufteilung, wenn Early Stopping aktiviert ist. Geben Sie eine Ganzzahl für reproduzierbare Ergebnisse über mehrere Funktionsaufrufe an. Siehe :term:`Glossar `.	0
	class_weight class_weight: dict oder 'balanced', default=None Mit Klassen verbundene Gewichte im Format `{class_label: weight}`. Wenn nicht angegeben, wird angenommen, dass alle Klassen ein Gewicht von eins haben. Der Modus "balanced" verwendet die Werte von y, um die Gewichte automatisch invers proportional zu den Klassenhäufigkeiten in den Eingabedaten anzupassen als `n_samples / (n_classes * np.bincount(y))`. Beachten Sie, dass diese Gewichte mit sample_weight (über die fit-Methode übergeben) multipliziert werden, wenn `sample_weight` angegeben ist. .. versionadded:: 1.2	None

	estimator estimator: Estimator-Objekt Es wird angenommen, dass dies die scikit-learn-Estimator-Schnittstelle implementiert. Entweder muss der Estimator eine ``score``-Funktion bereitstellen, oder ``scoring`` muss übergeben werden.	Pipeline(step...egression())])
	param_grid param_grid: dict oder Liste von Dictionaries Dictionary mit Parameternamen (`str`) als Schlüssel und Listen von zu versuchenden Parametereinstellungen als Werte, oder eine Liste solcher Dictionaries, in welchem Fall die von jedem Dictionary im Gitter aufgespannten Gitter durchsucht werden. Dies ermöglicht die Suche über jede Sequenz von Parametereinstellungen.	{'logisticregression__C': array([1.e-06...e+05, 1.e+06])}
	scoring scoring: str, callable, list, tuple oder dict, default=None Strategie zur Bewertung der Leistung des kreuzvalidierten Modells auf dem Testdatensatz. Wenn `scoring` eine einzelne Punktzahl darstellt, kann man verwenden: - einen einzelnen String (siehe :ref:`scoring_string_names`); - ein Callable (siehe :ref:`scoring_callable`), das einen einzelnen Wert zurückgibt; - `None`, das :ref:`Standard-Bewertungskriterium des Estimators ` wird verwendet. Wenn `scoring` mehrere Punktzahlen darstellt, kann man verwenden: - eine Liste oder ein Tupel eindeutiger Strings; - ein Callable, das ein Dictionary zurückgibt, dessen Schlüssel die Metriknamen und dessen Werte die Metrikpunktzahlen sind; - ein Dictionary mit Metriknamen als Schlüssel und Callables als Werte. Siehe :ref:`multimetric_grid_search` für ein Beispiel.	'neg_log_loss'
	n_jobs n_jobs: int, default=None Anzahl der parallel auszuführenden Jobs. ``None`` bedeutet 1, es sei denn, es befindet sich in einem :obj:`joblib.parallel_backend`-Kontext. ``-1`` bedeutet die Verwendung aller Prozessoren. Siehe :term:`Glossar ` für weitere Details. .. versionchanged:: v0.20 Standardwert von `n_jobs` wurde von 1 auf None geändert.	None
	refit refit: bool, str, oder callable, default=True Refit einen Estimator mit den besten gefundenen Parametern auf dem gesamten Datensatz. Für die Auswertung mehrerer Metriken muss dies ein `str` sein, der den Scorer bezeichnet, der zur Ermittlung der besten Parameter für das Refitting des Estimators am Ende verwendet wird. Wenn bei der Auswahl eines besten Estimators andere Überlegungen als die maximale Punktzahl bestehen, kann ``refit`` auf eine Funktion gesetzt werden, die die ausgewählte ``best_index_`` basierend auf ``cv_results_`` zurückgibt. In diesem Fall werden ``best_estimator_`` und ``best_params_`` entsprechend der zurückgegebenen ``best_index_`` gesetzt, während das Attribut ``best_score_`` nicht verfügbar ist. Der neu trainierte Estimator wird unter dem Attribut ``best_estimator_`` zur Verfügung gestellt und ermöglicht die direkte Verwendung von ``predict`` auf dieser ``GridSearchCV``-Instanz. Auch für die Auswertung mehrerer Metriken sind die Attribute ``best_index_``, ``best_score_`` und ``best_params_`` nur verfügbar, wenn ``refit`` gesetzt ist und alle anhand dieses spezifischen Scorers bestimmt werden. Siehe den Parameter ``scoring``, um mehr über die Auswertung mehrerer Metriken zu erfahren. Siehe :ref:`sphx_glr_auto_examples_model_selection_plot_grid_search_digits.py` , um zu sehen, wie eine benutzerdefinierte Auswahlstrategie mit einem aufrufbaren Objekt über `refit` entworfen wird. Siehe :ref:`dieses Beispiel ` , um zu sehen, wie ``refit=callable`` verwendet wird, um die Modellkomplexität und den durch Kreuzvalidierung bewerteten Score auszugleichen. .. versionchanged:: 0.20 Unterstützung für callable hinzugefügt.	True
	cv cv: int, cross-validation generator oder ein Iterable, default=None Bestimmt die Kreuzvalidierungs-Splitting-Strategie. Mögliche Eingaben für cv sind: - None, um die Standard-5-Falt-Kreuzvalidierung zu verwenden, - Ganzzahl, um die Anzahl der Faltungen in einem `(Stratified)KFold` anzugeben, - :term:`CV-Splitter`, - Ein Iterable, das (Trainings-, Test-)Splits als Index-Arrays liefert. Bei Ganzzahl-/None-Eingaben wird, wenn der Estimator ein Klassifikator ist und ``y`` entweder binär oder multiklass ist, :class:`StratifiedKFold` verwendet. In allen anderen Fällen wird :class:`KFold` verwendet. Diese Splitter werden mit `shuffle=False` instanziiert, sodass die Splits über Aufrufe hinweg gleich sind. Siehe das :ref:`Benutzerhandbuch ` für die verschiedenen Kreuzvalidierungsstrategien, die hier verwendet werden können. .. versionchanged:: 0.22 Standardwert von ``cv``, wenn None, wurde von 3-Falt auf 5-Falt geändert.	None
	verbose verbose: int Steuert die Ausführlichkeit: Je höher, desto mehr Nachrichten. - >1 : Die Berechnungszeit für jede Faltung und jeden Parameterkandidaten wird angezeigt; - >2 : Die Punktzahl wird ebenfalls angezeigt; - >3 : Die Faltungs- und Parameterkandidatenindizes werden ebenfalls angezeigt, zusammen mit der Startzeit der Berechnung.	0
	pre_dispatch pre_dispatch: int oder str, default='2n_jobs' Steuert die Anzahl der Jobs, die während der parallelen Ausführung ausgeliefert werden. Die Reduzierung dieser Anzahl kann nützlich sein, um eine Explosion des Speicherverbrauchs zu vermeiden, wenn mehr Jobs ausgeliefert werden, als CPUs verarbeiten können. Dieser Parameter kann sein: - None, in diesem Fall werden alle Jobs sofort erstellt und gespawnt. Verwenden Sie dies für leichte und schnell laufende Jobs, um Verzögerungen durch On-Demand- Spawning der Jobs zu vermeiden - Eine Ganzzahl, die die genaue Gesamtzahl der gespawnten Jobs angibt - Ein String, der einen Ausdruck als Funktion von n_jobs angibt, z. B. '2n_jobs'	'2*n_jobs'
	error_score error_score: 'raise' oder numerisch, default=np.nan Wert, der der Punktzahl zugewiesen wird, wenn beim Anpassen des Estimators ein Fehler auftritt. Wenn auf 'raise' gesetzt, wird der Fehler ausgelöst. Wenn eine numerische Zahl angegeben wird, wird FitFailedWarning ausgelöst. Dieser Parameter beeinflusst den Refit-Schritt nicht, der immer den Fehler auslösen wird.	nan
	return_train_score return_train_score: bool, default=False Wenn ``False``, enthält das Attribut ``cv_results_`` keine Trainingspunktzahlen. Die Berechnung von Trainingspunktzahlen wird verwendet, um Einblicke zu gewinnen, wie verschiedene Parametereinstellungen den Kompromiss zwischen Überanpassung/Unteranpassung beeinflussen. Die Berechnung der Punktzahlen auf dem Trainingsdatensatz kann jedoch rechenintensiv sein und ist nicht unbedingt erforderlich, um die Parameter auszuwählen, die die beste Generalisierungsleistung erzielen. .. versionadded:: 0.19 .. versionchanged:: 0.21 Der Standardwert wurde von ``True`` auf ``False`` geändert.	False

	penalty penalty: {'l1', 'l2', 'elasticnet', None}, default='l2' Gibt die Norm der Strafe an: - `None`: keine Strafe wird hinzugefügt; - `'l2'`: fügt einen L2-Strafbegriff hinzu und ist die Standardwahl; - `'l1'`: fügt einen L1-Strafbegriff hinzu; - `'elasticnet'`: beide L1- und L2-Strafbegriffe werden hinzugefügt. .. warning:: Einige Strafen funktionieren möglicherweise nicht mit einigen Solvern. Siehe den Parameter `solver` unten, um die Kompatibilität zwischen der Strafe und dem Solver zu erfahren. .. versionadded:: 0.19 l1-Strafe mit SAGA-Solver (erlaubt 'multinomial' + L1) .. deprecated:: 1.8 `penalty` wurde in Version 1.8 als veraltet markiert und wird in 1.10 entfernt. Verwenden Sie stattdessen `l1_ratio`. `l1_ratio=0` für `penalty='l2'`, `l1_ratio=1` für `penalty='l1'` und `l1_ratio` auf eine Gleitkommazahl zwischen 0 und 1 gesetzt für `'penalty='elasticnet'`.	'deprecated'
	C C: float, default=1.0 Kehrwert der Regularisierungsstärke; muss eine positive Gleitkommazahl sein. Wie bei Support Vector Machines geben kleinere Werte eine stärkere Regularisierung an. `C=np.inf` führt zu ungestrafter logistischer Regression. Für ein visuelles Beispiel der Auswirkung der Abstimmung des Parameters `C` mit einer L1-Strafe siehe: :ref:`sphx_glr_auto_examples_linear_model_plot_logistic_path.py`.	np.float64(100.0)
	l1_ratio l1_ratio: float, default=0.0 Der Elastic-Net-Mischungsparameter, mit `0 <= l1_ratio <= 1`. Das Setzen von `l1_ratio=1` ergibt eine reine L1-Strafe, das Setzen von `l1_ratio=0` eine reine L2-Strafe. Jeder Wert zwischen 0 und 1 ergibt eine Elastic-Net-Strafe der Form `l1_ratio * L1 + (1 - l1_ratio) * L2`. .. warning:: Bestimmte Werte von `l1_ratio`, d. h. einige Strafen, funktionieren möglicherweise nicht mit einigen Solvern. Siehe den Parameter `solver` unten, um die Kompatibilität zwischen der Strafe und dem Solver zu erfahren. .. versionchanged:: 1.8 Der Standardwert wurde von None auf 0.0 geändert. .. deprecated:: 1.8 `None` ist veraltet und wird in Version 1.10 entfernt. Verwenden Sie immer `l1_ratio`, um den Strafentyp anzugeben.	0.0
	dual dual: bool, default=False Duale (beschränkte) oder primale (regularisierte, siehe auch :ref:`diese Gleichung `) Formulierung. Die duale Formulierung ist nur für die L2-Strafe mit dem liblinear-Solver implementiert. Bevorzugen Sie `dual=False` wenn n_samples > n_features.	False
	tol tol: float, default=1e-4 Toleranz für Abbruchkriterien.	0.0001
	fit_intercept fit_intercept: bool, default=True Gibt an, ob eine Konstante (auch Bias oder Achsenabschnitt genannt) zur Entscheidungsfunktion hinzugefügt werden soll.	True
	intercept_scaling intercept_scaling: float, default=1 Nur nützlich, wenn der Solver `liblinear` verwendet wird und `self.fit_intercept` auf `True` gesetzt ist. In diesem Fall wird `x` zu `[x, self.intercept_scaling]`, d. h. ein "synthetisches" Merkmal mit konstantem Wert gleich `intercept_scaling` wird an den Instanzvektor angehängt. Der Achsenabschnitt wird dann ``intercept_scaling * synthetisches Merkmalsgewicht``. .. note:: Das Gewicht des synthetischen Merkmals unterliegt der L1- oder L2- Regularisierung wie alle anderen Merkmale. Um die Auswirkung der Regularisierung auf das synthetische Merkmalsgewicht (und damit auf den Achsenabschnitt) zu verringern, muss `intercept_scaling` erhöht werden.	1
	class_weight class_weight: dict oder 'balanced', default=None Mit Klassen assoziierte Gewichte in der Form ``{class_label: weight}``. Wenn nicht angegeben, wird angenommen, dass alle Klassen das Gewicht eins haben. Der Modus "balanced" verwendet die Werte von y, um die Gewichte automatisch invers proportional zu den Klassenhaüfigkeiten in den Eingabedaten als ``n_samples / (n_classes * np.bincount(y))`` anzupassen. Beachten Sie, dass diese Gewichte mit sample_weight (übergeben durch die fit-Methode) multipliziert werden, wenn sample_weight angegeben ist. .. versionadded:: 0.17 class_weight='balanced'	None
	random_state random_state: int, RandomState-Instanz, default=None Wird verwendet, wenn ``solver`` == 'sag', 'saga' oder 'liblinear', um die Daten zu mischen. Siehe :term:`Glossar ` für Details.	None
	solver solver: {'lbfgs', 'liblinear', 'newton-cg', 'newton-cholesky', 'sag', 'saga'}, default='lbfgs' Algorithmus zur Verwendung im Optimierungsproblem. Standard ist 'lbfgs'. Um einen Solver auszuwählen, sollten Sie die folgenden Aspekte berücksichtigen: - 'lbfgs' ist ein guter Standard-Solver, da er für eine breite Palette von Problemen einigermaßen gut funktioniert. - Für :term:`Multiklassen`-Probleme (`n_classes >= 3`) minimieren alle Solver außer 'liblinear' den vollen multinomischen Verlust; 'liblinear' löst einen Fehler aus. - 'newton-cholesky' ist eine gute Wahl für `n_samples` >> `n_features * n_classes`, insbesondere bei One-Hot-kodierten kategorialen Merkmalen mit seltenen Kategorien. Beachten Sie, dass der Speicherverbrauch dieses Solvers eine quadratische Abhängigkeit von `n_features * n_classes` aufweist, da er explizit die vollständige Hesse-Matrix berechnet. - Für kleine Datensätze ist 'liblinear' eine gute Wahl, während 'sag' und 'saga' für größere schneller sind; - 'liblinear' kann standardmäßig nur binäre Klassifizierung verarbeiten. Um ein One-versus-Rest-Schema für das Multiklassen-Setting anzuwenden, kann es mit der :class:`~sklearn.multiclass.OneVsRestClassifier` umwickelt werden. .. warning:: Die Wahl des Algorithmus hängt von der gewählten Strafe ab (`l1_ratio=0` für L2-Strafe, `l1_ratio=1` für L1-Strafe und `0 < l1_ratio < 1` für Elastic-Net) und von der Unterstützung für (multinomiale) Multiklassen: ================= ======================== ====================== solver l1_ratio multinomial multiclass ================= ======================== ====================== 'lbfgs' l1_ratio=0 ja 'liblinear' l1_ratio=1 oder l1_ratio=0 nein 'newton-cg' l1_ratio=0 ja 'newton-cholesky' l1_ratio=0 ja 'sag' l1_ratio=0 ja 'saga' 0<=l1_ratio<=1 ja ================= ======================== ====================== .. note:: Die schnelle Konvergenz von 'sag' und 'saga' ist nur auf Merkmalen mit ungefähr derselben Skalierung garantiert. Sie können die Daten mit einem Skalierer aus :mod:`sklearn.preprocessing` vorverarbeiten. .. seealso:: Beziehen Sie sich auf das :ref:`Benutzerhandbuch ` für weitere Informationen zu :class:`LogisticRegression` und insbesondere auf die :ref:`Tabelle ` , die die Solver/Strafe-Unterstützung zusammenfasst. .. versionadded:: 0.17 Stochastic Average Gradient (SAG) Descent Solver. Multiklassen-Unterstützung in Version 0.18. .. versionadded:: 0.19 SAGA Solver. .. versionchanged:: 0.22 Der Standard-Solver wurde von 'liblinear' auf 'lbfgs' in 0.22 geändert. .. versionadded:: 1.2 newton-cholesky Solver. Multiklassen-Unterstützung in Version 1.6.	'lbfgs'
	max_iter max_iter: int, default=100 Maximale Anzahl von Iterationen, die die Solver zur Konvergenz benötigen.	100
	verbose verbose: int, default=0 Für die Solver liblinear und lbfgs setzen Sie verbose auf eine beliebige positive Zahl für die Ausführlichkeit.	0
	warm_start warm_start: bool, default=False Wenn auf True gesetzt, wird die Lösung des vorherigen Aufrufs von fit als Initialisierung wiederverwendet, andernfalls wird die vorherige Lösung einfach gelöscht. Nützlich für den liblinear-Solver. Siehe :term:`das Glossar `. .. versionadded:: 0.17 warm_start zur Unterstützung der Solver lbfgs, newton-cg, sag, saga.	False
	n_jobs n_jobs: int, default=None Hat keine Auswirkung. .. deprecated:: 1.8 `n_jobs` ist in Version 1.8 veraltet und wird in 1.10 entfernt.	None

	copy copy: bool, Standard=True Wenn False, versuchen Sie, eine Kopie zu vermeiden und stattdessen direkt zu skalieren. Dies ist nicht garantiert, dass es immer direkt funktioniert; z.B. wenn die Daten kein NumPy-Array oder eine scipy.sparse CSR-Matrix sind, kann immer noch eine Kopie zurückgegeben werden.	True
	with_mean with_mean: bool, Standard=True Wenn True, zentrieren Sie die Daten vor der Skalierung. Dies funktioniert nicht (und löst eine Ausnahme aus), wenn versucht, auf Sparse-Matrizen angewendet zu werden, da deren Zentrierung den Aufbau einer dichten Matrix erfordert, die in gängigen Anwendungsfällen wahrscheinlich zu groß ist, um in den Speicher zu passen.	True
	with_std with_std: bool, Standard=True Wenn True, skalieren Sie die Daten auf Einheitsvarianz (oder äquivalent, Einheitsstandardabweichung).	True

	estimator estimator: estimator instance Der Klassifikator, trainiert oder nicht, für den wir den Entscheidungsschwellenwert optimieren möchten, der während `predict` verwendet wird.	Pipeline(step...t64(100.0)))])
	scoring scoring: str oder callable, default="balanced_accuracy" Die zu optimierende Zielfunktion. Kann einer der folgenden sein: - str: Zeichenkette, die einer Scoring-Funktion für binäre Klassifizierung zugeordnet ist, siehe :ref:`scoring_string_names` für Optionen. - callable: ein aufrufbares Bewertungsobjekt (z. B. Funktion) mit der Signatur ``scorer(estimator, X, y)``. Weitere Informationen finden Sie unter :ref:`scoring_callable`.	make_scorer(b...hod='predict')
	response_method response_method: {"auto", "decision_function", "predict_proba"}, default="auto" Methoden des Klassifikators `estimator`, die der Entscheidungsfunktion entsprechen, für die wir einen Schwellenwert finden möchten. Es kann sein: * wenn `"auto"`, versucht es für jeden Klassifikator, `"predict_proba"` oder `"decision_function"` in dieser Reihenfolge aufzurufen. * andernfalls eine von `"predict_proba"` oder `"decision_function"`. Wenn die Methode vom Klassifikator nicht implementiert wird, wird ein Fehler ausgelöst.	'auto'
	thresholds thresholds: int oder array-ähnlich, default=100 Die Anzahl der zu verwendenden Entscheidungsschwellenwerte bei der Diskretisierung der Ausgabe des Klassifikators `method`. Geben Sie ein Array-ähnliches Objekt an, um die zu verwendenden Schwellenwerte manuell festzulegen.	100
	cv cv: int, float, cross-validation generator, iterable oder "prefit", default=None Bestimmt die Strategie der Kreuzvalidierungsaufteilung zum Trainieren des Klassifikators. Mögliche Eingaben für cv sind: - `None`, um die standardmäßige 5-fache geschichtete K-Fold-Kreuzvalidierung zu verwenden; - Eine Ganzzahl, um die Anzahl der Folds in einem geschichteten k-fold anzugeben; - Eine Gleitkommazahl, um eine einzelne Shuffle-Split anzugeben. Die Gleitkommazahl sollte in (0, 1) liegen und die Größe des Validierungsdatensatzes darstellen; - Ein Objekt, das als Kreuzvalidierungsgenerator verwendet wird; - Ein Iterable, das Trainings- und Testsplits liefert; - `"prefit"`, um die Kreuzvalidierung zu umgehen. Siehe :ref:`Benutzerhandbuch ` für die verschiedenen Kreuzvalidierungsstrategien, die hier verwendet werden können. .. warning:: Die Verwendung von `cv="prefit"` und die Übergabe desselben Datensatzes für das Training von `estimator` und die Anpassung des Grenzwerts unterliegt unerwünschtem Overfitting. Sie können auf :ref:`TunedThresholdClassifierCV_no_cv` für ein Beispiel verweisen. Diese Option sollte nur verwendet werden, wenn der Datensatz, der zum Trainieren von `estimator` verwendet wurde, sich vom Datensatz unterscheidet, der zur Anpassung des Grenzwerts verwendet wurde (durch Aufruf von :meth:`TunedThresholdClassifierCV.fit`).	None
	refit refit: bool, default=True Ob der Klassifikator nach dem Ermitteln des Entscheidungsschwellenwerts auf dem gesamten Trainingsdatensatz neu trainiert werden soll oder nicht. Beachten Sie, dass die Erzwingung von `refit=False` bei Kreuzvalidierungen mit mehr als einem Split einen Fehler auslöst. Ebenso löst `refit=True` in Kombination mit `cv="prefit"` einen Fehler aus.	True
	n_jobs n_jobs: int, default=None Die Anzahl der parallel auszuführenden Jobs. Wenn `cv` eine Kreuzvalidierungsstrategie darstellt, wird das Training und die Bewertung auf jedem Daten-Split parallel durchgeführt. ``None`` bedeutet 1, es sei denn, es befindet sich in einem :obj:`joblib.parallel_backend` Kontext. ``-1`` bedeutet die Verwendung aller Prozessoren. Siehe :term:`Glossar ` für weitere Details.	2
	random_state random_state: int, RandomState-Instanz oder None, default=None Steuert die Zufälligkeit der Kreuzvalidierung, wenn `cv` eine Gleitkommazahl ist. Siehe :term:`Glossar `.	None
	store_cv_results store_cv_results: bool, default=False Ob alle Scores und Schwellenwerte, die während des Kreuzvalidierungsprozesses berechnet wurden, gespeichert werden sollen.	False

Nachbearbeitung des Entscheidungsschwellenwerts für kostenorientiertes Lernen#

Kostenorientiertes Lernen mit konstanten Gewinnen und Kosten#

"Statlog" German Credit Datensatz#

Bewertungsmetriken#

Vanilla-Vorhersagemodell#

Anpassung des Entscheidungsschwellenwerts#

Überlegungen zu Modellretraining und Kreuzvalidierung#

Kostenorientiertes Lernen, wenn Gewinne und Kosten nicht konstant sind#

Der Kreditkartendatensatz#

Das Problem mit einer Geschäftsmetrik lösen#

Anpassung des Entscheidungsschwellenwerts#

Manuelles Setzen der Entscheidungsschwelle anstelle ihrer Abstimmung#

Diese Seite