Hinweis

Zum Ende springen, um den vollständigen Beispielcode herunterzuladen oder dieses Beispiel über JupyterLite oder Binder in Ihrem Browser auszuführen.

Visualisierung der probabilistischen Vorhersagen eines VotingClassifier#

Darstellung der vorhergesagten Klassenwahrscheinlichkeiten in einem Dummy-Datensatz, vorhergesagt von drei verschiedenen Klassifikatoren und gemittelt durch den VotingClassifier.

Zuerst werden drei lineare Klassifikatoren initialisiert. Zwei davon sind Spline-Modelle mit Interaktionstermen, eines verwendet konstante Extrapolation und das andere periodische Extrapolation. Der dritte Klassifikator ist ein Nystroem mit dem Standard-RBF-Kernel.

Im ersten Teil dieses Beispiels werden diese drei Klassifikatoren verwendet, um Soft-Voting mit VotingClassifier mit gewichteter Mittelung zu demonstrieren. Wir setzen weights=[2, 1, 3], was bedeutet, dass die Vorhersagen des Spline-Modells mit konstanter Extrapolation doppelt so stark gewichtet werden wie die des Spline-Modells mit periodischer Extrapolation, und die Vorhersagen des Nystroem-Modells dreimal so stark gewichtet werden wie die des Spline-Modells mit periodischer Extrapolation.

Der zweite Teil zeigt, wie Soft-Vorhersagen in Hard-Vorhersagen umgewandelt werden können.

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

Wir generieren zunächst einen verrauschten XOR-Datensatz, der eine binäre Klassifizierungsaufgabe darstellt.

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from matplotlib.colors import ListedColormap

n_samples = 500
rng = np.random.default_rng(0)
feature_names = ["Feature #0", "Feature #1"]
common_scatter_plot_params = dict(
    cmap=ListedColormap(["tab:red", "tab:blue"]),
    edgecolor="white",
    linewidth=1,
)

xor = pd.DataFrame(
    np.random.RandomState(0).uniform(low=-1, high=1, size=(n_samples, 2)),
    columns=feature_names,
)
noise = rng.normal(loc=0, scale=0.1, size=(n_samples, 2))
target_xor = np.logical_xor(
    xor["Feature #0"] + noise[:, 0] > 0, xor["Feature #1"] + noise[:, 1] > 0
)

X = xor[feature_names]
y = target_xor.astype(np.int32)

fig, ax = plt.subplots()
ax.scatter(X["Feature #0"], X["Feature #1"], c=y, **common_scatter_plot_params)
ax.set_title("The XOR dataset")
plt.show()

Aufgrund der inhärenten nichtlinearen Trennbarkeit des XOR-Datensatzes wären baumbasierte Modelle oft vorzuziehen. Angemessenes Feature Engineering in Kombination mit einem linearen Modell kann jedoch effektive Ergebnisse liefern, mit dem zusätzlichen Vorteil, besser kalibrierte Wahrscheinlichkeiten für Stichproben zu erzeugen, die sich in Übergangsregionen befinden, die von Rauschen beeinflusst werden.

Wir definieren und trainieren die Modelle auf dem gesamten Datensatz.

from sklearn.ensemble import VotingClassifier
from sklearn.kernel_approximation import Nystroem
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import PolynomialFeatures, SplineTransformer, StandardScaler

clf1 = make_pipeline(
    SplineTransformer(degree=2, n_knots=2),
    PolynomialFeatures(interaction_only=True),
    LogisticRegression(C=10),
)
clf2 = make_pipeline(
    SplineTransformer(
        degree=2,
        n_knots=4,
        extrapolation="periodic",
        include_bias=True,
    ),
    PolynomialFeatures(interaction_only=True),
    LogisticRegression(C=10),
)
clf3 = make_pipeline(
    StandardScaler(),
    Nystroem(gamma=2, random_state=0),
    LogisticRegression(C=10),
)
weights = [2, 1, 3]
eclf = VotingClassifier(
    estimators=[
        ("constant splines model", clf1),
        ("periodic splines model", clf2),
        ("nystroem model", clf3),
    ],
    voting="soft",
    weights=weights,
)

clf1.fit(X, y)
clf2.fit(X, y)
clf3.fit(X, y)
eclf.fit(X, y)

Schließlich verwenden wir DecisionBoundaryDisplay, um die vorhergesagten Wahrscheinlichkeiten darzustellen. Durch die Verwendung einer divergierenden Colormap (wie z. B. "RdBu") können wir sicherstellen, dass dunklere Farben einer `predict_proba` nahe 0 oder 1 entsprechen und Weiß einer `predict_proba` von 0,5 entspricht.

from itertools import product

from sklearn.inspection import DecisionBoundaryDisplay

fig, axarr = plt.subplots(2, 2, sharex="col", sharey="row", figsize=(10, 8))
for idx, clf, title in zip(
    product([0, 1], [0, 1]),
    [clf1, clf2, clf3, eclf],
    [
        "Splines with\nconstant extrapolation",
        "Splines with\nperiodic extrapolation",
        "RBF Nystroem",
        "Soft Voting",
    ],
):
    disp = DecisionBoundaryDisplay.from_estimator(
        clf,
        X,
        response_method="predict_proba",
        plot_method="pcolormesh",
        cmap="RdBu",
        alpha=0.8,
        ax=axarr[idx[0], idx[1]],
    )
    axarr[idx[0], idx[1]].scatter(
        X["Feature #0"],
        X["Feature #1"],
        c=y,
        **common_scatter_plot_params,
    )
    axarr[idx[0], idx[1]].set_title(title)
    fig.colorbar(disp.surface_, ax=axarr[idx[0], idx[1]], label="Probability estimate")

plt.show()

Splines with constant extrapolation, Splines with periodic extrapolation, RBF Nystroem, Soft Voting

Als Plausibilitätsprüfung können wir für eine gegebene Stichprobe überprüfen, ob die vom VotingClassifier vorhergesagte Wahrscheinlichkeit tatsächlich die gewichtete Mittelung der Soft-Vorhersagen der einzelnen Klassifikatoren ist.

Im Fall der binären Klassifizierung, wie im vorliegenden Beispiel, enthalten die Arrays von predict_proba die Wahrscheinlichkeit, zu Klasse 0 zu gehören (hier in Rot) als ersten Eintrag und die Wahrscheinlichkeit, zu Klasse 1 zu gehören (hier in Blau) als zweiten Eintrag.

test_sample = pd.DataFrame({"Feature #0": [-0.5], "Feature #1": [1.5]})
predict_probas = [est.predict_proba(test_sample).ravel() for est in eclf.estimators_]
for (est_name, _), est_probas in zip(eclf.estimators, predict_probas):
    print(f"{est_name}'s predicted probabilities: {est_probas}")

constant splines model's predicted probabilities: [0.11272662 0.88727338]
periodic splines model's predicted probabilities: [0.99726573 0.00273427]
nystroem model's predicted probabilities: [0.3185838 0.6814162]

print(
    "Weighted average of soft-predictions: "
    f"{np.dot(weights, predict_probas) / np.sum(weights)}"
)

Weighted average of soft-predictions: [0.3630784 0.6369216]

Wir können sehen, dass die manuelle Berechnung der vorherigen vorhergesagten Wahrscheinlichkeiten äquivalent zu der ist, die vom VotingClassifier erzeugt wird.

print(
    "Predicted probability of VotingClassifier: "
    f"{eclf.predict_proba(test_sample).ravel()}"
)

Predicted probability of VotingClassifier: [0.3630784 0.6369216]

Um Soft-Vorhersagen in Hard-Vorhersagen umzuwandeln, wenn Gewichte angegeben sind, werden die gewichteten durchschnittlichen vorhergesagten Wahrscheinlichkeiten für jede Klasse berechnet. Dann wird das endgültige Klassenlabel aus dem Klassenlabel mit der höchsten durchschnittlichen Wahrscheinlichkeit abgeleitet, was im Fall der binären Klassifizierung dem Standardgrenzwert von predict_proba=0.5 entspricht.

print(
    "Class with the highest weighted average of soft-predictions: "
    f"{np.argmax(np.dot(weights, predict_probas) / np.sum(weights))}"
)

Class with the highest weighted average of soft-predictions: 1

Dies ist äquivalent zur Ausgabe der `predict`-Methode des VotingClassifier.

print(f"Predicted class of VotingClassifier: {eclf.predict(test_sample).ravel()}")

Predicted class of VotingClassifier: [1]

Soft-Votes können wie bei jedem anderen probabilistischen Klassifikator mit einem Schwellenwert versehen werden. Dies ermöglicht es Ihnen, einen Schwellenwert festzulegen, bei dem die positive Klasse vorhergesagt wird, anstatt einfach die Klasse mit der höchsten vorhergesagten Wahrscheinlichkeit auszuwählen.

from sklearn.model_selection import FixedThresholdClassifier

eclf_other_threshold = FixedThresholdClassifier(
    eclf, threshold=0.7, response_method="predict_proba"
).fit(X, y)
print(
    "Predicted class of thresholded VotingClassifier: "
    f"{eclf_other_threshold.predict(test_sample)}"
)

Predicted class of thresholded VotingClassifier: [0]

Gesamtlaufzeit des Skripts: (0 Minuten 0,560 Sekunden)

Verwandte Beispiele

Klassifikationswahrscheinlichkeit plotten

Polynomielle und Spline-Interpolation

Vergleich der Kalibrierung von Klassifikatoren

Entscheidungsgrenze semi-überwachter Klassifikatoren vs. SVM auf dem Iris-Datensatz

Galerie generiert von Sphinx-Gallery

	estimators estimators: Liste von (str, estimator) Tupeln Das Aufrufen der ``fit`` Methode auf dem ``VotingClassifier`` wird Klone der ursprünglichen Estimators trainieren, die im Klassenattribut ``self.estimators_`` gespeichert werden. Ein Estimator kann mit :meth:`set_params` auf ``'drop'`` gesetzt werden. .. versionchanged:: 0.21 ``'drop'`` wird akzeptiert. Die Verwendung von None wurde in 0.22 als veraltet markiert und die Unterstützung wurde in 0.24 entfernt.	[('constant splines model', ...), ('periodic splines model', ...), ...]
	voting voting: {'hard', 'soft'}, standardmäßig 'hard' Wenn 'hard', werden die vorhergesagten Klassenlabels für die Mehrheitswahl verwendet. Wenn 'soft', wird das Klassenlabel basierend auf dem Argmax der Summen der vorhergesagten Wahrscheinlichkeiten vorhergesagt, was für ein Ensemble gut kalibrierter Klassifikatoren empfohlen wird.	'soft'
	weights weights: Array-ähnlich der Form (n_classifiers,), standardmäßig None Sequenz von Gewichten (``float`` oder ``int``), um die Vorkommen vorhergesagter Klassenlabels (``hard`` voting) oder Klassenwahrscheinlichkeiten vor der Mittelung (``soft`` voting) zu gewichten. Es werden uniforme Gewichte verwendet, wenn ``None``.	[2, 1, ...]
	n_jobs n_jobs: int, standardmäßig None Die Anzahl der gleichzeitig auszuführenden Jobs für ``fit``. ``None`` bedeutet 1, es sei denn, es befindet sich in einem :obj:`joblib.parallel_backend` Kontext. ``-1`` bedeutet, alle Prozessoren zu verwenden. Siehe :term:`Glossary ` für weitere Details. .. versionadded:: 0.18	None
	flatten_transform flatten_transform: bool, standardmäßig True Beeinflusst die Form des Transform-Outputs nur, wenn voting='soft' Wenn voting='soft' und flatten_transform=True, gibt die Transform-Methode eine Matrix mit der Form (n_samples, n_classifiers * n_classes) zurück. Wenn flatten_transform=False, gibt sie (n_classifiers, n_samples, n_classes) zurück.	True
	verbose verbose: bool, standardmäßig False Wenn True, wird die verstrichene Zeit während des Trainings ausgegeben, sobald es abgeschlossen ist. .. versionadded:: 0.23	False

	n_knots n_knots: int, standardmäßig 5 Anzahl der Knoten der Splines, wenn `knots` gleich einem der Werte {'uniform', 'quantile'} ist. Muss größer oder gleich 2 sein. Ignoriert, wenn `knots` ein Array-ähnlicher Wert ist.	2
	degree degree: int, standardmäßig 3 Der Polynomgrad der Spline-Basis. Muss eine nicht-negative Ganzzahl sein.	2
	knots knots: {'uniform', 'quantile'} oder Array-ähnlich der Form (n_knots, n_features), standardmäßig 'uniform' Setzt die Knotenpositionen so, dass erster Knoten <= Merkmale <= letzter Knoten. - Wenn 'uniform', werden `n_knots` Knoten gleichmäßig von den Minimal- bis Maximalwerten der Merkmale verteilt. - Wenn 'quantile', werden sie gleichmäßig entlang der Quantile der Merkmale verteilt. - Wenn ein Array-ähnlicher Wert gegeben ist, gibt er direkt die sortierten Knotenpositionen an, einschließlich der Randknoten. Beachten Sie, dass intern `degree` Anzahl von Knoten vor dem ersten Knoten und die gleiche Anzahl nach dem letzten Knoten hinzugefügt werden.	'uniform'
	extrapolation extrapolation: {'error', 'constant', 'linear', 'continue', 'periodic'}, standardmäßig 'constant' Wenn 'error', lösen Werte außerhalb der minimalen und maximalen Werte der Trainingsmerkmale einen `ValueError` aus. Wenn 'constant', wird der Wert der Splines bei minimalem und maximalem Merkmalwert als konstante Extrapolation verwendet. Wenn 'linear', wird eine lineare Extrapolation verwendet. Wenn 'continue', werden die Splines wie sie sind extrapoliert, d.h. Option `extrapolate=True` in :class:`scipy.interpolate.BSpline`. Wenn 'periodic', werden periodische Splines mit einer Periodizität, die der Entfernung zwischen dem ersten und letzten Knoten entspricht, verwendet. Periodische Splines erzwingen gleiche Funktionswerte und Ableitungen am ersten und letzten Knoten. Dies ermöglicht es beispielsweise, einen willkürlichen Sprung zwischen dem 31. Dezember und dem 1. Januar in Spline-Merkmalen zu vermeiden, die aus einem natürlich periodischen Merkmal "Tag des Jahres" abgeleitet sind. In diesem Fall wird empfohlen, die Knotwerte manuell festzulegen, um die Periode zu steuern.	'constant'
	include_bias include_bias: bool, standardmäßig True Wenn False, wird das letzte Spline-Element innerhalb des Datenbereichs eines Merkmals weggelassen. Da B-Splines über die Spline-Basis funktionen für jeden Datenpunkt zu eins summieren, enthalten sie implizit einen Bias-Term, d.h. eine Spalte von Einsen. Er fungiert als Achsenabschnittsterm in einem linearen Modell.	True
	order order: {'C', 'F'}, standardmäßig 'C' Reihenfolge des Ausgabe-Arrays im dichten Fall. Die `'F'`-Reihenfolge ist schneller zu berechnen, kann aber nachfolgende Estimators verlangsamen.	'C'
	handle_missing handle_missing: {'error', 'zeros'}, standardmäßig 'error' Gibt an, wie fehlende Werte behandelt werden. - 'error': Löst einen Fehler aus, wenn `np.nan`-Werte während :meth:`fit` vorhanden sind. - 'zeros': Kodiert Splines fehlender Werte mit Werten `0`. Beachten Sie, dass `handle_missing='zeros'` sich vom ersten Imputieren fehlender Werte mit Nullen und anschließender Erstellung der Spline-Basis unterscheidet. Letzteres erstellt Spline-Basis funktionen, die nicht-null Werte bei den fehlenden Werten haben, während diese Option einfach alle Werte der Spline-Basis-Funktion bei den fehlenden Werten auf Null setzt. .. versionadded:: 1.8	'error'
	sparse_output sparse_output: bool, standardmäßig False Gibt eine spärliche CSR-Matrix zurück, wenn True gesetzt ist, andernfalls ein Array. .. versionadded:: 1.2	False

	degree degree: int oder Tupel (min_degree, max_degree), standardmäßig 2 Wenn eine einzelne Ganzzahl angegeben wird, spezifiziert sie den maximalen Grad der Polynommerkmale. Wenn ein Tupel `(min_degree, max_degree)` übergeben wird, dann ist `min_degree` der minimale und `max_degree` der maximale Polynomgrad der erzeugten Merkmale. Beachten Sie, dass `min_degree=0` und `min_degree=1` äquivalent sind, da die Ausgabe des Grades Null-Terms durch `include_bias` bestimmt wird.	2
	interaction_only interaction_only: bool, standardmäßig False Wenn `True`, werden nur Interaktionsmerkmale erzeugt: Merkmale, die Produkte von höchstens `degree` unterschiedlichen Eingabemerkmalen sind, d.h. Terme mit Potenz von 2 oder höher desselben Eingabemerkmals werden ausgeschlossen: - eingeschlossen: `x[0]`, `x[1]`, `x[0] * x[1]`, etc. - ausgeschlossen: `x[0] 2`, `x[0] 2 * x[1]`, etc.	True
	include_bias include_bias: bool, standardmäßig True Wenn `True` (Standard), dann schließe eine Bias-Spalte ein, das Merkmal, in dem alle Polynompotenzen Null sind (d.h. eine Spalte von Einsen - fungiert als Achsenabschnittsterm in einem linearen Modell).	True
	order order: {'C', 'F'}, standardmäßig 'C' Reihenfolge des Ausgabe-Arrays im dichten Fall. Die `'F'`-Reihenfolge ist schneller zu berechnen, kann aber nachfolgende Estimators verlangsamen. .. versionadded:: 0.21	'C'

	penalty penalty: {'l1', 'l2', 'elasticnet', None}, default='l2' Gibt die Norm der Strafe an: - `None`: keine Strafe wird hinzugefügt; - `'l2'`: fügt einen L2-Strafbegriff hinzu und ist die Standardwahl; - `'l1'`: fügt einen L1-Strafbegriff hinzu; - `'elasticnet'`: beide L1- und L2-Strafbegriffe werden hinzugefügt. .. warning:: Einige Strafen funktionieren möglicherweise nicht mit einigen Solvern. Siehe den Parameter `solver` unten, um die Kompatibilität zwischen der Strafe und dem Solver zu erfahren. .. versionadded:: 0.19 l1-Strafe mit SAGA-Solver (erlaubt 'multinomial' + L1) .. deprecated:: 1.8 `penalty` wurde in Version 1.8 als veraltet markiert und wird in 1.10 entfernt. Verwenden Sie stattdessen `l1_ratio`. `l1_ratio=0` für `penalty='l2'`, `l1_ratio=1` für `penalty='l1'` und `l1_ratio` auf eine Gleitkommazahl zwischen 0 und 1 gesetzt für `'penalty='elasticnet'`.	'deprecated'
	C C: float, default=1.0 Kehrwert der Regularisierungsstärke; muss eine positive Gleitkommazahl sein. Wie bei Support Vector Machines geben kleinere Werte eine stärkere Regularisierung an. `C=np.inf` führt zu ungestrafter logistischer Regression. Für ein visuelles Beispiel der Auswirkung der Abstimmung des Parameters `C` mit einer L1-Strafe siehe: :ref:`sphx_glr_auto_examples_linear_model_plot_logistic_path.py`.	10
	l1_ratio l1_ratio: float, default=0.0 Der Elastic-Net-Mischungsparameter, mit `0 <= l1_ratio <= 1`. Das Setzen von `l1_ratio=1` ergibt eine reine L1-Strafe, das Setzen von `l1_ratio=0` eine reine L2-Strafe. Jeder Wert zwischen 0 und 1 ergibt eine Elastic-Net-Strafe der Form `l1_ratio * L1 + (1 - l1_ratio) * L2`. .. warning:: Bestimmte Werte von `l1_ratio`, d. h. einige Strafen, funktionieren möglicherweise nicht mit einigen Solvern. Siehe den Parameter `solver` unten, um die Kompatibilität zwischen der Strafe und dem Solver zu erfahren. .. versionchanged:: 1.8 Der Standardwert wurde von None auf 0.0 geändert. .. deprecated:: 1.8 `None` ist veraltet und wird in Version 1.10 entfernt. Verwenden Sie immer `l1_ratio`, um den Strafentyp anzugeben.	0.0
	dual dual: bool, default=False Duale (beschränkte) oder primale (regularisierte, siehe auch :ref:`diese Gleichung `) Formulierung. Die duale Formulierung ist nur für die L2-Strafe mit dem liblinear-Solver implementiert. Bevorzugen Sie `dual=False` wenn n_samples > n_features.	False
	tol tol: float, default=1e-4 Toleranz für Abbruchkriterien.	0.0001
	fit_intercept fit_intercept: bool, default=True Gibt an, ob eine Konstante (auch Bias oder Achsenabschnitt genannt) zur Entscheidungsfunktion hinzugefügt werden soll.	True
	intercept_scaling intercept_scaling: float, default=1 Nur nützlich, wenn der Solver `liblinear` verwendet wird und `self.fit_intercept` auf `True` gesetzt ist. In diesem Fall wird `x` zu `[x, self.intercept_scaling]`, d. h. ein "synthetisches" Merkmal mit konstantem Wert gleich `intercept_scaling` wird an den Instanzvektor angehängt. Der Achsenabschnitt wird dann ``intercept_scaling * synthetisches Merkmalsgewicht``. .. note:: Das Gewicht des synthetischen Merkmals unterliegt der L1- oder L2- Regularisierung wie alle anderen Merkmale. Um die Auswirkung der Regularisierung auf das synthetische Merkmalsgewicht (und damit auf den Achsenabschnitt) zu verringern, muss `intercept_scaling` erhöht werden.	1
	class_weight class_weight: dict oder 'balanced', default=None Mit Klassen assoziierte Gewichte in der Form ``{class_label: weight}``. Wenn nicht angegeben, wird angenommen, dass alle Klassen das Gewicht eins haben. Der Modus "balanced" verwendet die Werte von y, um die Gewichte automatisch invers proportional zu den Klassenhaüfigkeiten in den Eingabedaten als ``n_samples / (n_classes * np.bincount(y))`` anzupassen. Beachten Sie, dass diese Gewichte mit sample_weight (übergeben durch die fit-Methode) multipliziert werden, wenn sample_weight angegeben ist. .. versionadded:: 0.17 class_weight='balanced'	None
	random_state random_state: int, RandomState-Instanz, default=None Wird verwendet, wenn ``solver`` == 'sag', 'saga' oder 'liblinear', um die Daten zu mischen. Siehe :term:`Glossar ` für Details.	None
	solver solver: {'lbfgs', 'liblinear', 'newton-cg', 'newton-cholesky', 'sag', 'saga'}, standardmäßig 'lbfgs' Algorithmus, der im Optimierungsproblem verwendet werden soll. Standard ist 'lbfgs'. Um einen Solver auszuwählen, sollten Sie möglicherweise die folgenden Aspekte berücksichtigen: - 'lbfgs' ist ein guter Standard-Solver, da er für eine breite Klasse von Problemen einigermaßen gut funktioniert. - Für :term:`multiclass` Probleme (n_Klassen >= 3) minimieren alle Solver außer 'liblinear' den vollständigen multinomialen Verlust; 'liblinear' löst einen Fehler aus. - 'newton-cholesky' ist eine gute Wahl für `n_samples` >> `n_features * n_classes`, insbesondere mit One-Hot-kodierten kategorialen Merkmalen mit seltenen Kategorien. Beachten Sie, dass der Speicherverbrauch dieses Solvers eine quadratische Abhängigkeit von `n_features * n_classes` hat, da er die vollständige Hesse-Matrix explizit berechnet. - Für kleine Datensätze ist 'liblinear' eine gute Wahl, während 'sag' und 'saga' für große Datensätze schneller sind; - 'liblinear' kann standardmäßig nur binäre Klassifizierung verarbeiten. Um eine One-versus-Rest-Schema für den Multiklassen-Fall anzuwenden, kann man es mit :class:`~sklearn.multiclass.OneVsRestClassifier` wrappen. .. warning:: Die Wahl des Algorithmus hängt von der gewählten Strafe ab (l1_ratio=0 für L2-Strafe, l1_ratio=1 für L1-Strafe und 0 < l1_ratio < 1 für Elastic-Net) und von der (multinomialen) Multiklassen-Unterstützung: ================= ======================== ====================== solver l1_ratio multinomial multiclass ================= ======================== ====================== 'lbfgs' l1_ratio=0 ja 'liblinear' l1_ratio=1 oder l1_ratio=0 nein 'newton-cg' l1_ratio=0 ja 'newton-cholesky' l1_ratio=0 ja 'sag' l1_ratio=0 ja 'saga' 0<=l1_ratio<=1 ja ================= ======================== ====================== .. note:: Die schnelle Konvergenz von 'sag' und 'saga' ist nur auf Merkmalen mit ungefähr gleicher Skalierung garantiert. Sie können die Daten mit einem Skalierer aus :mod:`sklearn.preprocessing` vorverarbeiten. .. seealso:: Siehe das :ref:`Benutzerhandbuch ` für weitere Informationen zu :class:`LogisticRegression` und insbesondere die :ref:`Tabelle ` zusammenfassend die Unterstützung von Solver/Strafe. .. versionadded:: 0.17 Stochastic Average Gradient (SAG) Descents-Solver. Multinomiale Unterstützung in Version 0.18. .. versionadded:: 0.19 SAGA-Solver. .. versionchanged:: 0.22 Der Standard-Solver änderte sich von 'liblinear' zu 'lbfgs' in 0.22. .. versionadded:: 1.2 newton-cholesky Solver. Multinomiale Unterstützung in Version 1.6.	'lbfgs'
	max_iter max_iter: int, default=100 Maximale Anzahl von Iterationen, die die Solver zur Konvergenz benötigen.	100
	verbose verbose: int, default=0 Für die Solver liblinear und lbfgs setzen Sie verbose auf eine beliebige positive Zahl für die Ausführlichkeit.	0
	warm_start warm_start: bool, default=False Wenn auf True gesetzt, wird die Lösung des vorherigen Aufrufs von fit als Initialisierung wiederverwendet, andernfalls wird die vorherige Lösung einfach gelöscht. Nützlich für den liblinear-Solver. Siehe :term:`das Glossar `. .. versionadded:: 0.17 warm_start zur Unterstützung der Solver lbfgs, newton-cg, sag, saga.	False
	n_jobs n_jobs: int, default=None Hat keine Auswirkung. .. deprecated:: 1.8 `n_jobs` ist in Version 1.8 veraltet und wird in 1.10 entfernt.	None

	n_knots n_knots: int, standardmäßig 5 Anzahl der Knoten der Splines, wenn `knots` gleich einem der Werte {'uniform', 'quantile'} ist. Muss größer oder gleich 2 sein. Ignoriert, wenn `knots` ein Array-ähnlicher Wert ist.	4
	degree degree: int, standardmäßig 3 Der Polynomgrad der Spline-Basis. Muss eine nicht-negative Ganzzahl sein.	2
	knots knots: {'uniform', 'quantile'} oder Array-ähnlich der Form (n_knots, n_features), standardmäßig 'uniform' Setzt die Knotenpositionen so, dass erster Knoten <= Merkmale <= letzter Knoten. - Wenn 'uniform', werden `n_knots` Knoten gleichmäßig von den Minimal- bis Maximalwerten der Merkmale verteilt. - Wenn 'quantile', werden sie gleichmäßig entlang der Quantile der Merkmale verteilt. - Wenn ein Array-ähnlicher Wert gegeben ist, gibt er direkt die sortierten Knotenpositionen an, einschließlich der Randknoten. Beachten Sie, dass intern `degree` Anzahl von Knoten vor dem ersten Knoten und die gleiche Anzahl nach dem letzten Knoten hinzugefügt werden.	'uniform'
	extrapolation extrapolation: {'error', 'constant', 'linear', 'continue', 'periodic'}, standardmäßig 'constant' Wenn 'error', lösen Werte außerhalb der minimalen und maximalen Werte der Trainingsmerkmale einen `ValueError` aus. Wenn 'constant', wird der Wert der Splines bei minimalem und maximalem Merkmalwert als konstante Extrapolation verwendet. Wenn 'linear', wird eine lineare Extrapolation verwendet. Wenn 'continue', werden die Splines wie sie sind extrapoliert, d.h. Option `extrapolate=True` in :class:`scipy.interpolate.BSpline`. Wenn 'periodic', werden periodische Splines mit einer Periodizität, die der Entfernung zwischen dem ersten und letzten Knoten entspricht, verwendet. Periodische Splines erzwingen gleiche Funktionswerte und Ableitungen am ersten und letzten Knoten. Dies ermöglicht es beispielsweise, einen willkürlichen Sprung zwischen dem 31. Dezember und dem 1. Januar in Spline-Merkmalen zu vermeiden, die aus einem natürlich periodischen Merkmal "Tag des Jahres" abgeleitet sind. In diesem Fall wird empfohlen, die Knotwerte manuell festzulegen, um die Periode zu steuern.	'periodic'
	include_bias include_bias: bool, standardmäßig True Wenn False, wird das letzte Spline-Element innerhalb des Datenbereichs eines Merkmals weggelassen. Da B-Splines über die Spline-Basis funktionen für jeden Datenpunkt zu eins summieren, enthalten sie implizit einen Bias-Term, d.h. eine Spalte von Einsen. Er fungiert als Achsenabschnittsterm in einem linearen Modell.	True
	order order: {'C', 'F'}, standardmäßig 'C' Reihenfolge des Ausgabe-Arrays im dichten Fall. Die `'F'`-Reihenfolge ist schneller zu berechnen, kann aber nachfolgende Estimators verlangsamen.	'C'
	handle_missing handle_missing: {'error', 'zeros'}, standardmäßig 'error' Gibt an, wie fehlende Werte behandelt werden. - 'error': Löst einen Fehler aus, wenn `np.nan`-Werte während :meth:`fit` vorhanden sind. - 'zeros': Kodiert Splines fehlender Werte mit Werten `0`. Beachten Sie, dass `handle_missing='zeros'` sich vom ersten Imputieren fehlender Werte mit Nullen und anschließender Erstellung der Spline-Basis unterscheidet. Letzteres erstellt Spline-Basis funktionen, die nicht-null Werte bei den fehlenden Werten haben, während diese Option einfach alle Werte der Spline-Basis-Funktion bei den fehlenden Werten auf Null setzt. .. versionadded:: 1.8	'error'
	sparse_output sparse_output: bool, standardmäßig False Gibt eine spärliche CSR-Matrix zurück, wenn True gesetzt ist, andernfalls ein Array. .. versionadded:: 1.2	False

	copy copy: bool, Standard=True Wenn False, versuchen Sie, eine Kopie zu vermeiden und stattdessen direkt zu skalieren. Dies ist nicht garantiert, dass es immer direkt funktioniert; z.B. wenn die Daten kein NumPy-Array oder eine scipy.sparse CSR-Matrix sind, kann immer noch eine Kopie zurückgegeben werden.	True
	with_mean with_mean: bool, Standard=True Wenn True, zentrieren Sie die Daten vor der Skalierung. Dies funktioniert nicht (und löst eine Ausnahme aus), wenn versucht, auf Sparse-Matrizen angewendet zu werden, da deren Zentrierung den Aufbau einer dichten Matrix erfordert, die in gängigen Anwendungsfällen wahrscheinlich zu groß ist, um in den Speicher zu passen.	True
	with_std with_std: bool, Standard=True Wenn True, skalieren Sie die Daten auf Einheitsvarianz (oder äquivalent, Einheitsstandardabweichung).	True

	kernel kernel: str oder aufrufbar, standardmäßig 'rbf' Zu approximierende Kernel-Abbildung. Eine aufrufbare Funktion sollte zwei Argumente und die an dieses Objekt übergebenen Schlüsselwortargumente als `kernel_params` akzeptieren und eine Gleitkommazahl zurückgeben.	'rbf'
	gamma gamma: float, standardmäßig None Gamma-Parameter für die RBF-, Laplacschen-, Polynom-, Exponential-Chi2 - und Sigmoid-Kernel. Die Interpretation des Standardwerts wird dem Kernel überlassen; siehe die Dokumentation für sklearn.metrics.pairwise. Wird von anderen Kerneln ignoriert.	2
	coef0 coef0: float, standardmäßig None Null-Koeffizient für Polynom- und Sigmoid-Kernel. Wird von anderen Kerneln ignoriert.	None
	degree degree: float, standardmäßig None Grad des Polynom-Kernels. Wird von anderen Kerneln ignoriert.	None
	kernel_params kernel_params: dict, standardmäßig None Zusätzliche Parameter (Schlüsselwortargumente) für die Kernel-Funktion, übergeben als aufrufbaren Objekt.	None
	n_components n_components: int, standardmäßig 100 Anzahl der zu konstruierenden Merkmale. Wie viele Datenpunkte werden zur Konstruktion der Abbildung verwendet.	100
	random_state random_state: int, RandomState-Instanz oder None, standardmäßig None Pseudo-Zufallszahlengenerator zur Steuerung der einfachen Stichprobenziehung ohne Zurücklegen von `n_components` der Trainingsdaten zur Konstruktion der Basis-Kernel. Geben Sie eine Ganzzahl für reproduzierbare Ausgaben über mehrere Funktionsaufrufe an. Siehe :term:`Glossary `.	0
	n_jobs n_jobs: int, standardmäßig None Die Anzahl der zu verwendenden Jobs für die Berechnung. Dies funktioniert, indem die Kernel-Matrix in `n_jobs` gleichmäßige Slices aufgeteilt und diese parallel berechnet werden. ``None`` bedeutet 1, es sei denn, es befindet sich in einem :obj:`joblib.parallel_backend` Kontext. ``-1`` bedeutet, alle Prozessoren zu verwenden. Siehe :term:`Glossary ` für weitere Details. .. versionadded:: 0.24	None

Visualisierung der probabilistischen Vorhersagen eines VotingClassifier#

Diese Seite