check_X_y#

sklearn.utils.check_X_y(X, y, accept_sparse=False, *, accept_large_sparse=True, dtype='numeric', order=None, copy=False, force_writeable=False, ensure_all_finite=True, ensure_2d=True, allow_nd=False, multi_output=False, ensure_min_samples=1, ensure_min_features=1, y_numeric=False, estimator=None)[Quelle]#

Eingabevalidierung für Standard-Schätzer.

Prüft X und y auf konsistente Länge, erzwingt, dass X 2D und y 1D ist. Standardmäßig wird geprüft, ob X nicht leer ist und nur endliche Werte enthält. Auf y werden auch standardmäßige Eingabeprüfungen angewendet, wie z.B. die Prüfung, dass y keine np.nan- oder np.inf-Ziele hat. Für mehrschichtige y setzen Sie multi_output=True, um 2D und spärliche y zuzulassen. Wenn der dtype von X object ist, wird versucht, ihn in float zu konvertieren, wobei bei einem Fehler eine Ausnahme ausgelöst wird.

Parameter:
X{ndarray, list, sparse matrix}

Eingabedaten.

y{ndarray, list, sparse matrix}

Labels.

accept_sparsestr, bool oder Liste von str, Standardwert=False

Zeichenkette(n), die zulässige spärliche Matrixformate darstellen, wie z.B. „csc“, „csr“ usw. Wenn die Eingabe spärlich ist, aber nicht im zulässigen Format, wird sie in das erste aufgeführte Format konvertiert. True erlaubt, dass die Eingabe jedes Format hat. False bedeutet, dass eine spärliche Matrixeingabe einen Fehler auslöst.

accept_large_sparsebool, Standardwert=True

Wenn eine CSR-, CSC-, COO- oder BSR-spärliche Matrix bereitgestellt und von accept_sparse akzeptiert wird, bewirkt accept_large_sparse, dass sie nur akzeptiert wird, wenn ihre Indizes mit einem 32-Bit-dtype gespeichert sind.

Hinzugefügt in Version 0.20.

dtype„numeric“, Typ, Liste von Typen oder None, Standardwert=„numeric“

Datentyp des Ergebnisses. Wenn None, wird der dtype der Eingabe beibehalten. Wenn „numeric“, wird der dtype beibehalten, es sei denn, array.dtype ist object. Wenn dtype eine Liste von Typen ist, wird die Konvertierung auf den ersten Typ nur durchgeführt, wenn der dtype der Eingabe nicht in der Liste enthalten ist.

order{„F“, „C“}, Standardwert=None

Ob ein Array im fortran- oder c-Stil erzwungen wird. Wenn None, dann wird die Reihenfolge der Eingabedaten nach Möglichkeit beibehalten.

copybool, default=False

Ob eine erzwungene Kopie ausgelöst wird. Wenn copy=False, kann eine Kopie durch eine Konvertierung ausgelöst werden.

force_writeablebool, Standardwert=False

Ob das Ausgabe-Array schreibbar erzwungen werden soll. Wenn True, ist garantiert, dass das zurückgegebene Array schreibbar ist, was eine Kopie erfordern kann. Andernfalls wird die Schreibbarkeit des Eingabe-Arrays beibehalten.

Hinzugefügt in Version 1.6.

ensure_all_finitebool oder ‘allow-nan’, Standard=True

Ob bei np.inf, np.nan, pd.NA in einem Array ein Fehler ausgelöst werden soll. Dieser Parameter beeinflusst nicht, ob y np.inf, np.nan, pd.NA-Werte haben kann. Die Möglichkeiten sind

  • True: Alle Werte von X werden als endlich erzwungen.

  • False: akzeptiert np.inf, np.nan, pd.NA in X.

  • „allow-nan“: akzeptiert nur np.nan- oder pd.NA-Werte in X. Werte dürfen nicht unendlich sein.

Hinzugefügt in Version 1.6: force_all_finite wurde in ensure_all_finite umbenannt.

ensure_2dbool, Standardwert=True

Ob ein Wertfehler ausgelöst werden soll, wenn X nicht 2D ist.

allow_ndbool, Standardwert=False

Ob X.ndim > 2 zugelassen werden soll.

multi_outputbool, Standardwert=False

Ob 2D y (Array oder spärliche Matrix) zugelassen werden soll. Wenn false, wird y als Vektor validiert. y darf keine np.nan- oder np.inf-Werte haben, wenn multi_output=True ist.

ensure_min_samplesint, Standardwert=1

Stellen Sie sicher, dass X eine minimale Anzahl von Stichproben auf seiner ersten Achse hat (Zeilen für ein 2D-Array).

ensure_min_featuresint, Standardwert=1

Stellen Sie sicher, dass das 2D-Array eine minimale Anzahl von Merkmalen (Spalten) aufweist. Der Standardwert von 1 lehnt leere Datensätze ab. Diese Prüfung wird nur erzwungen, wenn X effektiv 2 Dimensionen hat oder ursprünglich 1D ist und ensure_2d True ist. Setzen auf 0 deaktiviert diese Prüfung.

y_numericbool, Standardwert=False

Ob sichergestellt werden soll, dass y einen numerischen Typ hat. Wenn der dtype von y object ist, wird er in float64 konvertiert. Sollte nur für Regressionsalgorithmen verwendet werden.

estimatorstr oder Estimator-Instanz, Standardwert=None

Wenn übergeben, schließen Sie den Namen des Estimators in Warnmeldungen ein.

Gibt zurück:
X_convertedobject

Das konvertierte und validierte X.

y_convertedobject

Das konvertierte und validierte y.

Beispiele

>>> from sklearn.utils.validation import check_X_y
>>> X = [[1, 2], [3, 4], [5, 6]]
>>> y = [1, 2, 3]
>>> X, y = check_X_y(X, y)
>>> X
array([[1, 2],
      [3, 4],
      [5, 6]])
>>> y
array([1, 2, 3])