MissingIndicator#

class sklearn.impute.MissingIndicator(*, missing_values=nan, features='missing-only', sparse='auto', error_on_new=True)[Quelle]#

Binäre Indikatoren für fehlende Werte.

Beachten Sie, dass diese Komponente normalerweise nicht in einer einfachen Pipeline, die aus Transformatoren und einem Klassifikator besteht, verwendet werden sollte, sondern eher über eine FeatureUnion oder ColumnTransformer hinzugefügt werden könnte.

Lesen Sie mehr im Benutzerhandbuch.

Hinzugefügt in Version 0.20.

Parameter:
missing_valuesint, float, str, np.nan oder None, default=np.nan

Der Platzhalter für die fehlenden Werte. Alle Vorkommen von missing_values werden imputiert. Für Pandas-Datenrahmen mit nullable Integer-Datentypen mit fehlenden Werten sollte missing_values auf np.nan gesetzt werden, da pd.NA in np.nan konvertiert wird.

features{‘missing-only’, ‘all’}, default=’missing-only’

Ob die Imputationsmaske alle oder eine Teilmenge von Merkmalen darstellen soll.

  • Wenn 'missing-only' (Standard), stellt die Imputationsmaske nur Merkmale dar, die während der Trainingszeit fehlende Werte enthalten.

  • Wenn 'all', stellt die Imputationsmaske alle Merkmale dar.

sparsebool oder ‘auto’, default=’auto’

Ob das Format der Imputationsmaske spärlich oder dicht sein soll.

  • Wenn 'auto' (Standard), hat die Imputationsmaske denselben Typ wie die Eingabe.

  • Wenn True, ist die Imputationsmaske eine spärliche Matrix.

  • Wenn False, ist die Imputationsmaske ein Numpy-Array.

error_on_newbool, default=True

Wenn True, löst transform einen Fehler aus, wenn Merkmale mit fehlenden Werten vorhanden sind, die während fit keine fehlenden Werte aufwiesen. Dies ist nur anwendbar, wenn features='missing-only'.

Attribute:
features_ndarray mit der Form (n_missing_features,) oder (n_features,)

Die Indizes der Merkmale, die beim Aufrufen von transform zurückgegeben werden. Sie werden während fit berechnet. Wenn features='all', ist features_ gleich range(n_features).

n_features_in_int

Anzahl der während des fits gesehenen Merkmale.

Hinzugefügt in Version 0.24.

feature_names_in_ndarray mit Form (n_features_in_,)

Namen der während fit gesehenen Merkmale. Nur definiert, wenn X Merkmalnamen hat, die alle Zeichenketten sind.

Hinzugefügt in Version 1.0.

Siehe auch

SimpleImputer

Univariate Imputation fehlender Werte.

IterativeImputer

Multivariate Imputation fehlender Werte.

Beispiele

>>> import numpy as np
>>> from sklearn.impute import MissingIndicator
>>> X1 = np.array([[np.nan, 1, 3],
...                [4, 0, np.nan],
...                [8, 1, 0]])
>>> X2 = np.array([[5, 1, np.nan],
...                [np.nan, 2, 3],
...                [2, 4, 0]])
>>> indicator = MissingIndicator()
>>> indicator.fit(X1)
MissingIndicator()
>>> X2_tr = indicator.transform(X2)
>>> X2_tr
array([[False,  True],
       [ True, False],
       [False, False]])
fit(X, y=None)[Quelle]#

Trainieren Sie den Transformator auf X.

Parameter:
X{array-like, sparse matrix} der Form (n_samples, n_features)

Eingabedaten, wobei n_samples die Anzahl der Stichproben und n_features die Anzahl der Merkmale ist.

yIgnoriert

Wird nicht verwendet, ist aber aus Gründen der API-Konsistenz per Konvention vorhanden.

Gibt zurück:
selfobject

Angepasster Schätzer.

fit_transform(X, y=None)[Quelle]#

Generieren Sie eine Indikatormaske für fehlende Werte für X.

Parameter:
X{array-like, sparse matrix} der Form (n_samples, n_features)

Die Eingabedaten, die vervollständigt werden sollen.

yIgnoriert

Wird nicht verwendet, ist aber aus Gründen der API-Konsistenz per Konvention vorhanden.

Gibt zurück:
Xt{ndarray, sparse matrix} der Form (n_samples, n_features) oder (n_samples, n_features_with_missing)

Die Indikatormaske für fehlende Werte für die Eingabedaten. Der Datentyp von Xt ist boolean.

get_feature_names_out(input_features=None)[Quelle]#

Holt die Ausgabemerkmale für die Transformation.

Parameter:
input_featuresarray-like von str oder None, default=None

Eingabemerkmale.

  • Wenn input_features None ist, werden feature_names_in_ als Merkmalnamen verwendet. Wenn feature_names_in_ nicht definiert ist, werden die folgenden Eingabemerkmalsnamen generiert: ["x0", "x1", ..., "x(n_features_in_ - 1)"].

  • Wenn input_features ein Array-ähnliches Objekt ist, muss input_features mit feature_names_in_ übereinstimmen, wenn feature_names_in_ definiert ist.

Gibt zurück:
feature_names_outndarray von str-Objekten

Transformierte Merkmalnamen.

get_metadata_routing()[Quelle]#

Holt das Metadaten-Routing dieses Objekts.

Bitte prüfen Sie im Benutzerhandbuch, wie der Routing-Mechanismus funktioniert.

Gibt zurück:
routingMetadataRequest

Ein MetadataRequest, der Routing-Informationen kapselt.

get_params(deep=True)[Quelle]#

Holt Parameter für diesen Schätzer.

Parameter:
deepbool, default=True

Wenn True, werden die Parameter für diesen Schätzer und die enthaltenen Unterobjekte, die Schätzer sind, zurückgegeben.

Gibt zurück:
paramsdict

Parameternamen, zugeordnet ihren Werten.

set_output(*, transform=None)[Quelle]#

Ausgabecontainer festlegen.

Siehe Einführung in die set_output API für ein Beispiel zur Verwendung der API.

Parameter:
transform{“default”, “pandas”, “polars”}, default=None

Konfiguriert die Ausgabe von transform und fit_transform.

  • "default": Standardausgabeformat eines Transformers

  • "pandas": DataFrame-Ausgabe

  • "polars": Polars-Ausgabe

  • None: Die Transformationskonfiguration bleibt unverändert

Hinzugefügt in Version 1.4: Die Option "polars" wurde hinzugefügt.

Gibt zurück:
selfestimator instance

Schätzer-Instanz.

set_params(**params)[Quelle]#

Setzt die Parameter dieses Schätzers.

Die Methode funktioniert sowohl bei einfachen Schätzern als auch bei verschachtelten Objekten (wie Pipeline). Letztere haben Parameter der Form <component>__<parameter>, so dass es möglich ist, jede Komponente eines verschachtelten Objekts zu aktualisieren.

Parameter:
**paramsdict

Schätzer-Parameter.

Gibt zurück:
selfestimator instance

Schätzer-Instanz.

transform(X)[Quelle]#

Generieren Sie eine Indikatormaske für fehlende Werte für X.

Parameter:
X{array-like, sparse matrix} der Form (n_samples, n_features)

Die Eingabedaten, die vervollständigt werden sollen.

Gibt zurück:
Xt{ndarray, sparse matrix} der Form (n_samples, n_features) oder (n_samples, n_features_with_missing)

Die Indikatormaske für fehlende Werte für die Eingabedaten. Der Datentyp von Xt ist boolean.