VarianceThreshold#

class sklearn.feature_selection.VarianceThreshold(threshold=0.0)[Quelle]#

Merkmalsselektor, der alle Merkmale mit geringer Varianz entfernt.

Dieser Feature-Auswahl-Algorithmus betrachtet nur die Features (X), nicht die gewünschten Ausgaben (y), und kann daher für unüberwachtes Lernen verwendet werden.

Lesen Sie mehr im Benutzerhandbuch.

Parameter:
thresholdfloat, default=0

Features mit einer Varianz im Trainingsdatensatz, die niedriger als dieser Schwellenwert ist, werden entfernt. Der Standardwert ist, alle Features mit nicht-null Varianz beizubehalten, d.h. die Features, die in allen Stichproben den gleichen Wert haben, zu entfernen.

Attribute:
variances_array, shape (n_features,)

Varianzen einzelner Features.

n_features_in_int

Anzahl der während des fits gesehenen Merkmale.

Hinzugefügt in Version 0.24.

feature_names_in_ndarray mit Form (n_features_in_,)

Namen der während fit gesehenen Merkmale. Nur definiert, wenn X Merkmalnamen hat, die alle Zeichenketten sind.

Hinzugefügt in Version 1.0.

Siehe auch

SelectFromModel

Meta-Transformer zur Auswahl von Merkmalen basierend auf Wichtigkeitsgewichtungen.

SelectPercentile

Wählt Merkmale nach einem Perzentil der höchsten Punktzahlen aus.

SequentialFeatureSelector

Transformer, der Sequential Feature Selection durchführt.

Anmerkungen

Erlaubt NaN im Input. Löst ValueError aus, wenn kein Feature in X den Varianz-Schwellenwert erfüllt.

Beispiele

Der folgende Datensatz hat Integer-Features, von denen zwei in jeder Stichprobe gleich sind. Diese werden mit der Standardeinstellung für den Schwellenwert entfernt.

>>> from sklearn.feature_selection import VarianceThreshold
>>> X = [[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]]
>>> selector = VarianceThreshold()
>>> selector.fit_transform(X)
array([[2, 0],
       [1, 4],
       [1, 1]])
fit(X, y=None)[Quelle]#

Lernt empirische Varianzen aus X.

Parameter:
X{array-like, sparse matrix}, shape (n_samples, n_features)

Daten, aus denen Varianzen berechnet werden sollen, wobei n_samples die Anzahl der Stichproben und n_features die Anzahl der Features ist.

yany, default=None

Ignoriert. Dieser Parameter existiert nur zur Kompatibilität mit sklearn.pipeline.Pipeline.

Gibt zurück:
selfobject

Gibt die Instanz selbst zurück.

fit_transform(X, y=None, **fit_params)[Quelle]#

An Daten anpassen, dann transformieren.

Passt den Transformer an X und y mit optionalen Parametern fit_params an und gibt eine transformierte Version von X zurück.

Parameter:
Xarray-like der Form (n_samples, n_features)

Eingabestichproben.

yarray-like der Form (n_samples,) oder (n_samples, n_outputs), Standardwert=None

Zielwerte (None für unüberwachte Transformationen).

**fit_paramsdict

Zusätzliche Fit-Parameter. Nur übergeben, wenn der Estimator zusätzliche Parameter in seiner fit-Methode akzeptiert.

Gibt zurück:
X_newndarray array der Form (n_samples, n_features_new)

Transformiertes Array.

get_feature_names_out(input_features=None)[Quelle]#

Maskiert die Namen der Merkmale gemäß den ausgewählten Merkmalen.

Parameter:
input_featuresarray-like von str oder None, default=None

Eingabemerkmale.

  • Wenn input_features None ist, werden feature_names_in_ als Merkmalnamen verwendet. Wenn feature_names_in_ nicht definiert ist, werden die folgenden Eingabemerkmalsnamen generiert: ["x0", "x1", ..., "x(n_features_in_ - 1)"].

  • Wenn input_features ein Array-ähnliches Objekt ist, muss input_features mit feature_names_in_ übereinstimmen, wenn feature_names_in_ definiert ist.

Gibt zurück:
feature_names_outndarray von str-Objekten

Transformierte Merkmalnamen.

get_metadata_routing()[Quelle]#

Holt das Metadaten-Routing dieses Objekts.

Bitte prüfen Sie im Benutzerhandbuch, wie der Routing-Mechanismus funktioniert.

Gibt zurück:
routingMetadataRequest

Ein MetadataRequest, der Routing-Informationen kapselt.

get_params(deep=True)[Quelle]#

Holt Parameter für diesen Schätzer.

Parameter:
deepbool, default=True

Wenn True, werden die Parameter für diesen Schätzer und die enthaltenen Unterobjekte, die Schätzer sind, zurückgegeben.

Gibt zurück:
paramsdict

Parameternamen, zugeordnet ihren Werten.

get_support(indices=False)[Quelle]#

Gibt eine Maske oder einen ganzzahligen Index der ausgewählten Merkmale zurück.

Parameter:
indicesbool, Standardwert=False

Wenn True, ist der Rückgabewert ein Array von ganzen Zahlen anstelle einer booleschen Maske.

Gibt zurück:
supportarray

Ein Index, der die beibehaltenen Merkmale aus einem Merkmalsvektor auswählt. Wenn indices False ist, ist dies ein boolesches Array der Form [# Eingabemerkmale], bei dem ein Element True ist, wenn sein entsprechendes Merkmal zur Beibehaltung ausgewählt wurde. Wenn indices True ist, ist dies ein ganzzahliges Array der Form [# Ausgabemerkmale], dessen Werte Indizes in den Eingabemerkmalsvektor sind.

inverse_transform(X)[Quelle]#

Kehrt die Transformationsoperation um.

Parameter:
Xarray der Form [n_samples, n_selected_features]

Die Eingabestichproben.

Gibt zurück:
X_originalarray der Form [n_samples, n_original_features]

X mit Spalten von Nullen, die dort eingefügt wurden, wo Features durch transform entfernt worden wären.

set_output(*, transform=None)[Quelle]#

Ausgabecontainer festlegen.

Siehe Einführung in die set_output API für ein Beispiel zur Verwendung der API.

Parameter:
transform{“default”, “pandas”, “polars”}, default=None

Konfiguriert die Ausgabe von transform und fit_transform.

  • "default": Standardausgabeformat eines Transformers

  • "pandas": DataFrame-Ausgabe

  • "polars": Polars-Ausgabe

  • None: Die Transformationskonfiguration bleibt unverändert

Hinzugefügt in Version 1.4: Die Option "polars" wurde hinzugefügt.

Gibt zurück:
selfestimator instance

Schätzer-Instanz.

set_params(**params)[Quelle]#

Setzt die Parameter dieses Schätzers.

Die Methode funktioniert sowohl bei einfachen Schätzern als auch bei verschachtelten Objekten (wie Pipeline). Letztere haben Parameter der Form <component>__<parameter>, so dass es möglich ist, jede Komponente eines verschachtelten Objekts zu aktualisieren.

Parameter:
**paramsdict

Schätzer-Parameter.

Gibt zurück:
selfestimator instance

Schätzer-Instanz.

transform(X)[Quelle]#

Reduziert X auf die ausgewählten Merkmale.

Parameter:
Xarray der Form [n_samples, n_features]

Die Eingabestichproben.

Gibt zurück:
X_rarray der Form [n_samples, n_selected_features]

Die Eingabebeispiele nur mit den ausgewählten Merkmalen.