VarianceThreshold#

class sklearn.feature_selection.VarianceThreshold(threshold=0.0)[Quelle]#

Merkmalsselektor, der alle Merkmale mit geringer Varianz entfernt.

Dieser Feature-Auswahl-Algorithmus betrachtet nur die Features (X), nicht die gewünschten Ausgaben (y), und kann daher für unüberwachtes Lernen verwendet werden.

Lesen Sie mehr im Benutzerhandbuch.

Parameter:

thresholdfloat, default=0: Features mit einer Varianz im Trainingsdatensatz, die niedriger als dieser Schwellenwert ist, werden entfernt. Der Standardwert ist, alle Features mit nicht-null Varianz beizubehalten, d.h. die Features, die in allen Stichproben den gleichen Wert haben, zu entfernen.

Attribute:

variances_array, shape (n_features,): Varianzen einzelner Features.
n_features_in_int: Anzahl der während des fits gesehenen Merkmale.

Hinzugefügt in Version 0.24.
feature_names_in_ndarray mit Form (n_features_in_,): Namen der während fit gesehenen Merkmale. Nur definiert, wenn X Merkmalnamen hat, die alle Zeichenketten sind.

Hinzugefügt in Version 1.0.

Siehe auch

SelectFromModel: Meta-Transformer zur Auswahl von Merkmalen basierend auf Wichtigkeitsgewichtungen.
SelectPercentile: Wählt Merkmale nach einem Perzentil der höchsten Punktzahlen aus.
SequentialFeatureSelector: Transformer, der Sequential Feature Selection durchführt.

Anmerkungen

Erlaubt NaN im Input. Löst ValueError aus, wenn kein Feature in X den Varianz-Schwellenwert erfüllt.

Beispiele

Der folgende Datensatz hat Integer-Features, von denen zwei in jeder Stichprobe gleich sind. Diese werden mit der Standardeinstellung für den Schwellenwert entfernt.

>>> from sklearn.feature_selection import VarianceThreshold
>>> X = [[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]]
>>> selector = VarianceThreshold()
>>> selector.fit_transform(X)
array([[2, 0],
       [1, 4],
       [1, 1]])

fit(X, y=None)[Quelle]#

Lernt empirische Varianzen aus X.

Parameter:

X{array-like, sparse matrix}, shape (n_samples, n_features): Daten, aus denen Varianzen berechnet werden sollen, wobei n_samples die Anzahl der Stichproben und n_features die Anzahl der Features ist.
yany, default=None: Ignoriert. Dieser Parameter existiert nur zur Kompatibilität mit sklearn.pipeline.Pipeline.

Gibt zurück:

selfobject: Gibt die Instanz selbst zurück.

fit_transform(X, y=None, **fit_params)[Quelle]#

An Daten anpassen, dann transformieren.

Passt den Transformer an X und y mit optionalen Parametern fit_params an und gibt eine transformierte Version von X zurück.

Parameter:

Xarray-like der Form (n_samples, n_features): Eingabestichproben.
yarray-like der Form (n_samples,) oder (n_samples, n_outputs), Standardwert=None: Zielwerte (None für unüberwachte Transformationen).
**fit_paramsdict: Zusätzliche Fit-Parameter. Nur übergeben, wenn der Estimator zusätzliche Parameter in seiner fit-Methode akzeptiert.

Gibt zurück:

X_newndarray array der Form (n_samples, n_features_new): Transformiertes Array.

get_feature_names_out(input_features=None)[Quelle]#

Maskiert die Namen der Merkmale gemäß den ausgewählten Merkmalen.

Parameter:

input_featuresarray-like von str oder None, default=None

Eingabemerkmale.

Wenn input_features None ist, werden feature_names_in_ als Merkmalnamen verwendet. Wenn feature_names_in_ nicht definiert ist, werden die folgenden Eingabemerkmalsnamen generiert: ["x0", "x1", ..., "x(n_features_in_ - 1)"].
Wenn input_features ein Array-ähnliches Objekt ist, muss input_features mit feature_names_in_ übereinstimmen, wenn feature_names_in_ definiert ist.

Gibt zurück:

feature_names_outndarray von str-Objekten: Transformierte Merkmalnamen.

get_metadata_routing()[Quelle]#

Holt das Metadaten-Routing dieses Objekts.

Bitte prüfen Sie im Benutzerhandbuch, wie der Routing-Mechanismus funktioniert.

Gibt zurück:

routingMetadataRequest: Ein MetadataRequest, der Routing-Informationen kapselt.

get_params(deep=True)[Quelle]#

Holt Parameter für diesen Schätzer.

Parameter:

deepbool, default=True: Wenn True, werden die Parameter für diesen Schätzer und die enthaltenen Unterobjekte, die Schätzer sind, zurückgegeben.

Gibt zurück:

paramsdict: Parameternamen, zugeordnet ihren Werten.

get_support(indices=False)[Quelle]#

Gibt eine Maske oder einen ganzzahligen Index der ausgewählten Merkmale zurück.

Parameter:

indicesbool, Standardwert=False: Wenn True, ist der Rückgabewert ein Array von ganzen Zahlen anstelle einer booleschen Maske.

Gibt zurück:

supportarray: Ein Index, der die beibehaltenen Merkmale aus einem Merkmalsvektor auswählt. Wenn indices False ist, ist dies ein boolesches Array der Form [# Eingabemerkmale], bei dem ein Element True ist, wenn sein entsprechendes Merkmal zur Beibehaltung ausgewählt wurde. Wenn indices True ist, ist dies ein ganzzahliges Array der Form [# Ausgabemerkmale], dessen Werte Indizes in den Eingabemerkmalsvektor sind.

inverse_transform(X)[Quelle]#

Kehrt die Transformationsoperation um.

Parameter:

Xarray der Form [n_samples, n_selected_features]: Die Eingabestichproben.

Gibt zurück:

X_originalarray der Form [n_samples, n_original_features]: X mit Spalten von Nullen, die dort eingefügt wurden, wo Features durch transform entfernt worden wären.

set_output(*, transform=None)[Quelle]#

Ausgabecontainer festlegen.

Siehe Einführung in die set_output API für ein Beispiel zur Verwendung der API.

Parameter:

transform{“default”, “pandas”, “polars”}, default=None

Konfiguriert die Ausgabe von transform und fit_transform.

"default": Standardausgabeformat eines Transformers
"pandas": DataFrame-Ausgabe
"polars": Polars-Ausgabe
None: Die Transformationskonfiguration bleibt unverändert

Hinzugefügt in Version 1.4: Die Option "polars" wurde hinzugefügt.

Gibt zurück:

selfestimator instance: Schätzer-Instanz.

set_params(**params)[Quelle]#

Setzt die Parameter dieses Schätzers.

Die Methode funktioniert sowohl bei einfachen Schätzern als auch bei verschachtelten Objekten (wie Pipeline). Letztere haben Parameter der Form <component>__<parameter>, so dass es möglich ist, jede Komponente eines verschachtelten Objekts zu aktualisieren.

Parameter:

**paramsdict: Schätzer-Parameter.

Gibt zurück:

selfestimator instance: Schätzer-Instanz.

transform(X)[Quelle]#

Reduziert X auf die ausgewählten Merkmale.

Parameter:

Xarray der Form [n_samples, n_features]: Die Eingabestichproben.

Gibt zurück:

X_rarray der Form [n_samples, n_selected_features]: Die Eingabebeispiele nur mit den ausgewählten Merkmalen.

VarianceThreshold#

Diese Seite