VarianceThreshold#
- class sklearn.feature_selection.VarianceThreshold(threshold=0.0)[Quelle]#
Merkmalsselektor, der alle Merkmale mit geringer Varianz entfernt.
Dieser Feature-Auswahl-Algorithmus betrachtet nur die Features (X), nicht die gewünschten Ausgaben (y), und kann daher für unüberwachtes Lernen verwendet werden.
Lesen Sie mehr im Benutzerhandbuch.
- Parameter:
- thresholdfloat, default=0
Features mit einer Varianz im Trainingsdatensatz, die niedriger als dieser Schwellenwert ist, werden entfernt. Der Standardwert ist, alle Features mit nicht-null Varianz beizubehalten, d.h. die Features, die in allen Stichproben den gleichen Wert haben, zu entfernen.
- Attribute:
- variances_array, shape (n_features,)
Varianzen einzelner Features.
- n_features_in_int
Anzahl der während des fits gesehenen Merkmale.
Hinzugefügt in Version 0.24.
- feature_names_in_ndarray mit Form (
n_features_in_,) Namen der während fit gesehenen Merkmale. Nur definiert, wenn
XMerkmalnamen hat, die alle Zeichenketten sind.Hinzugefügt in Version 1.0.
Siehe auch
SelectFromModelMeta-Transformer zur Auswahl von Merkmalen basierend auf Wichtigkeitsgewichtungen.
SelectPercentileWählt Merkmale nach einem Perzentil der höchsten Punktzahlen aus.
SequentialFeatureSelectorTransformer, der Sequential Feature Selection durchführt.
Anmerkungen
Erlaubt NaN im Input. Löst ValueError aus, wenn kein Feature in X den Varianz-Schwellenwert erfüllt.
Beispiele
Der folgende Datensatz hat Integer-Features, von denen zwei in jeder Stichprobe gleich sind. Diese werden mit der Standardeinstellung für den Schwellenwert entfernt.
>>> from sklearn.feature_selection import VarianceThreshold >>> X = [[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]] >>> selector = VarianceThreshold() >>> selector.fit_transform(X) array([[2, 0], [1, 4], [1, 1]])
- fit(X, y=None)[Quelle]#
Lernt empirische Varianzen aus X.
- Parameter:
- X{array-like, sparse matrix}, shape (n_samples, n_features)
Daten, aus denen Varianzen berechnet werden sollen, wobei
n_samplesdie Anzahl der Stichproben undn_featuresdie Anzahl der Features ist.- yany, default=None
Ignoriert. Dieser Parameter existiert nur zur Kompatibilität mit sklearn.pipeline.Pipeline.
- Gibt zurück:
- selfobject
Gibt die Instanz selbst zurück.
- fit_transform(X, y=None, **fit_params)[Quelle]#
An Daten anpassen, dann transformieren.
Passt den Transformer an
Xundymit optionalen Parameternfit_paramsan und gibt eine transformierte Version vonXzurück.- Parameter:
- Xarray-like der Form (n_samples, n_features)
Eingabestichproben.
- yarray-like der Form (n_samples,) oder (n_samples, n_outputs), Standardwert=None
Zielwerte (None für unüberwachte Transformationen).
- **fit_paramsdict
Zusätzliche Fit-Parameter. Nur übergeben, wenn der Estimator zusätzliche Parameter in seiner
fit-Methode akzeptiert.
- Gibt zurück:
- X_newndarray array der Form (n_samples, n_features_new)
Transformiertes Array.
- get_feature_names_out(input_features=None)[Quelle]#
Maskiert die Namen der Merkmale gemäß den ausgewählten Merkmalen.
- Parameter:
- input_featuresarray-like von str oder None, default=None
Eingabemerkmale.
Wenn
input_featuresNoneist, werdenfeature_names_in_als Merkmalnamen verwendet. Wennfeature_names_in_nicht definiert ist, werden die folgenden Eingabemerkmalsnamen generiert:["x0", "x1", ..., "x(n_features_in_ - 1)"].Wenn
input_featuresein Array-ähnliches Objekt ist, mussinput_featuresmitfeature_names_in_übereinstimmen, wennfeature_names_in_definiert ist.
- Gibt zurück:
- feature_names_outndarray von str-Objekten
Transformierte Merkmalnamen.
- get_metadata_routing()[Quelle]#
Holt das Metadaten-Routing dieses Objekts.
Bitte prüfen Sie im Benutzerhandbuch, wie der Routing-Mechanismus funktioniert.
- Gibt zurück:
- routingMetadataRequest
Ein
MetadataRequest, der Routing-Informationen kapselt.
- get_params(deep=True)[Quelle]#
Holt Parameter für diesen Schätzer.
- Parameter:
- deepbool, default=True
Wenn True, werden die Parameter für diesen Schätzer und die enthaltenen Unterobjekte, die Schätzer sind, zurückgegeben.
- Gibt zurück:
- paramsdict
Parameternamen, zugeordnet ihren Werten.
- get_support(indices=False)[Quelle]#
Gibt eine Maske oder einen ganzzahligen Index der ausgewählten Merkmale zurück.
- Parameter:
- indicesbool, Standardwert=False
Wenn True, ist der Rückgabewert ein Array von ganzen Zahlen anstelle einer booleschen Maske.
- Gibt zurück:
- supportarray
Ein Index, der die beibehaltenen Merkmale aus einem Merkmalsvektor auswählt. Wenn
indicesFalse ist, ist dies ein boolesches Array der Form [# Eingabemerkmale], bei dem ein Element True ist, wenn sein entsprechendes Merkmal zur Beibehaltung ausgewählt wurde. WennindicesTrue ist, ist dies ein ganzzahliges Array der Form [# Ausgabemerkmale], dessen Werte Indizes in den Eingabemerkmalsvektor sind.
- inverse_transform(X)[Quelle]#
Kehrt die Transformationsoperation um.
- Parameter:
- Xarray der Form [n_samples, n_selected_features]
Die Eingabestichproben.
- Gibt zurück:
- X_originalarray der Form [n_samples, n_original_features]
Xmit Spalten von Nullen, die dort eingefügt wurden, wo Features durchtransformentfernt worden wären.
- set_output(*, transform=None)[Quelle]#
Ausgabecontainer festlegen.
Siehe Einführung in die set_output API für ein Beispiel zur Verwendung der API.
- Parameter:
- transform{“default”, “pandas”, “polars”}, default=None
Konfiguriert die Ausgabe von
transformundfit_transform."default": Standardausgabeformat eines Transformers"pandas": DataFrame-Ausgabe"polars": Polars-AusgabeNone: Die Transformationskonfiguration bleibt unverändert
Hinzugefügt in Version 1.4: Die Option
"polars"wurde hinzugefügt.
- Gibt zurück:
- selfestimator instance
Schätzer-Instanz.
- set_params(**params)[Quelle]#
Setzt die Parameter dieses Schätzers.
Die Methode funktioniert sowohl bei einfachen Schätzern als auch bei verschachtelten Objekten (wie
Pipeline). Letztere haben Parameter der Form<component>__<parameter>, so dass es möglich ist, jede Komponente eines verschachtelten Objekts zu aktualisieren.- Parameter:
- **paramsdict
Schätzer-Parameter.
- Gibt zurück:
- selfestimator instance
Schätzer-Instanz.