PolynomialCountSketch#

class sklearn.kernel_approximation.PolynomialCountSketch(*, gamma=1.0, degree=2, coef0=0, n_components=100, random_state=None)[Quelle]#

Polynomialer Kernel-Approximation mittels Tensor Sketch.

Implementiert Tensor Sketch, das die Feature-Abbildung des Polynomkerns annähert

K(X, Y) = (gamma * <X, Y> + coef0)^degree

durch effiziente Berechnung eines Count Sketch des äußeren Produkts eines Vektors mit sich selbst mittels Fast Fourier Transforms (FFT). Mehr dazu im Benutzerhandbuch.

Hinzugefügt in Version 0.24.

Parameter:
gammafloat, default=1.0

Parameter des Polynomkerns, dessen Feature-Abbildung approximiert werden soll.

degreeint, Standard=2

Grad des Polynomkerns, dessen Feature-Abbildung approximiert werden soll.

coef0int, Standard=0

Konstanter Term des Polynomkerns, dessen Feature-Abbildung approximiert werden soll.

n_componentsint, Standardwert=100

Dimensionalität des Ausgabefeaturesraums. Normalerweise sollte n_components größer sein als die Anzahl der Features in den Eingabestichproben, um eine gute Leistung zu erzielen. Das optimale Gleichgewicht zwischen Score und Laufzeit wird typischerweise bei etwa n_components = 10 * n_features erreicht, dies hängt jedoch vom spezifischen verwendeten Datensatz ab.

random_stateint, RandomState instance, default=None

Bestimmt die Zufallszahlengenerierung für die Initialisierung von indexHash und bitHash. Übergeben Sie eine Ganzzahl für reproduzierbare Ergebnisse über mehrere Funktionsaufrufe hinweg. Siehe Glossar.

Attribute:
indexHash_ndarray der Form (degree, n_features), dtype=int64

Array von Indizes im Bereich [0, n_components), das zur Darstellung der 2-fach unabhängigen Hash-Funktionen für die Count Sketch-Berechnung verwendet wird.

bitHash_ndarray der Form (degree, n_features), dtype=float32

Array mit zufälligen Einträgen in {+1, -1}, das zur Darstellung der 2-fach unabhängigen Hash-Funktionen für die Count Sketch-Berechnung verwendet wird.

n_features_in_int

Anzahl der während des fits gesehenen Merkmale.

Hinzugefügt in Version 0.24.

feature_names_in_ndarray mit Form (n_features_in_,)

Namen der während fit gesehenen Merkmale. Nur definiert, wenn X Merkmalnamen hat, die alle Zeichenketten sind.

Hinzugefügt in Version 1.0.

Siehe auch

AdditiveChi2Sampler

Approximiert eine Merkmalsabbildung für den additiven Chi2-Kernel.

Nystroem

Approximiert eine Kernel-Abbildung mittels einer Teilmenge der Trainingsdaten.

RBFSampler

Approximiert eine RBF-Kernel-Merkmalsabbildung mittels zufälliger Fourier-Merkmale.

SkewedChi2Sampler

Approximiert eine Merkmalsabbildung für den "skewed chi-squared"-Kernel.

sklearn.metrics.pairwise.kernel_metrics

Liste der integrierten Kernel.

Beispiele

>>> from sklearn.kernel_approximation import PolynomialCountSketch
>>> from sklearn.linear_model import SGDClassifier
>>> X = [[0, 0], [1, 1], [1, 0], [0, 1]]
>>> y = [0, 0, 1, 1]
>>> ps = PolynomialCountSketch(degree=3, random_state=1)
>>> X_features = ps.fit_transform(X)
>>> clf = SGDClassifier(max_iter=10, tol=1e-3)
>>> clf.fit(X_features, y)
SGDClassifier(max_iter=10)
>>> clf.score(X_features, y)
1.0

Ein detaillierteres Anwendungsbeispiel finden Sie unter Skalierbares Lernen mit Polynomkern-Approximation

fit(X, y=None)[Quelle]#

Passt das Modell an X an.

Initialisiert die internen Variablen. Die Methode benötigt keine Informationen über die Verteilung der Daten, daher interessiert uns nur n_features in X.

Parameter:
X{array-like, sparse matrix} der Form (n_samples, n_features)

Trainingsdaten, wobei n_samples die Anzahl der Stichproben und n_features die Anzahl der Merkmale ist.

yarray-like der Form (n_samples,) oder (n_samples, n_outputs), Standardwert=None

Zielwerte (None für unüberwachte Transformationen).

Gibt zurück:
selfobject

Gibt die Instanz selbst zurück.

fit_transform(X, y=None, **fit_params)[Quelle]#

An Daten anpassen, dann transformieren.

Passt den Transformer an X und y mit optionalen Parametern fit_params an und gibt eine transformierte Version von X zurück.

Parameter:
Xarray-like der Form (n_samples, n_features)

Eingabestichproben.

yarray-like der Form (n_samples,) oder (n_samples, n_outputs), Standardwert=None

Zielwerte (None für unüberwachte Transformationen).

**fit_paramsdict

Zusätzliche Fit-Parameter. Nur übergeben, wenn der Estimator zusätzliche Parameter in seiner fit-Methode akzeptiert.

Gibt zurück:
X_newndarray array der Form (n_samples, n_features_new)

Transformiertes Array.

get_feature_names_out(input_features=None)[Quelle]#

Holt die Ausgabemerkmale für die Transformation.

Die Feature-Namen werden mit dem kleingeschriebenen Klassennamen präfixiert. Wenn der Transformer z.B. 3 Features ausgibt, dann sind die Feature-Namen: ["klassenname0", "klassenname1", "klassenname2"].

Parameter:
input_featuresarray-like von str oder None, default=None

Wird nur verwendet, um die Feature-Namen mit den in fit gesehenen Namen zu validieren.

Gibt zurück:
feature_names_outndarray von str-Objekten

Transformierte Merkmalnamen.

get_metadata_routing()[Quelle]#

Holt das Metadaten-Routing dieses Objekts.

Bitte prüfen Sie im Benutzerhandbuch, wie der Routing-Mechanismus funktioniert.

Gibt zurück:
routingMetadataRequest

Ein MetadataRequest, der Routing-Informationen kapselt.

get_params(deep=True)[Quelle]#

Holt Parameter für diesen Schätzer.

Parameter:
deepbool, default=True

Wenn True, werden die Parameter für diesen Schätzer und die enthaltenen Unterobjekte, die Schätzer sind, zurückgegeben.

Gibt zurück:
paramsdict

Parameternamen, zugeordnet ihren Werten.

set_output(*, transform=None)[Quelle]#

Ausgabecontainer festlegen.

Siehe Einführung in die set_output API für ein Beispiel zur Verwendung der API.

Parameter:
transform{“default”, “pandas”, “polars”}, default=None

Konfiguriert die Ausgabe von transform und fit_transform.

  • "default": Standardausgabeformat eines Transformers

  • "pandas": DataFrame-Ausgabe

  • "polars": Polars-Ausgabe

  • None: Die Transformationskonfiguration bleibt unverändert

Hinzugefügt in Version 1.4: Die Option "polars" wurde hinzugefügt.

Gibt zurück:
selfestimator instance

Schätzer-Instanz.

set_params(**params)[Quelle]#

Setzt die Parameter dieses Schätzers.

Die Methode funktioniert sowohl bei einfachen Schätzern als auch bei verschachtelten Objekten (wie Pipeline). Letztere haben Parameter der Form <component>__<parameter>, so dass es möglich ist, jede Komponente eines verschachtelten Objekts zu aktualisieren.

Parameter:
**paramsdict

Schätzer-Parameter.

Gibt zurück:
selfestimator instance

Schätzer-Instanz.

transform(X)[Quelle]#

Generiert die Feature-Abbildungsapproximation für X.

Parameter:
X{array-like}, Form (n_samples, n_features)

Neue Daten, wobei n_samples die Anzahl der Stichproben und n_features die Anzahl der Merkmale ist.

Gibt zurück:
X_newarray-ähnlich, Form (n_samples, n_components)

Gibt die Instanz selbst zurück.