fetch_covtype#

sklearn.datasets.fetch_covtype(*, data_home=None, download_if_missing=True, random_state=None, shuffle=False, return_X_y=False, as_frame=False, n_retries=3, delay=1.0)[Quelle]#

Lädt den covertype Datensatz (Klassifikation).

Bei Bedarf herunterladen.

Klassen	7
Gesamtanzahl Samples	581012
Dimensionalität	54
Merkmale	int

Mehr lesen im Benutzerhandbuch.

Parameter:

data_homestr oder path-like, Standard=None: Geben Sie einen anderen Download- und Cache-Ordner für die Datensätze an. Standardmäßig werden alle scikit-learn-Daten in Unterordnern unter „~/scikit_learn_data“ gespeichert.
download_if_missingbool, Standard=True: Wenn False, wird eine OSError ausgelöst, wenn die Daten nicht lokal verfügbar sind, anstatt zu versuchen, die Daten von der Quell-Website herunterzuladen.
random_stateint, RandomState-Instanz oder None, default=None: Bestimmt die Zufallszahlengenerierung für das Mischen der Datensätze. Übergeben Sie einen int für reproduzierbare Ergebnisse über mehrere Funktionsaufrufe hinweg. Siehe Glossar.
shufflebool, default=False: Ob der Datensatz gemischt werden soll.
return_X_ybool, Standard=False: Wenn True, wird (data.data, data.target) anstelle eines Bunch-Objekts zurückgegeben.

Hinzugefügt in Version 0.20.
as_framebool, default=False: Wenn True, sind die Daten ein pandas DataFrame, einschließlich Spalten mit geeigneten dtypes (numerisch). Das Ziel ist ein pandas DataFrame oder eine Series, abhängig von der Anzahl der Zielspalten. Wenn return_X_y True ist, dann sind (data, target) pandas DataFrames oder Series wie unten beschrieben.

Hinzugefügt in Version 0.24.
n_retriesint, Standard=3: Anzahl der Wiederholungsversuche bei HTTP-Fehlern.

Hinzugefügt in Version 1.5.
delayfloat, Standard=1.0: Anzahl der Sekunden zwischen den Wiederholungsversuchen.

Hinzugefügt in Version 1.5.

Gibt zurück:

datasetBunch

Dictionary-ähnliches Objekt mit den folgenden Attributen.

datandarray der Form (581012, 54): Jede Zeile entspricht den 54 Merkmalen im Datensatz.
targetndarray der Form (581012,): Jeder Wert entspricht einer der 7 Waldtypen mit Werten zwischen 1 und 7.
framedataframe der Form (581012, 55): Nur vorhanden, wenn as_frame=True. Enthält data und target.
DESCRstr: Beschreibung des Forest Covertype Datensatzes.
feature_nameslist: Die Namen der Datensatzspalten.
target_names: list: Die Namen der Zielspalten.

(data, target)tuple, wenn return_X_y True ist

Ein Tupel aus zwei ndarrays. Das erste enthält ein 2D-Array der Form (n_samples, n_features), wobei jede Zeile eine Stichprobe und jede Spalte die Merkmale darstellt. Das zweite ndarray der Form (n_samples,) enthält die Zielstichproben.

Hinzugefügt in Version 0.20.

Beispiele

>>> from sklearn.datasets import fetch_covtype
>>> cov_type = fetch_covtype()
>>> cov_type.data.shape
(581012, 54)
>>> cov_type.target.shape
(581012,)
>>> # Let's check the 4 first feature names
>>> cov_type.feature_names[:4]
['Elevation', 'Aspect', 'Slope', 'Horizontal_Distance_To_Hydrology']

Galeriebeispiele#

Skalierbares Lernen mit Polynom-Kernel-Approximation

Bewertung von Ausreißererkennungs-Schätzern

Release Highlights für scikit-learn 0.24

fetch_covtype#

Galeriebeispiele#

Diese Seite