fetch_covtype#

sklearn.datasets.fetch_covtype(*, data_home=None, download_if_missing=True, random_state=None, shuffle=False, return_X_y=False, as_frame=False, n_retries=3, delay=1.0)[Quelle]#

Lädt den covertype Datensatz (Klassifikation).

Bei Bedarf herunterladen.

Klassen

7

Gesamtanzahl Samples

581012

Dimensionalität

54

Merkmale

int

Mehr lesen im Benutzerhandbuch.

Parameter:
data_homestr oder path-like, Standard=None

Geben Sie einen anderen Download- und Cache-Ordner für die Datensätze an. Standardmäßig werden alle scikit-learn-Daten in Unterordnern unter „~/scikit_learn_data“ gespeichert.

download_if_missingbool, Standard=True

Wenn False, wird eine OSError ausgelöst, wenn die Daten nicht lokal verfügbar sind, anstatt zu versuchen, die Daten von der Quell-Website herunterzuladen.

random_stateint, RandomState-Instanz oder None, default=None

Bestimmt die Zufallszahlengenerierung für das Mischen der Datensätze. Übergeben Sie einen int für reproduzierbare Ergebnisse über mehrere Funktionsaufrufe hinweg. Siehe Glossar.

shufflebool, default=False

Ob der Datensatz gemischt werden soll.

return_X_ybool, Standard=False

Wenn True, wird (data.data, data.target) anstelle eines Bunch-Objekts zurückgegeben.

Hinzugefügt in Version 0.20.

as_framebool, default=False

Wenn True, sind die Daten ein pandas DataFrame, einschließlich Spalten mit geeigneten dtypes (numerisch). Das Ziel ist ein pandas DataFrame oder eine Series, abhängig von der Anzahl der Zielspalten. Wenn return_X_y True ist, dann sind (data, target) pandas DataFrames oder Series wie unten beschrieben.

Hinzugefügt in Version 0.24.

n_retriesint, Standard=3

Anzahl der Wiederholungsversuche bei HTTP-Fehlern.

Hinzugefügt in Version 1.5.

delayfloat, Standard=1.0

Anzahl der Sekunden zwischen den Wiederholungsversuchen.

Hinzugefügt in Version 1.5.

Gibt zurück:
datasetBunch

Dictionary-ähnliches Objekt mit den folgenden Attributen.

datandarray der Form (581012, 54)

Jede Zeile entspricht den 54 Merkmalen im Datensatz.

targetndarray der Form (581012,)

Jeder Wert entspricht einer der 7 Waldtypen mit Werten zwischen 1 und 7.

framedataframe der Form (581012, 55)

Nur vorhanden, wenn as_frame=True. Enthält data und target.

DESCRstr

Beschreibung des Forest Covertype Datensatzes.

feature_nameslist

Die Namen der Datensatzspalten.

target_names: list

Die Namen der Zielspalten.

(data, target)tuple, wenn return_X_y True ist

Ein Tupel aus zwei ndarrays. Das erste enthält ein 2D-Array der Form (n_samples, n_features), wobei jede Zeile eine Stichprobe und jede Spalte die Merkmale darstellt. Das zweite ndarray der Form (n_samples,) enthält die Zielstichproben.

Hinzugefügt in Version 0.20.

Beispiele

>>> from sklearn.datasets import fetch_covtype
>>> cov_type = fetch_covtype()
>>> cov_type.data.shape
(581012, 54)
>>> cov_type.target.shape
(581012,)
>>> # Let's check the 4 first feature names
>>> cov_type.feature_names[:4]
['Elevation', 'Aspect', 'Slope', 'Horizontal_Distance_To_Hydrology']