fetch_covtype#
- sklearn.datasets.fetch_covtype(*, data_home=None, download_if_missing=True, random_state=None, shuffle=False, return_X_y=False, as_frame=False, n_retries=3, delay=1.0)[Quelle]#
Lädt den covertype Datensatz (Klassifikation).
Bei Bedarf herunterladen.
Klassen
7
Gesamtanzahl Samples
581012
Dimensionalität
54
Merkmale
int
Mehr lesen im Benutzerhandbuch.
- Parameter:
- data_homestr oder path-like, Standard=None
Geben Sie einen anderen Download- und Cache-Ordner für die Datensätze an. Standardmäßig werden alle scikit-learn-Daten in Unterordnern unter „~/scikit_learn_data“ gespeichert.
- download_if_missingbool, Standard=True
Wenn False, wird eine OSError ausgelöst, wenn die Daten nicht lokal verfügbar sind, anstatt zu versuchen, die Daten von der Quell-Website herunterzuladen.
- random_stateint, RandomState-Instanz oder None, default=None
Bestimmt die Zufallszahlengenerierung für das Mischen der Datensätze. Übergeben Sie einen int für reproduzierbare Ergebnisse über mehrere Funktionsaufrufe hinweg. Siehe Glossar.
- shufflebool, default=False
Ob der Datensatz gemischt werden soll.
- return_X_ybool, Standard=False
Wenn True, wird
(data.data, data.target)anstelle eines Bunch-Objekts zurückgegeben.Hinzugefügt in Version 0.20.
- as_framebool, default=False
Wenn True, sind die Daten ein pandas DataFrame, einschließlich Spalten mit geeigneten dtypes (numerisch). Das Ziel ist ein pandas DataFrame oder eine Series, abhängig von der Anzahl der Zielspalten. Wenn
return_X_yTrue ist, dann sind (data,target) pandas DataFrames oder Series wie unten beschrieben.Hinzugefügt in Version 0.24.
- n_retriesint, Standard=3
Anzahl der Wiederholungsversuche bei HTTP-Fehlern.
Hinzugefügt in Version 1.5.
- delayfloat, Standard=1.0
Anzahl der Sekunden zwischen den Wiederholungsversuchen.
Hinzugefügt in Version 1.5.
- Gibt zurück:
- dataset
Bunch Dictionary-ähnliches Objekt mit den folgenden Attributen.
- datandarray der Form (581012, 54)
Jede Zeile entspricht den 54 Merkmalen im Datensatz.
- targetndarray der Form (581012,)
Jeder Wert entspricht einer der 7 Waldtypen mit Werten zwischen 1 und 7.
- framedataframe der Form (581012, 55)
Nur vorhanden, wenn
as_frame=True. Enthältdataundtarget.- DESCRstr
Beschreibung des Forest Covertype Datensatzes.
- feature_nameslist
Die Namen der Datensatzspalten.
- target_names: list
Die Namen der Zielspalten.
- (data, target)tuple, wenn
return_X_yTrue ist Ein Tupel aus zwei ndarrays. Das erste enthält ein 2D-Array der Form (n_samples, n_features), wobei jede Zeile eine Stichprobe und jede Spalte die Merkmale darstellt. Das zweite ndarray der Form (n_samples,) enthält die Zielstichproben.
Hinzugefügt in Version 0.20.
- dataset
Beispiele
>>> from sklearn.datasets import fetch_covtype >>> cov_type = fetch_covtype() >>> cov_type.data.shape (581012, 54) >>> cov_type.target.shape (581012,) >>> # Let's check the 4 first feature names >>> cov_type.feature_names[:4] ['Elevation', 'Aspect', 'Slope', 'Horizontal_Distance_To_Hydrology']
Galeriebeispiele#
Skalierbares Lernen mit Polynom-Kernel-Approximation