fetch_california_housing#

sklearn.datasets.fetch_california_housing(*, data_home=None, download_if_missing=True, return_X_y=False, as_frame=False, n_retries=3, delay=1.0)[Quelle]#

Lädt den California Housing Datensatz (Regression).

Gesamtanzahl Samples	20640
Dimensionalität	8
Merkmale	real
Zielwert	real 0.15 - 5.

Lesen Sie mehr im Benutzerhandbuch.

Parameter:

data_homestr oder path-like, Standard=None: Geben Sie einen anderen Download- und Cache-Ordner für die Datensätze an. Standardmäßig werden alle scikit-learn-Daten in Unterordnern unter „~/scikit_learn_data“ gespeichert.
download_if_missingbool, Standard=True: Wenn False, wird eine OSError ausgelöst, wenn die Daten nicht lokal verfügbar sind, anstatt zu versuchen, die Daten von der Quell-Website herunterzuladen.
return_X_ybool, Standard=False: Wenn True, wird (data.data, data.target) anstelle eines Bunch-Objekts zurückgegeben.

Hinzugefügt in Version 0.20.
as_framebool, default=False: Wenn True, sind die Daten ein pandas DataFrame, einschließlich Spalten mit geeigneten Datentypen (numerisch, Zeichenkette oder kategorisch). Der Zielwert ist ein pandas DataFrame oder eine Series, abhängig von der Anzahl der Zielspalten.

Hinzugefügt in Version 0.23.
n_retriesint, Standard=3: Anzahl der Wiederholungsversuche bei HTTP-Fehlern.

Hinzugefügt in Version 1.5.
delayfloat, Standard=1.0: Anzahl der Sekunden zwischen den Wiederholungsversuchen.

Hinzugefügt in Version 1.5.

Gibt zurück:

datasetBunch

Dictionary-ähnliches Objekt mit den folgenden Attributen.

datandarray, Form (20640, 8): Jede Zeile entspricht den 8 Merkmalwerten in Reihenfolge. Wenn as_frame True ist, ist data ein pandas Objekt.
targetnumpy array der Form (20640,): Jeder Wert entspricht dem Median des Hauswerts in Einheiten von 100.000. Wenn as_frame True ist, ist target ein pandas Objekt.
feature_namesListe der Länge 8: Array von geordneten Merkmalnamen, die im Datensatz verwendet werden.
DESCRstr: Beschreibung des kalifornischen Hausdatensatzes.
framepandas DataFrame: Nur vorhanden, wenn as_frame=True. DataFrame mit data und target.

Hinzugefügt in Version 0.23.

(data, target)tuple, wenn return_X_y True ist

Ein Tupel aus zwei ndarrays. Das erste enthält ein 2D-Array der Form (n_samples, n_features), wobei jede Zeile eine Stichprobe und jede Spalte die Merkmale darstellt. Das zweite ndarray der Form (n_samples,) enthält die Zielstichproben.

Hinzugefügt in Version 0.20.

Anmerkungen

Dieser Datensatz besteht aus 20.640 Stichproben und 9 Merkmalen.

Beispiele

>>> from sklearn.datasets import fetch_california_housing
>>> housing = fetch_california_housing()
>>> print(housing.data.shape, housing.target.shape)
(20640, 8) (20640,)
>>> print(housing.feature_names[0:6])
['MedInc', 'HouseAge', 'AveRooms', 'AveBedrms', 'Population', 'AveOccup']