fetch_kddcup99#

sklearn.datasets.fetch_kddcup99(*, subset=None, data_home=None, shuffle=False, random_state=None, percent10=True, download_if_missing=True, return_X_y=False, as_frame=False, n_retries=3, delay=1.0)[Quelle]#

Lädt den kddcup99 Datensatz (Klassifikation).

Bei Bedarf herunterladen.

Klassen

23

Gesamtanzahl Samples

4898431

Dimensionalität

41

Merkmale

diskret (int) oder kontinuierlich (float)

Lesen Sie mehr im Benutzerhandbuch.

Hinzugefügt in Version 0.18.

Parameter:
subset{‘SA’, ‘SF’, ‘http’, ‘smtp’}, default=None

Um die entsprechenden klassischen Teilmengen von kddcup 99 zurückzugeben. Wenn None, wird der gesamte kddcup 99 Datensatz zurückgegeben.

data_homestr oder path-like, Standard=None

Geben Sie einen anderen Download- und Cache-Ordner für die Datensätze an. Standardmäßig werden alle scikit-learn-Daten in Unterordnern unter „~/scikit_learn_data“ gespeichert.

Hinzugefügt in Version 0.19.

shufflebool, default=False

Ob der Datensatz gemischt werden soll.

random_stateint, RandomState-Instanz oder None, default=None

Bestimmt die Zufallszahlengenerierung für das Mischen des Datensatzes und für die Auswahl abnormaler Stichproben, wenn subset='SA'. Übergeben Sie eine Ganzzahl für reproduzierbare Ausgaben über mehrere Funktionsaufrufe hinweg. Siehe Glossar.

percent10bool, default=True

Ob nur 10 Prozent der Daten geladen werden sollen.

download_if_missingbool, Standard=True

Wenn False, wird eine OSError ausgelöst, wenn die Daten nicht lokal verfügbar sind, anstatt zu versuchen, die Daten von der Quell-Website herunterzuladen.

return_X_ybool, Standard=False

Wenn True, wird ein Bunch-Objekt zurückgegeben, das (data, target) enthält. Weitere Informationen zu den Objekten data und target finden Sie unten.

Hinzugefügt in Version 0.20.

as_framebool, default=False

Wenn True, werden für die Objekte data und target im zurückgegebenen Bunch-Objekt ein pandas DataFrame zurückgegeben; das Bunch-Rückgabeobjekt hat dann auch ein frame-Mitglied.

Hinzugefügt in Version 0.24.

n_retriesint, Standard=3

Anzahl der Wiederholungsversuche bei HTTP-Fehlern.

Hinzugefügt in Version 1.5.

delayfloat, Standard=1.0

Anzahl der Sekunden zwischen den Wiederholungsversuchen.

Hinzugefügt in Version 1.5.

Gibt zurück:
dataBunch

Dictionary-ähnliches Objekt mit den folgenden Attributen.

data{ndarray, dataframe} von Form (494021, 41)

Die zu lernende Datenmatrix. Wenn as_frame=True, ist data ein pandas DataFrame.

target{ndarray, series} von Form (494021,)

Das Regressionsziel für jede Stichprobe. Wenn as_frame=True, ist target eine pandas Series.

framedataframe von Form (494021, 42)

Nur vorhanden, wenn as_frame=True. Enthält data und target.

DESCRstr

Die vollständige Beschreibung des Datensatzes.

feature_nameslist

Die Namen der Datensatzspalten

target_names: list

Die Namen der Zielspalten

(data, target)tuple, wenn return_X_y True ist

Ein Tupel aus zwei ndarrays. Das erste enthält ein 2D-Array der Form (n_samples, n_features), wobei jede Zeile eine Stichprobe und jede Spalte die Merkmale darstellt. Das zweite ndarray der Form (n_samples,) enthält die Zielstichproben.

Hinzugefügt in Version 0.20.