fetch_rcv1#

sklearn.datasets.fetch_rcv1(*, data_home=None, subset='all', download_if_missing=True, random_state=None, shuffle=False, return_X_y=False, n_retries=3, delay=1.0)[Quelle]#

Lädt den RCV1 Multilabel Datensatz (Klassifikation).

Bei Bedarf herunterladen.

Version: RCV1-v2, Vektoren, vollständige Sätze, Themen mit mehreren Labels.

Klassen	103
Gesamtanzahl Samples	804414
Dimensionalität	47236
Merkmale	reell, zwischen 0 und 1

Lesen Sie mehr im Benutzerhandbuch.

Hinzugefügt in Version 0.17.

Parameter:

data_homestr oder path-like, Standard=None: Geben Sie einen anderen Download- und Cache-Ordner für die Datensätze an. Standardmäßig werden alle scikit-learn-Daten in Unterordnern unter „~/scikit_learn_data“ gespeichert.
subset{'train', 'test', 'all'}, Standardwert='all': Wählen Sie den zu ladenden Datensatz aus: 'train' für den Trainingssatz (23149 Stichproben), 'test' für den Testsatz (781265 Stichproben), 'all' für beide, wobei die Trainingsstichproben zuerst kommen, wenn shuffle False ist. Dies folgt der offiziellen chronologischen Aufteilung von LYRL2004.
download_if_missingbool, Standard=True: Wenn False, wird eine OSError ausgelöst, wenn die Daten nicht lokal verfügbar sind, anstatt zu versuchen, die Daten von der Quell-Website herunterzuladen.
random_stateint, RandomState-Instanz oder None, default=None: Bestimmt die Zufallszahlengenerierung für das Mischen der Datensätze. Übergeben Sie einen int für reproduzierbare Ergebnisse über mehrere Funktionsaufrufe hinweg. Siehe Glossar.
shufflebool, default=False: Ob der Datensatz gemischt werden soll.
return_X_ybool, Standard=False: Wenn True, gibt (dataset.data, dataset.target) anstelle eines Bunch-Objekts zurück. Weitere Informationen zu dataset.data und dataset.target finden Sie weiter unten.

Hinzugefügt in Version 0.20.
n_retriesint, Standard=3: Anzahl der Wiederholungsversuche bei HTTP-Fehlern.

Hinzugefügt in Version 1.5.
delayfloat, Standard=1.0: Anzahl der Sekunden zwischen den Wiederholungsversuchen.

Hinzugefügt in Version 1.5.

Gibt zurück:

datasetBunch

Wörterbuchähnliches Objekt. Nur zurückgegeben, wenn return_X_y False ist. dataset hat die folgenden Attribute

datasparse matrix der Form (804414, 47236), dtype=np.float64
Das Array hat 0,16% Nicht-Null-Werte. Wird im CSR-Format sein.
targetsparse matrix der Form (804414, 103), dtype=np.uint8
Jede Stichprobe hat den Wert 1 in ihren Kategorien und 0 in anderen. Das Array hat 3,15% Nicht-Null-Werte. Wird im CSR-Format sein.
sample_idndarray der Form (804414,), dtype=np.uint32,
Identifikationsnummer jeder Stichprobe, wie in dataset.data geordnet.
target_namesndarray der Form (103,), dtype=object
Namen jedes Ziels (RCV1-Themen), wie in dataset.target geordnet.
DESCRstr
Beschreibung des RCV1-Datensatzes.

(data, target)tuple

Ein Tupel bestehend aus dataset.data und dataset.target, wie oben beschrieben. Nur zurückgegeben, wenn return_X_y True ist.

Hinzugefügt in Version 0.20.

Beispiele

>>> from sklearn.datasets import fetch_rcv1
>>> rcv1 = fetch_rcv1()
>>> rcv1.data.shape
(804414, 47236)
>>> rcv1.target.shape
(804414, 103)

fetch_rcv1#

Diese Seite