fetch_rcv1#

sklearn.datasets.fetch_rcv1(*, data_home=None, subset='all', download_if_missing=True, random_state=None, shuffle=False, return_X_y=False, n_retries=3, delay=1.0)[Quelle]#

Lädt den RCV1 Multilabel Datensatz (Klassifikation).

Bei Bedarf herunterladen.

Version: RCV1-v2, Vektoren, vollständige Sätze, Themen mit mehreren Labels.

Klassen

103

Gesamtanzahl Samples

804414

Dimensionalität

47236

Merkmale

reell, zwischen 0 und 1

Lesen Sie mehr im Benutzerhandbuch.

Hinzugefügt in Version 0.17.

Parameter:
data_homestr oder path-like, Standard=None

Geben Sie einen anderen Download- und Cache-Ordner für die Datensätze an. Standardmäßig werden alle scikit-learn-Daten in Unterordnern unter „~/scikit_learn_data“ gespeichert.

subset{'train', 'test', 'all'}, Standardwert='all'

Wählen Sie den zu ladenden Datensatz aus: 'train' für den Trainingssatz (23149 Stichproben), 'test' für den Testsatz (781265 Stichproben), 'all' für beide, wobei die Trainingsstichproben zuerst kommen, wenn shuffle False ist. Dies folgt der offiziellen chronologischen Aufteilung von LYRL2004.

download_if_missingbool, Standard=True

Wenn False, wird eine OSError ausgelöst, wenn die Daten nicht lokal verfügbar sind, anstatt zu versuchen, die Daten von der Quell-Website herunterzuladen.

random_stateint, RandomState-Instanz oder None, default=None

Bestimmt die Zufallszahlengenerierung für das Mischen der Datensätze. Übergeben Sie einen int für reproduzierbare Ergebnisse über mehrere Funktionsaufrufe hinweg. Siehe Glossar.

shufflebool, default=False

Ob der Datensatz gemischt werden soll.

return_X_ybool, Standard=False

Wenn True, gibt (dataset.data, dataset.target) anstelle eines Bunch-Objekts zurück. Weitere Informationen zu dataset.data und dataset.target finden Sie weiter unten.

Hinzugefügt in Version 0.20.

n_retriesint, Standard=3

Anzahl der Wiederholungsversuche bei HTTP-Fehlern.

Hinzugefügt in Version 1.5.

delayfloat, Standard=1.0

Anzahl der Sekunden zwischen den Wiederholungsversuchen.

Hinzugefügt in Version 1.5.

Gibt zurück:
datasetBunch

Wörterbuchähnliches Objekt. Nur zurückgegeben, wenn return_X_y False ist. dataset hat die folgenden Attribute

  • datasparse matrix der Form (804414, 47236), dtype=np.float64

    Das Array hat 0,16% Nicht-Null-Werte. Wird im CSR-Format sein.

  • targetsparse matrix der Form (804414, 103), dtype=np.uint8

    Jede Stichprobe hat den Wert 1 in ihren Kategorien und 0 in anderen. Das Array hat 3,15% Nicht-Null-Werte. Wird im CSR-Format sein.

  • sample_idndarray der Form (804414,), dtype=np.uint32,

    Identifikationsnummer jeder Stichprobe, wie in dataset.data geordnet.

  • target_namesndarray der Form (103,), dtype=object

    Namen jedes Ziels (RCV1-Themen), wie in dataset.target geordnet.

  • DESCRstr

    Beschreibung des RCV1-Datensatzes.

(data, target)tuple

Ein Tupel bestehend aus dataset.data und dataset.target, wie oben beschrieben. Nur zurückgegeben, wenn return_X_y True ist.

Hinzugefügt in Version 0.20.

Beispiele

>>> from sklearn.datasets import fetch_rcv1
>>> rcv1 = fetch_rcv1()
>>> rcv1.data.shape
(804414, 47236)
>>> rcv1.target.shape
(804414, 103)