fetch_rcv1#
- sklearn.datasets.fetch_rcv1(*, data_home=None, subset='all', download_if_missing=True, random_state=None, shuffle=False, return_X_y=False, n_retries=3, delay=1.0)[Quelle]#
Lädt den RCV1 Multilabel Datensatz (Klassifikation).
Bei Bedarf herunterladen.
Version: RCV1-v2, Vektoren, vollständige Sätze, Themen mit mehreren Labels.
Klassen
103
Gesamtanzahl Samples
804414
Dimensionalität
47236
Merkmale
reell, zwischen 0 und 1
Lesen Sie mehr im Benutzerhandbuch.
Hinzugefügt in Version 0.17.
- Parameter:
- data_homestr oder path-like, Standard=None
Geben Sie einen anderen Download- und Cache-Ordner für die Datensätze an. Standardmäßig werden alle scikit-learn-Daten in Unterordnern unter „~/scikit_learn_data“ gespeichert.
- subset{'train', 'test', 'all'}, Standardwert='all'
Wählen Sie den zu ladenden Datensatz aus: 'train' für den Trainingssatz (23149 Stichproben), 'test' für den Testsatz (781265 Stichproben), 'all' für beide, wobei die Trainingsstichproben zuerst kommen, wenn shuffle False ist. Dies folgt der offiziellen chronologischen Aufteilung von LYRL2004.
- download_if_missingbool, Standard=True
Wenn False, wird eine OSError ausgelöst, wenn die Daten nicht lokal verfügbar sind, anstatt zu versuchen, die Daten von der Quell-Website herunterzuladen.
- random_stateint, RandomState-Instanz oder None, default=None
Bestimmt die Zufallszahlengenerierung für das Mischen der Datensätze. Übergeben Sie einen int für reproduzierbare Ergebnisse über mehrere Funktionsaufrufe hinweg. Siehe Glossar.
- shufflebool, default=False
Ob der Datensatz gemischt werden soll.
- return_X_ybool, Standard=False
Wenn True, gibt
(dataset.data, dataset.target)anstelle eines Bunch-Objekts zurück. Weitere Informationen zudataset.dataunddataset.targetfinden Sie weiter unten.Hinzugefügt in Version 0.20.
- n_retriesint, Standard=3
Anzahl der Wiederholungsversuche bei HTTP-Fehlern.
Hinzugefügt in Version 1.5.
- delayfloat, Standard=1.0
Anzahl der Sekunden zwischen den Wiederholungsversuchen.
Hinzugefügt in Version 1.5.
- Gibt zurück:
- dataset
Bunch Wörterbuchähnliches Objekt. Nur zurückgegeben, wenn
return_X_yFalse ist.datasethat die folgenden Attribute- datasparse matrix der Form (804414, 47236), dtype=np.float64
Das Array hat 0,16% Nicht-Null-Werte. Wird im CSR-Format sein.
- targetsparse matrix der Form (804414, 103), dtype=np.uint8
Jede Stichprobe hat den Wert 1 in ihren Kategorien und 0 in anderen. Das Array hat 3,15% Nicht-Null-Werte. Wird im CSR-Format sein.
- sample_idndarray der Form (804414,), dtype=np.uint32,
Identifikationsnummer jeder Stichprobe, wie in dataset.data geordnet.
- target_namesndarray der Form (103,), dtype=object
Namen jedes Ziels (RCV1-Themen), wie in dataset.target geordnet.
- DESCRstr
Beschreibung des RCV1-Datensatzes.
- (data, target)tuple
Ein Tupel bestehend aus
dataset.dataunddataset.target, wie oben beschrieben. Nur zurückgegeben, wennreturn_X_yTrue ist.Hinzugefügt in Version 0.20.
- dataset
Beispiele
>>> from sklearn.datasets import fetch_rcv1 >>> rcv1 = fetch_rcv1() >>> rcv1.data.shape (804414, 47236) >>> rcv1.target.shape (804414, 103)