load_files#
- sklearn.datasets.load_files(container_path, *, description=None, categories=None, load_content=True, shuffle=True, encoding=None, decode_error='strict', random_state=0, allowed_extensions=None)[Quelle]#
Lädt Textdateien mit Kategorien als Unterordnernamen.
Einzelne Samples werden als Dateien in einer zweistufigen Ordnerstruktur angenommen, wie folgt:
container_folder/ category_1_folder/ file_1.txt file_2.txt ... file_42.txt category_2_folder/ file_43.txt file_44.txt ...Die Ordnernamen werden als Namen für die überwachten Signale verwendet. Die einzelnen Dateinamen sind unwichtig.
Diese Funktion versucht nicht, Features in ein Numpy-Array oder eine Scipy-Sparse-Matrix zu extrahieren. Außerdem versucht sie nicht, die Dateien in den Speicher zu laden, wenn `load_content` auf `False` gesetzt ist.
Um Textdateien in einem Klassifikations- oder Clustering-Algorithmus von scikit-learn zu verwenden, müssen Sie das
text-Modul verwenden, um einen Feature-Extraktions-Transformer zu erstellen, der für Ihr Problem geeignet ist.Wenn Sie `load_content=True` setzen, sollten Sie auch die Kodierung des Textes mit dem Parameter `'encoding'` angeben. Für viele moderne Textdateien ist `'utf-8'` die richtige Kodierung. Wenn Sie `'encoding'` auf `None` belassen, besteht der Inhalt aus Bytes anstelle von Unicode, und Sie können die meisten Funktionen im Modul
textnicht verwenden.Ähnliche Feature-Extraktoren sollten für andere Arten von unstrukturierten Eingabedaten wie Bilder, Audio, Video usw. erstellt werden.
Wenn Sie Dateien mit einer bestimmten Dateiendung (z. B.
.txt) wünschen, können Sie eine Liste dieser Dateiendungen anallowed_extensionsübergeben.Lesen Sie mehr im Benutzerhandbuch.
- Parameter:
- container_pathstr
Pfad zum Hauptordner, der einen Unterordner pro Kategorie enthält.
- descriptionstr, Standard=None
Ein Absatz, der die Charakteristik des Datensatzes beschreibt: seine Quelle, Referenz usw.
- categorieslist von str, Standard=None
Wenn `None` (Standard), werden alle Kategorien geladen. Wenn nicht `None`, eine Liste von Kategorienamen, die geladen werden sollen (andere Kategorien werden ignoriert).
- load_contentbool, Standard=True
Ob der Inhalt der verschiedenen Dateien geladen werden soll oder nicht. Wenn `True`, ist ein `'data'`-Attribut, das die Textinformationen enthält, in der zurückgegebenen Datenstruktur vorhanden. Wenn nicht, gibt ein `'filenames'`-Attribut den Pfad zu den Dateien an.
- shufflebool, Standard=True
Ob die Daten gemischt werden sollen oder nicht: Dies kann wichtig sein für Modelle, die die Annahme treffen, dass die Samples unabhängig und identisch verteilt (i.i.d.) sind, wie z. B. der stochastische Gradientenabstieg.
- encodingstr, Standard=None
Wenn `None`, wird nicht versucht, den Inhalt der Dateien zu dekodieren (z. B. für Bilder oder andere Nicht-Text-Inhalte). Wenn nicht `None`, die zu verwendende Kodierung, um Textdateien in Unicode zu dekodieren, wenn `load_content` `True` ist.
- decode_error{‘strict’, ‘ignore’, ‘replace’}, standardmäßig=’strict’
Anweisung, was zu tun ist, wenn eine Byte-Sequenz zur Analyse gegeben wird, die Zeichen enthält, die nicht zur angegebenen
encodinggehören. Wird als Schlüsselwortargument `'errors'` an `bytes.decode` übergeben.- random_stateint, RandomState-Instanz oder None, Standard=0
Bestimmt die Zufallszahlengenerierung für das Mischen der Datensätze. Übergeben Sie einen int für reproduzierbare Ergebnisse über mehrere Funktionsaufrufe hinweg. Siehe Glossar.
- allowed_extensionslist von str, Standard=None
Liste der gewünschten Dateiendungen zum Filtern der zu ladenden Dateien.
- Gibt zurück:
- data
Bunch Dictionary-ähnliches Objekt mit den folgenden Attributen.
- datalist von str
Nur vorhanden, wenn
load_content=True. Die rohen Textdaten zum Lernen.- targetndarray
Die Ziel-Labels (integer index).
- target_nameslist
Die Namen der Zielklassen.
- DESCRstr
Die vollständige Beschreibung des Datensatzes.
- filenames: ndarray
Die Dateinamen, die den Datensatz enthalten.
- data
Beispiele
>>> from sklearn.datasets import load_files >>> container_path = "./" >>> load_files(container_path)