load_files#

sklearn.datasets.load_files(container_path, *, description=None, categories=None, load_content=True, shuffle=True, encoding=None, decode_error='strict', random_state=0, allowed_extensions=None)[Quelle]#

Lädt Textdateien mit Kategorien als Unterordnernamen.

Einzelne Samples werden als Dateien in einer zweistufigen Ordnerstruktur angenommen, wie folgt:

container_folder/
    category_1_folder/
        file_1.txt
        file_2.txt
        ...
        file_42.txt
    category_2_folder/
        file_43.txt
        file_44.txt
        ...

Die Ordnernamen werden als Namen für die überwachten Signale verwendet. Die einzelnen Dateinamen sind unwichtig.

Diese Funktion versucht nicht, Features in ein Numpy-Array oder eine Scipy-Sparse-Matrix zu extrahieren. Außerdem versucht sie nicht, die Dateien in den Speicher zu laden, wenn `load_content` auf `False` gesetzt ist.

Um Textdateien in einem Klassifikations- oder Clustering-Algorithmus von scikit-learn zu verwenden, müssen Sie das text-Modul verwenden, um einen Feature-Extraktions-Transformer zu erstellen, der für Ihr Problem geeignet ist.

Wenn Sie `load_content=True` setzen, sollten Sie auch die Kodierung des Textes mit dem Parameter `'encoding'` angeben. Für viele moderne Textdateien ist `'utf-8'` die richtige Kodierung. Wenn Sie `'encoding'` auf `None` belassen, besteht der Inhalt aus Bytes anstelle von Unicode, und Sie können die meisten Funktionen im Modul text nicht verwenden.

Ähnliche Feature-Extraktoren sollten für andere Arten von unstrukturierten Eingabedaten wie Bilder, Audio, Video usw. erstellt werden.

Wenn Sie Dateien mit einer bestimmten Dateiendung (z. B. .txt) wünschen, können Sie eine Liste dieser Dateiendungen an allowed_extensions übergeben.

Lesen Sie mehr im Benutzerhandbuch.

Parameter:
container_pathstr

Pfad zum Hauptordner, der einen Unterordner pro Kategorie enthält.

descriptionstr, Standard=None

Ein Absatz, der die Charakteristik des Datensatzes beschreibt: seine Quelle, Referenz usw.

categorieslist von str, Standard=None

Wenn `None` (Standard), werden alle Kategorien geladen. Wenn nicht `None`, eine Liste von Kategorienamen, die geladen werden sollen (andere Kategorien werden ignoriert).

load_contentbool, Standard=True

Ob der Inhalt der verschiedenen Dateien geladen werden soll oder nicht. Wenn `True`, ist ein `'data'`-Attribut, das die Textinformationen enthält, in der zurückgegebenen Datenstruktur vorhanden. Wenn nicht, gibt ein `'filenames'`-Attribut den Pfad zu den Dateien an.

shufflebool, Standard=True

Ob die Daten gemischt werden sollen oder nicht: Dies kann wichtig sein für Modelle, die die Annahme treffen, dass die Samples unabhängig und identisch verteilt (i.i.d.) sind, wie z. B. der stochastische Gradientenabstieg.

encodingstr, Standard=None

Wenn `None`, wird nicht versucht, den Inhalt der Dateien zu dekodieren (z. B. für Bilder oder andere Nicht-Text-Inhalte). Wenn nicht `None`, die zu verwendende Kodierung, um Textdateien in Unicode zu dekodieren, wenn `load_content` `True` ist.

decode_error{‘strict’, ‘ignore’, ‘replace’}, standardmäßig=’strict’

Anweisung, was zu tun ist, wenn eine Byte-Sequenz zur Analyse gegeben wird, die Zeichen enthält, die nicht zur angegebenen encoding gehören. Wird als Schlüsselwortargument `'errors'` an `bytes.decode` übergeben.

random_stateint, RandomState-Instanz oder None, Standard=0

Bestimmt die Zufallszahlengenerierung für das Mischen der Datensätze. Übergeben Sie einen int für reproduzierbare Ergebnisse über mehrere Funktionsaufrufe hinweg. Siehe Glossar.

allowed_extensionslist von str, Standard=None

Liste der gewünschten Dateiendungen zum Filtern der zu ladenden Dateien.

Gibt zurück:
dataBunch

Dictionary-ähnliches Objekt mit den folgenden Attributen.

datalist von str

Nur vorhanden, wenn load_content=True. Die rohen Textdaten zum Lernen.

targetndarray

Die Ziel-Labels (integer index).

target_nameslist

Die Namen der Zielklassen.

DESCRstr

Die vollständige Beschreibung des Datensatzes.

filenames: ndarray

Die Dateinamen, die den Datensatz enthalten.

Beispiele

>>> from sklearn.datasets import load_files
>>> container_path = "./"
>>> load_files(container_path)