load_files#

sklearn.datasets.load_files(container_path, *, description=None, categories=None, load_content=True, shuffle=True, encoding=None, decode_error='strict', random_state=0, allowed_extensions=None)[Quelle]#

Lädt Textdateien mit Kategorien als Unterordnernamen.

Einzelne Samples werden als Dateien in einer zweistufigen Ordnerstruktur angenommen, wie folgt:

container_folder/
    category_1_folder/
        file_1.txt
        file_2.txt
        ...
        file_42.txt
    category_2_folder/
        file_43.txt
        file_44.txt
        ...

Die Ordnernamen werden als Namen für die überwachten Signale verwendet. Die einzelnen Dateinamen sind unwichtig.

Diese Funktion versucht nicht, Features in ein Numpy-Array oder eine Scipy-Sparse-Matrix zu extrahieren. Außerdem versucht sie nicht, die Dateien in den Speicher zu laden, wenn `load_content` auf `False` gesetzt ist.

Um Textdateien in einem Klassifikations- oder Clustering-Algorithmus von scikit-learn zu verwenden, müssen Sie das text-Modul verwenden, um einen Feature-Extraktions-Transformer zu erstellen, der für Ihr Problem geeignet ist.

Wenn Sie `load_content=True` setzen, sollten Sie auch die Kodierung des Textes mit dem Parameter `'encoding'` angeben. Für viele moderne Textdateien ist `'utf-8'` die richtige Kodierung. Wenn Sie `'encoding'` auf `None` belassen, besteht der Inhalt aus Bytes anstelle von Unicode, und Sie können die meisten Funktionen im Modul text nicht verwenden.

Ähnliche Feature-Extraktoren sollten für andere Arten von unstrukturierten Eingabedaten wie Bilder, Audio, Video usw. erstellt werden.

Wenn Sie Dateien mit einer bestimmten Dateiendung (z. B. .txt) wünschen, können Sie eine Liste dieser Dateiendungen an allowed_extensions übergeben.

Lesen Sie mehr im Benutzerhandbuch.

Parameter:

container_pathstr: Pfad zum Hauptordner, der einen Unterordner pro Kategorie enthält.
descriptionstr, Standard=None: Ein Absatz, der die Charakteristik des Datensatzes beschreibt: seine Quelle, Referenz usw.
categorieslist von str, Standard=None: Wenn `None` (Standard), werden alle Kategorien geladen. Wenn nicht `None`, eine Liste von Kategorienamen, die geladen werden sollen (andere Kategorien werden ignoriert).
load_contentbool, Standard=True: Ob der Inhalt der verschiedenen Dateien geladen werden soll oder nicht. Wenn `True`, ist ein `'data'`-Attribut, das die Textinformationen enthält, in der zurückgegebenen Datenstruktur vorhanden. Wenn nicht, gibt ein `'filenames'`-Attribut den Pfad zu den Dateien an.
shufflebool, Standard=True: Ob die Daten gemischt werden sollen oder nicht: Dies kann wichtig sein für Modelle, die die Annahme treffen, dass die Samples unabhängig und identisch verteilt (i.i.d.) sind, wie z. B. der stochastische Gradientenabstieg.
encodingstr, Standard=None: Wenn `None`, wird nicht versucht, den Inhalt der Dateien zu dekodieren (z. B. für Bilder oder andere Nicht-Text-Inhalte). Wenn nicht `None`, die zu verwendende Kodierung, um Textdateien in Unicode zu dekodieren, wenn `load_content` `True` ist.
decode_error{‘strict’, ‘ignore’, ‘replace’}, standardmäßig=’strict’: Anweisung, was zu tun ist, wenn eine Byte-Sequenz zur Analyse gegeben wird, die Zeichen enthält, die nicht zur angegebenen encoding gehören. Wird als Schlüsselwortargument `'errors'` an `bytes.decode` übergeben.
random_stateint, RandomState-Instanz oder None, Standard=0: Bestimmt die Zufallszahlengenerierung für das Mischen der Datensätze. Übergeben Sie einen int für reproduzierbare Ergebnisse über mehrere Funktionsaufrufe hinweg. Siehe Glossar.
allowed_extensionslist von str, Standard=None: Liste der gewünschten Dateiendungen zum Filtern der zu ladenden Dateien.

Gibt zurück:

dataBunch

Dictionary-ähnliches Objekt mit den folgenden Attributen.

datalist von str: Nur vorhanden, wenn load_content=True. Die rohen Textdaten zum Lernen.
targetndarray: Die Ziel-Labels (integer index).
target_nameslist: Die Namen der Zielklassen.
DESCRstr: Die vollständige Beschreibung des Datensatzes.
filenames: ndarray: Die Dateinamen, die den Datensatz enthalten.

Beispiele

>>> from sklearn.datasets import load_files
>>> container_path = "./"
>>> load_files(container_path)

load_files#

Diese Seite