dump_svmlight_file#

sklearn.datasets.dump_svmlight_file(X, y, f, *, zero_based=True, comment=None, query_id=None, multilabel=False)[Quelle]#

Speichert den Datensatz im svmlight / libsvm-Dateiformat.

Dieses Format ist ein textbasiertes Format mit einer Stichprobe pro Zeile. Es speichert keine Nullwerte von Merkmalen, daher ist es für spärliche Datensätze geeignet.

Das erste Element jeder Zeile kann verwendet werden, um eine Zielvariable zum Vorhersagen zu speichern.

Parameter:
X{array-like, sparse matrix} der Form (n_samples, n_features)

Trainingsvektoren, wobei n_samples die Anzahl der Stichproben und n_features die Anzahl der Merkmale ist.

y{array-artig, spärliche Matrix}, Form = (n_samples,) oder (n_samples, n_labels)

Zielwerte. Klassenbezeichnungen müssen eine Ganzzahl oder Gleitkommazahl sein, oder array-artige Objekte von Ganzzahlen oder Gleitkommazahlen für multilabel Klassifizierungen.

fstr oder datei-artig im binären Modus

Wenn string, gibt den Pfad an, der die Daten enthalten wird. Wenn datei-artig, werden die Daten in f geschrieben. f sollte im binären Modus geöffnet sein.

zero_basedbool, Standard=True

Ob Spaltenindizes nullbasiert (True) oder einsbasiert (False) geschrieben werden sollen.

commentstr oder bytes, Standard=None

Kommentar, der oben in der Datei eingefügt werden soll. Dies sollte entweder ein Unicode-String sein, der als UTF-8 kodiert wird, oder ein ASCII-Byte-String. Wenn ein Kommentar angegeben wird, wird ihm ein Kommentar vorangestellt, der die Datei als von scikit-learn gespeichert identifiziert. Beachten Sie, dass nicht alle Tools Kommentare in SVMlight-Dateien verstehen.

query_idarray-artig der Form (n_samples,), Standard=None

Array mit paarweisen Präferenzbeschränkungen (qid im svmlight-Format).

multilabelbool, Standard=False

Stichproben können jeweils mehrere Labels haben (siehe https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multilabel.html).

Hinzugefügt in Version 0.17: Parameter multilabel zur Unterstützung von multilabel Datensätzen.

Beispiele

>>> from sklearn.datasets import dump_svmlight_file, make_classification
>>> X, y = make_classification(random_state=0)
>>> output_file = "my_dataset.svmlight"
>>> dump_svmlight_file(X, y, output_file)