dump_svmlight_file#
- sklearn.datasets.dump_svmlight_file(X, y, f, *, zero_based=True, comment=None, query_id=None, multilabel=False)[Quelle]#
Speichert den Datensatz im svmlight / libsvm-Dateiformat.
Dieses Format ist ein textbasiertes Format mit einer Stichprobe pro Zeile. Es speichert keine Nullwerte von Merkmalen, daher ist es für spärliche Datensätze geeignet.
Das erste Element jeder Zeile kann verwendet werden, um eine Zielvariable zum Vorhersagen zu speichern.
- Parameter:
- X{array-like, sparse matrix} der Form (n_samples, n_features)
Trainingsvektoren, wobei
n_samplesdie Anzahl der Stichproben undn_featuresdie Anzahl der Merkmale ist.- y{array-artig, spärliche Matrix}, Form = (n_samples,) oder (n_samples, n_labels)
Zielwerte. Klassenbezeichnungen müssen eine Ganzzahl oder Gleitkommazahl sein, oder array-artige Objekte von Ganzzahlen oder Gleitkommazahlen für multilabel Klassifizierungen.
- fstr oder datei-artig im binären Modus
Wenn string, gibt den Pfad an, der die Daten enthalten wird. Wenn datei-artig, werden die Daten in f geschrieben. f sollte im binären Modus geöffnet sein.
- zero_basedbool, Standard=True
Ob Spaltenindizes nullbasiert (True) oder einsbasiert (False) geschrieben werden sollen.
- commentstr oder bytes, Standard=None
Kommentar, der oben in der Datei eingefügt werden soll. Dies sollte entweder ein Unicode-String sein, der als UTF-8 kodiert wird, oder ein ASCII-Byte-String. Wenn ein Kommentar angegeben wird, wird ihm ein Kommentar vorangestellt, der die Datei als von scikit-learn gespeichert identifiziert. Beachten Sie, dass nicht alle Tools Kommentare in SVMlight-Dateien verstehen.
- query_idarray-artig der Form (n_samples,), Standard=None
Array mit paarweisen Präferenzbeschränkungen (qid im svmlight-Format).
- multilabelbool, Standard=False
Stichproben können jeweils mehrere Labels haben (siehe https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multilabel.html).
Hinzugefügt in Version 0.17: Parameter
multilabelzur Unterstützung von multilabel Datensätzen.
Beispiele
>>> from sklearn.datasets import dump_svmlight_file, make_classification >>> X, y = make_classification(random_state=0) >>> output_file = "my_dataset.svmlight" >>> dump_svmlight_file(X, y, output_file)