make_multilabel_classification#
- sklearn.datasets.make_multilabel_classification(n_samples=100, n_features=20, *, n_classes=5, n_labels=2, length=50, allow_unlabeled=True, sparse=False, return_indicator='dense', return_distributions=False, random_state=None)[Quelle]#
Generiert eine zufällige Multilabel-Klassifikationsaufgabe.
- Für jede Stichprobe ist der Generierungsprozess:
Wählen Sie die Anzahl der Labels: n ~ Poisson(n_labels)
n mal, wählen Sie eine Klasse c: c ~ Multinomial(theta)
Wählen Sie die Dokumentenlänge: k ~ Poisson(length)
k mal, wählen Sie ein Wort: w ~ Multinomial(theta_c)
Im obigen Prozess wird Ablehnungssampling verwendet, um sicherzustellen, dass n niemals Null oder größer als
n_classesist und dass die Dokumentenlänge niemals Null ist. Ebenso lehnen wir Klassen ab, die bereits ausgewählt wurden.Ein Beispiel für die Verwendung finden Sie unter Plot randomly generated multilabel dataset.
Lesen Sie mehr im Benutzerhandbuch.
- Parameter:
- n_samplesint, Standard=100
Die Anzahl der Stichproben.
- n_featuresint, default=20
Die Gesamtzahl der Merkmale.
- n_classesint, default=5
Die Anzahl der Klassen des Klassifizierungsproblems.
- n_labelsint, default=2
Die durchschnittliche Anzahl von Labels pro Instanz. Genauer gesagt wird die Anzahl der Labels pro Stichprobe aus einer Poisson-Verteilung mit
n_labelsals Erwartungswert gezogen, aber Stichproben sind (mittels Ablehnungssampling) aufn_classesbegrenzt und müssen ungleich Null sein, wennallow_unlabeledFalse ist.- lengthint, default=50
Die Summe der Merkmale (Anzahl der Wörter, wenn Dokumente) wird aus einer Poisson-Verteilung mit diesem Erwartungswert gezogen.
- allow_unlabeledbool, default=True
Wenn
True, gehören einige Instanzen möglicherweise zu keiner Klasse.- sparsebool, default=False
Wenn
True, geben Sie eine spärliche Merkmalsmatrix zurück.Hinzugefügt in Version 0.17: Parameter zur Ermöglichung von *spärlichen* Ausgaben.
- return_indicator{‘dense’, ‘sparse’} oder False, default=’dense’
Wenn
'dense', geben SieYim dichten binären Indikatorformat zurück. Wenn'sparse', geben SieYim spärlichen binären Indikatorformat zurück.Falsegibt eine Liste von Listen von Labels zurück.- return_distributionsbool, default=False
Wenn
True, geben Sie die a priori Klassenerstwahrscheinlichkeit und die bedingten Wahrscheinlichkeiten von Merkmalen gegebenen Klassen zurück, aus denen die Daten gezogen wurden.- random_stateint, RandomState-Instanz oder None, default=None
Bestimmt die Zufallszahlengenerierung für die Datenerstellung. Übergeben Sie eine Ganzzahl für reproduzierbare Ergebnisse über mehrere Funktionsaufrufe hinweg. Siehe Glossar.
- Gibt zurück:
- Xndarray der Form (n_samples, n_features)
Die generierten Samples.
- Y{ndarray, sparse matrix} von Form (n_samples, n_classes)
Die Label-Sets. Spärliche Matrizen sollten im CSR-Format sein.
- p_cndarray von Form (n_classes,)
Die Wahrscheinlichkeit jeder Klasse, gezogen zu werden. Nur zurückgegeben, wenn
return_distributions=True.- p_w_cndarray von Form (n_features, n_classes)
Die Wahrscheinlichkeit jedes Merkmals, gegeben jede Klasse gezogen zu werden. Nur zurückgegeben, wenn
return_distributions=True.
Beispiele
>>> from sklearn.datasets import make_multilabel_classification >>> X, y = make_multilabel_classification(n_labels=3, random_state=42) >>> X.shape (100, 20) >>> y.shape (100, 5) >>> list(y[:3]) [array([1, 1, 0, 1, 0]), array([0, 1, 1, 1, 0]), array([0, 1, 0, 0, 0])]