make_multilabel_classification#

sklearn.datasets.make_multilabel_classification(n_samples=100, n_features=20, *, n_classes=5, n_labels=2, length=50, allow_unlabeled=True, sparse=False, return_indicator='dense', return_distributions=False, random_state=None)[Quelle]#

Generiert eine zufällige Multilabel-Klassifikationsaufgabe.

Für jede Stichprobe ist der Generierungsprozess:

Wählen Sie die Anzahl der Labels: n ~ Poisson(n_labels)
n mal, wählen Sie eine Klasse c: c ~ Multinomial(theta)
Wählen Sie die Dokumentenlänge: k ~ Poisson(length)
k mal, wählen Sie ein Wort: w ~ Multinomial(theta_c)

Im obigen Prozess wird Ablehnungssampling verwendet, um sicherzustellen, dass n niemals Null oder größer als n_classes ist und dass die Dokumentenlänge niemals Null ist. Ebenso lehnen wir Klassen ab, die bereits ausgewählt wurden.

Ein Beispiel für die Verwendung finden Sie unter Plot randomly generated multilabel dataset.

Lesen Sie mehr im Benutzerhandbuch.

Parameter:

n_samplesint, Standard=100: Die Anzahl der Stichproben.
n_featuresint, default=20: Die Gesamtzahl der Merkmale.
n_classesint, default=5: Die Anzahl der Klassen des Klassifizierungsproblems.
n_labelsint, default=2: Die durchschnittliche Anzahl von Labels pro Instanz. Genauer gesagt wird die Anzahl der Labels pro Stichprobe aus einer Poisson-Verteilung mit n_labels als Erwartungswert gezogen, aber Stichproben sind (mittels Ablehnungssampling) auf n_classes begrenzt und müssen ungleich Null sein, wenn allow_unlabeled False ist.
lengthint, default=50: Die Summe der Merkmale (Anzahl der Wörter, wenn Dokumente) wird aus einer Poisson-Verteilung mit diesem Erwartungswert gezogen.
allow_unlabeledbool, default=True: Wenn True, gehören einige Instanzen möglicherweise zu keiner Klasse.
sparsebool, default=False: Wenn True, geben Sie eine spärliche Merkmalsmatrix zurück.

Hinzugefügt in Version 0.17: Parameter zur Ermöglichung von *spärlichen* Ausgaben.
return_indicator{‘dense’, ‘sparse’} oder False, default=’dense’: Wenn 'dense', geben Sie Y im dichten binären Indikatorformat zurück. Wenn 'sparse', geben Sie Y im spärlichen binären Indikatorformat zurück. False gibt eine Liste von Listen von Labels zurück.
return_distributionsbool, default=False: Wenn True, geben Sie die a priori Klassenerstwahrscheinlichkeit und die bedingten Wahrscheinlichkeiten von Merkmalen gegebenen Klassen zurück, aus denen die Daten gezogen wurden.
random_stateint, RandomState-Instanz oder None, default=None: Bestimmt die Zufallszahlengenerierung für die Datenerstellung. Übergeben Sie eine Ganzzahl für reproduzierbare Ergebnisse über mehrere Funktionsaufrufe hinweg. Siehe Glossar.

Gibt zurück:

Xndarray der Form (n_samples, n_features): Die generierten Samples.
Y{ndarray, sparse matrix} von Form (n_samples, n_classes): Die Label-Sets. Spärliche Matrizen sollten im CSR-Format sein.
p_cndarray von Form (n_classes,): Die Wahrscheinlichkeit jeder Klasse, gezogen zu werden. Nur zurückgegeben, wenn return_distributions=True.
p_w_cndarray von Form (n_features, n_classes): Die Wahrscheinlichkeit jedes Merkmals, gegeben jede Klasse gezogen zu werden. Nur zurückgegeben, wenn return_distributions=True.

Beispiele

>>> from sklearn.datasets import make_multilabel_classification
>>> X, y = make_multilabel_classification(n_labels=3, random_state=42)
>>> X.shape
(100, 20)
>>> y.shape
(100, 5)
>>> list(y[:3])
[array([1, 1, 0, 1, 0]), array([0, 1, 1, 1, 0]), array([0, 1, 0, 0, 0])]

Galeriebeispiele#

Zufällig generierten Multilabel-Datensatz plotten

Multilabel-Klassifikation

make_multilabel_classification#

Galeriebeispiele#

Diese Seite