load_breast_cancer#
- sklearn.datasets.load_breast_cancer(*, return_X_y=False, as_frame=False)[source]#
Lädt und gibt den Brustkrebs Wisconsin Datensatz (Klassifikation) zurück.
Der Brustkrebs-Datensatz ist ein klassischer und sehr einfacher Datensatz für binäre Klassifizierung.
Klassen
2
Stichproben pro Klasse
212(M),357(B)
Gesamtanzahl Samples
569
Dimensionalität
30
Merkmale
real, positive
Die Kopie des UCI ML Breast Cancer Wisconsin (Diagnostic) Datensatzes wird heruntergeladen von: https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic
Lesen Sie mehr im Benutzerhandbuch.
- Parameter:
- return_X_ybool, Standard=False
Wenn True, wird ein Bunch-Objekt zurückgegeben, das
(data, target)enthält. Weitere Informationen zu den Objektendataundtargetfinden Sie unten.Hinzugefügt in Version 0.18.
- as_framebool, default=False
Wenn True, sind die Daten ein pandas DataFrame, einschließlich Spalten mit geeigneten dtypes (numerisch). Das Ziel ist ein pandas DataFrame oder eine Series, abhängig von der Anzahl der Zielspalten. Wenn
return_X_yTrue ist, dann sind (data,target) pandas DataFrames oder Series wie unten beschrieben.Hinzugefügt in Version 0.23.
- Gibt zurück:
- data
Bunch Dictionary-ähnliches Objekt mit den folgenden Attributen.
- data{ndarray, dataframe} der Form (569, 30)
Die Datenmatrix. Wenn
as_frame=True, istdataein pandas DataFrame.- target{ndarray, Series} der Form (569,)
Das Klassifizierungsziel. Wenn
as_frame=True, isttargeteine pandas Series.- feature_namesndarray der Form (30,)
Die Namen der Datensatzspalten.
- target_namesndarray der Form (2,)
Die Namen der Zielklassen.
- frameDataFrame der Form (569, 31)
Nur vorhanden, wenn
as_frame=True. DataFrame mitdataundtarget.Hinzugefügt in Version 0.23.
- DESCRstr
Die vollständige Beschreibung des Datensatzes.
- filenamestr
Der Pfad zum Speicherort der Daten.
Hinzugefügt in Version 0.20.
- (data, target)tuple, wenn
return_X_yTrue ist Ein Tupel aus zwei ndarrays standardmäßig. Das erste enthält ein 2D-ndarray der Form (569, 30), wobei jede Zeile eine Stichprobe und jede Spalte die Merkmale darstellt. Das zweite ndarray der Form (569,) enthält die Zielstichproben. Wenn
as_frame=Trueist, sind beide Arrays pandas-Objekte, d. h.Xein DataFrame undyeine Series.Hinzugefügt in Version 0.18.
- data
Beispiele
Nehmen wir an, Sie interessieren sich für die Stichproben 10, 50 und 85 und möchten deren Klassennamen wissen.
>>> from sklearn.datasets import load_breast_cancer >>> data = load_breast_cancer() >>> data.target[[10, 50, 85]] array([0, 1, 0]) >>> list(data.target_names) [np.str_('malignant'), np.str_('benign')]
Galeriebeispiele#
Permutations-Wichtigkeit bei multikollinearen oder korrelierten Merkmalen
Auswirkung der Änderung des Schwellenwerts für Self-Training
Post-Pruning Entscheidungsbäume mit Kostenkomplexität