8.1. Spielzeugdatensätze#

scikit-learn enthält einige kleine Standarddatensätze, die kein Herunterladen von Dateien von externen Websites erfordern.

Sie können mit den folgenden Funktionen geladen werden:

load_iris(*[, return_X_y, as_frame])

Lädt und gibt den Iris Datensatz (Klassifikation) zurück.

load_diabetes(*[, return_X_y, as_frame, scaled])

Lädt und gibt den Diabetes Datensatz (Regression) zurück.

load_digits(*[, n_class, return_X_y, as_frame])

Lädt und gibt den Ziffern Datensatz (Klassifikation) zurück.

load_linnerud(*[, return_X_y, as_frame])

Lädt und gibt den Linnerud Datensatz für körperliche Übungen zurück.

load_wine(*[, return_X_y, as_frame])

Lädt und gibt den Wein Datensatz (Klassifikation) zurück.

load_breast_cancer(*[, return_X_y, as_frame])

Lädt und gibt den Brustkrebs Wisconsin Datensatz (Klassifikation) zurück.

Diese Datensätze eignen sich gut, um das Verhalten der verschiedenen in scikit-learn implementierten Algorithmen schnell zu veranschaulichen. Sie sind jedoch oft zu klein, um repräsentativ für reale Machine-Learning-Aufgaben zu sein.

8.1.1. Iris-Pflanzen-Datensatz#

Merkmale des Datensatzes

Anzahl der Instanzen:

150 (50 in jeder der drei Klassen)

Anzahl der Attribute:

4 numerische, vorhersagende Attribute und die Klasse

Attributinformationen:
  • Sepallänge in cm

  • Sepalbreite in cm

  • Petallänge in cm

  • petalbreite in cm

  • Klasse
    • Iris-Setosa

    • Iris-Versicolour

    • Iris-Virginica

Zusammenfassende Statistiken:

Sepallänge

4.3

7.9

5.84

0.83

0.7826

Sepalbreite

2.0

4.4

3.05

0.43

-0.4194

Petallänge

1.0

6.9

3.76

1.76

0.9490 (hoch!)

Petalbreite

0.1

2.5

1.20

0.76

0.9565 (hoch!)

Fehlende Attributwerte:

None

Klassenverteilung:

33,3% für jede der 3 Klassen.

Ersteller:

R.A. Fisher

Spender:

Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)

Datum:

Juli, 1988

Die berühmte Iris-Datenbank, die erstmals von Sir R.A. Fisher verwendet wurde. Der Datensatz stammt aus Fishers Papier. Beachten Sie, dass er derselbe ist wie in R, aber nicht wie im UCI Machine Learning Repository, das zwei fehlerhafte Datenpunkte enthält.

Dies ist vielleicht die bekannteste Datenbank in der Mustererkennungsliteratur. Fishers Papier ist ein Klassiker auf diesem Gebiet und wird bis heute häufig zitiert. (Siehe Duda & Hart, zum Beispiel.) Der Datensatz enthält 3 Klassen mit je 50 Instanzen, wobei jede Klasse eine Art von Irispflanze bezeichnet. Eine Klasse ist von den anderen beiden linear separierbar; die letzteren sind NICHT linear voneinander separierbar.

Referenzen#
  • Fisher, R.A. “The use of multiple measurements in taxonomic problems” Annual Eugenics, 7, Part II, 179-188 (1936); auch in “Contributions to Mathematical Statistics” (John Wiley, NY, 1950).

  • Duda, R.O., & Hart, P.E. (1973) Pattern Classification and Scene Analysis. (Q327.D83) John Wiley & Sons. ISBN 0-471-22361-1. Siehe Seite 218.

  • Dasarathy, B.V. (1980) “Nosing Around the Neighborhood: A New System Structure and Classification Rule for Recognition in Partially Exposed Environments”. IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. PAMI-2, No. 1, 67-71.

  • Gates, G.W. (1972) “The Reduced Nearest Neighbor Rule”. IEEE Transactions on Information Theory, Mai 1972, 431-433.

  • Siehe auch: 1988 MLC Proceedings, 54-64. Cheesemans AUTOCLASS II konzeptuelles Clustering-System findet 3 Klassen in den Daten.

  • Viele, viele mehr …

8.1.2. Diabetes-Datensatz#

Zehn Basisvariablen, Alter, Geschlecht, Body-Mass-Index, durchschnittlicher Blutdruck und sechs Blutserummessungen wurden für jeden der 442 Diabetespatienten ermittelt, ebenso wie die interessierende Antwort, ein quantitatives Maß für die Krankheitsfortschreitung ein Jahr nach der Basisuntersuchung.

Merkmale des Datensatzes

Anzahl der Instanzen:

442

Anzahl der Attribute:

Die ersten 10 Spalten sind numerische Vorhersagewerte

Zielvariable:

Spalte 11 ist ein quantitatives Maß für die Krankheitsfortschreitung ein Jahr nach der Basisuntersuchung

Attributinformationen:
  • Alter Alter in Jahren

  • geschlecht

  • BMI Body-Mass-Index

  • BP durchschnittlicher Blutdruck

  • s1 TC, Gesamtcholesterin im Serum

  • s2 LDL, Low-Density-Lipoproteine

  • s3 HDL, High-Density-Lipoproteine

  • s4 TCH, Gesamtcholesterin / HDL

  • s5 LTG, möglicherweise Logarithmus des Triglyceridspiegels im Serum

  • s6 GLU, Blutzuckerspiegel

Hinweis: Jede dieser 10 Merkmalvariablen wurde mittelwertzentriert und mit der Standardabweichung multipliziert mit der Quadratwurzel von n_samples skaliert (d.h. die Summe der Quadrate jeder Spalte beträgt 1).

Quell-URL: https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html

Weitere Informationen finden Sie unter: Bradley Efron, Trevor Hastie, Iain Johnstone und Robert Tibshirani (2004) “Least Angle Regression,” Annals of Statistics (mit Diskussion), 407-499. (https://web.stanford.edu/~hastie/Papers/LARS/LeastAngle_2002.pdf)

8.1.3. Optische Erkennung von handgeschriebenen Ziffern - Datensatz#

Merkmale des Datensatzes

Anzahl der Instanzen:

1797

Anzahl der Attribute:

64

Attributinformationen:

8x8 Bild mit ganzzahligen Pixeln im Bereich 0..16.

Fehlende Attributwerte:

None

Ersteller:
  1. Alpaydin (alpaydin ‘@’ boun.edu.tr)

Datum:

Juli; 1998

Dies ist eine Kopie des Testdatensatzes der UCI ML handgeschriebenen Ziffern-Datensätze https://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits

Der Datensatz enthält Bilder von handgeschriebenen Ziffern: 10 Klassen, wobei jede Klasse eine Ziffer bezeichnet.

NIST-vorverarbeitende Programme wurden verwendet, um normalisierte Bitmaps von handgeschriebenen Ziffern aus einem vorgedruckten Formular zu extrahieren. Von insgesamt 43 Personen trugen 30 zum Trainingsdatensatz und 13 verschiedene zum Testdatensatz bei. 32x32 Bitmaps werden in nicht überlappende Blöcke von 4x4 unterteilt und die Anzahl der angezeigten Pixel wird in jedem Block gezählt. Dies erzeugt eine Eingabematrix von 8x8, wobei jedes Element eine ganze Zahl im Bereich 0..16 ist. Dies reduziert die Dimensionalität und führt zu Invarianz gegenüber kleinen Verzerrungen.

Informationen zu NIST-Vorverarbeitungsroutinen finden Sie unter M. D. Garris, J. L. Blue, G. T. Candela, D. L. Dimmick, J. Geist, P. J. Grother, S. A. Janet und C. L. Wilson, NIST Form-Based Handprint Recognition System, NISTIR 5469, 1994.

Referenzen#
  • C. Kaynak (1995) Methods of Combining Multiple Classifiers and Their Applications to Handwritten Digit Recognition, MSc Thesis, Institute of Graduate Studies in Science and Engineering, Bogazici University.

    1. Alpaydin, C. Kaynak (1998) Cascading Classifiers, Kybernetika.

  • Ken Tang und Ponnuthurai N. Suganthan und Xi Yao und A. Kai Qin. Linear dimensionalityreduction using relevance weighted LDA. School of Electrical and Electronic Engineering Nanyang Technological University. 2005.

  • Claudio Gentile. A New Approximate Maximal Margin Classification Algorithm. NIPS. 2000.

8.1.4. Linnerrud-Datensatz#

Merkmale des Datensatzes

Anzahl der Instanzen:

20

Anzahl der Attribute:

3

Fehlende Attributwerte:

None

Der Linnerud-Datensatz ist ein Multi-Output-Regressionsdatensatz. Er besteht aus drei Übungs- (Daten-) und drei physiologischen (Ziel-) Variablen, die von zwanzig Männern mittleren Alters in einem Fitnessstudio gesammelt wurden.

  • physiologisch - CSV mit 20 Beobachtungen zu 3 physiologischen Variablen

    Gewicht, Taille und Puls.

  • Übung - CSV mit 20 Beobachtungen zu 3 Übungsvariablen

    Klimmzüge, Sit-ups und Sprünge.

Referenzen#
  • Tenenhaus, M. (1998). La regression PLS: theorie et pratique. Paris: Editions Technic.

8.1.5. Wein-Erkennungs-Datensatz#

Merkmale des Datensatzes

Anzahl der Instanzen:

178

Anzahl der Attribute:

13 numerische, vorhersagende Attribute und die Klasse

Attributinformationen:
  • Alkohol

  • Weinsäure

  • Asche

  • Alkalinität der Asche

  • Magnesium

  • Gesamtphenole

  • Flavonoide

  • Nicht-Flavonoid-Phenole

  • Proanthocyanidine

  • Farbintensität

  • Farbton

  • OD280/OD315 verdünnter Weine

  • Prolin

  • Klasse
    • klasse_0

    • klasse_1

    • klasse_2

Zusammenfassende Statistiken:

Alkohol

11.0

14.8

13.0

0.8

Weinsäure

0.74

5.80

2.34

1.12

Asche

1.36

3.23

2.36

0.27

Alkalinität der Asche

10.6

30.0

19.5

3.3

Magnesium

70.0

162.0

99.7

14.3

Gesamtphenole

0.98

3.88

2.29

0.63

Flavonoide

0.34

5.08

2.03

1.00

Nicht-Flavonoid-Phenole

0.13

0.66

0.36

0.12

Proanthocyanidine

0.41

3.58

1.59

0.57

Farbintensität

1.3

13.0

5.1

2.3

Farbton

0.48

1.71

0.96

0.23

OD280/OD315 verdünnter Weine

1.27

4.00

2.61

0.71

Prolin

278

1680

746

315

Fehlende Attributwerte:

None

Klassenverteilung:

klasse_0 (59), klasse_1 (71), klasse_2 (48)

Ersteller:

R.A. Fisher

Spender:

Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)

Datum:

Juli, 1988

Dies ist eine Kopie der UCI ML Wine-Erkennungsdatensätze. https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data

Die Daten sind die Ergebnisse einer chemischen Analyse von Weinen, die in derselben italienischen Region von drei verschiedenen Kultivaren angebaut wurden. Es gibt dreizehn verschiedene Messungen für verschiedene Bestandteile, die in den drei Weinsorten gefunden wurden.

Ursprüngliche Besitzer

Forina, M. et al, PARVUS - An Extendible Package for Data Exploration, Classification and Correlation. Institute of Pharmaceutical and Food Analysis and Technologies, Via Brigata Salerno, 16147 Genua, Italien.

Zitat

Lichman, M. (2013). UCI Machine Learning Repository [https://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science.

Referenzen#

(1) S. Aeberhard, D. Coomans und O. de Vel, Comparison of Classifiers in High Dimensional Settings, Tech. Rep. no. 92-02, (1992), Dept. of Computer Science und Dept. of Mathematics and Statistics, James Cook University of North Queensland. (Auch eingereicht bei Technometrics).

Die Daten wurden mit vielen anderen zur Vergleichenden von verschiedenen Klassifikatoren verwendet. Die Klassen sind separierbar, obwohl nur RDA 100% korrekte Klassifikation erreicht hat. (RDA: 100%, QDA 99,4%, LDA 98,9%, 1NN 96,1% (z-transformierte Daten)) (Alle Ergebnisse unter Verwendung der Leave-One-Out-Technik)

(2) S. Aeberhard, D. Coomans und O. de Vel, “THE CLASSIFICATION PERFORMANCE OF RDA” Tech. Rep. no. 92-01, (1992), Dept. of Computer Science und Dept. of Mathematics and Statistics, James Cook University of North Queensland. (Auch eingereicht bei Journal of Chemometrics).

8.1.6. Brustkrebs Wisconsin (diagnostisch) - Datensatz#

Merkmale des Datensatzes

Anzahl der Instanzen:

569

Anzahl der Attribute:

30 numerische, vorhersagende Attribute und die Klasse

Attributinformationen:
  • Radius (Mittelwert der Abstände vom Zentrum zu Punkten auf dem Umfang)

  • Textur (Standardabweichung der Graustufenwerte)

  • Umfang

  • Fläche

  • Glätte (lokale Variation der Radiuslängen)

  • Kompaktheit (Umfang^2 / Fläche - 1.0)

  • Konkavität (Schweregrad konkaver Teile der Kontur)

  • Konkavpunkte (Anzahl der konkaven Teile der Kontur)

  • Symmetrie

  • Fraktale Dimension (“Küstenlinien-Annäherung” - 1)

Der Mittelwert, die Standardabweichung und der “schlechteste” oder größte (Mittelwert der drei schlechtesten/größten Werte) dieser Merkmale wurden für jedes Bild berechnet, was zu 30 Merkmalen führte. Zum Beispiel ist Feld 0 Mean Radius, Feld 10 Radius SE, Feld 20 Worst Radius.

  • Klasse
    • WDBC-Malign

    • WDBC-Gutartig

Zusammenfassende Statistiken:

Radius (Mittelwert)

6.981

28.11

Textur (Mittelwert)

9.71

39.28

Umfang (Mittelwert)

43.79

188.5

Fläche (Mittelwert)

143.5

2501.0

Glätte (Mittelwert)

0.053

0.163

Kompaktheit (Mittelwert)

0.019

0.345

Konkavität (Mittelwert)

0.0

0.427

Konkavpunkte (Mittelwert)

0.0

0.201

Symmetrie (Mittelwert)

0.106

0.304

Fraktale Dimension (Mittelwert)

0.05

0.097

Radius (Standardfehler)

0.112

2.873

Textur (Standardfehler)

0.36

4.885

Umfang (Standardfehler)

0.757

21.98

Fläche (Standardfehler)

6.802

542.2

Glätte (Standardfehler)

0.002

0.031

Kompaktheit (Standardfehler)

0.002

0.135

Konkavität (Standardfehler)

0.0

0.396

Konkavpunkte (Standardfehler)

0.0

0.053

Symmetrie (Standardfehler)

0.008

0.079

Fraktale Dimension (Standardfehler)

0.001

0.03

Radius (schlechteste)

7.93

36.04

Textur (schlechteste)

12.02

49.54

Umfang (schlechteste)

50.41

251.2

Fläche (schlechteste)

185.2

4254.0

Glätte (schlechteste)

0.071

0.223

Kompaktheit (schlechteste)

0.027

1.058

Konkavität (schlechteste)

0.0

1.252

Konkavpunkte (schlechteste)

0.0

0.291

Symmetrie (schlechteste)

0.156

0.664

Fraktale Dimension (schlechteste)

0.055

0.208

Fehlende Attributwerte:

None

Klassenverteilung:

212 - Bösartig, 357 - Gutartig

Ersteller:

Dr. William H. Wolberg, W. Nick Street, Olvi L. Mangasarian

Spender:

Nick Street

Datum:

November, 1995

Dies ist eine Kopie der UCI ML Breast Cancer Wisconsin (Diagnostic) Datensätze. https://goo.gl/U2Uwz2

Die Merkmale werden aus einem digitalisierten Bild einer Feinnadelaspirationsbiopsie (FNA) eines Brusttumors berechnet. Sie beschreiben Charakteristika der Zellkerne im Bild.

Die oben beschriebene Trennebene wurde mit der Multisurface Method-Tree (MSM-T) [K. P. Bennett, “Decision Tree Construction Via Linear Programming.” Proceedings of the 4th Midwest Artificial Intelligence and Cognitive Science Society, pp. 97-101, 1992] erhalten, einer Klassifikationsmethode, die lineare Programmierung zur Erstellung eines Entscheidungsbaums verwendet. Relevante Merkmale wurden durch erschöpfende Suche im Raum von 1-4 Merkmalen und 1-3 Trennebenen ausgewählt.

Das tatsächliche lineare Programm zur Erzielung der Trennebene im dreidimensionalen Raum ist das in beschriebene: [K. P. Bennett und O. L. Mangasarian: “Robust Linear Programming Discrimination of Two Linearly Inseparable Sets”, Optimization Methods and Software 1, 1992, 23-34].

Diese Datenbank ist auch über den UW CS FTP-Server verfügbar

ftp ftp.cs.wisc.edu cd math-prog/cpo-dataset/machine-learn/WDBC/

Referenzen#
  • W.N. Street, W.H. Wolberg und O.L. Mangasarian. Nuclear feature extraction for breast tumor diagnosis. IS&T/SPIE 1993 International Symposium on Electronic Imaging: Science and Technology, Band 1905, Seiten 861-870, San Jose, CA, 1993.

  • O.L. Mangasarian, W.N. Street und W.H. Wolberg. Breast cancer diagnosis and prognosis via linear programming. Operations Research, 43(4), Seiten 570-577, Juli-August 1995.

  • W.H. Wolberg, W.N. Street und O.L. Mangasarian. Machine learning techniques to diagnose breast cancer from fine-needle aspirates. Cancer Letters 77 (1994) 163-171.