8.1. Spielzeugdatensätze#
scikit-learn enthält einige kleine Standarddatensätze, die kein Herunterladen von Dateien von externen Websites erfordern.
Sie können mit den folgenden Funktionen geladen werden:
|
Lädt und gibt den Iris Datensatz (Klassifikation) zurück. |
|
Lädt und gibt den Diabetes Datensatz (Regression) zurück. |
|
Lädt und gibt den Ziffern Datensatz (Klassifikation) zurück. |
|
Lädt und gibt den Linnerud Datensatz für körperliche Übungen zurück. |
|
Lädt und gibt den Wein Datensatz (Klassifikation) zurück. |
|
Lädt und gibt den Brustkrebs Wisconsin Datensatz (Klassifikation) zurück. |
Diese Datensätze eignen sich gut, um das Verhalten der verschiedenen in scikit-learn implementierten Algorithmen schnell zu veranschaulichen. Sie sind jedoch oft zu klein, um repräsentativ für reale Machine-Learning-Aufgaben zu sein.
8.1.1. Iris-Pflanzen-Datensatz#
Merkmale des Datensatzes
- Anzahl der Instanzen:
150 (50 in jeder der drei Klassen)
- Anzahl der Attribute:
4 numerische, vorhersagende Attribute und die Klasse
- Attributinformationen:
Sepallänge in cm
Sepalbreite in cm
Petallänge in cm
petalbreite in cm
- Klasse
Iris-Setosa
Iris-Versicolour
Iris-Virginica
- Zusammenfassende Statistiken:
Sepallänge |
4.3 |
7.9 |
5.84 |
0.83 |
0.7826 |
Sepalbreite |
2.0 |
4.4 |
3.05 |
0.43 |
-0.4194 |
Petallänge |
1.0 |
6.9 |
3.76 |
1.76 |
0.9490 (hoch!) |
Petalbreite |
0.1 |
2.5 |
1.20 |
0.76 |
0.9565 (hoch!) |
- Fehlende Attributwerte:
None
- Klassenverteilung:
33,3% für jede der 3 Klassen.
- Ersteller:
R.A. Fisher
- Spender:
Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
- Datum:
Juli, 1988
Die berühmte Iris-Datenbank, die erstmals von Sir R.A. Fisher verwendet wurde. Der Datensatz stammt aus Fishers Papier. Beachten Sie, dass er derselbe ist wie in R, aber nicht wie im UCI Machine Learning Repository, das zwei fehlerhafte Datenpunkte enthält.
Dies ist vielleicht die bekannteste Datenbank in der Mustererkennungsliteratur. Fishers Papier ist ein Klassiker auf diesem Gebiet und wird bis heute häufig zitiert. (Siehe Duda & Hart, zum Beispiel.) Der Datensatz enthält 3 Klassen mit je 50 Instanzen, wobei jede Klasse eine Art von Irispflanze bezeichnet. Eine Klasse ist von den anderen beiden linear separierbar; die letzteren sind NICHT linear voneinander separierbar.
Referenzen#
Fisher, R.A. “The use of multiple measurements in taxonomic problems” Annual Eugenics, 7, Part II, 179-188 (1936); auch in “Contributions to Mathematical Statistics” (John Wiley, NY, 1950).
Duda, R.O., & Hart, P.E. (1973) Pattern Classification and Scene Analysis. (Q327.D83) John Wiley & Sons. ISBN 0-471-22361-1. Siehe Seite 218.
Dasarathy, B.V. (1980) “Nosing Around the Neighborhood: A New System Structure and Classification Rule for Recognition in Partially Exposed Environments”. IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. PAMI-2, No. 1, 67-71.
Gates, G.W. (1972) “The Reduced Nearest Neighbor Rule”. IEEE Transactions on Information Theory, Mai 1972, 431-433.
Siehe auch: 1988 MLC Proceedings, 54-64. Cheesemans AUTOCLASS II konzeptuelles Clustering-System findet 3 Klassen in den Daten.
Viele, viele mehr …
8.1.2. Diabetes-Datensatz#
Zehn Basisvariablen, Alter, Geschlecht, Body-Mass-Index, durchschnittlicher Blutdruck und sechs Blutserummessungen wurden für jeden der 442 Diabetespatienten ermittelt, ebenso wie die interessierende Antwort, ein quantitatives Maß für die Krankheitsfortschreitung ein Jahr nach der Basisuntersuchung.
Merkmale des Datensatzes
- Anzahl der Instanzen:
442
- Anzahl der Attribute:
Die ersten 10 Spalten sind numerische Vorhersagewerte
- Zielvariable:
Spalte 11 ist ein quantitatives Maß für die Krankheitsfortschreitung ein Jahr nach der Basisuntersuchung
- Attributinformationen:
Alter Alter in Jahren
geschlecht
BMI Body-Mass-Index
BP durchschnittlicher Blutdruck
s1 TC, Gesamtcholesterin im Serum
s2 LDL, Low-Density-Lipoproteine
s3 HDL, High-Density-Lipoproteine
s4 TCH, Gesamtcholesterin / HDL
s5 LTG, möglicherweise Logarithmus des Triglyceridspiegels im Serum
s6 GLU, Blutzuckerspiegel
Hinweis: Jede dieser 10 Merkmalvariablen wurde mittelwertzentriert und mit der Standardabweichung multipliziert mit der Quadratwurzel von n_samples skaliert (d.h. die Summe der Quadrate jeder Spalte beträgt 1).
Quell-URL: https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html
Weitere Informationen finden Sie unter: Bradley Efron, Trevor Hastie, Iain Johnstone und Robert Tibshirani (2004) “Least Angle Regression,” Annals of Statistics (mit Diskussion), 407-499. (https://web.stanford.edu/~hastie/Papers/LARS/LeastAngle_2002.pdf)
8.1.3. Optische Erkennung von handgeschriebenen Ziffern - Datensatz#
Merkmale des Datensatzes
- Anzahl der Instanzen:
1797
- Anzahl der Attribute:
64
- Attributinformationen:
8x8 Bild mit ganzzahligen Pixeln im Bereich 0..16.
- Fehlende Attributwerte:
None
- Ersteller:
Alpaydin (alpaydin ‘@’ boun.edu.tr)
- Datum:
Juli; 1998
Dies ist eine Kopie des Testdatensatzes der UCI ML handgeschriebenen Ziffern-Datensätze https://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits
Der Datensatz enthält Bilder von handgeschriebenen Ziffern: 10 Klassen, wobei jede Klasse eine Ziffer bezeichnet.
NIST-vorverarbeitende Programme wurden verwendet, um normalisierte Bitmaps von handgeschriebenen Ziffern aus einem vorgedruckten Formular zu extrahieren. Von insgesamt 43 Personen trugen 30 zum Trainingsdatensatz und 13 verschiedene zum Testdatensatz bei. 32x32 Bitmaps werden in nicht überlappende Blöcke von 4x4 unterteilt und die Anzahl der angezeigten Pixel wird in jedem Block gezählt. Dies erzeugt eine Eingabematrix von 8x8, wobei jedes Element eine ganze Zahl im Bereich 0..16 ist. Dies reduziert die Dimensionalität und führt zu Invarianz gegenüber kleinen Verzerrungen.
Informationen zu NIST-Vorverarbeitungsroutinen finden Sie unter M. D. Garris, J. L. Blue, G. T. Candela, D. L. Dimmick, J. Geist, P. J. Grother, S. A. Janet und C. L. Wilson, NIST Form-Based Handprint Recognition System, NISTIR 5469, 1994.
Referenzen#
C. Kaynak (1995) Methods of Combining Multiple Classifiers and Their Applications to Handwritten Digit Recognition, MSc Thesis, Institute of Graduate Studies in Science and Engineering, Bogazici University.
Alpaydin, C. Kaynak (1998) Cascading Classifiers, Kybernetika.
Ken Tang und Ponnuthurai N. Suganthan und Xi Yao und A. Kai Qin. Linear dimensionalityreduction using relevance weighted LDA. School of Electrical and Electronic Engineering Nanyang Technological University. 2005.
Claudio Gentile. A New Approximate Maximal Margin Classification Algorithm. NIPS. 2000.
8.1.4. Linnerrud-Datensatz#
Merkmale des Datensatzes
- Anzahl der Instanzen:
20
- Anzahl der Attribute:
3
- Fehlende Attributwerte:
None
Der Linnerud-Datensatz ist ein Multi-Output-Regressionsdatensatz. Er besteht aus drei Übungs- (Daten-) und drei physiologischen (Ziel-) Variablen, die von zwanzig Männern mittleren Alters in einem Fitnessstudio gesammelt wurden.
- physiologisch - CSV mit 20 Beobachtungen zu 3 physiologischen Variablen
Gewicht, Taille und Puls.
- Übung - CSV mit 20 Beobachtungen zu 3 Übungsvariablen
Klimmzüge, Sit-ups und Sprünge.
Referenzen#
Tenenhaus, M. (1998). La regression PLS: theorie et pratique. Paris: Editions Technic.
8.1.5. Wein-Erkennungs-Datensatz#
Merkmale des Datensatzes
- Anzahl der Instanzen:
178
- Anzahl der Attribute:
13 numerische, vorhersagende Attribute und die Klasse
- Attributinformationen:
Alkohol
Weinsäure
Asche
Alkalinität der Asche
Magnesium
Gesamtphenole
Flavonoide
Nicht-Flavonoid-Phenole
Proanthocyanidine
Farbintensität
Farbton
OD280/OD315 verdünnter Weine
Prolin
- Klasse
klasse_0
klasse_1
klasse_2
- Zusammenfassende Statistiken:
Alkohol |
11.0 |
14.8 |
13.0 |
0.8 |
Weinsäure |
0.74 |
5.80 |
2.34 |
1.12 |
Asche |
1.36 |
3.23 |
2.36 |
0.27 |
Alkalinität der Asche |
10.6 |
30.0 |
19.5 |
3.3 |
Magnesium |
70.0 |
162.0 |
99.7 |
14.3 |
Gesamtphenole |
0.98 |
3.88 |
2.29 |
0.63 |
Flavonoide |
0.34 |
5.08 |
2.03 |
1.00 |
Nicht-Flavonoid-Phenole |
0.13 |
0.66 |
0.36 |
0.12 |
Proanthocyanidine |
0.41 |
3.58 |
1.59 |
0.57 |
Farbintensität |
1.3 |
13.0 |
5.1 |
2.3 |
Farbton |
0.48 |
1.71 |
0.96 |
0.23 |
OD280/OD315 verdünnter Weine |
1.27 |
4.00 |
2.61 |
0.71 |
Prolin |
278 |
1680 |
746 |
315 |
- Fehlende Attributwerte:
None
- Klassenverteilung:
klasse_0 (59), klasse_1 (71), klasse_2 (48)
- Ersteller:
R.A. Fisher
- Spender:
Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
- Datum:
Juli, 1988
Dies ist eine Kopie der UCI ML Wine-Erkennungsdatensätze. https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data
Die Daten sind die Ergebnisse einer chemischen Analyse von Weinen, die in derselben italienischen Region von drei verschiedenen Kultivaren angebaut wurden. Es gibt dreizehn verschiedene Messungen für verschiedene Bestandteile, die in den drei Weinsorten gefunden wurden.
Ursprüngliche Besitzer
Forina, M. et al, PARVUS - An Extendible Package for Data Exploration, Classification and Correlation. Institute of Pharmaceutical and Food Analysis and Technologies, Via Brigata Salerno, 16147 Genua, Italien.
Zitat
Lichman, M. (2013). UCI Machine Learning Repository [https://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science.
Referenzen#
(1) S. Aeberhard, D. Coomans und O. de Vel, Comparison of Classifiers in High Dimensional Settings, Tech. Rep. no. 92-02, (1992), Dept. of Computer Science und Dept. of Mathematics and Statistics, James Cook University of North Queensland. (Auch eingereicht bei Technometrics).
Die Daten wurden mit vielen anderen zur Vergleichenden von verschiedenen Klassifikatoren verwendet. Die Klassen sind separierbar, obwohl nur RDA 100% korrekte Klassifikation erreicht hat. (RDA: 100%, QDA 99,4%, LDA 98,9%, 1NN 96,1% (z-transformierte Daten)) (Alle Ergebnisse unter Verwendung der Leave-One-Out-Technik)
(2) S. Aeberhard, D. Coomans und O. de Vel, “THE CLASSIFICATION PERFORMANCE OF RDA” Tech. Rep. no. 92-01, (1992), Dept. of Computer Science und Dept. of Mathematics and Statistics, James Cook University of North Queensland. (Auch eingereicht bei Journal of Chemometrics).
8.1.6. Brustkrebs Wisconsin (diagnostisch) - Datensatz#
Merkmale des Datensatzes
- Anzahl der Instanzen:
569
- Anzahl der Attribute:
30 numerische, vorhersagende Attribute und die Klasse
- Attributinformationen:
Radius (Mittelwert der Abstände vom Zentrum zu Punkten auf dem Umfang)
Textur (Standardabweichung der Graustufenwerte)
Umfang
Fläche
Glätte (lokale Variation der Radiuslängen)
Kompaktheit (Umfang^2 / Fläche - 1.0)
Konkavität (Schweregrad konkaver Teile der Kontur)
Konkavpunkte (Anzahl der konkaven Teile der Kontur)
Symmetrie
Fraktale Dimension (“Küstenlinien-Annäherung” - 1)
Der Mittelwert, die Standardabweichung und der “schlechteste” oder größte (Mittelwert der drei schlechtesten/größten Werte) dieser Merkmale wurden für jedes Bild berechnet, was zu 30 Merkmalen führte. Zum Beispiel ist Feld 0 Mean Radius, Feld 10 Radius SE, Feld 20 Worst Radius.
- Klasse
WDBC-Malign
WDBC-Gutartig
- Zusammenfassende Statistiken:
Radius (Mittelwert) |
6.981 |
28.11 |
Textur (Mittelwert) |
9.71 |
39.28 |
Umfang (Mittelwert) |
43.79 |
188.5 |
Fläche (Mittelwert) |
143.5 |
2501.0 |
Glätte (Mittelwert) |
0.053 |
0.163 |
Kompaktheit (Mittelwert) |
0.019 |
0.345 |
Konkavität (Mittelwert) |
0.0 |
0.427 |
Konkavpunkte (Mittelwert) |
0.0 |
0.201 |
Symmetrie (Mittelwert) |
0.106 |
0.304 |
Fraktale Dimension (Mittelwert) |
0.05 |
0.097 |
Radius (Standardfehler) |
0.112 |
2.873 |
Textur (Standardfehler) |
0.36 |
4.885 |
Umfang (Standardfehler) |
0.757 |
21.98 |
Fläche (Standardfehler) |
6.802 |
542.2 |
Glätte (Standardfehler) |
0.002 |
0.031 |
Kompaktheit (Standardfehler) |
0.002 |
0.135 |
Konkavität (Standardfehler) |
0.0 |
0.396 |
Konkavpunkte (Standardfehler) |
0.0 |
0.053 |
Symmetrie (Standardfehler) |
0.008 |
0.079 |
Fraktale Dimension (Standardfehler) |
0.001 |
0.03 |
Radius (schlechteste) |
7.93 |
36.04 |
Textur (schlechteste) |
12.02 |
49.54 |
Umfang (schlechteste) |
50.41 |
251.2 |
Fläche (schlechteste) |
185.2 |
4254.0 |
Glätte (schlechteste) |
0.071 |
0.223 |
Kompaktheit (schlechteste) |
0.027 |
1.058 |
Konkavität (schlechteste) |
0.0 |
1.252 |
Konkavpunkte (schlechteste) |
0.0 |
0.291 |
Symmetrie (schlechteste) |
0.156 |
0.664 |
Fraktale Dimension (schlechteste) |
0.055 |
0.208 |
- Fehlende Attributwerte:
None
- Klassenverteilung:
212 - Bösartig, 357 - Gutartig
- Ersteller:
Dr. William H. Wolberg, W. Nick Street, Olvi L. Mangasarian
- Spender:
Nick Street
- Datum:
November, 1995
Dies ist eine Kopie der UCI ML Breast Cancer Wisconsin (Diagnostic) Datensätze. https://goo.gl/U2Uwz2
Die Merkmale werden aus einem digitalisierten Bild einer Feinnadelaspirationsbiopsie (FNA) eines Brusttumors berechnet. Sie beschreiben Charakteristika der Zellkerne im Bild.
Die oben beschriebene Trennebene wurde mit der Multisurface Method-Tree (MSM-T) [K. P. Bennett, “Decision Tree Construction Via Linear Programming.” Proceedings of the 4th Midwest Artificial Intelligence and Cognitive Science Society, pp. 97-101, 1992] erhalten, einer Klassifikationsmethode, die lineare Programmierung zur Erstellung eines Entscheidungsbaums verwendet. Relevante Merkmale wurden durch erschöpfende Suche im Raum von 1-4 Merkmalen und 1-3 Trennebenen ausgewählt.
Das tatsächliche lineare Programm zur Erzielung der Trennebene im dreidimensionalen Raum ist das in beschriebene: [K. P. Bennett und O. L. Mangasarian: “Robust Linear Programming Discrimination of Two Linearly Inseparable Sets”, Optimization Methods and Software 1, 1992, 23-34].
Diese Datenbank ist auch über den UW CS FTP-Server verfügbar
ftp ftp.cs.wisc.edu cd math-prog/cpo-dataset/machine-learn/WDBC/
Referenzen#
W.N. Street, W.H. Wolberg und O.L. Mangasarian. Nuclear feature extraction for breast tumor diagnosis. IS&T/SPIE 1993 International Symposium on Electronic Imaging: Science and Technology, Band 1905, Seiten 861-870, San Jose, CA, 1993.
O.L. Mangasarian, W.N. Street und W.H. Wolberg. Breast cancer diagnosis and prognosis via linear programming. Operations Research, 43(4), Seiten 570-577, Juli-August 1995.
W.H. Wolberg, W.N. Street und O.L. Mangasarian. Machine learning techniques to diagnose breast cancer from fine-needle aspirates. Cancer Letters 77 (1994) 163-171.