Benutzerhandbuch#
- 1. Überwachtes Lernen
- 1.1. Lineare Modelle
- 1.1.1. Ordinary Least Squares
- 1.1.2. Ridge-Regression und -Klassifikation
- 1.1.3. Lasso
- 1.1.4. Multi-Task-Lasso
- 1.1.5. Elastic-Net
- 1.1.6. Multi-Task-Elastic-Net
- 1.1.7. Least Angle Regression
- 1.1.8. LARS Lasso
- 1.1.9. Orthogonal Matching Pursuit (OMP)
- 1.1.10. Bayesianische Regression
- 1.1.11. Logistische Regression
- 1.1.12. Generalisierte Lineare Modelle
- 1.1.13. Stochastischer Gradientenabstieg - SGD
- 1.1.14. Robustheitsregression: Ausreißer und Modellierungsfehler
- 1.1.15. Quantilregression
- 1.1.16. Polynomielle Regression: Erweiterung linearer Modelle mit Basisfunktionen
- 1.2. Lineare und quadratische Diskriminanzanalyse
- 1.3. Kernel Ridge Regression
- 1.4. Support Vector Machines
- 1.5. Stochastischer Gradientenabstieg
- 1.6. Nearest Neighbors
- 1.7. Gaußsche Prozesse
- 1.8. Kreuzzerlegung
- 1.9. Naive Bayes
- 1.10. Entscheidungsbäume
- 1.10.1. Klassifikation
- 1.10.2. Regression
- 1.10.3. Multi-Output-Probleme
- 1.10.4. Komplexität
- 1.10.5. Tipps zur praktischen Anwendung
- 1.10.6. Baumalgorithmen: ID3, C4.5, C5.0 und CART
- 1.10.7. Mathematische Formulierung
- 1.10.8. Unterstützung für fehlende Werte
- 1.10.9. Minimaler Kosten-Komplexitäts-Pruning
- 1.11. Ensembles: Gradient Boosting, Random Forests, Bagging, Voting, Stacking
- 1.12. Multiclass- und Multioutput-Algorithmen
- 1.13. Merkmalsauswahl
- 1.14. Semi-überwachtes Lernen
- 1.15. Isotone Regression
- 1.16. Wahrscheinlichkeitskalibrierung
- 1.17. Neuronale Netzwerkmodelle (überwacht)
- 1.1. Lineare Modelle
- 2. Unüberwachtes Lernen
- 2.1. Gaußsche Mischmodelle
- 2.2. Mannigfaltigkeitslernen
- 2.2.1. Einführung
- 2.2.2. Isomap
- 2.2.3. Locally Linear Embedding
- 2.2.4. Modifiziertes Locally Linear Embedding
- 2.2.5. Hessian Eigenmapping
- 2.2.6. Spektrale Einbettung
- 2.2.7. Local Tangent Space Alignment
- 2.2.8. Mehrdimensionale Skalierung (MDS)
- 2.2.9. t-distributed Stochastic Neighbor Embedding (t-SNE)
- 2.2.10. Tipps für die praktische Anwendung
- 2.3. Clustering
- 2.4. Biclustering
- 2.5. Zerlegung von Signalen in Komponenten (Matrixfaktorisierungsprobleme)
- 2.5.1. Hauptkomponentenanalyse (PCA)
- 2.5.2. Kernel Principal Component Analysis (kPCA)
- 2.5.3. Gekürzte Singulärwertzerlegung und Latent Semantic Analysis
- 2.5.4. Dictionary Learning
- 2.5.5. Faktorenanalyse
- 2.5.6. Unabhängige Komponentenanalyse (ICA)
- 2.5.7. Non-negative Matrix Factorization (NMF oder NNMF)
- 2.5.8. Latent Dirichlet Allocation (LDA)
- 2.6. Kovarianzschätzung
- 2.7. Neuheits- und Ausreißererkennung
- 2.8. Dichteschätzung
- 2.9. Neuronale Netzwerkmodelle (unüberwacht)
- 3. Modellauswahl und -bewertung
- 3.1. Kreuzvalidierung: Bewertung der Schätzerleistung
- 3.2. Optimierung der Hyperparameter eines Schätzers
- 3.3. Optimierung des Entscheidungsschwellenwerts für die Klassenvorhersage
- 3.4. Metriken und Scoring: Quantifizierung der Qualität von Vorhersagen
- 3.4.1. Welche Scoring-Funktion sollte ich verwenden?
- 3.4.2. Überblick über die Scoring-API
- 3.4.3. Der Parameter
scoring: Regeln zur Modellbewertung definieren - 3.4.4. Klassifikationsmetriken
- 3.4.5. Multilabel-Ranking-Metriken
- 3.4.6. Regressionsmetriken
- 3.4.7. Clustering-Metriken
- 3.4.8. Dummy-Schätzer
- 3.5. Validierungskurven: Plotten von Scores zur Bewertung von Modellen
- 4. Metadaten-Routing
- 5. Inspektion
- 6. Visualisierungen
- 7. Datentransformationen
- 7.1. Pipelines und zusammengesetzte Schätzer
- 7.2. Merkmalsextraktion
- 7.3. Datenvorverarbeitung
- 7.3.1. Standardisierung oder Mittelwertentfernung und Varianzskalierung
- 7.3.2. Nichtlineare Transformation
- 7.3.3. Normalisierung
- 7.3.4. Kodierung kategorialer Merkmale
- 7.3.5. Diskretisierung
- 7.3.6. Imputation fehlender Werte
- 7.3.7. Generierung polynomialer Merkmale
- 7.3.8. Benutzerdefinierte Transformer
- 7.4. Imputation fehlender Werte
- 7.5. Unüberwachte Dimensionsreduktion
- 7.6. Zufällige Projektion
- 7.7. Kernel-Approximation
- 7.8. Paarweise Metriken, Affinitäten und Kernel
- 7.9. Transformation des Vorhersageziels (
y)
- 8. Dienstprogramme zum Laden von Datensätzen
- 9. Rechnen mit scikit-learn
- 10. Modellauslagerung
- 11. Häufige Fallstricke und empfohlene Vorgehensweisen
- 12. Dispatching
- 13. Auswahl des richtigen Schätzers
- 14. Externe Ressourcen, Videos und Vorträge