Zum Hauptinhalt springen
Strg+K
scikit-learn homepage scikit-learn homepage
  • Installieren
  • Benutzerhandbuch
  • API
  • Beispiele
  • Community
    • Erste Schritte
    • Versionsverlauf
    • Glossar
    • Entwicklung
    • FAQ
    • Support
    • Verwandte Projekte
    • Roadmap
    • Steuerung
    • Über uns
  • GitHub
  • Installieren
  • Benutzerhandbuch
  • API
  • Beispiele
  • Community
  • Erste Schritte
  • Versionsverlauf
  • Glossar
  • Entwicklung
  • FAQ
  • Support
  • Verwandte Projekte
  • Roadmap
  • Steuerung
  • Über uns
  • GitHub

Abschnittsnavigation

  • Release Highlights
    • Release Highlights für scikit-learn 1.8
    • Release Highlights für scikit-learn 1.7
    • Release Highlights für scikit-learn 1.6
    • Release Highlights für scikit-learn 1.5
    • Release Highlights für scikit-learn 1.4
    • Release Highlights für scikit-learn 1.3
    • Release Highlights für scikit-learn 1.2
    • Release Highlights für scikit-learn 1.1
    • Release Highlights für scikit-learn 1.0
    • Release Highlights für scikit-learn 0.24
    • Release Highlights für scikit-learn 0.23
    • Release Highlights für scikit-learn 0.22
  • Biclustering
    • Eine Demo des Spectral Biclustering Algorithmus
    • Eine Demo des Spectral Co-Clustering Algorithmus
    • Biclustering von Dokumenten mit dem Spectral Co-Clustering Algorithmus
  • Kalibrierung
    • Vergleich der Kalibrierung von Klassifikatoren
    • Wahrscheinlichkeitskalibrierungskurven
    • Wahrscheinlichkeitskalibrierung für 3-Klassen-Klassifikation
    • Wahrscheinlichkeitskalibrierung von Klassifikatoren
  • Klassifikation
    • Klassifikator-Vergleich
    • Lineare und Quadratische Diskriminanzanalyse mit Kovarianzellipsoid
    • Normale, Ledoit-Wolf und OAS Lineare Diskriminanzanalyse zur Klassifikation
    • Klassifikationswahrscheinlichkeit plotten
    • Erkennung handschriftlicher Ziffern
  • Clustering
    • Eine Demo des K-Means Clusterings auf den handschriftlichen Zifferndaten
    • Eine Demo des strukturierten Ward Hierarchischen Clusterings auf einem Bild von Münzen
    • Eine Demo des Mean-Shift Clustering Algorithmus
    • Anpassung für Zufälligkeit in der Clusterleistungsbewertung
    • Agglomeratives Clustering mit verschiedenen Metriken
    • Ein Beispiel für K-Means++ Initialisierung
    • Vergleich der Leistung von Bisecting K-Means und Regular K-Means
    • Vergleich von BIRCH und MiniBatchKMeans
    • Vergleich verschiedener Clustering-Algorithmen auf Toy-Datensätzen
    • Vergleich verschiedener hierarchischer Linkage-Methoden auf Toy-Datensätzen
    • Vergleich der K-Means und MiniBatchKMeans Clustering-Algorithmen
    • Demo des DBSCAN Clustering Algorithmus
    • Demo des HDBSCAN Clustering Algorithmus
    • Demo des OPTICS Clustering Algorithmus
    • Demo des Affinity Propagation Clustering Algorithmus
    • Demonstration von K-Means Annahmen
    • Empirische Auswertung des Einflusses der K-Means Initialisierung
    • Merkmalsagglomeration
    • Merkmalsagglomeration vs. univariate Auswahl
    • Hierarchisches Clustering mit und ohne Struktur
    • Induktives Clustering
    • Online-Lernen eines Diktionärs von Gesichtsteilen
    • Hierarchisches Clustering Dendrogramm plotten
    • Segmentierung des Bildes von griechischen Münzen in Regionen
    • Auswahl der Anzahl von Clustern mit Silhouette-Analyse auf KMeans-Clustering
    • Spektrales Clustering für Bildsegmentierung
    • Verschiedenes Agglomeratives Clustering auf einer 2D-Einbettung von Ziffern
    • Vektorquantisierungsbeispiel
  • Kovarianzschätzung
    • Ledoit-Wolf vs OAS Schätzung
    • Robuste Kovarianzschätzung und Relevanz von Mahalanobis-Distanzen
    • Robuste vs. Empirische Kovarianzschätzung
    • Schrumpfkovarianzschätzung: LedoitWolf vs OAS und Maximum-Likelihood
    • Schwachstellen-Inverse Kovarianzschätzung
  • Kreuzzerlegung
    • Vergleich von Kreuzzerlegungsmethoden
    • Principal Component Regression vs. Partial Least Squares Regression
  • Datensatzbeispiele
    • Zufällig generierten Multilabel-Datensatz plotten
  • Entscheidungsbäume
    • Entscheidungsbaum-Regression
    • Entscheidungsfläche von Entscheidungsbäumen, trainiert auf dem Iris-Datensatz, plotten
    • Post-Pruning Entscheidungsbäume mit Kostenkomplexität
    • Verständnis der Entscheidungsbaumstruktur
  • Zerlegung
    • Blind Source Separation mit FastICA
    • Vergleich von LDA und PCA 2D-Projektion des Iris-Datensatzes
    • Zerlegung von Gesicht-Datensätzen
    • Faktorenanalyse (mit Rotation) zur Visualisierung von Mustern
    • FastICA auf 2D Punktwolken
    • Bildrauschen mit Dictionary Learning
    • Inkrementelles PCA
    • Kernel PCA
    • Modellauswahl mit Probabilistischem PCA und Faktorenanalyse (FA)
    • Principal Component Analysis (PCA) auf dem Iris-Datensatz
    • Sparse Coding mit einem voreingestellten Dictionary
  • Entwickeln von Schätzern
    • __sklearn_is_fitted__ als Entwickler-API
  • Ensemble-Methoden
    • Unterstützung für kategorische Merkmale in Gradient Boosting
    • Prädiktoren mit Stacking kombinieren
    • Vergleich von Random Forests und Histogram Gradient Boosting Modellen
    • Vergleich von Random Forests und dem Multi-Output Meta-Estimator
    • Entscheidungsbaum-Regression mit AdaBoost
    • Frühes Stoppen in Gradient Boosting
    • Merkmalswichtigkeiten mit einem Wald von Bäumen
    • Merkmals Transformationen mit Ensemble von Bäumen
    • Merkmale in Histogram Gradient Boosting Bäumen
    • Gradient Boosting Out-of-Bag Schätzungen
    • Gradient Boosting Regression
    • Gradient Boosting Regularisierung
    • Hashing-Merkmals-Transformation mit Totally Random Trees
    • IsolationForest Beispiel
    • Monotone Einschränkungen
    • Multi-Klassen AdaBoosted Entscheidungsbäume
    • OOB-Fehler für Random Forests
    • Vorhersagen von einzelnen und abstimmenden Regressionsmodellen plotten
    • Entscheidungsflächen von Ensembles von Bäumen auf dem Iris-Datensatz plotten
    • Vorhersageintervalle für Gradient Boosting Regression
    • Einzelner Estimator versus Bagging: Bias-Varianz-Zerlegung
    • Zwei-Klassen-AdaBoost
    • Visualisierung der probabilistischen Vorhersagen eines VotingClassifier
  • Beispiele basierend auf realen Datensätzen
    • Kompression Sensing: Tomographie-Rekonstruktion mit L1-Prior (Lasso)
    • Gesichtserkennungsbeispiel mit Eigenfaces und SVMs
    • Bildrauschen mit Kernel PCA
    • Verzögerte Merkmale für Zeitreihen-Prognose
    • Einfluss der Modellkomplexität
    • Out-of-Core Klassifikation von Textdokumenten
    • Ausreißererkennung auf einem realen Datensatz
    • Vorhersage-Latenz
    • Artenschutzmodellierung
    • Zeitbezogene Merkmalskonstruktion
    • Themenextraktion mit Non-negative Matrix Factorization und Latent Dirichlet Allocation
    • Visualisierung der Aktienmarktstruktur
    • Wikipedia-Haupteigenvektor
  • Merkmalsauswahl
    • Vergleich von F-Test und Mutual Information
    • Modellbasierte und sequentielle Merkmalsauswahl
    • Pipeline ANOVA SVM
    • Rekursive Merkmalseliminierung
    • Rekursive Merkmalseliminierung mit Kreuzvalidierung
    • Univariate Merkmalsauswahl
  • Gefrorene Schätzer
    • Beispiele für die Verwendung von FrozenEstimator
  • Gaußsche Mischmodelle
    • Analyse des Konzentrations-Prior-Typs der Variation im Bayes'schen Gaußschen Gemisch
    • Dichteschätzung für ein Gaußsches Gemisch
    • GMM Initialisierungsmethoden
    • GMM Kovarianzen
    • Gaußsche Mischmodell-Ellipsoide
    • Gaußsche Mischmodell-Auswahl
    • Gaußsche Mischmodell-Sinuskurve
  • Gauß-Prozess für maschinelles Lernen
    • Fähigkeit der Gauß-Prozess-Regression (GPR) zur Schätzung des Datenrauschpegels
    • Vergleich von Kernel Ridge und Gauß-Prozess-Regression
    • Prognose des CO2-Spiegels im Mona Loa Datensatz mittels Gauß-Prozess-Regression (GPR)
    • Gauß-Prozesse Regression: grundlegendes Einführungsexempel
    • Gauß-Prozess-Klassifikation (GPC) auf dem Iris-Datensatz
    • Gauß-Prozesse auf diskreten Datenstrukturen
    • Illustration der Gauß-Prozess-Klassifikation (GPC) auf dem XOR-Datensatz
    • Illustration von Prior und Posterior Gauß-Prozess für verschiedene Kerne
    • Iso-Wahrscheinlichkeitslinien für Gauß-Prozesse Klassifikation (GPC)
    • Probabilistische Vorhersagen mit Gauß-Prozess-Klassifikation (GPC)
  • Generalisierte Lineare Modelle
    • Vergleich von linearen Bayes'schen Regressoren
    • Kurvenanpassung mit Bayes'scher Ridge-Regression
    • Entscheidungsgrenzen von multinomialer und One-vs-Rest Logistischer Regression
    • Frühes Stoppen von Stochastic Gradient Descent
    • Anpassen eines Elastic Net mit einer voreingestellten Gram-Matrix und gewichteten Stichproben
    • HuberRegressor vs Ridge auf Datensatz mit starken Ausreißern
    • Gemeinsame Merkmalsauswahl mit Multi-Task Lasso
    • L1-Strafe und Sparsity in Logistischer Regression
    • L1-basierte Modelle für sparse Signale
    • Lasso-Modellauswahl über Informationskriterien
    • Lasso-Modellauswahl: AIC-BIC / Kreuzvalidierung
    • Lasso auf dichten und spärlichen Daten
    • Lasso, Lasso-LARS und Elastic Net Pfade
    • MNIST-Klassifikation mittels multinomialer Logistik + L1
    • Multiklassen-Sparse-Logistische-Regression auf 20newgroups
    • Nicht-negative kleinste Quadrate
    • One-Class SVM vs. One-Class SVM mittels Stochastic Gradient Descent
    • Gewöhnliche kleinste Quadrate und Ridge Regression
    • Orthogonal Matching Pursuit
    • Ridge-Koeffizienten als Funktion der Regularisierung plotten
    • Multi-Klassen SGD auf dem Iris-Datensatz plotten
    • Poisson-Regression und nicht-normale Verlustfunktion
    • Polynomielle und Spline-Interpolation
    • Quantilregression
    • Regularisierungspfad der L1-Logistischen Regression
    • Ridge-Koeffizienten als Funktion der L2-Regularisierung
    • Robuste lineare Schätzeranpassung
    • Robuste lineare Modellschätzung mit RANSAC
    • SGD: Maximum Margin Trennhyperplane
    • SGD: Strafen
    • SGD: Gewichtete Stichproben
    • SGD: konvexe Verlustfunktionen
    • Theil-Sen Regression
    • Tweedie-Regression auf Versicherungsansprüchen
  • Inspektion
    • Häufige Fallstricke bei der Interpretation von Koeffizienten linearer Modelle
    • Versagen des maschinellen Lernens bei der Inferenz kausaler Effekte
    • Partial Dependence und Individual Conditional Expectation Plots
    • Permutations-Wichtigkeit vs. Random Forest Merkmals-Wichtigkeit (MDI)
    • Permutations-Wichtigkeit bei multikollinearen oder korrelierten Merkmalen
  • Kernel-Approximation
    • Skalierbares Lernen mit Polynom-Kernel-Approximation
  • Manifold Learning
    • Vergleich von Manifold Learning Methoden
    • Manifold Learning Methoden auf einer abgetrennten Sphäre
    • Manifold Learning auf handschriftlichen Ziffern: Locally Linear Embedding, Isomap…
    • Mehrdimensionale Skalierung
    • Swiss Roll und Swiss-Hole Reduktion
    • t-SNE: Der Effekt verschiedener Perplexitätswerte auf die Form
  • Verschiedenes
    • Fortgeschrittene Plotting mit Partial Dependence
    • Vergleich von Anomalieerkennungsalgorithmen zur Ausreißererkennung auf Toy-Datensätzen
    • Vergleich von Kernel Ridge Regression und SVR
    • Pipelines anzeigen
    • Schätzer und komplexe Pipelines anzeigen
    • Bewertung von Ausreißererkennungs-Schätzern
    • Explizite Feature-Map-Approximation für RBF-Kerne
    • Gesichtsvervollständigung mit Multi-Output-Schätzern
    • Einführung der set_output API
    • Isotone Regression
    • Metadaten-Routing
    • Multilabel-Klassifikation
    • ROC-Kurve mit Visualisierungs-API
    • Die Johnson-Lindenstrauss-Schranke für Einbettung mit zufälligen Projektionen
    • Visualisierungen mit Display-Objekten
  • Fehlende Wert-Imputation
    • Fehlende Werte imputieren, bevor ein Schätzer erstellt wird
    • Fehlende Werte mit Varianten von IterativeImputer imputieren
  • Modellauswahl
    • Modellkomplexität und kreuzvalidierter Score ausbalancieren
    • Klassen-Likelihood-Verhältnisse zur Messung der Klassifikationsleistung
    • Vergleich von zufälliger Suche und Gitter-Suche zur Hyperparameter-Schätzung
    • Vergleich zwischen Gitter-Suche und sukzessiver Halbierung
    • Benutzerdefinierte Refit-Strategie einer Gitter-Suche mit Kreuzvalidierung
    • Demonstration von Multi-Metrik-Bewertung auf cross_val_score und GridSearchCV
    • Detection Error Tradeoff (DET) Kurve
    • Auswirkung der Modellregularisierung auf Trainings- und Testfehler
    • Leistung eines Klassifikators mit Konfusionsmatrix bewerten
    • Multiklassen-Receiver Operating Characteristic (ROC)
    • Verschachtelte vs. nicht verschachtelte Kreuzvalidierung
    • Kreuzvalidierte Vorhersagen plotten
    • Lernkurven plotten und die Skalierbarkeit von Modellen prüfen
    • Post-hoc-Anpassung des Cut-off-Punkts der Entscheidungskfunktion
    • Post-Hoc-Anpassung des Entscheidungsschwellenwerts für kostenempfindliches Lernen
    • Präzisions-Rückruf
    • Receiver Operating Characteristic (ROC) mit Kreuzvalidierung
    • Beispiel-Pipeline für Textmerkmal-Extraktion und -Bewertung
    • Statistischer Vergleich von Modellen mittels Gitter-Suche
    • Sukzessive Halbierungs-Iterationen
    • Testen der Signifikanz eines Klassifikations-Scores mit Permutationen
    • Unter-Anpassung vs. Über-Anpassung
    • Visualisierung des Kreuzvalidierungsverhaltens in scikit-learn
  • Multiklassen-Methoden
    • Übersicht über Multiklassen-Training Meta-Estimator
  • Multi-Output-Methoden
    • Multilabel-Klassifikation mit einem Klassifikator-Ketten
  • Nächste Nachbarn
    • Annähernde nächste Nachbarn in TSNE
    • Caching nächster Nachbarn
    • Vergleich von Nächsten Nachbarn mit und ohne Neighborhood Components Analysis
    • Dimensionsreduktion mit Neighborhood Components Analysis
    • Kernel-Dichteschätzung von Artenverteilungen
    • Kernel-Dichteschätzung
    • Nearest Centroid Klassifikation
    • Nearest Neighbors Klassifikation
    • Nearest Neighbors Regression
    • Neighborhood Components Analysis Illustration
    • Neuartigkeitserkennung mit Local Outlier Factor (LOF)
    • Ausreißererkennung mit Local Outlier Factor (LOF)
    • Einfache 1D Kernel-Dichteschätzung
  • Neuronale Netze
    • Vergleich von stochastischen Lernstrategien für MLPClassifier
    • Restricted Boltzmann Machine Merkmale für Ziffernklassifikation
    • Variierende Regularisierung im Multi-Layer Perceptron
    • Visualisierung von MLP-Gewichten auf MNIST
  • Pipelines und zusammengesetzte Schätzer
    • Column Transformer mit heterogenen Datenquellen
    • Column Transformer mit gemischten Typen
    • Verkettung mehrerer Merkmalsextraktionsmethoden
    • Auswirkung der Transformation der Ziele in einem Regressionsmodell
    • Pipelining: Verkettung einer PCA und einer logistischen Regression
    • Dimensionsreduktion auswählen mit Pipeline und GridSearchCV
  • Vorverarbeitung
    • Vergleich der Auswirkungen verschiedener Skalierer auf Daten mit Ausreißern
    • Vergleich von Target Encoder mit anderen Encodern
    • Demonstration der verschiedenen Strategien von KBinsDiscretizer
    • Merkmalsdiskretisierung
    • Bedeutung der Merkmalskalierung
    • Daten auf eine Normalverteilung abbilden
    • Target Encoders interne Kreuzanpassung
    • Verwendung von KBinsDiscretizer zur Diskretisierung kontinuierlicher Merkmale
  • Semi-Supervised Klassifikation
    • Entscheidungsgrenze semi-überwachter Klassifikatoren vs. SVM auf dem Iris-Datensatz
    • Auswirkung der Änderung des Schwellenwerts für Self-Training
    • Label Propagation Kreise: Lernen einer komplexen Struktur
    • Label Propagation Ziffern: Aktives Lernen
    • Label Propagation Ziffern: Leistung demonstrieren
    • Semi-überwachte Klassifikation auf einem Textdatensatz
  • Support Vector Machines
    • One-Class SVM mit nicht-linearem Kernel (RBF)
    • Klassifikationsgrenzen mit verschiedenen SVM-Kernen plotten
    • Verschiedene SVM-Klassifikatoren im Iris-Datensatz plotten
    • Support Vektoren in LinearSVC plotten
    • RBF SVM Parameter
    • SVM-Randbeispiel
    • SVM-Gleichstandsbeispiel
    • SVM mit benutzerdefiniertem Kernel
    • SVM-Anova: SVM mit universitärer Merkmalsauswahl
    • SVM: Maximum Margin Trennhyperplane
    • SVM: Trennhyperplane für unausgeglichene Klassen
    • SVM: Gewichtete Stichproben
    • Skalierung des Regularisierungsparameters für SVCs
    • Support Vector Regression (SVR) mit linearen und nicht-linearen Kernen
  • Arbeiten mit Textdokumenten
    • Klassifikation von Textdokumenten mit spärlichen Merkmalen
    • Clustering von Textdokumenten mit K-Means
    • FeatureHasher und DictVectorizer Vergleich
  • Beispiele
  • Fehlende Wert-Imputation

Fehlende Werte imputieren#

Beispiele zum Modul sklearn.impute.

Fehlende Werte imputieren, bevor ein Schätzer erstellt wird

Fehlende Werte imputieren, bevor ein Schätzer erstellt wird

Fehlende Werte mit Varianten von IterativeImputer imputieren

Fehlende Werte mit Varianten von IterativeImputer imputieren

vorherige

Visualisierungen mit Display Objects

nächste

Fehlende Werte imputieren, bevor ein Schätzer erstellt wird

© Copyright 2007 - 2025, scikit-learn Entwickler (BSD-Lizenz).