Zum Hauptinhalt springen
Strg+K
scikit-learn homepage scikit-learn homepage
  • Installieren
  • Benutzerhandbuch
  • API
  • Beispiele
  • Community
    • Erste Schritte
    • Versionsverlauf
    • Glossar
    • Entwicklung
    • FAQ
    • Support
    • Verwandte Projekte
    • Roadmap
    • Steuerung
    • Über uns
  • GitHub
  • Installieren
  • Benutzerhandbuch
  • API
  • Beispiele
  • Community
  • Erste Schritte
  • Versionsverlauf
  • Glossar
  • Entwicklung
  • FAQ
  • Support
  • Verwandte Projekte
  • Roadmap
  • Steuerung
  • Über uns
  • GitHub

Abschnittsnavigation

  • Release Highlights
    • Release Highlights für scikit-learn 1.8
    • Release Highlights für scikit-learn 1.7
    • Release Highlights für scikit-learn 1.6
    • Release Highlights für scikit-learn 1.5
    • Release Highlights für scikit-learn 1.4
    • Release Highlights für scikit-learn 1.3
    • Release Highlights für scikit-learn 1.2
    • Release Highlights für scikit-learn 1.1
    • Release Highlights für scikit-learn 1.0
    • Release Highlights für scikit-learn 0.24
    • Release Highlights für scikit-learn 0.23
    • Release Highlights für scikit-learn 0.22
  • Biclustering
    • Eine Demo des Spectral Biclustering Algorithmus
    • Eine Demo des Spectral Co-Clustering Algorithmus
    • Biclustering von Dokumenten mit dem Spectral Co-Clustering Algorithmus
  • Kalibrierung
    • Vergleich der Kalibrierung von Klassifikatoren
    • Wahrscheinlichkeitskalibrierungskurven
    • Wahrscheinlichkeitskalibrierung für 3-Klassen-Klassifikation
    • Wahrscheinlichkeitskalibrierung von Klassifikatoren
  • Klassifikation
    • Klassifikator-Vergleich
    • Lineare und Quadratische Diskriminanzanalyse mit Kovarianzellipsoid
    • Normale, Ledoit-Wolf und OAS Lineare Diskriminanzanalyse zur Klassifikation
    • Klassifikationswahrscheinlichkeit plotten
    • Erkennung handschriftlicher Ziffern
  • Clustering
    • Eine Demo des K-Means Clusterings auf den handschriftlichen Zifferndaten
    • Eine Demo des strukturierten Ward Hierarchischen Clusterings auf einem Bild von Münzen
    • Eine Demo des Mean-Shift Clustering Algorithmus
    • Anpassung für Zufälligkeit in der Clusterleistungsbewertung
    • Agglomeratives Clustering mit verschiedenen Metriken
    • Ein Beispiel für K-Means++ Initialisierung
    • Vergleich der Leistung von Bisecting K-Means und Regular K-Means
    • Vergleich von BIRCH und MiniBatchKMeans
    • Vergleich verschiedener Clustering-Algorithmen auf Toy-Datensätzen
    • Vergleich verschiedener hierarchischer Linkage-Methoden auf Toy-Datensätzen
    • Vergleich der K-Means und MiniBatchKMeans Clustering-Algorithmen
    • Demo des DBSCAN Clustering Algorithmus
    • Demo des HDBSCAN Clustering Algorithmus
    • Demo des OPTICS Clustering Algorithmus
    • Demo des Affinity Propagation Clustering Algorithmus
    • Demonstration von K-Means Annahmen
    • Empirische Auswertung des Einflusses der K-Means Initialisierung
    • Merkmalsagglomeration
    • Merkmalsagglomeration vs. univariate Auswahl
    • Hierarchisches Clustering mit und ohne Struktur
    • Induktives Clustering
    • Online-Lernen eines Diktionärs von Gesichtsteilen
    • Hierarchisches Clustering Dendrogramm plotten
    • Segmentierung des Bildes von griechischen Münzen in Regionen
    • Auswahl der Anzahl von Clustern mit Silhouette-Analyse auf KMeans-Clustering
    • Spektrales Clustering für Bildsegmentierung
    • Verschiedenes Agglomeratives Clustering auf einer 2D-Einbettung von Ziffern
    • Vektorquantisierungsbeispiel
  • Kovarianzschätzung
    • Ledoit-Wolf vs OAS Schätzung
    • Robuste Kovarianzschätzung und Relevanz von Mahalanobis-Distanzen
    • Robuste vs. Empirische Kovarianzschätzung
    • Schrumpfkovarianzschätzung: LedoitWolf vs OAS und Maximum-Likelihood
    • Schwachstellen-Inverse Kovarianzschätzung
  • Kreuzzerlegung
    • Vergleich von Kreuzzerlegungsmethoden
    • Principal Component Regression vs. Partial Least Squares Regression
  • Datensatzbeispiele
    • Zufällig generierten Multilabel-Datensatz plotten
  • Entscheidungsbäume
    • Entscheidungsbaum-Regression
    • Entscheidungsfläche von Entscheidungsbäumen, trainiert auf dem Iris-Datensatz, plotten
    • Post-Pruning Entscheidungsbäume mit Kostenkomplexität
    • Verständnis der Entscheidungsbaumstruktur
  • Zerlegung
    • Blind Source Separation mit FastICA
    • Vergleich von LDA und PCA 2D-Projektion des Iris-Datensatzes
    • Zerlegung von Gesicht-Datensätzen
    • Faktorenanalyse (mit Rotation) zur Visualisierung von Mustern
    • FastICA auf 2D Punktwolken
    • Bildrauschen mit Dictionary Learning
    • Inkrementelles PCA
    • Kernel PCA
    • Modellauswahl mit Probabilistischem PCA und Faktorenanalyse (FA)
    • Principal Component Analysis (PCA) auf dem Iris-Datensatz
    • Sparse Coding mit einem voreingestellten Dictionary
  • Entwickeln von Schätzern
    • __sklearn_is_fitted__ als Entwickler-API
  • Ensemble-Methoden
    • Unterstützung für kategorische Merkmale in Gradient Boosting
    • Prädiktoren mit Stacking kombinieren
    • Vergleich von Random Forests und Histogram Gradient Boosting Modellen
    • Vergleich von Random Forests und dem Multi-Output Meta-Estimator
    • Entscheidungsbaum-Regression mit AdaBoost
    • Frühes Stoppen in Gradient Boosting
    • Merkmalswichtigkeiten mit einem Wald von Bäumen
    • Merkmals Transformationen mit Ensemble von Bäumen
    • Merkmale in Histogram Gradient Boosting Bäumen
    • Gradient Boosting Out-of-Bag Schätzungen
    • Gradient Boosting Regression
    • Gradient Boosting Regularisierung
    • Hashing-Merkmals-Transformation mit Totally Random Trees
    • IsolationForest Beispiel
    • Monotone Einschränkungen
    • Multi-Klassen AdaBoosted Entscheidungsbäume
    • OOB-Fehler für Random Forests
    • Vorhersagen von einzelnen und abstimmenden Regressionsmodellen plotten
    • Entscheidungsflächen von Ensembles von Bäumen auf dem Iris-Datensatz plotten
    • Vorhersageintervalle für Gradient Boosting Regression
    • Einzelner Estimator versus Bagging: Bias-Varianz-Zerlegung
    • Zwei-Klassen-AdaBoost
    • Visualisierung der probabilistischen Vorhersagen eines VotingClassifier
  • Beispiele basierend auf realen Datensätzen
    • Kompression Sensing: Tomographie-Rekonstruktion mit L1-Prior (Lasso)
    • Gesichtserkennungsbeispiel mit Eigenfaces und SVMs
    • Bildrauschen mit Kernel PCA
    • Verzögerte Merkmale für Zeitreihen-Prognose
    • Einfluss der Modellkomplexität
    • Out-of-Core Klassifikation von Textdokumenten
    • Ausreißererkennung auf einem realen Datensatz
    • Vorhersage-Latenz
    • Artenschutzmodellierung
    • Zeitbezogene Merkmalskonstruktion
    • Themenextraktion mit Non-negative Matrix Factorization und Latent Dirichlet Allocation
    • Visualisierung der Aktienmarktstruktur
    • Wikipedia-Haupteigenvektor
  • Merkmalsauswahl
    • Vergleich von F-Test und Mutual Information
    • Modellbasierte und sequentielle Merkmalsauswahl
    • Pipeline ANOVA SVM
    • Rekursive Merkmalseliminierung
    • Rekursive Merkmalseliminierung mit Kreuzvalidierung
    • Univariate Merkmalsauswahl
  • Gefrorene Schätzer
    • Beispiele für die Verwendung von FrozenEstimator
  • Gaußsche Mischmodelle
    • Analyse des Konzentrations-Prior-Typs der Variation im Bayes'schen Gaußschen Gemisch
    • Dichteschätzung für ein Gaußsches Gemisch
    • GMM Initialisierungsmethoden
    • GMM Kovarianzen
    • Gaußsche Mischmodell-Ellipsoide
    • Gaußsche Mischmodell-Auswahl
    • Gaußsche Mischmodell-Sinuskurve
  • Gauß-Prozess für maschinelles Lernen
    • Fähigkeit der Gauß-Prozess-Regression (GPR) zur Schätzung des Datenrauschpegels
    • Vergleich von Kernel Ridge und Gauß-Prozess-Regression
    • Prognose des CO2-Spiegels im Mona Loa Datensatz mittels Gauß-Prozess-Regression (GPR)
    • Gauß-Prozesse Regression: grundlegendes Einführungsexempel
    • Gauß-Prozess-Klassifikation (GPC) auf dem Iris-Datensatz
    • Gauß-Prozesse auf diskreten Datenstrukturen
    • Illustration der Gauß-Prozess-Klassifikation (GPC) auf dem XOR-Datensatz
    • Illustration von Prior und Posterior Gauß-Prozess für verschiedene Kerne
    • Iso-Wahrscheinlichkeitslinien für Gauß-Prozesse Klassifikation (GPC)
    • Probabilistische Vorhersagen mit Gauß-Prozess-Klassifikation (GPC)
  • Generalisierte Lineare Modelle
    • Vergleich von linearen Bayes'schen Regressoren
    • Kurvenanpassung mit Bayes'scher Ridge-Regression
    • Entscheidungsgrenzen von multinomialer und One-vs-Rest Logistischer Regression
    • Frühes Stoppen von Stochastic Gradient Descent
    • Anpassen eines Elastic Net mit einer voreingestellten Gram-Matrix und gewichteten Stichproben
    • HuberRegressor vs Ridge auf Datensatz mit starken Ausreißern
    • Gemeinsame Merkmalsauswahl mit Multi-Task Lasso
    • L1-Strafe und Sparsity in Logistischer Regression
    • L1-basierte Modelle für sparse Signale
    • Lasso-Modellauswahl über Informationskriterien
    • Lasso-Modellauswahl: AIC-BIC / Kreuzvalidierung
    • Lasso auf dichten und spärlichen Daten
    • Lasso, Lasso-LARS und Elastic Net Pfade
    • MNIST-Klassifikation mittels multinomialer Logistik + L1
    • Multiklassen-Sparse-Logistische-Regression auf 20newgroups
    • Nicht-negative kleinste Quadrate
    • One-Class SVM vs. One-Class SVM mittels Stochastic Gradient Descent
    • Gewöhnliche kleinste Quadrate und Ridge Regression
    • Orthogonal Matching Pursuit
    • Ridge-Koeffizienten als Funktion der Regularisierung plotten
    • Multi-Klassen SGD auf dem Iris-Datensatz plotten
    • Poisson-Regression und nicht-normale Verlustfunktion
    • Polynomielle und Spline-Interpolation
    • Quantilregression
    • Regularisierungspfad der L1-Logistischen Regression
    • Ridge-Koeffizienten als Funktion der L2-Regularisierung
    • Robuste lineare Schätzeranpassung
    • Robuste lineare Modellschätzung mit RANSAC
    • SGD: Maximum Margin Trennhyperplane
    • SGD: Strafen
    • SGD: Gewichtete Stichproben
    • SGD: konvexe Verlustfunktionen
    • Theil-Sen Regression
    • Tweedie-Regression auf Versicherungsansprüchen
  • Inspektion
    • Häufige Fallstricke bei der Interpretation von Koeffizienten linearer Modelle
    • Versagen des maschinellen Lernens bei der Inferenz kausaler Effekte
    • Partial Dependence und Individual Conditional Expectation Plots
    • Permutations-Wichtigkeit vs. Random Forest Merkmals-Wichtigkeit (MDI)
    • Permutations-Wichtigkeit bei multikollinearen oder korrelierten Merkmalen
  • Kernel-Approximation
    • Skalierbares Lernen mit Polynom-Kernel-Approximation
  • Manifold Learning
    • Vergleich von Manifold Learning Methoden
    • Manifold Learning Methoden auf einer abgetrennten Sphäre
    • Manifold Learning auf handschriftlichen Ziffern: Locally Linear Embedding, Isomap…
    • Mehrdimensionale Skalierung
    • Swiss Roll und Swiss-Hole Reduktion
    • t-SNE: Der Effekt verschiedener Perplexitätswerte auf die Form
  • Verschiedenes
    • Fortgeschrittene Plotting mit Partial Dependence
    • Vergleich von Anomalieerkennungsalgorithmen zur Ausreißererkennung auf Toy-Datensätzen
    • Vergleich von Kernel Ridge Regression und SVR
    • Pipelines anzeigen
    • Schätzer und komplexe Pipelines anzeigen
    • Bewertung von Ausreißererkennungs-Schätzern
    • Explizite Feature-Map-Approximation für RBF-Kerne
    • Gesichtsvervollständigung mit Multi-Output-Schätzern
    • Einführung der set_output API
    • Isotone Regression
    • Metadaten-Routing
    • Multilabel-Klassifikation
    • ROC-Kurve mit Visualisierungs-API
    • Die Johnson-Lindenstrauss-Schranke für Einbettung mit zufälligen Projektionen
    • Visualisierungen mit Display-Objekten
  • Fehlende Wert-Imputation
    • Fehlende Werte imputieren, bevor ein Schätzer erstellt wird
    • Fehlende Werte mit Varianten von IterativeImputer imputieren
  • Modellauswahl
    • Modellkomplexität und kreuzvalidierter Score ausbalancieren
    • Klassen-Likelihood-Verhältnisse zur Messung der Klassifikationsleistung
    • Vergleich von zufälliger Suche und Gitter-Suche zur Hyperparameter-Schätzung
    • Vergleich zwischen Gitter-Suche und sukzessiver Halbierung
    • Benutzerdefinierte Refit-Strategie einer Gitter-Suche mit Kreuzvalidierung
    • Demonstration von Multi-Metrik-Bewertung auf cross_val_score und GridSearchCV
    • Detection Error Tradeoff (DET) Kurve
    • Auswirkung der Modellregularisierung auf Trainings- und Testfehler
    • Leistung eines Klassifikators mit Konfusionsmatrix bewerten
    • Multiklassen-Receiver Operating Characteristic (ROC)
    • Verschachtelte vs. nicht verschachtelte Kreuzvalidierung
    • Kreuzvalidierte Vorhersagen plotten
    • Lernkurven plotten und die Skalierbarkeit von Modellen prüfen
    • Post-hoc-Anpassung des Cut-off-Punkts der Entscheidungskfunktion
    • Post-Hoc-Anpassung des Entscheidungsschwellenwerts für kostenempfindliches Lernen
    • Präzisions-Rückruf
    • Receiver Operating Characteristic (ROC) mit Kreuzvalidierung
    • Beispiel-Pipeline für Textmerkmal-Extraktion und -Bewertung
    • Statistischer Vergleich von Modellen mittels Gitter-Suche
    • Sukzessive Halbierungs-Iterationen
    • Testen der Signifikanz eines Klassifikations-Scores mit Permutationen
    • Unter-Anpassung vs. Über-Anpassung
    • Visualisierung des Kreuzvalidierungsverhaltens in scikit-learn
  • Multiklassen-Methoden
    • Übersicht über Multiklassen-Training Meta-Estimator
  • Multi-Output-Methoden
    • Multilabel-Klassifikation mit einem Klassifikator-Ketten
  • Nächste Nachbarn
    • Annähernde nächste Nachbarn in TSNE
    • Caching nächster Nachbarn
    • Vergleich von Nächsten Nachbarn mit und ohne Neighborhood Components Analysis
    • Dimensionsreduktion mit Neighborhood Components Analysis
    • Kernel-Dichteschätzung von Artenverteilungen
    • Kernel-Dichteschätzung
    • Nearest Centroid Klassifikation
    • Nearest Neighbors Klassifikation
    • Nearest Neighbors Regression
    • Neighborhood Components Analysis Illustration
    • Neuartigkeitserkennung mit Local Outlier Factor (LOF)
    • Ausreißererkennung mit Local Outlier Factor (LOF)
    • Einfache 1D Kernel-Dichteschätzung
  • Neuronale Netze
    • Vergleich von stochastischen Lernstrategien für MLPClassifier
    • Restricted Boltzmann Machine Merkmale für Ziffernklassifikation
    • Variierende Regularisierung im Multi-Layer Perceptron
    • Visualisierung von MLP-Gewichten auf MNIST
  • Pipelines und zusammengesetzte Schätzer
    • Column Transformer mit heterogenen Datenquellen
    • Column Transformer mit gemischten Typen
    • Verkettung mehrerer Merkmalsextraktionsmethoden
    • Auswirkung der Transformation der Ziele in einem Regressionsmodell
    • Pipelining: Verkettung einer PCA und einer logistischen Regression
    • Dimensionsreduktion auswählen mit Pipeline und GridSearchCV
  • Vorverarbeitung
    • Vergleich der Auswirkungen verschiedener Skalierer auf Daten mit Ausreißern
    • Vergleich von Target Encoder mit anderen Encodern
    • Demonstration der verschiedenen Strategien von KBinsDiscretizer
    • Merkmalsdiskretisierung
    • Bedeutung der Merkmalskalierung
    • Daten auf eine Normalverteilung abbilden
    • Target Encoders interne Kreuzanpassung
    • Verwendung von KBinsDiscretizer zur Diskretisierung kontinuierlicher Merkmale
  • Semi-Supervised Klassifikation
    • Entscheidungsgrenze semi-überwachter Klassifikatoren vs. SVM auf dem Iris-Datensatz
    • Auswirkung der Änderung des Schwellenwerts für Self-Training
    • Label Propagation Kreise: Lernen einer komplexen Struktur
    • Label Propagation Ziffern: Aktives Lernen
    • Label Propagation Ziffern: Leistung demonstrieren
    • Semi-überwachte Klassifikation auf einem Textdatensatz
  • Support Vector Machines
    • One-Class SVM mit nicht-linearem Kernel (RBF)
    • Klassifikationsgrenzen mit verschiedenen SVM-Kernen plotten
    • Verschiedene SVM-Klassifikatoren im Iris-Datensatz plotten
    • Support Vektoren in LinearSVC plotten
    • RBF SVM Parameter
    • SVM-Randbeispiel
    • SVM-Gleichstandsbeispiel
    • SVM mit benutzerdefiniertem Kernel
    • SVM-Anova: SVM mit universitärer Merkmalsauswahl
    • SVM: Maximum Margin Trennhyperplane
    • SVM: Trennhyperplane für unausgeglichene Klassen
    • SVM: Gewichtete Stichproben
    • Skalierung des Regularisierungsparameters für SVCs
    • Support Vector Regression (SVR) mit linearen und nicht-linearen Kernen
  • Arbeiten mit Textdokumenten
    • Klassifikation von Textdokumenten mit spärlichen Merkmalen
    • Clustering von Textdokumenten mit K-Means
    • FeatureHasher und DictVectorizer Vergleich
  • Beispiele
  • Datensatzbeispiele

Datensatzbeispiele#

Beispiele, die sich auf das Modul sklearn.datasets beziehen.

Zufällig generierten Multilabel-Datensatz plotten

Zufällig generierten Multilabel-Datensatz plotten

vorherige

Principal Component Regression vs Partial Least Squares Regression

nächste

Zufällig generierter Multilabel-Datensatz

© Copyright 2007 - 2025, scikit-learn Entwickler (BSD-Lizenz).