Version 1.8#

Legende für Changelogs

Hauptmerkmal etwas Großes, das Sie vorher nicht tun konnten.
Merkmal etwas, das Sie vorher nicht tun konnten.
Effizienz Ein bestehendes Merkmal erfordert nun möglicherweise weniger Rechenleistung oder Speicher.
Verbesserung eine sonstige kleinere Verbesserung.
Korrektur Etwas, das zuvor nicht wie dokumentiert – oder nach vernünftigen Erwartungen – funktionierte, sollte nun funktionieren.
API-Änderung Sie müssen Ihren Code ändern, um in Zukunft die gleiche Wirkung zu erzielen; oder ein Merkmal wird in Zukunft entfernt.

Version 1.8.0#

Dezember 2025

Änderungen, die viele Module betreffen#

Effizienz Verbesserte CPU- und Speichernutzung in Schätzern und Metrikfunktionen, die auf gewichteten Perzentilen basieren, und bessere Übereinstimmung mit den (ungewichteten) Implementierungen von Perzentilen in NumPy und Scipy. Von Lucy Liu #31775

Unterstützung für Array API#

Zusätzliche Schätzer und Funktionen wurden aktualisiert, um Unterstützung für alle Array API-konformen Eingaben zu bieten.

Weitere Details finden Sie in Array API-Unterstützung (experimentell).

Merkmal sklearn.preprocessing.StandardScaler unterstützt nun Array API-konforme Eingaben. Von Alexander Fabisch, Edoardo Abati, Olivier Grisel und Charles Hill. #27113
Merkmal linear_model.RidgeCV, linear_model.RidgeClassifier und linear_model.RidgeClassifierCV unterstützen nun Array API-kompatible Eingaben mit solver="svd". Von Jérôme Dockès. #27961
Merkmal metrics.pairwise.pairwise_kernels für alle Kernel außer "laplacian" und metrics.pairwise_distances für die Metriken "cosine", "euclidean" und "l2" unterstützen nun Array API-Eingaben. Von Emily Chen und Lucy Liu #29822
Merkmal sklearn.metrics.confusion_matrix unterstützt nun Array API-kompatible Eingaben. Von Stefanie Senger #30562
Merkmal sklearn.mixture.GaussianMixture mit init_params="random" oder init_params="random_from_data" und warm_start=False unterstützt nun Array API-kompatible Eingaben. Von Stefanie Senger und Loïc Estève #30777
Merkmal sklearn.metrics.roc_curve unterstützt nun Array API-kompatible Eingaben. Von Thomas Li #30878
Merkmal preprocessing.PolynomialFeatures unterstützt nun Array API-kompatible Eingaben. Von Omar Salman #31580
Merkmal calibration.CalibratedClassifierCV unterstützt nun Array API-kompatible Eingaben mit method="temperature" und wenn der zugrunde liegende estimator ebenfalls die Array API unterstützt. Von Omar Salman #32246
Merkmal sklearn.metrics.precision_recall_curve unterstützt nun Array API-kompatible Eingaben. Von Lucy Liu #32249
Merkmal sklearn.model_selection.cross_val_predict unterstützt nun Array API-kompatible Eingaben. Von Omar Salman #32270
Merkmal sklearn.metrics.brier_score_loss, sklearn.metrics.log_loss, sklearn.metrics.d2_brier_score und sklearn.metrics.d2_log_loss_score unterstützen nun Array API-kompatible Eingaben. Von Omar Salman #32422
Merkmal naive_bayes.GaussianNB unterstützt nun Array API-kompatible Eingaben. Von Omar Salman #32497
Merkmal preprocessing.LabelBinarizer und preprocessing.label_binarize unterstützen nun numerische Array API-kompatible Eingaben mit sparse_output=False. Von Virgil Chan. #32582
Merkmal sklearn.metrics.det_curve unterstützt nun Array API-konforme Eingaben. Von Josef Affourtit. #32586
Merkmal sklearn.metrics.pairwise.manhattan_distances unterstützt nun Array API-kompatible Eingaben. Von Omar Salman. #32597
Merkmal sklearn.metrics.calinski_harabasz_score unterstützt nun Array API-konforme Eingaben. Von Josef Affourtit. #32600
Merkmal sklearn.metrics.balanced_accuracy_score unterstützt nun Array API-kompatible Eingaben. Von Omar Salman. #32604
Merkmal sklearn.metrics.pairwise.laplacian_kernel unterstützt nun Array API-kompatible Eingaben. Von Zubair Shakoor. #32613
Merkmal sklearn.metrics.cohen_kappa_score unterstützt nun Array API-kompatible Eingaben. Von Omar Salman. #32619
Merkmal sklearn.metrics.cluster.davies_bouldin_score unterstützt nun Array API-konforme Eingaben. Von Josef Affourtit. #32693
Korrektur Schätzer mit Array API-Unterstützung lehnen DataFrame-Eingaben nicht mehr ab, wenn die Array API-Unterstützung aktiviert ist. Von Tim Head #32838

Metadaten-Routing#

Weitere Details finden Sie in Metadaten-Routing Benutzerhandbuch.

Korrektur Es wurde ein Problem behoben, bei dem die Übergabe von sample_weight an eine Pipeline innerhalb von GridSearchCV einen Fehler auslöste, wenn Metadaten-Routing aktiviert war. Von Adrin Jalali. #31898

Unterstützung für free-threaded CPython 3.14#

scikit-learn unterstützt free-threaded CPython, insbesondere sind free-threaded Wheels für alle unsere unterstützten Plattformen unter Python 3.14 verfügbar.

Free-threaded (auch bekannt als nogil) CPython ist eine Version von CPython, die darauf abzielt, effiziente Multi-Threading-Anwendungsfälle durch die Entfernung des Global Interpreter Lock (GIL) zu ermöglichen.

Wenn Sie free-threaded Python ausprobieren möchten, wird die Verwendung von Python 3.14 empfohlen, da dort im Vergleich zu Python 3.13 eine Reihe von Problemen behoben wurden. Probieren Sie free-threaded gerne für Ihren Anwendungsfall aus und melden Sie alle Probleme!

Weitere Details zu free-threaded CPython finden Sie in der py-free-threading Dokumentation, insbesondere wie Sie ein free-threaded CPython installieren und Ecosystem-Kompatibilität-Tracking.

Von Loïc Estève und Olivier Grisel und vielen anderen Personen im breiteren Scientific Python- und CPython-Ökosystem, zum Beispiel Nathan Goldbaum, Ralf Gommers, Edgar Andrés Margffoy Tuay. #32079

`sklearn.base`#

Merkmal Refactoring von dir in BaseEstimator, um die Bedingungsprüfung in available_if zu erkennen. Von John Hendricks und Miguel Parece. #31928
Korrektur Behebung des Umgangs mit fehlenden Werten in Pandas bei der HTML-Darstellung aller Schätzer. Von Dea María Léon. #32341

`sklearn.calibration`#

Merkmal Hinzufügen der Temperatur-Skalierungsmethode in calibration.CalibratedClassifierCV. Von Virgil Chan und Christian Lorentzen. #31068

`sklearn.cluster`#

Effizienz cluster.kmeans_plusplus verwendet nun direkt np.cumsum ohne zusätzliche numerische Stabilitätsprüfungen und ohne Umwandlung in np.float64. Von Tiziano Zito #31991
Korrektur Der Standardwert des Parameters copy in cluster.HDBSCAN wird in Version 1.10 von False auf True geändert, um Datenmodifikationen zu vermeiden und die Konsistenz mit anderen Schätzern zu wahren. Von Sarthak Puri. #31973

`sklearn.compose`#

Korrektur compose.ColumnTransformer passt nun korrekt auf Daten, die als polars.DataFrame bereitgestellt werden, wenn ein Transformer eine Sparse-Ausgabe hat. Von Phillipp Gnan. #32188

`sklearn.covariance`#

Effizienz sklearn.covariance.GraphicalLasso, sklearn.covariance.GraphicalLassoCV und sklearn.covariance.graphical_lasso mit mode="cd" profitieren von der Leistungsverbesserung der Anpassungszeit von sklearn.linear_model.Lasso durch Gap Safe Screening Rules. Von Christian Lorentzen. #31987
Korrektur Unkontrollierbare Zufälligkeit in sklearn.covariance.GraphicalLasso, sklearn.covariance.GraphicalLassoCV und sklearn.covariance.graphical_lasso behoben. Für mode="cd" verwenden sie nun zyklischen Koordinatenabstieg. Zuvor war es zufälliger Koordinatenabstieg mit unkontrollierbarer Zufallszahlenerzeugung. Von Christian Lorentzen. #31987
Korrektur Korrektur für covariance.MinCovDet zur Anpassung der Konsistenz bei der Normalverteilung hinzugefügt. Dies reduziert die Verzerrung, die bei der Anwendung dieser Methode auf normalverteilte Daten auftritt. Von Daniel Herrera-Esposito #32117

`sklearn.decomposition`#

Effizienz sklearn.decomposition.DictionaryLearning und sklearn.decomposition.MiniBatchDictionaryLearning mit fit_algorithm="cd", sklearn.decomposition.SparseCoder mit transform_algorithm="lasso_cd", sklearn.decomposition.MiniBatchSparsePCA, sklearn.decomposition.SparsePCA, sklearn.decomposition.dict_learning und sklearn.decomposition.dict_learning_online mit method="cd", sklearn.decomposition.sparse_encode mit algorithm="lasso_cd" profitieren alle von der Leistungsverbesserung der Anpassungszeit von sklearn.linear_model.Lasso durch Gap Safe Screening Rules. Von Christian Lorentzen. #31987
Verbesserung decomposition.SparseCoder folgt nun der Transformer-API von scikit-learn. Zusätzlich validiert die Methode fit nun die Eingabe und Parameter. Von François Paugam. #32077
Korrektur Hinzufügen von Eingabeprüfungen zur Methode inverse_transform von decomposition.PCA und decomposition.IncrementalPCA. #29310 von Ian Faust. #29310

`sklearn.discriminant_analysis`#

Merkmal Hinzufügen von solver, covariance_estimator und shrinkage in discriminant_analysis.QuadraticDiscriminantAnalysis. Die resultierende Klasse ist der von discriminant_analysis.LinearDiscriminantAnalysis ähnlicher und ermöglicht mehr Flexibilität bei der Schätzung der Kovarianzmatrizen. Von Daniel Herrera-Esposito. #32108

`sklearn.ensemble`#

Korrektur ensemble.BaggingClassifier, ensemble.BaggingRegressor und ensemble.IsolationForest verwenden nun sample_weight zum Ziehen der Stichproben, anstatt sie multipliziert mit einer gleichmäßig zufällig ausgewählten Maske an die zugrunde liegenden Schätzer weiterzuleiten. Darüber hinaus wird, wenn max_samples ein Float ist, dieser nun als Bruchteil von sample_weight.sum() anstatt von X.shape[0] interpretiert. Der neue Standardwert max_samples=None zieht X.shape[0] Stichproben, unabhängig von sample_weight. Von Antoine Baker. #31414 und #32825

`sklearn.feature_selection`#

Verbesserung feature_selection.SelectFromModel erzwingt nun nicht mehr, dass max_features kleiner oder gleich der Anzahl der Eingabemerkmale ist. Von Thibault #31939

`sklearn.gaussian_process`#

Effizienz GaussianProcessRegressor.predict wird schneller, wenn return_cov und return_std beide False sind. Von Rafael Ayllón Gavilán. #31431

`sklearn.linear_model`#

Effizienz linear_model.ElasticNet und linear_model.Lasso mit precompute=False verbrauchen weniger Speicher für dichte X und sind etwas schneller. Zuvor verbrauchten sie doppelt so viel Speicher wie X, selbst für Fortran-kontinuierliches X. Von Christian Lorentzen #31665
Effizienz linear_model.ElasticNet und linear_model.Lasso vermeiden eine doppelte Eingabeüberprüfung und sind daher etwas schneller. Von Christian Lorentzen. #31848
Effizienz linear_model.ElasticNet, linear_model.ElasticNetCV, linear_model.Lasso, linear_model.LassoCV, linear_model.MultiTaskElasticNet, linear_model.MultiTaskElasticNetCV, linear_model.MultiTaskLasso und linear_model.MultiTaskLassoCV sind schneller zu trainieren, da ein BLAS Level 1 (axpy) Aufruf in der innersten Schleife vermieden wird. Dasselbe gilt für die Funktionen linear_model.enet_path und linear_model.lasso_path. Von Christian Lorentzen #31956 und #31880
Effizienz linear_model.ElasticNetCV, linear_model.LassoCV, linear_model.MultiTaskElasticNetCV und linear_model.MultiTaskLassoCV vermeiden eine zusätzliche Kopie von X mit dem Standardwert copy_X=True. Von Christian Lorentzen. #31946
Effizienz linear_model.ElasticNet, linear_model.ElasticNetCV, linear_model.Lasso, linear_model.LassoCV, linear_model.MultiTaskElasticNet, linear_model.MultiTaskElasticNetCV linear_model.MultiTaskLasso, linear_model.MultiTaskLassoCV sowie linear_model.lasso_path und linear_model.enet_path implementieren nun "gap safe" Screening-Regeln im Coordinate-Descent-Solver für dichte und spärliche X. Die Beschleunigung der Trainingszeit ist besonders ausgeprägt (bis zu 10-fach möglich), wenn Regularisierungspfade berechnet werden, wie es die *CV-Varianten der obigen Schätzer tun. Es gibt nun eine zusätzliche Prüfung des Stoppkriteriums, bevor die Hauptschleife der Abstiegschritte beginnt. Da das Stoppkriterium die Berechnung des dualen Abstands erfordert, erfolgt das Screening immer dann, wenn der duale Abstand berechnet wird. Von Christian Lorentzen #31882, #31986, #31987 und #32014
Effizienz linear_model.ElasticNet, linear_model.ElasticNetCV, linear_model.Lasso, linear_model.LassoCV, MultiTaskElasticNet, MultiTaskElasticNetCV, MultiTaskLasso, MultiTaskLassoCV, sowie linear_model.enet_path und linear_model.lasso_path verwenden nun dualer Abstand <= tol anstelle von dualer Abstand < tol als Stoppkriterium. Die resultierenden Koeffizienten können in seltenen Fällen von früheren scikit-learn-Versionen abweichen. Von Christian Lorentzen. #31906
Korrektur Korrigiert das Konvergenzkriterium für SGD-Modelle, um eine vorzeitige Konvergenz zu vermeiden, wenn tol != None ist. Dies betrifft hauptsächlich SGDOneClassSVM, wirkt sich aber auch auf SGDClassifier und SGDRegressor aus. Vor dieser Korrektur wurde nur die Verlustfunktion ohne Strafe als Konvergenzprüfung verwendet, während nun das vollständige Ziel mit Regularisierung verwendet wird. Von Guillaume Lemaitre und kostayScr #31856
Korrektur Der zulässige Parameterbereich für die anfängliche Lernrate eta0 in linear_model.SGDClassifier, linear_model.SGDOneClassSVM, linear_model.SGDRegressor und linear_model.Perceptron änderte sich von nicht-negativen Zahlen zu strikt positiven Zahlen. Infolgedessen änderte sich der Standardwert eta0 von linear_model.SGDClassifier und linear_model.SGDOneClassSVM von 0 auf 0.01. Beachten Sie jedoch, dass eta0 von der Standardlernrate „optimal“ dieser beiden Schätzer nicht verwendet wird. Von Christian Lorentzen. #31933
Korrektur linear_model.LogisticRegressionCV kann CV-Splits handhaben, bei denen einige Klassenlabels in einigen Folds fehlen. Zuvor wurde ein Fehler ausgelöst, wenn ein Klassenlabel in einem Fold fehlte. Von Christian Lorentzen. #32747
API-Änderung linear_model.PassiveAggressiveClassifier und linear_model.PassiveAggressiveRegressor sind veraltet und werden in 1.10 entfernt. Äquivalente Schätzer sind mit linear_model.SGDClassifier und SGDRegressor verfügbar, die beide die Optionen learning_rate="pa1" und "pa2" bereitstellen. Der Parameter eta0 kann verwendet werden, um den Aggressivitätsparameter der Passive-Aggressive-Algorithmen anzugeben, der im Referenzpapier als C bezeichnet wird. Von Christian Lorentzen #31932 und #29097
API-Änderung linear_model.SGDClassifier, linear_model.SGDRegressor und linear_model.SGDOneClassSVM kennzeichnen nun negative Werte für den Parameter power_t als veraltet. Die Verwendung eines negativen Werts wird in Version 1.8 eine Warnung und in Version 1.10 einen Fehler auslösen. Stattdessen muss ein Wert im Bereich [0.0, inf) verwendet werden. Von Ritvi Alagusankar #31474
API-Änderung Auslösen eines Fehlers in sklearn.linear_model.LogisticRegression, wenn der liblinear-Solver verwendet wird und die Eingabe-X-Werte größer als 1e30 sind, da der liblinear-Solver sonst einfriert. Von Shruti Nath. #31888
API-Änderung linear_model.LogisticRegressionCV hat einen neuen Parameter use_legacy_attributes erhalten, um die Typen und Formen der trainierten Attribute C_, l1_ratio_, coefs_paths_, scores_ und n_iter_ zu steuern. Der aktuelle Standardwert True behält das alte Verhalten bei. Wenn False, dann
- C_ ist ein Float.
- l1_ratio_ ist ein Float.
- coefs_paths_ ist ein ndarray der Form (n_folds, n_l1_ratios, n_cs, n_classes, n_features). Bei binären Problemen (n_classes=2) ist die vorletzte Dimension 1.
- scores_ ist ein ndarray der Form (n_folds, n_l1_ratios, n_cs).
- n_iter_ ist ein ndarray der Form (n_folds, n_l1_ratios, n_cs).
In Version 1.10 wird der Standardwert auf False geändert und use_legacy_attributes wird veraltet sein. In 1.12 wird use_legacy_attributes entfernt. Von Christian Lorentzen. #32114
API-Änderung Der Parameter penalty von linear_model.LogisticRegression und linear_model.LogisticRegressionCV ist veraltet und wird in Version 1.10 entfernt. Das äquivalente Verhalten kann wie folgt erreicht werden:
- für linear_model.LogisticRegression
  - verwenden Sie l1_ratio=0 anstelle von penalty="l2"
  - verwenden Sie l1_ratio=1 anstelle von penalty="l1"
  - verwenden Sie 0<l1_ratio<1 anstelle von penalty="elasticnet"
  - verwenden Sie C=np.inf anstelle von penalty=None
- für linear_model.LogisticRegressionCV
  - verwenden Sie l1_ratios=(0,) anstelle von penalty="l2"
  - verwenden Sie l1_ratios=(1,) anstelle von penalty="l1"
  - das Äquivalent zu penalty=None besteht darin, np.inf als Element des Parameters Cs zu haben
Für linear_model.LogisticRegression hat sich der Standardwert von l1_ratio von None auf 0.0 geändert. Das Setzen von l1_ratio=None ist veraltet und löst in Version 1.10 einen Fehler aus.

Für linear_model.LogisticRegressionCV hat sich der Standardwert von l1_ratios von None auf "warn" geändert. Er wird in Version 1.10 auf (0,) geändert. Das Setzen von l1_ratios=None ist veraltet und löst in Version 1.10 einen Fehler aus.

Von Christian Lorentzen. #32659
API-Änderung Der Parameter n_jobs von linear_model.LogisticRegression ist veraltet und wird in 1.10 entfernt. Er hat seit 1.8 keine Auswirkung mehr. Von Loïc Estève. #32742

`sklearn.manifold`#

Hauptmerkmal manifold.ClassicalMDS wurde implementiert, um klassische MDS (Eigenzerlegung der doppelt zentrierten Distanzmatrix) durchzuführen. Von Dmitry Kobak und Meekail Zain #31322
Merkmal manifold.MDS unterstützt nun beliebige Distanzmetriken (über die Parameter metric und metric_params) und Initialisierung über klassische MDS (über den Parameter init). Der Parameter dissimilarity wurde veraltet. Der alte Parameter metric wurde in metric_mds umbenannt. Von Dmitry Kobak #32229
Merkmal manifold.TSNE unterstützt nun PCA-Initialisierung mit spärlichen Eingabematrizen. Von Arturo Amor. #32433

`sklearn.metrics`#

Merkmal metrics.d2_brier_score wurde hinzugefügt, die das D² für den Brier-Score berechnet. Von Omar Salman. #28971
Merkmal Hinzufügen der Funktion metrics.confusion_matrix_at_thresholds, die die Anzahl der True Negatives, False Positives, False Negatives und True Positives pro Schwellenwert zurückgibt. Von Success Moses. #30134
Effizienz Vermeidung redundanter Eingabevalidierung in metrics.d2_log_loss_score, was zu einer 1,2-fachen Beschleunigung in groß angelegten Benchmarks führt. Von Olivier Grisel und Omar Salman #32356
Verbesserung metrics.median_absolute_error unterstützt nun Array-API-kompatible Eingaben. Von Lucy Liu. #31406
Verbesserung Verbesserte Fehlermeldung für spärliche Eingaben für die folgenden Metriken: metrics.accuracy_score, metrics.multilabel_confusion_matrix, metrics.jaccard_score, metrics.zero_one_loss, metrics.f1_score, metrics.fbeta_score, metrics.precision_recall_fscore_support, metrics.class_likelihood_ratios, metrics.precision_score, metrics.recall_score, metrics.classification_report, metrics.hamming_loss. Von Lucy Liu. #32047
Fix metrics.median_absolute_error verwendet nun _averaged_weighted_percentile anstelle von _weighted_percentile zur Berechnung des Medians, wenn sample_weight nicht None ist. Dies ist äquivalent zur Verwendung der "averaged_inverted_cdf"-Methode anstelle der "inverted_cdf"-Quantilmethode, was bei gleichen Gewichten zu Ergebnissen führt, die mit numpy.median äquivalent sind. Von Lucy Liu #30787
Fix Zusätzliche sample_weight-Prüfungen wurden zu metrics.accuracy_score, metrics.balanced_accuracy_score, metrics.brier_score_loss, metrics.class_likelihood_ratios, metrics.classification_report, metrics.cohen_kappa_score, metrics.confusion_matrix, metrics.f1_score, metrics.fbeta_score, metrics.hamming_loss, metrics.jaccard_score, metrics.matthews_corrcoef, metrics.multilabel_confusion_matrix, metrics.precision_recall_fscore_support, metrics.precision_score, metrics.recall_score und metrics.zero_one_loss hinzugefügt. sample_weight darf nur 1D sein, konsistent zu y_true und y_pred in der Länge, und alle Werte müssen endlich und nicht komplex sein. Von Lucy Liu. #31701
Fix y_pred wird zugunsten von y_score in metrics.DetCurveDisplay.from_predictions und metrics.PrecisionRecallDisplay.from_predictions als veraltet markiert. y_pred wird in Version 1.10 entfernt. Von Luis #31764
Fix Die repr-Darstellung eines Scorers, der mit einer partial score_func erstellt wurde, funktioniert nun korrekt und verwendet die repr des angegebenen partial-Objekts. Von Adrin Jalali. #31891
Fix Keywords, die im Parameter curve_kwargs von metrics.RocCurveDisplay.from_cv_results angegeben sind, überschreiben nun nur noch ihren entsprechenden Standardwert, bevor sie an die plot-Methode von Matplotlib übergeben werden. Zuvor überschrieb die Übergabe beliebiger curve_kwargs alle Standard-Keywords. Von Lucy Liu. #32313
Fix Registrierte benannte Scorer-Objekte für metrics.d2_brier_score und metrics.d2_log_loss_score wurden registriert und ihre Eingabevalidierung wurde aktualisiert, um mit verwandten Metrikfunktionen konsistent zu sein. Von Olivier Grisel und Omar Salman #32356
Fix metrics.RocCurveDisplay.from_cv_results wird nun pos_label als estimator.classes_[-1] ableiten, unter Verwendung des Estimators aus cv_results, wenn pos_label=None ist. Zuvor wurde ein Fehler ausgelöst, wenn pos_label=None war. Von Lucy Liu. #32372
Fix Alle Klassifizierungsmetriken lösen nun einen ValueError aus, wenn erforderliche Eingabearrays (y_pred, y_true, y1, y2, pred_decision oder y_proba) leer sind. Zuvor lösten accuracy_score, class_likelihood_ratios, classification_report, confusion_matrix, hamming_loss, jaccard_score, matthews_corrcoef, multilabel_confusion_matrix und precision_recall_fscore_support diesen Fehler nicht konsistent aus. Von Stefanie Senger. #32549
API Change metrics.cluster.entropy ist veraltet und wird in Version 1.10 entfernt. Von Lucy Liu #31294
API Change Der Parameter estimator_name ist zugunsten von name in metrics.PrecisionRecallDisplay veraltet und wird in Version 1.10 entfernt. Von Lucy Liu. #32310

`sklearn.model_selection`#

Enhancement model_selection.StratifiedShuffleSplit gibt nun an, welche Klassen
zu wenige Mitglieder haben, wenn ein ValueError ausgelöst wird, falls eine Klasse weniger als 2 Mitglieder hat. Dies ist nützlich, um zu identifizieren, welche Klassen den Fehler verursachen. Von Marc Bresson #32265
Fix Verhalten beim Mischen in model_selection.StratifiedGroupKFold behoben. Nun wird die Stratifizierung zwischen den Folds auch dann beibehalten, wenn shuffle=True ist. Von Pau Folch. #32540

`sklearn.multiclass`#

Fix Das Verhalten bei Gleichstand in multiclass.OneVsRestClassifier wurde korrigiert, um das Verhalten bei Gleichstand von np.argmax zu entsprechen. Von Lakshmi Krishnan. #15504

`sklearn.naive_bayes`#

Fix naive_bayes.GaussianNB behält den Datentyp der angepassten Attribute gemäß dem Datentyp von X bei. Von Omar Salman #32497

`sklearn.preprocessing`#

Enhancement preprocessing.SplineTransformer kann jetzt fehlende Werte mit dem Parameter handle_missing verarbeiten. Von Stefanie Senger. #28043
Enhancement preprocessing.PowerTransformer gibt nun eine Warnung aus, wenn NaN-Werte bei der inversen Transformation, inverse_transform, auftreten, was typischerweise durch extrem schiefe Daten verursacht wird. Von Roberto Mourao #29307
Enhancement preprocessing.MaxAbsScaler kann nun Werte außerhalb des Bereichs in zurückgehaltenen Daten mit dem Parameter clip beschneiden. Von Hleb Levitski. #31790
Fix Ein Fehler in preprocessing.OneHotEncoder wurde behoben, bei dem handle_unknown='warn' sich fälschlicherweise wie 'ignore' verhielt, anstatt wie 'infrequent_if_exist'. Von Nithurshen #32592

`sklearn.semi_supervised`#

Fix Benutzerdefinierte Kernel-Ergebnisse werden nun in semi_supervised.LabelPropagation normalisiert, so dass alle Zeilensummen gleich 1 sind, auch wenn der Kernel asymmetrische oder uneinheitliche Zeilensummen ergibt. Von Dan Schult. #31924

`sklearn.tree`#

Efficiency tree.DecisionTreeRegressor mit criterion="absolute_error" läuft nun deutlich schneller: O(n log n) Komplexität gegenüber früheren O(n^2), was die Skalierung auf Millionen von Datenpunkten, sogar hunderte von Millionen, ermöglicht. Von Arthur Lacote #32100
Fix tree.export_text wurde threadsicher gemacht. Von Olivier Grisel. #30041
Fix export_graphviz löst nun einen ValueError aus, wenn die übergebenen Feature-Namen nicht alle Strings sind. Von Guilherme Peixoto #31036
Fix tree.DecisionTreeRegressor mit criterion="absolute_error" traf manchmal suboptimale Splits (d. h. Splits, die den absoluten Fehler nicht minimierten). Dies ist nun behoben. Daher können neu trainierte Bäume leicht unterschiedliche Ergebnisse liefern. Von Arthur Lacote #32100
Fix Eine Regression in Entscheidungsbäumen wurde behoben, bei der fast konstante Merkmale nicht richtig behandelt wurden. Von Sercan Turkmen. #32259
Fix Die Aufteilungslogik während des Trainings in tree.DecisionTree* (und folglich in ensemble.RandomForest*) für Knoten mit nahezu konstanten Merkmalswerten und fehlenden Werten wurde korrigiert. Zuvor wurden Bäume abgeschnitten, wenn ein konstantes Merkmal gefunden wurde, auch wenn aufgrund fehlender Werte weitere Aufteilungen möglich gewesen wären. Von Arthur Lacote #32274
Fix Die Handhabung fehlender Werte in der Methode decision_path von Bäumen (tree.DecisionTreeClassifier, tree.DecisionTreeRegressor, tree.ExtraTreeClassifier und tree.ExtraTreeRegressor) wurde korrigiert. Von Arthur Lacote. #32280
Fix Die Aufteilungslogik von Entscheidungsbäumen mit fehlenden Werten in einigen Merkmalen wurde korrigiert. In einigen Fällen wurde die letzte nicht fehlende Stichprobe nicht korrekt partitioniert. Von Tim Head und Arthur Lacote. #32351

`sklearn.utils`#

Efficiency Die Funktion sklearn.utils.extmath.safe_sparse_dot wurde durch eine dedizierte Cython-Routine für den Fall a @ b mit sparsen 2D-Matrizen a und b und wenn eine dichte Ausgabe erforderlich ist (d. h. dense_output=True) verbessert. Dies verbessert mehrere Algorithmen in scikit-learn bei der Verarbeitung von sparsen Arrays (oder Matrizen). Von Christian Lorentzen. #31952
Enhancement Die Parameter-Tabelle in der HTML-Darstellung aller scikit-learn-Estimators und allgemeiner von Estimators, die von base.BaseEstimator erben, zeigt nun die Parameterbeschreibung als Tooltip an und enthält einen Link zur Online-Dokumentation für jeden Parameter. Von Dea María Léon. #31564
Enhancement sklearn.utils._check_sample_weight löst nun eine klarere Fehlermeldung aus, wenn die bereitgestellten Gewichte weder ein Skalar noch ein 1D-Array ähnlicher Größe wie die Eingabedaten sind. Von Kapil Parekh. #31873
Enhancement sklearn.utils.estimator_checks.parametrize_with_checks ermöglicht nun die Konfiguration des strikten Modus für xfailing-Tests. Tests, die unerwartet erfolgreich sind, führen zu einem Testfehler. Das Standardverhalten bleibt unverändert. Von Tim Head. #31951
Enhancement Die Ausrichtung der Symbole "?" und "i" wurde korrigiert und das Farbschema der HTML-Darstellung von Estimators verbessert. Von Guillaume Lemaitre. #31969
Fix Die Art und Weise, wie Farben bei der Anzeige eines Estimators als HTML-Darstellung gewählt werden, wurde geändert. Farben werden nicht mehr an das Benutzerthema angepasst, sondern basierend auf dem deklarierten Farbschema (hell oder dunkel) für VSCode und JupyterLab gewählt. Wenn das Thema kein Farbschema deklariert, wird das Schema gemäß der Standardtextfarbe der Seite gewählt; falls dies fehlschlägt, wird auf eine Media Query zurückgegriffen. Von Matt J.. #32330
API Change utils.extmath.stable_cumsum ist veraltet und wird in Version 1.10 entfernt. Verwenden Sie stattdessen np.cumulative_sum mit dem gewünschten Datentyp. Von Tiziano Zito. #32258

Code- und Dokumentationsbeitragende

Vielen Dank an alle, die seit Version 1.7 zur Wartung und Verbesserung des Projekts beigetragen haben, darunter

$id, 4hm3d, Acciaro Gennaro Daniele, achyuthan.s, Adam J. Stewart, Adriano Leão, Adrien Linares, Adrin Jalali, Aitsaid Azzedine Idir, Alexander Fabisch, Alexandre Abraham, Andrés H. Zapke, Anne Beyer, Anthony Gitter, AnthonyPrudent, antoinebaker, Arpan Mukherjee, Arthur, Arthur Lacote, Arturo Amor, ayoub.agouzoul, Ayrat, Ayush, Ayush Tanwar, Basile Jezequel, Bhavya Patwa, BRYANT MUSI BABILA, Casey Heath, Chems Ben, Christian Lorentzen, Christian Veenhuis, Christine P. Chai, cstec, C. Titus Brown, Daniel Herrera-Esposito, Dan Schult, dbXD320, Dea María Léon, Deepyaman Datta, dependabot[bot], Dhyey Findoriya, Dimitri Papadopoulos Orfanos, Dipak Dhangar, Dmitry Kobak, elenafillo, Elham Babaei, EmilyXinyi, Emily (Xinyi) Chen, Eugen-Bleck, Evgeni Burovski, fabarca, Fabrizio Damicelli, Faizan-Ul Huda, François Goupil, François Paugam, Gaetan, GaetandeCast, Gesa Loof, Gonçalo Guiomar, Gordon Grey, Gowtham Kumar K., Guilherme Peixoto, Guillaume Lemaitre, hakan çanakçı, Harshil Sanghvi, Henri Bonamy, Hleb Levitski, HulusiOzy, hvtruong, Ian Faust, Imad Saddik, Jérémie du Boisberranger, Jérôme Dockès, John Hendricks, Joris Van den Bossche, Josef Affourtit, Josh, jshn9515, Junaid, KALLA GANASEKHAR, Kapil Parekh, Kenneth Enevoldsen, Kian Eliasi, kostayScr, Krishnan Vignesh, kryggird, Kyle S, Lakshmi Krishnan, Leomax, Loic Esteve, Luca Bittarello, Lucas Colley, Lucy Liu, Luigi Giugliano, Luis, Mahdi Abid, Mahi Dhiman, Maitrey Talware, Mamduh Zabidi, Manikandan Gobalakrishnan, Marc Bresson, Marco Edward Gorelli, Marek Pokropiński, Maren Westermann, Marie Sacksick, Marija Vlajic, Matt J., Mayank Raj, Michael Burkhart, Michael Šimáček, Miguel Fernandes, Miro Hrončok, Mohamed DHIFALLAH, Muhammad Waseem, MUHAMMED SINAN D, Natalia Mokeeva, Nicholas Farr, Nicolas Bolle, Nicolas Hug, nithish-74, Nithurshen, Nitin Pratap Singh, NotAceNinja, Olivier Grisel, omahs, Omar Salman, Patrick Walsh, Peter Holzer, pfolch, ph-ll-pp, Prashant Bansal, Quan H. Nguyen, Radovenchyk, Rafael Ayllón Gavilán, Raghvender, Ranjodh Singh, Ravichandranayakar, Remi Gau, Reshama Shaikh, Richard Harris, RishiP2006, Ritvi Alagusankar, Roberto Mourao, Robert Pollak, Roshangoli, roychan, R Sagar Shresti, Sarthak Puri, saskra, scikit-learn-bot, Scott Huberty, Sercan Turkmen, Sergio P, Shashank S, Shaurya Bisht, Shivam, Shruti Nath, SIKAI ZHANG, sisird864, SiyuJin-1, S. M. Mohiuddin Khan Shiam, Somdutta Banerjee, sotagg, Sota Goto, Spencer Bradkin, Stefan, Stefanie Senger, Steffen Rehberg, Steven Hur, Success Moses, Sylvain Combettes, ThibaultDECO, Thomas J. Fan, Thomas Li, Thomas S., Tim Head, Tingwei Zhu, Tiziano Zito, TJ Norred, Username46786, Utsab Dahal, Vasanth K, Veghit, VirenPassi, Virgil Chan, Vivaan Nanavati, Xiao Yuan, xuzhang0327, Yaroslav Halchenko, Yaswanth Kumar, Zijun yi, zodchi94, Zubair Shakoor