Version 1.4#

Eine kurze Beschreibung der wichtigsten Highlights der Version finden Sie unter Release Highlights für scikit-learn 1.4.

Legende für Changelogs

Hauptmerkmal etwas Großes, das Sie vorher nicht tun konnten.
Merkmal etwas, das Sie vorher nicht tun konnten.
Effizienz Ein bestehendes Merkmal erfordert nun möglicherweise weniger Rechenleistung oder Speicher.
Verbesserung eine sonstige kleinere Verbesserung.
Korrektur Etwas, das zuvor nicht wie dokumentiert – oder nach vernünftigen Erwartungen – funktionierte, sollte nun funktionieren.
API-Änderung Sie müssen Ihren Code ändern, um in Zukunft die gleiche Wirkung zu erzielen; oder ein Merkmal wird in Zukunft entfernt.

Version 1.4.2#

April 2024

Diese Version beinhaltet lediglich die Unterstützung für numpy 2.

Version 1.4.1#

Februar 2024

Geänderte Modelle#

API-Änderung Das Attribut tree_.value in tree.DecisionTreeClassifier, tree.DecisionTreeRegressor, tree.ExtraTreeClassifier und tree.ExtraTreeRegressor wurde von einer gewichteten absoluten Anzahl von Samples zu einem gewichteten Bruchteil der Gesamtzahl von Samples geändert. #27639 von Samuel Ronsin.

Metadaten-Routing#

Fehlerbehebung Behebung eines Routing-Problems mit ColumnTransformer, wenn dieser innerhalb eines anderen Meta-Estimators verwendet wird. #28188 von Adrin Jalali.
Fehlerbehebung Es wird kein Fehler ausgelöst, wenn keine Metadaten an einen Meta-Estimator übergeben werden, der einen Unter-Estimator enthält, der keine Metadaten-Weiterleitung unterstützt. #28256 von Adrin Jalali.
Fehlerbehebung Korrektur von multioutput.MultiOutputRegressor und multioutput.MultiOutputClassifier, damit sie mit Estimators funktionieren, die keine Metadaten verarbeiten, wenn die Metadaten-Weiterleitung aktiviert ist. #28240 von Adrin Jalali.

DataFrame-Unterstützung#

Verbesserung Fehlerbehebung Pandas- und Polars-DataFrames werden direkt validiert, ohne Ducktyping-Prüfungen. #28195 von Thomas Fan.

Änderungen, die viele Module betreffen#

Effizienz Fehlerbehebung Teilweise Rücknahme von #28191 zur Vermeidung einer Performance-Regression für Estimators, die auf euklidischer paarweiser Berechnung mit spärlichen Matrizen basieren. Die betroffenen Estimators sind
#28235 von Julien Jerphanion.
Fehlerbehebung Behebt einen Fehler bei den meisten scikit-learn-Transformern, wenn set_output mit transform auf pandas oder polars gesetzt ist. Der Fehler konnte zu falschen Spaltennamen im zurückgegebenen DataFrame führen. #28262 von Guillaume Lemaitre.
Fehlerbehebung Wenn Benutzer eine Methode in StackingClassifier, StackingClassifier, StackingClassifier, SelectFromModel, RFE, SelfTrainingClassifier, OneVsOneClassifier, OutputCodeClassifier oder OneVsRestClassifier verwenden, die ihre Unter-Estimators nicht implementieren, wird der AttributeError nun im Traceback erneut ausgelöst. #28167 von Stefanie Senger.

Änderungsprotokoll#

`sklearn.calibration`#

Fehlerbehebung calibration.CalibratedClassifierCV unterstützt predict_proba mit Float32-Ausgabe des inneren Estimators. #28247 von Thomas Fan.

`sklearn.cluster`#

Fehlerbehebung cluster.AffinityPropagation vermeidet nun die Zuweisung mehrerer verschiedener Cluster für gleiche Punkte. #28121 von Pietro Peterlongo und Yao Xiao.
Fehlerbehebung Vermeidet eine Endlosschleife in cluster.KMeans, wenn die Anzahl der Cluster größer ist als die Anzahl der nicht-duplizierten Samples. #28165 von Jérémie du Boisberranger.

`sklearn.compose`#

Fehlerbehebung compose.ColumnTransformer transformiert nun in einen Polars-DataFrame, wenn verbose_feature_names_out=True ist und die intern verwendeten Transformer mehrfach dieselben Spalten verwenden. Zuvor wäre es aufgrund doppelter Spaltennamen zu einem Fehler gekommen. #28262 von Guillaume Lemaitre.

`sklearn.ensemble`#

Fehlerbehebung HistGradientBoostingClassifier und HistGradientBoostingRegressor, wenn auf pandas DataFrame mit Erweiterungsdatentypen, z. B. pd.Int64Dtype, trainiert. #28385 von Loïc Estève.
Fehlerbehebung Korrigiert die Fehlermeldung, die von ensemble.VotingClassifier ausgegeben wird, wenn das Ziel multilabel oder multiclass-multioutput in DataFrame-Format ist. #27702 von Guillaume Lemaitre.

`sklearn.impute`#

Fehlerbehebung : impute.SimpleImputer löst nun einen Fehler in .fit und .transform aus, wenn fill_value nicht in den Datentyp des Eingabewerts mit casting='same_kind' umgewandelt werden kann. #28365 von Leo Grinsztajn.

`sklearn.inspection`#

Fehlerbehebung inspection.permutation_importance behandelt nun sample_weight zusammen mit Subsampling (d.h. max_features < 1.0) korrekt. #28184 von Michael Mayer.

`sklearn.linear_model`#

Fehlerbehebung linear_model.ARDRegression behandelt nun Pandas-Eingabetypen für predict(X, return_std=True). #28377 von Eddie Bergman.

`sklearn.preprocessing`#

Fehlerbehebung macht preprocessing.FunctionTransformer nachsichtiger und überschreibt Ausgabespaltennamen mit get_feature_names_out in den folgenden Fällen: (i) die Eingabe- und Ausgabespaltennamen bleiben gleich (passiert bei Verwendung von NumPy ufunc); (ii) die Eingespaltennamen sind Zahlen; (iii) die Ausgabe wird auf Pandas- oder Polars-DataFrames gesetzt. #28241 von Guillaume Lemaitre.
Fehlerbehebung preprocessing.FunctionTransformer gibt nun auch eine Warnung aus, wenn set_output mit transform="polars" aufgerufen wird und func keinen Polars-DataFrame zurückgibt oder feature_names_out nicht angegeben ist. #28263 von Guillaume Lemaitre.
Fehlerbehebung preprocessing.TargetEncoder schlägt nun nicht mehr fehl, wenn target_type="continuous" ist und die Eingabe schreibgeschützt ist. Insbesondere funktioniert es nun mit aktivierter Pandas Copy-on-Write-Funktion. #28233 von John Hopfensperger.

`sklearn.tree`#

Fehlerbehebung tree.DecisionTreeClassifier und tree.DecisionTreeRegressor behandeln fehlende Werte korrekt. Das interne Kriterium wurde nicht initialisiert, wenn keine fehlenden Werte in den Daten vorhanden waren, was zu potenziell falschen Kriteriumswerten führte. #28295 von Guillaume Lemaitre und #28327 von Adam Li.

`sklearn.utils`#

Verbesserung Fehlerbehebung utils.metaestimators.available_if löst nun den Fehler von der check-Funktion als Ursache des AttributeError erneut aus. #28198 von Thomas Fan.
Fehlerbehebung utils._safe_indexing löst nun einen ValueError aus, wenn X eine Python-Liste ist und axis=1 ist, wie in der Dokumentation beschrieben. #28222 von Guillaume Lemaitre.

Version 1.4.0#

Januar 2024

Geänderte Modelle#

Die folgenden Schätzer und Funktionen können, wenn sie mit denselben Daten und Parametern angepasst werden, andere Modelle als in der vorherigen Version ergeben. Dies geschieht häufig aufgrund von Änderungen in der Modellierungslogik (Fehlerbehebungen oder Verbesserungen) oder in zufälligen Stichprobenverfahren.

Effizienz linear_model.LogisticRegression und linear_model.LogisticRegressionCV haben nun eine deutlich bessere Konvergenz für die Solver "lbfgs" und "newton-cg". Beide Solver können nun je nach angegebenem tol eine viel höhere Präzision für die Koeffizienten erreichen. Außerdem kann lbfgs tol besser nutzen, d.h. früher stoppen oder höhere Präzision erreichen. Hinweis: lbfgs ist der Standard-Solver, daher kann diese Änderung viele Modelle betreffen. Diese Änderung bedeutet auch, dass mit dieser neuen Version von scikit-learn die resultierenden Koeffizienten coef_ und intercept_ Ihrer Modelle für diese beiden Solver anders sein werden (wenn sie wieder auf denselben Daten trainiert werden). Die Höhe der Änderung hängt vom angegebenen tol ab, bei kleinen Werten erhalten Sie präzisere Ergebnisse. #26721 von Christian Lorentzen.
Fehlerbehebung behebt einen Speicherleck, der in PyPy bei Estimators mit Cython-Verlustfunktionen auftrat. #27670 von Guillaume Lemaitre.

Änderungen, die alle Module betreffen#

Hauptfunktion Transformer unterstützen nun Polars-Ausgabe mit set_output(transform="polars"). #27315 von Thomas Fan.
Verbesserung Alle Estimators erkennen nun die Spaltennamen aus jedem DataFrame, der das DataFrame Interchange Protocol unterstützt. DataFrames, die eine korrekte Darstellung über np.asarray(df) zurückgeben, sollten mit unseren Estimators und Funktionen funktionieren. #26464 von Thomas Fan.
Verbesserung Die HTML-Darstellung von Estimators enthält nun einen Link zur Dokumentation und ist farblich gekennzeichnet, um anzuzeigen, ob der Estimator trainiert wurde oder nicht (nicht trainierte Estimators sind orange, trainierte Estimators sind blau). #26616 von Riccardo Cappuzzo, Ines Ibnukhsein, Gael Varoquaux, Joel Nothman und Lilian Boulard.
Fehlerbehebung Behoben wurde ein Fehler in den meisten Estimators und Funktionen, bei dem die Einstellung eines Parameters auf eine große Ganzzahl zu einem TypeError führte. #26648 von Naoise Holohan.

Metadaten-Weiterleitung#

Die folgenden Modelle unterstützen nun die Metadaten-Weiterleitung in einer oder mehreren ihrer Methoden. Weitere Details finden Sie im Benutzerhandbuch für Metadaten-Weiterleitung.

Funktion LarsCV und LassoLarsCV unterstützen nun die Metadaten-Weiterleitung in ihrer fit-Methode und leiten Metadaten an den CV-Splitter weiter. #27538 von Omar Salman.
Funktion multiclass.OneVsRestClassifier, multiclass.OneVsOneClassifier und multiclass.OutputCodeClassifier unterstützen nun die Metadaten-Weiterleitung in ihren Methoden fit und partial_fit und leiten Metadaten an die fit und partial_fit des zugrundeliegenden Estimators weiter. #27308 von Stefanie Senger.
Funktion pipeline.Pipeline unterstützt nun die Metadaten-Weiterleitung gemäß dem Benutzerhandbuch für Metadaten-Weiterleitung. #26789 von Adrin Jalali.
Funktion cross_validate, cross_val_score und cross_val_predict unterstützen nun die Metadaten-Weiterleitung. Die Metadaten werden an fit, den Scorer und split des CV-Splitters des Estimators weitergeleitet. Die Metadaten werden über den neuen Parameter params akzeptiert. fit_params ist veraltet und wird in Version 1.6 entfernt. Der Parameter groups wird nicht mehr als separates Argument akzeptiert, wenn die Metadaten-Weiterleitung aktiviert ist, und sollte über den Parameter params übergeben werden. #26896 von Adrin Jalali.
Funktion GridSearchCV, RandomizedSearchCV, HalvingGridSearchCV und HalvingRandomSearchCV unterstützen nun die Metadaten-Weiterleitung in ihren Methoden fit und score und leiten Metadaten an die zugrundeliegenden Estimators fit, den CV-Splitter und den Scorer weiter. #27058 von Adrin Jalali.
Funktion ColumnTransformer unterstützt nun die Metadaten-Weiterleitung gemäß dem Benutzerhandbuch für Metadaten-Weiterleitung. #27005 von Adrin Jalali.
Funktion linear_model.LogisticRegressionCV unterstützt nun die Metadaten-Weiterleitung. linear_model.LogisticRegressionCV.fit akzeptiert nun **params, die an den zugrundeliegenden Splitter und Scorer übergeben werden. linear_model.LogisticRegressionCV.score akzeptiert nun **score_params, die an den zugrundeliegenden Scorer übergeben werden. #26525 von Omar Salman.
Funktion feature_selection.SelectFromModel unterstützt nun die Metadaten-Weiterleitung in fit und partial_fit. #27490 von Stefanie Senger.
Funktion linear_model.OrthogonalMatchingPursuitCV unterstützt nun die Metadaten-Weiterleitung. Seine Methode fit akzeptiert nun **fit_params, die an den zugrundeliegenden Splitter übergeben werden. #27500 von Stefanie Senger.
Funktion ElasticNetCV, LassoCV, MultiTaskElasticNetCV und MultiTaskLassoCV unterstützen nun die Metadaten-Weiterleitung und leiten Metadaten an den CV-Splitter weiter. #27478 von Omar Salman.
Fehlerbehebung Alle Meta-Estimators, für die noch keine Metadaten-Weiterleitung implementiert ist, lösen nun ein NotImplementedError bei get_metadata_routing und bei fit aus, wenn die Metadaten-Weiterleitung aktiviert ist und Metadaten an sie übergeben werden. #27389 von Adrin Jalali.

Unterstützung für SciPy Sparse Arrays#

Mehrere Estimators unterstützen nun SciPy Sparse Arrays. Die folgenden Funktionen und Klassen sind betroffen

Funktionen

cluster.compute_optics_graph in #27104 von Maren Westermann und in #27250 von Yao Xiao;
cluster.kmeans_plusplus in #27179 von Nurseit Kamchyev;
decomposition.non_negative_factorization in #27100 von Isaac Virshup;
feature_selection.f_regression in #27239 von Yaroslav Korobko;
feature_selection.r_regression in #27239 von Yaroslav Korobko;
manifold.trustworthiness in #27250 von Yao Xiao;
manifold.spectral_embedding in #27240 von Yao Xiao;
metrics.pairwise_distances in #27250 von Yao Xiao;
metrics.pairwise_distances_chunked in #27250 von Yao Xiao;
metrics.pairwise.pairwise_kernels in #27250 von Yao Xiao;
utils.multiclass.type_of_target in #27274 von Yao Xiao.

Klassen

cluster.HDBSCAN in #27250 von Yao Xiao;
cluster.KMeans in #27179 von Nurseit Kamchyev;
cluster.MiniBatchKMeans in #27179 von Nurseit Kamchyev;
cluster.OPTICS in #27104 von Maren Westermann und in #27250 von Yao Xiao;
cluster.SpectralClustering in #27161 von Bharat Raghunathan;
decomposition.MiniBatchNMF in #27100 von Isaac Virshup;
decomposition.NMF in #27100 von Isaac Virshup;
feature_extraction.text.TfidfTransformer in #27219 von Yao Xiao;
manifold.Isomap in #27250 von Yao Xiao;
manifold.SpectralEmbedding in #27240 von Yao Xiao;
manifold.TSNE in #27250 von Yao Xiao;
impute.SimpleImputer in #27277 von Yao Xiao;
impute.IterativeImputer in #27277 von Yao Xiao;
impute.KNNImputer in #27277 von Yao Xiao;
kernel_approximation.PolynomialCountSketch in #27301 von Lohit SundaramahaLingam;
neural_network.BernoulliRBM in #27252 von Yao Xiao;
preprocessing.PolynomialFeatures in #27166 von Mohit Joshi;
random_projection.GaussianRandomProjection in #27314 von Stefanie Senger;
random_projection.SparseRandomProjection in #27314 von Stefanie Senger.

Unterstützung für Array API#

Mehrere Schätzer und Funktionen unterstützen die Array API. Solche Änderungen ermöglichen die Verwendung der Schätzer und Funktionen mit anderen Bibliotheken wie JAX, CuPy und PyTorch. Dies ermöglicht somit einige GPU-beschleunigte Berechnungen.

Weitere Details finden Sie in Array API-Unterstützung (experimentell).

Funktionen

sklearn.metrics.accuracy_score und sklearn.metrics.zero_one_loss in #27137 von Edoardo Abati;
sklearn.model_selection.train_test_split in #26855 von Tim Head;
is_multilabel in #27601 von Yaroslav Korobko.

Klassen

decomposition.PCA für die Solver full und randomized (mit QR Power Iterationen) in #26315, #27098 und #27431 von Mateusz Sokół, Olivier Grisel und Edoardo Abati;
preprocessing.KernelCenterer in #27556 von Edoardo Abati;
preprocessing.MaxAbsScaler in #27110 von Edoardo Abati;
preprocessing.MinMaxScaler in #26243 von Tim Head;
preprocessing.Normalizer in #27558 von Edoardo Abati.

Privates Modul für Verlustfunktionen#

Fix Die Gradientenberechnung des binären logarithmischen Verlusts ist nun numerisch stabiler für Eingaben (Rohvorhersagen) mit sehr hohem Betrag. Zuvor konnte dies zu np.nan führen. Zu den Modellen, die von dieser Änderung profitieren, gehören ensemble.GradientBoostingClassifier, ensemble.HistGradientBoostingClassifier und linear_model.LogisticRegression. #28048 von Christian Lorentzen.

Änderungsprotokoll#

`sklearn.base`#

Enhancement base.ClusterMixin.fit_predict und base.OutlierMixin.fit_predict akzeptieren nun **kwargs, die an die fit Methode des Schätzers weitergeleitet werden. #26506 von Adrin Jalali.
Enhancement base.TransformerMixin.fit_transform und base.OutlierMixin.fit_predict lösen nun eine Warnung aus, wenn transform / predict Metadaten verbrauchen, aber keine benutzerdefinierte fit_transform / fit_predict in der davon erbenden Klasse definiert ist. #26831 von Adrin Jalali.
Enhancement base.clone unterstützt nun dict als Eingabe und erstellt eine Kopie. #26786 von Adrin Jalali.
API Change process_routing hat nun eine andere Signatur. Die ersten beiden (das Objekt und die Methode) sind nur positionsgebunden, und alle Metadaten werden als Schlüsselwortargumente übergeben. #26909 von Adrin Jalali.

`sklearn.calibration`#

Enhancement Die interne Zielfunktion und der Gradient der sigmoid Methode von calibration.CalibratedClassifierCV wurden durch das private Verlustmodul ersetzt. #27185 von Omar Salman.

`sklearn.cluster`#

Fix Der Parameter degree im Konstruktor von cluster.SpectralClustering akzeptiert nun reelle Werte anstelle von nur ganzzahligen Werten, in Übereinstimmung mit dem Parameter degree des sklearn.metrics.pairwise.polynomial_kernel. #27668 von Nolan McMahon.
Fix Behebt einen Fehler in cluster.OPTICS, bei dem die Clusterkorrektur basierend auf dem Vorgänger die falsche Indizierung verwendete. Dies hätte zu inkonsistenten Ergebnissen geführt, die von der Reihenfolge der Daten abhängen. #26459 von Haoying Zhang und Guillaume Lemaitre.
Fix Verbessert die Fehlermeldung bei der Überprüfung der Anzahl der verbundenen Komponenten in der fit Methode von cluster.HDBSCAN. #27678 von Ganesh Tata.
Fix Erstellt eine Kopie der vordefinierten dünnbesetzten Matrix innerhalb der fit Methode von cluster.DBSCAN, um eine In-place-Modifikation der dünnbesetzten Matrix zu vermeiden. #27651 von Ganesh Tata.
Fix Löst eine ordnungsgemäße ValueError aus, wenn metric="precomputed" ist und die Speicherung von Zentren über den Parameter store_centers angefordert wird. #27898 von Guillaume Lemaitre.
API Change Die Werte kdtree und balltree sind nun veraltet und werden als kd_tree bzw. ball_tree für den Parameter algorithm von cluster.HDBSCAN umbenannt, um die Konsistenz der Namenskonvention zu gewährleisten. kdtree und balltree werden in Version 1.6 entfernt. #26744 von Shreesha Kumar Bhat.
API Change Die Option metric=None in cluster.AgglomerativeClustering und cluster.FeatureAgglomeration ist in Version 1.4 veraltet und wird in Version 1.6 entfernt. Verwenden Sie stattdessen den Standardwert. #27828 von Guillaume Lemaitre.

`sklearn.compose`#

Major Feature Fügt Unterstützung für polars-Eingaben zu compose.ColumnTransformer über das DataFrame Interchange Protocol hinzu. Die minimal unterstützte Version für polars ist 0.19.12. #26683 von Thomas Fan.
Fix cluster.spectral_clustering und cluster.SpectralClustering lösen nun eine explizite Fehlermeldung aus, die besagt, dass dünnbesetzte Matrizen und Arrays mit np.int64 Indizes nicht unterstützt werden. #27240 von Yao Xiao.
API Change Ausgaben, die pandas Extension-Datentypen verwenden und pd.NA enthalten, in ColumnTransformer führen nun zu einer FutureWarning und verursachen in Version 1.6 einen ValueError, es sei denn, der Ausgabepuffer wurde mit set_output(transform="pandas") als "pandas" konfiguriert. Zuvor führten solche Ausgaben zu NumPy-Arrays vom Typ object, die pd.NA enthielten, nicht in NumPy-Floats konvertiert werden konnten und Fehler verursachten, wenn sie an andere scikit-learn-Schätzer übergeben wurden. #27734 von Jérôme Dockès.

`sklearn.covariance`#

Enhancement Ermöglicht covariance.shrunk_covariance die Verarbeitung mehrerer Kovarianzmatrizen gleichzeitig durch die Handhabung von nd-Arrays. #25275 von Quentin Barthélemy.
API Change Fix ColumnTransformer ersetzt nun "passthrough" durch einen entsprechenden FunctionTransformer im Attribut transformers_. #27204 von Adrin Jalali.

`sklearn.datasets`#

Enhancement datasets.make_sparse_spd_matrix verwendet nun ein speichereffizienteres Dünnbesetzt-Layout. Es akzeptiert auch ein neues Schlüsselwort sparse_format, das die Angabe des Ausgabeformats der dünnbesetzten Matrix ermöglicht. Standardmäßig ist sparse_format=None, was wie zuvor ein dichtes NumPy ndarray zurückgibt. #27438 von Yao Xiao.
Fix datasets.dump_svmlight_file löst nun keine ValueError mehr aus, wenn X schreibgeschützt ist, z. B. eine numpy.memmap Instanz. #28111 von Yao Xiao.
API Change datasets.make_sparse_spd_matrix hat das Schlüsselwortargument dim zugunsten von n_dim veraltet. dim wird in Version 1.6 entfernt. #27718 von Adam Li.

`sklearn.decomposition`#

Feature decomposition.PCA unterstützt nun scipy.sparse.sparray und scipy.sparse.spmatrix Eingaben bei Verwendung des arpack Solvers. Bei Verwendung auf dünnbesetzten Daten wie bei datasets.fetch_20newsgroups_vectorized kann dies zu Beschleunigungen von 100x (Single-Threaded) und 70x geringerer Speichernutzung führen. Basierend auf Alexander Tarashansky's Implementierung in scanpy. #18689 von Isaac Virshup und Andrey Portnoy.
Enhancement Eine "auto"-Option wurde dem Parameter n_components von decomposition.non_negative_factorization, decomposition.NMF und decomposition.MiniBatchNMF hinzugefügt, um die Anzahl der Komponenten automatisch aus den Formen von W oder H bei Verwendung einer benutzerdefinierten Initialisierung abzuleiten. Der Standardwert dieses Parameters wird sich von None zu auto in Version 1.6 ändern. #26634 von Alexandre Landeau und Alexandre Vigny.
Fix decomposition.dict_learning_online ignoriert den Parameter max_iter nicht mehr. #27834 von Guillaume Lemaitre.
Fix Der Parameter degree im Konstruktor von decomposition.KernelPCA akzeptiert nun reelle Werte anstelle von nur ganzzahligen Werten, entsprechend dem Parameter degree von sklearn.metrics.pairwise.polynomial_kernel. #27668 von Nolan McMahon.
API Change Die Option max_iter=None in decomposition.MiniBatchDictionaryLearning, decomposition.MiniBatchSparsePCA und decomposition.dict_learning_online ist veraltet und wird in Version 1.6 entfernt. Verwenden Sie stattdessen den Standardwert. #27834 von Guillaume Lemaitre.

`sklearn.ensemble`#

Major Feature ensemble.RandomForestClassifier und ensemble.RandomForestRegressor unterstützen fehlende Werte, wenn das Kriterium gini, entropy oder log_loss für die Klassifizierung oder squared_error, friedman_mse oder poisson für die Regression ist. #26391 von Thomas Fan.
Major Feature ensemble.HistGradientBoostingClassifier und ensemble.HistGradientBoostingRegressor unterstützen categorical_features="from_dtype", was Spalten mit Pandas oder Polars Categorical dtype als Kategorien im Algorithmus behandelt. categorical_features="from_dtype" wird in v1.6 zum Standard. Kategorische Features müssen nicht mehr mit Zahlen kodiert werden. Wenn kategorische Features Zahlen sind, muss der Maximalwert nicht mehr kleiner als max_bins sein; nur die Anzahl der (eindeutigen) Kategorien muss kleiner als max_bins sein. #26411 von Thomas Fan und #27835 von Jérôme Dockès.
Major Feature ensemble.HistGradientBoostingClassifier und ensemble.HistGradientBoostingRegressor erhielten den neuen Parameter max_features, um den Anteil der zufällig ausgewählten Features anzugeben, die bei jeder Teilung berücksichtigt werden. #27139 von Christian Lorentzen.
Feature ensemble.RandomForestClassifier, ensemble.RandomForestRegressor, ensemble.ExtraTreesClassifier und ensemble.ExtraTreesRegressor unterstützen nun monotone Einschränkungen, die nützlich sind, wenn Features voraussichtlich einen positiven/negativen Einfluss auf das Ziel haben. Fehlende Werte in den Trainingsdaten und Multi-Output-Ziele werden nicht unterstützt. #13649 von Samuel Ronsin, initiiert von Patrick O’Reilly.
Efficiency ensemble.HistGradientBoostingClassifier und ensemble.HistGradientBoostingRegressor sind nun etwas schneller, indem sie das Histogramm des Elternknotens als Histogramm des Kindknotens beim Subtraktionstrick wiederverwenden. Dadurch muss weniger Speicher alloziert und freigegeben werden. #27865 von Christian Lorentzen.
Efficiency ensemble.GradientBoostingClassifier ist schneller, für binäre und insbesondere für multiklasse Probleme dank des privaten Loss-Funktionsmoduls. #26278 und #28095 von Christian Lorentzen.
Efficiency Verbessert Laufzeit und Speicherverbrauch für ensemble.GradientBoostingClassifier und ensemble.GradientBoostingRegressor, wenn auf dünnbesetzten Daten trainiert wird. #26957 von Thomas Fan.
Efficiency ensemble.HistGradientBoostingClassifier und ensemble.HistGradientBoostingRegressor sind nun schneller, wenn scoring eine vordefinierte Metrik ist, die in metrics.get_scorer_names aufgeführt ist und Early Stopping aktiviert ist. #26163 von Thomas Fan.
Enhancement Eine gefittete Eigenschaft, estimators_samples_, wurde zu allen Forest-Methoden hinzugefügt, einschließlich ensemble.RandomForestClassifier, ensemble.RandomForestRegressor, ensemble.ExtraTreesClassifier und ensemble.ExtraTreesRegressor, die es ermöglicht, die Trainingsstichprobenindizes abzurufen, die für jeden Baum-Schätzer verwendet wurden. #26736 von Adam Li.
Fix Behebt ensemble.IsolationForest, wenn die Eingabe eine dünnbesetzte Matrix ist und contamination auf einen Gleitkommawert gesetzt ist. #27645 von Guillaume Lemaitre.
Fix Löst einen ValueError in ensemble.RandomForestRegressor und ensemble.ExtraTreesRegressor aus, wenn ein OOB-Score mit einem Multi-Output-Modell für die auf ganze Zahlen gerundeten Ziele angefordert wird. Es wurde als Multiklassenproblem erkannt. #27817 von Daniele Ongari
Fix Ändert Schätzer-Tags, um anzuerkennen, dass ensemble.VotingClassifier, ensemble.VotingRegressor, ensemble.StackingClassifier, ensemble.StackingRegressor fehlende Werte unterstützen, wenn alle estimators fehlende Werte unterstützen. #27710 von Guillaume Lemaitre.
Fix Unterstützt das Laden von Pickles von ensemble.HistGradientBoostingClassifier und ensemble.HistGradientBoostingRegressor, wenn der Pickle auf einer Plattform mit anderer Bitness generiert wurde. Ein typisches Beispiel ist das Trainieren und Pickling des Modells auf einer 64-Bit-Maschine und das Laden des Modells auf einer 32-Bit-Maschine zur Vorhersage. #28074 von Christian Lorentzen und Loïc Estève.
API Change In ensemble.AdaBoostClassifier ist das Argument algorithm SAMME.R veraltet und wird in 1.6 entfernt. #26830 von Stefanie Senger.

`sklearn.feature_extraction`#

API Change Der Fehlertyp wurde von AttributeError zu exceptions.NotFittedError in unfitted Instanzen von feature_extraction.DictVectorizer für die folgenden Methoden geändert: feature_extraction.DictVectorizer.inverse_transform, feature_extraction.DictVectorizer.restrict, feature_extraction.DictVectorizer.transform. #24838 von Lorenz Hertel.

`sklearn.feature_selection`#

Enhancement feature_selection.SelectKBest, feature_selection.SelectPercentile und feature_selection.GenericUnivariateSelect unterstützen nun unüberwachte Feature-Auswahl durch Bereitstellung einer score_func, die X und y=None akzeptiert. #27721 von Guillaume Lemaitre.
Enhancement feature_selection.SelectKBest und feature_selection.GenericUnivariateSelect mit mode='k_best' geben nun eine Warnung aus, wenn k größer als die Anzahl der Features ist. #27841 von Thomas Fan.
Fix feature_selection.RFE und feature_selection.RFECV prüfen während der Eingabevalidierung nicht auf NaNs. #21807 von Thomas Fan.

`sklearn.inspection`#

Enhancement inspection.DecisionBoundaryDisplay akzeptiert nun einen Parameter class_of_interest, um die interessante Klasse auszuwählen, wenn die Antwort mit response_method="predict_proba" oder response_method="decision_function" geplottet wird. Dies ermöglicht das Plotten der Entscheidungsgrenze für binäre und multiklasse Klassifikatoren. #27291 von Guillaume Lemaitre.
Fix inspection.DecisionBoundaryDisplay.from_estimator und inspection.PartialDependenceDisplay.from_estimator geben nun den korrekten Typ für Unterklassen zurück. #27675 von John Cant.
API Change inspection.DecisionBoundaryDisplay löst einen AttributeError anstelle eines ValueError aus, wenn ein Schätzer die angeforderte Antwortmethode nicht implementiert. #27291 von Guillaume Lemaitre.

`sklearn.kernel_ridge`#

Fix Der Parameter degree im Konstruktor von kernel_ridge.KernelRidge akzeptiert nun reelle Werte anstelle von nur ganzzahligen Werten, entsprechend dem Parameter degree von sklearn.metrics.pairwise.polynomial_kernel. #27668 von Nolan McMahon.

`sklearn.linear_model`#

Efficiency linear_model.LogisticRegression und linear_model.LogisticRegressionCV haben nun eine deutlich bessere Konvergenz für die Solver "lbfgs" und "newton-cg". Beide Solver können nun eine viel höhere Präzision für die Koeffizienten erreichen, abhängig von der angegebenen tol. Zusätzlich kann lbfgs tol besser nutzen, d.h. früher stoppen oder eine höhere Präzision erreichen. Dies wird durch eine bessere Skalierung der Zielfunktion erreicht, d.h. durch die Verwendung von durchschnittlichen pro Stichprobe Verlusten anstelle der Summe von pro Stichprobe Verlusten. #26721 von Christian Lorentzen.
Efficiency linear_model.LogisticRegression und linear_model.LogisticRegressionCV mit dem Solver "newton-cg" können nun für einige Daten- und Parametereinstellungen erheblich schneller sein. Dies wird durch eine bessere Linien-Suche-Konvergenzprüfung für vernachlässigbare Verlustverbesserungen erreicht, die Gradienteninformationen berücksichtigt. #26721 von Christian Lorentzen.
Efficiency Der Solver "newton-cg" in linear_model.LogisticRegression und linear_model.LogisticRegressionCV verwendet etwas weniger Speicher. Die Auswirkung ist proportional zur Anzahl der Koeffizienten (n_features * n_classes). #27417 von Christian Lorentzen.
Fix Stellt sicher, dass das Attribut sigma_ von linear_model.ARDRegression und linear_model.BayesianRidge immer einen float32 Dtype hat, wenn auf float32 Daten gefittet wird, selbst mit den Typ-Promotion-Regeln von NumPy 2. #27899 von Olivier Grisel.
API Change Das Attribut loss_function_ von linear_model.SGDClassifier und linear_model.SGDOneClassSVM ist veraltet und wird in Version 1.6 entfernt. #27979 von Christian Lorentzen.

`sklearn.metrics`#

Efficiency Die Berechnung paarweiser Distanzen über metrics.DistanceMetric für CSR x CSR, Dense x CSR und CSR x Dense Datensätze ist nun 1,5x schneller. #26765 von Meekail Zain.
Efficiency Die Berechnung von Distanzen über metrics.DistanceMetric für CSR x CSR, Dense x CSR und CSR x Dense verbraucht nun ~50% weniger Speicher und gibt Distanzen im gleichen Dtype wie die bereitgestellten Daten aus. #27006 von Meekail Zain.
Enhancement Verbessert die Darstellung des Plots, der mit den Klassen metrics.PrecisionRecallDisplay und metrics.RocCurveDisplay erhalten wird. Die x- und y-Achsenlimits werden auf [0, 1] gesetzt und das Seitenverhältnis zwischen beiden Achsen wird auf 1 gesetzt, um einen quadratischen Plot zu erhalten. #26366 von Mojdeh Rastgoo.
Enhancement neg_root_mean_squared_log_error_scorer wurde als Scorer hinzugefügt #26734 von Alejandro Martin Gil.
Enhancement metrics.confusion_matrix warnt nun, wenn in y_true und y_pred nur ein Label gefunden wurde. #27650 von Lucy Liu.
Fix Das Berechnen paarweiser Distanzen mit metrics.pairwise.euclidean_distances löst keine Ausnahme mehr aus, wenn X als float64-Array und X_norm_squared als float32-Array übergeben wird. #27624 von Jérôme Dockès.
Fix f1_score liefert nun korrekte Werte bei der Handhabung verschiedener Fälle, in denen es zu einer Division durch Null kommt, indem eine Formulierung verwendet wird, die nicht von den Präzisions- und Rückrufwerten abhängt. #27577 von Omar Salman und Guillaume Lemaitre.
Fix metrics.make_scorer löst nun einen Fehler aus, wenn ein Regressor auf einem Scorer verwendet wird, der eine nicht-schwellenwertbasierte Entscheidungsfunktion (aus decision_function oder predict_proba) anfordert. Solche Scorer sind spezifisch für die Klassifikation. #26840 von Guillaume Lemaitre.
Fix metrics.DetCurveDisplay.from_predictions, metrics.PrecisionRecallDisplay.from_predictions, metrics.PredictionErrorDisplay.from_predictions und metrics.RocCurveDisplay.from_predictions geben nun den korrekten Typ für Unterklassen zurück. #27675 von John Cant.
API Change needs_threshold und needs_proba von metrics.make_scorer sind veraltet und werden in Version 1.6 entfernt. Verwenden Sie stattdessen response_method, das "predict", "predict_proba" oder "decision_function" oder eine Liste solcher Werte akzeptiert. needs_proba=True ist äquivalent zu response_method="predict_proba" und needs_threshold=True ist äquivalent zu response_method=("decision_function", "predict_proba"). #26840 von Guillaume Lemaitre.
API Change Der Parameter squared von metrics.mean_squared_error und metrics.mean_squared_log_error ist veraltet und wird in Version 1.6 entfernt. Verwenden Sie stattdessen die neuen Funktionen metrics.root_mean_squared_error und metrics.root_mean_squared_log_error. #26734 von Alejandro Martin Gil.

`sklearn.model_selection`#

Enhancement model_selection.learning_curve gibt eine Warnung aus, wenn jede Kreuzvalidierungsfalte fehlschlägt. #26299 von Rahil Parikh.
Fix model_selection.GridSearchCV, model_selection.RandomizedSearchCV und model_selection.HalvingGridSearchCV ändern das übergebene Objekt im Parameter-Grid nicht mehr, wenn es sich um einen Schätzer handelt. #26786 von Adrin Jalali.

`sklearn.multioutput`#

Enhancement Methode predict_log_proba zu multioutput.ClassifierChain hinzugefügt. #27720 von Guillaume Lemaitre.

`sklearn.neighbors`#

Efficiency sklearn.neighbors.KNeighborsRegressor.predict und sklearn.neighbors.KNeighborsClassifier.predict_proba unterstützen nun effizient Paare von dichten und spärlichen Datensätzen. #27018 von Julien Jerphanion.
Efficiency Die Leistung von neighbors.RadiusNeighborsClassifier.predict und von neighbors.RadiusNeighborsClassifier.predict_proba wurde verbessert, wenn radius groß ist und algorithm="brute" mit nicht-euklidischen Metriken verwendet wird. #26828 von Omar Salman.
Fix Fehlermeldung für neighbors.LocalOutlierFactor verbessert, wenn es mit n_samples=n_neighbors aufgerufen wird. #23317 von Bharat Raghunathan.
Fix neighbors.KNeighborsClassifier.predict und neighbors.KNeighborsClassifier.predict_proba lösen nun einen Fehler aus, wenn die Gewichte aller Nachbarn eines Samples Null sind. Dies kann geschehen, wenn weights eine benutzerdefinierte Funktion ist. #26410 von Yao Xiao.
API Change neighbors.KNeighborsRegressor akzeptiert nun direkt metrics.DistanceMetric-Objekte über das Schlüsselwortargument metric, was die Verwendung beschleunigter Drittanbieter metrics.DistanceMetric-Objekte ermöglicht. #26267 von Meekail Zain.

`sklearn.preprocessing`#

Efficiency preprocessing.OrdinalEncoder vermeidet die doppelte Berechnung fehlender Indizes zur Verbesserung der Effizienz. #27017 von Xuefeng Xu.
Efficiency Verbessert die Effizienz von preprocessing.OneHotEncoder und preprocessing.OrdinalEncoder bei der Überprüfung von nan. #27760 von Xuefeng Xu.
Enhancement Verbessert Warnungen in preprocessing.FunctionTransformer, wenn func einen Pandas DataFrame zurückgibt und die Ausgabe für Pandas konfiguriert ist. #26944 von Thomas Fan.
Enhancement preprocessing.TargetEncoder unterstützt nun target_type ‚multiclass‘. #26674 von Lucy Liu.
Fix preprocessing.OneHotEncoder und preprocessing.OrdinalEncoder lösen eine Ausnahme aus, wenn nan eine Kategorie ist und nicht die letzte der vom Benutzer bereitgestellten Kategorien ist. #27309 von Xuefeng Xu.
Fix preprocessing.OneHotEncoder und preprocessing.OrdinalEncoder lösen eine Ausnahme aus, wenn die vom Benutzer bereitgestellten Kategorien Duplikate enthalten. #27328 von Xuefeng Xu.
Fix preprocessing.FunctionTransformer löst bei transform einen Fehler aus, wenn die Ausgabe von get_feature_names_out nicht mit den Spaltennamen des Ausgabebereiches übereinstimmt, falls diese definiert sind. #27801 von Guillaume Lemaitre.
Fix Löst einen NotFittedError in preprocessing.OrdinalEncoder aus, wenn transform aufgerufen wird, ohne fit aufgerufen zu haben, da categories immer überprüft werden muss. #27821 von Guillaume Lemaitre.

`sklearn.tree`#

Feature tree.DecisionTreeClassifier, tree.DecisionTreeRegressor, tree.ExtraTreeClassifier und tree.ExtraTreeRegressor unterstützen nun monotone Einschränkungen, nützlich wenn Merkmale einen positiven/negativen Einfluss auf das Ziel haben sollen. Fehlende Werte in den Trainingsdaten und Multi-Output-Ziele werden nicht unterstützt. #13649 von Samuel Ronsin, initiiert von Patrick O’Reilly.

`sklearn.utils`#

Enhancement sklearn.utils.estimator_html_repr passt Diagrammfarben dynamisch an das prefers-color-scheme des Browsers an und bietet so eine verbesserte Anpassungsfähigkeit an Dunkelmodus-Umgebungen. #26862 von Andrew Goh Yisheng, Thomas Fan, Adrin Jalali.
Enhancement MetadataRequest und MetadataRouter haben nun eine Methode consumes, mit der überprüft werden kann, ob eine gegebene Menge von Parametern verbraucht würde. #26831 von Adrin Jalali.
Enhancement sklearn.utils.check_array versucht, int32-indizierte CSR- und COO-Arrays auszugeben, wenn von DIA-Arrays konvertiert wird, wenn die Anzahl der Nicht-Null-Einträge klein genug ist. Dies stellt sicher, dass Schätzer, die in Cython implementiert sind und keine int64-indizierten spärlichen Datenstrukturen akzeptieren, nun konsistent die gleichen spärlichen Eingabeformate für SciPy Sparse Matrizen und Arrays akzeptieren. #27372 von Guillaume Lemaitre.
Fix sklearn.utils.check_array sollte sowohl Matrizen als auch Arrays aus dem spärlichen SciPy-Modul akzeptieren. Die vorherige Implementierung würde bei copy=True fehlschlagen, indem sie spezifische NumPy np.may_share_memory aufruft, die nicht mit SciPy Sparse Array funktioniert und kein korrektes Ergebnis für SciPy Sparse Matrix liefert. #27336 von Guillaume Lemaitre.
Fix check_estimators_pickle mit readonly_memmap=True stützt sich nun auf die Fähigkeit von joblib, ausgerichtete speicherabgebildete Arrays zuzuweisen, wenn ein serialisierter Schätzer geladen wird, anstatt eine spezielle private Funktion aufzurufen, die abstürzen würde, wenn OpenBLAS die CPU-Architektur falsch erkennt. #27614 von Olivier Grisel.
Fix Die Fehlermeldung in check_array, wenn eine spärliche Matrix übergeben wurde, aber accept_sparse auf False gesetzt ist, schlägt nun vor, .toarray() und nicht X.toarray() zu verwenden. #27757 von Lucy Liu.
Fix Korrigiert die Funktion check_array, um die richtige Fehlermeldung auszugeben, wenn die Eingabe eine Series anstelle eines DataFrames ist. #28090 von Stan Furrer und Yao Xiao.
API Change sklearn.utils.extmath.log_logistic ist veraltet und wird in 1.6 entfernt. Verwenden Sie stattdessen -np.logaddexp(0, -x). #27544 von Christian Lorentzen.

Code- und Dokumentationsbeitragende

Vielen Dank an alle, die seit Version 1.3 zur Wartung und Verbesserung des Projekts beigetragen haben, darunter

101AlexMartin, Abhishek Singh Kushwah, Adam Li, Adarsh Wase, Adrin Jalali, Advik Sinha, Alex, Alexander Al-Feghali, Alexis IMBERT, AlexL, Alex Molas, Anam Fatima, Andrew Goh, andyscanzio, Aniket Patil, Artem Kislovskiy, Arturo Amor, ashah002, avm19, Ben Holmes, Ben Mares, Benoit Chevallier-Mames, Bharat Raghunathan, Binesh Bannerjee, Brendan Lu, Brevin Kunde, Camille Troillard, Carlo Lemos, Chad Parmet, Christian Clauss, Christian Lorentzen, Christian Veenhuis, Christos Aridas, Cindy Liang, Claudio Salvatore Arcidiacono, Connor Boyle, cynthias13w, DaminK, Daniele Ongari, Daniel Schmitz, Daniel Tinoco, David Brochart, Deborah L. Haar, DevanshKyada27, Dimitri Papadopoulos Orfanos, Dmitry Nesterov, DUONG, Edoardo Abati, Eitan Hemed, Elabonga Atuo, Elisabeth Günther, Emma Carballal, Emmanuel Ferdman, epimorphic, Erwan Le Floch, Fabian Egli, Filip Karlo Došilović, Florian Idelberger, Franck Charras, Gael Varoquaux, Ganesh Tata, Hleb Levitski, Guillaume Lemaitre, Haoying Zhang, Harmanan Kohli, Ily, ioangatop, IsaacTrost, Isaac Virshup, Iwona Zdzieblo, Jakub Kaczmarzyk, James McDermott, Jarrod Millman, JB Mountford, Jérémie du Boisberranger, Jérôme Dockès, Jiawei Zhang, Joel Nothman, John Cant, John Hopfensperger, Jona Sassenhagen, Jon Nordby, Julien Jerphanion, Kennedy Waweru, kevin moore, Kian Eliasi, Kishan Ved, Konstantinos Pitas, Koustav Ghosh, Kushan Sharma, ldwy4, Linus, Lohit SundaramahaLingam, Loic Esteve, Lorenz, Louis Fouquet, Lucy Liu, Luis Silvestrin, Lukáš Folwarczný, Lukas Geiger, Malte Londschien, Marcus Fraaß, Marek Hanuš, Maren Westermann, Mark Elliot, Martin Larralde, Mateusz Sokół, mathurinm, mecopur, Meekail Zain, Michael Higgins, Miki Watanabe, Milton Gomez, MN193, Mohammed Hamdy, Mohit Joshi, mrastgoo, Naman Dhingra, Naoise Holohan, Narendra Singh dangi, Noa Malem-Shinitski, Nolan, Nurseit Kamchyev, Oleksii Kachaiev, Olivier Grisel, Omar Salman, partev, Peter Hull, Peter Steinbach, Pierre de Fréminville, Pooja Subramaniam, Puneeth K, qmarcou, Quentin Barthélemy, Rahil Parikh, Rahul Mahajan, Raj Pulapakura, Raphael, Ricardo Peres, Riccardo Cappuzzo, Roman Lutz, Salim Dohri, Samuel O. Ronsin, Sandip Dutta, Sayed Qaiser Ali, scaja, scikit-learn-bot, Sebastian Berg, Shreesha Kumar Bhat, Shubhal Gupta, Søren Fuglede Jørgensen, Stefanie Senger, Tamara, Tanjina Afroj, THARAK HEGDE, thebabush, Thomas J. Fan, Thomas Roehr, Tialo, Tim Head, tongyu, Venkatachalam N, Vijeth Moudgalya, Vincent M, Vivek Reddy P, Vladimir Fokow, Xiao Yuan, Xuefeng Xu, Yang Tao, Yao Xiao, Yuchen Zhou, Yuusuke Hiramatsu

Version 1.4#

Version 1.4.2#

Version 1.4.1#

Geänderte Modelle#

Metadaten-Routing#

DataFrame-Unterstützung#

Änderungen, die viele Module betreffen#

Änderungsprotokoll#

Version 1.4.0#

Geänderte Modelle#

Änderungen, die alle Module betreffen#

Metadaten-Weiterleitung#

Unterstützung für SciPy Sparse Arrays#

Unterstützung für Array API#

Privates Modul für Verlustfunktionen#

Änderungsprotokoll#

Diese Seite