Version 0.23#

Eine kurze Beschreibung der wichtigsten Highlights der Veröffentlichung finden Sie unter Release Highlights für scikit-learn 0.23.

Legende für Changelogs

Hauptmerkmal etwas Großes, das Sie vorher nicht tun konnten.
Merkmal etwas, das Sie vorher nicht tun konnten.
Effizienz Ein bestehendes Merkmal erfordert nun möglicherweise weniger Rechenleistung oder Speicher.
Verbesserung eine sonstige kleinere Verbesserung.
Korrektur Etwas, das zuvor nicht wie dokumentiert – oder nach vernünftigen Erwartungen – funktionierte, sollte nun funktionieren.
API-Änderung Sie müssen Ihren Code ändern, um in Zukunft die gleiche Wirkung zu erzielen; oder ein Merkmal wird in Zukunft entfernt.

Version 0.23.2#

Geänderte Modelle#

Die folgenden Schätzer und Funktionen können, wenn sie mit denselben Daten und Parametern angepasst werden, andere Modelle als in der vorherigen Version ergeben. Dies geschieht häufig aufgrund von Änderungen in der Modellierungslogik (Fehlerbehebungen oder Verbesserungen) oder in zufälligen Stichprobenverfahren.

Fix Das Attribut inertia_ von cluster.KMeans und cluster.MiniBatchKMeans.

Details sind in der folgenden Changelog aufgeführt.

(Obwohl wir uns bemühen, Benutzer durch die Bereitstellung dieser Informationen besser zu informieren, können wir keine Vollständigkeit dieser Liste garantieren.)

Änderungsprotokoll#

`sklearn.cluster`#

Fix Behoben wurde ein Fehler in cluster.KMeans, bei dem Rundungsfehler die Erklärung der Konvergenz verhindern konnten, wenn tol=0 gesetzt war. #17959 von Jérémie du Boisberranger.
Fix Behoben wurde ein Fehler in cluster.KMeans und cluster.MiniBatchKMeans, bei dem die angezeigte Trägheit falsch mit den Stichprobengewichten gewichtet wurde. #17848 von Jérémie du Boisberranger.
Fix Behoben wurde ein Fehler in cluster.MeanShift mit bin_seeding=True. Wenn die geschätzte Bandbreite 0 beträgt, ist das Verhalten äquivalent zu bin_seeding=False. #17742 von Jeremie du Boisberranger.
Fix Behoben wurde ein Fehler in cluster.AffinityPropagation, der falsche Cluster lieferte, wenn der Array-Datentyp float32 war. #17995 von Thomaz Santana und Amanda Dsouza.

`sklearn.decomposition`#

Fix Behoben wurde ein Fehler in decomposition.MiniBatchDictionaryLearning.partial_fit, der das Wörterbuch nur einmal über einen Mini-Batch aktualisieren sollte. #17433 von Chiara Marmo.
Fix Überläufe unter Windows in decomposition.IncrementalPCA.partial_fit für große Werte von batch_size und n_samples vermieden. #17985 von Alan Butler und Amanda Dsouza.

`sklearn.ensemble`#

Fix Behoben wurde ein Fehler in ensemble.MultinomialDeviance, bei dem der Durchschnitt des Logloss fälschlicherweise als Summe des Logloss berechnet wurde. #17694 von Markus Rempfler und Tsutomu Kusanagi.
Fix Behebt Kompatibilitätsprobleme von ensemble.StackingClassifier und ensemble.StackingRegressor mit Schätzern, die n_features_in_ nicht definieren. #17357 von Thomas Fan.

`sklearn.feature_extraction`#

Fix Behebt Fehler in feature_extraction.text.CountVectorizer, bei dem die Reihenfolgeunabhängigkeit der Stichproben gebrochen war, wenn max_features gesetzt war und Features die gleiche Anzahl hatten. #18016 von Thomas Fan, Roman Yurchak und Joel Nothman.

`sklearn.linear_model`#

Fix linear_model.lars_path überschreibt X nicht, wenn X_copy=True und Gram='auto' gesetzt sind. #17914 von Thomas Fan.

`sklearn.manifold`#

Fix Behoben wurde ein Fehler, bei dem metrics.pairwise_distances einen Fehler auslöste, wenn metric='seuclidean' und X nicht vom Typ np.float64 war. #15730 von Forrest Koch.

`sklearn.metrics`#

Fix Behoben wurde ein Fehler in metrics.mean_squared_error, bei dem der Durchschnitt mehrerer RMSE-Werte fälschlicherweise als Wurzel des Durchschnitts mehrerer MSE-Werte berechnet wurde. #17309 von Swier Heeres.

`sklearn.pipeline`#

Fix pipeline.FeatureUnion löst eine Deprecation-Warnung aus, wenn None in transformer_list enthalten ist. #17360 von Thomas Fan.

`sklearn.utils`#

Fix Korrigiert utils.estimator_checks.check_estimator so, dass alle Testfälle das Tag binary_only für Schätzer unterstützen. #17812 von Bruno Charron.

Version 0.23.1#

18. Mai 2020

Änderungsprotokoll#

`sklearn.cluster`#

Effizienz Die Effizienz von cluster.KMeans wurde für sehr kleine Datensätze verbessert. Insbesondere können keine untätigen Threads mehr erzeugt werden. #17210 und #17235 von Jeremie du Boisberranger.
Fix Behoben wurde ein Fehler in cluster.KMeans, bei dem die vom Benutzer bereitgestellten Stichprobengewichte vor Ort modifiziert wurden. #17204 von Jeremie du Boisberranger.

Sonstiges#

Fix Behoben wurde ein Fehler in der repr von Drittanbieter-Schätzern, die einen **kwargs-Parameter in ihrem Konstruktor verwenden, wenn changed_only True ist, was jetzt der Standard ist. #17205 von Nicolas Hug.

Version 0.23.0#

12. Mai 2020

Erzwingen von Keyword-Only-Argumenten#

Um eine klare und eindeutige Verwendung der Bibliothek zu fördern, werden die meisten Konstruktor- und Funktionsparameter jetzt als Keyword-Argumente (d. h. mit der Syntax param=value) anstelle von Positionsargumenten erwartet. Um den Übergang zu erleichtern, wird eine FutureWarning ausgegeben, wenn ein Keyword-Only-Parameter als Positionsargument verwendet wird. In Version 1.0 (Umbenennung von 0.25) werden diese Parameter streng Keyword-Only sein und eine TypeError auslösen. #15005 von Joel Nothman, Adrin Jalali, Thomas Fan und Nicolas Hug. Weitere Details finden Sie unter SLEP009.

Geänderte Modelle#

Die folgenden Schätzer und Funktionen können, wenn sie mit denselben Daten und Parametern angepasst werden, andere Modelle als in der vorherigen Version ergeben. Dies geschieht häufig aufgrund von Änderungen in der Modellierungslogik (Fehlerbehebungen oder Verbesserungen) oder in zufälligen Stichprobenverfahren.

Fix ensemble.BaggingClassifier, ensemble.BaggingRegressor und ensemble.IsolationForest.
Fix cluster.KMeans mit algorithm="elkan" und algorithm="full".
Fix cluster.Birch
Fix compose.ColumnTransformer.get_feature_names
Fix compose.ColumnTransformer.fit
Fix datasets.make_multilabel_classification
Fix decomposition.PCA mit n_components='mle'
Enhancement decomposition.NMF und decomposition.non_negative_factorization mit float32-Datentyp-Eingabe.
Fix decomposition.KernelPCA.inverse_transform
API Change ensemble.HistGradientBoostingClassifier und ensemble.HistGradientBoostingRegressor
Fix estimator_samples_ in ensemble.BaggingClassifier, ensemble.BaggingRegressor und ensemble.IsolationForest
Fix ensemble.StackingClassifier und ensemble.StackingRegressor mit sample_weight
Fix gaussian_process.GaussianProcessRegressor
Fix linear_model.RANSACRegressor mit sample_weight.
Fix linear_model.RidgeClassifierCV
Fix metrics.mean_squared_error mit squared und multioutput='raw_values'.
Fix metrics.mutual_info_score mit negativen Scores.
Fix metrics.confusion_matrix mit y_true und y_pred mit null Länge
Fix neural_network.MLPClassifier
Fix preprocessing.StandardScaler mit partial_fit und sparsen Eingaben.
Fix preprocessing.Normalizer mit norm=’max’
Fix Jedes Modell, das den Solver svm.libsvm oder svm.liblinear verwendet, einschließlich svm.LinearSVC, svm.LinearSVR, svm.NuSVC, svm.NuSVR, svm.OneClassSVM, svm.SVC, svm.SVR, linear_model.LogisticRegression.
Fix tree.DecisionTreeClassifier, tree.ExtraTreeClassifier und ensemble.GradientBoostingClassifier sowie die predict-Methode von tree.DecisionTreeRegressor, tree.ExtraTreeRegressor und ensemble.GradientBoostingRegressor und schreibgeschützten float32-Eingaben in predict, decision_path und predict_proba.

Details sind in der folgenden Changelog aufgeführt.

(Obwohl wir uns bemühen, Benutzer durch die Bereitstellung dieser Informationen besser zu informieren, können wir keine Vollständigkeit dieser Liste garantieren.)

Changelog#

`sklearn.cluster`#

Effizienz Die Implementierung der predict-Methode von cluster.Birch vermeidet einen hohen Speicherbedarf, indem die Distanzmatrix mithilfe eines chunked Schemes berechnet wird. #16149 von Jeremie du Boisberranger und Alex Shacked.
Effizienz Major Feature Die kritischen Teile von cluster.KMeans haben eine optimiertere Implementierung. Die Parallelisierung erfolgt nun über die Daten anstatt über Initialisierungen, was eine bessere Skalierbarkeit ermöglicht. #11950 von Jeremie du Boisberranger.
Enhancement cluster.KMeans unterstützt nun sparsen Daten, wenn solver = "elkan" ist. #11950 von Jeremie du Boisberranger.
Enhancement cluster.AgglomerativeClustering verfügt über eine schnellere und speichereffizientere Implementierung des Single-Linkage-Clustering. #11514 von Leland McInnes.
Fix cluster.KMeans mit algorithm="elkan" konvergiert nun mit tol=0, wie mit dem Standard-Algorithmus algorithm="full". #16075 von Erich Schubert.
Fix Behoben wurde ein Fehler in cluster.Birch, bei dem der Parameter n_clusters keinen np.int64-Typ haben konnte. #16484 von Jeremie du Boisberranger.
Fix cluster.AgglomerativeClustering fügt eine spezifische Fehlermeldung hinzu, wenn die Distanzmatrix nicht quadratisch ist und affinity=precomputed gesetzt ist. #16257 von Simona Maggio.
API Change Der Parameter n_jobs von cluster.KMeans, cluster.SpectralCoclustering und cluster.SpectralBiclustering ist veraltet. Sie verwenden jetzt OpenMP-basierte Parallelisierung. Weitere Details zur Steuerung der Anzahl von Threads finden Sie in unseren Hinweisen zur Parallelisierung. #11950 von Jeremie du Boisberranger.
API Change Der Parameter precompute_distances von cluster.KMeans ist veraltet. Er hat keine Auswirkung mehr. #11950 von Jeremie du Boisberranger.
API Change Der Parameter random_state wurde zu cluster.AffinityPropagation hinzugefügt. #16801 von @rcwoolston und Chiara Marmo.

`sklearn.compose`#

Effizienz compose.ColumnTransformer ist jetzt schneller, wenn mit DataFrames gearbeitet wird und Strings verwendet werden, um bestimmte Datenteile für Transformer zu spezifizieren. #16431 von Thomas Fan.
Enhancement Die Methode get_feature_names von compose.ColumnTransformer unterstützt nun 'passthrough'-Spalten, wobei der Feature-Name entweder der Spaltenname für einen DataFrame oder 'xi' für den Spaltenindex i ist. #14048 von Lewis Ball.
Fix Die Methode get_feature_names von compose.ColumnTransformer gibt nun korrekte Ergebnisse zurück, wenn einer der Transformator-Schritte auf eine leere Liste von Spalten angewendet wird #15963 von Roman Yurchak.
Fix compose.ColumnTransformer.fit gibt einen Fehler aus, wenn ein Spaltenname ausgewählt wird, der im DataFrame nicht eindeutig ist. #16431 von Thomas Fan.

`sklearn.datasets`#

Efficiency datasets.fetch_openml hat den Speicherverbrauch reduziert, da der gesamte Datensatz-Textstrom nicht mehr im Speicher gespeichert wird. #16084 von Joel Nothman.
Feature datasets.fetch_california_housing unterstützt nun heterogene Daten mit pandas durch Setzen von as_frame=True. #15950 von Stephanie Andrews und Reshama Shaikh.
Feature Eingebaute Datensatzlader datasets.load_breast_cancer, datasets.load_diabetes, datasets.load_digits, datasets.load_iris, datasets.load_linnerud und datasets.load_wine unterstützen nun das Laden als pandas DataFrame durch Setzen von as_frame=True. #15980 von @wconnell und Reshama Shaikh.
Enhancement Der Parameter return_centers wurde in datasets.make_blobs hinzugefügt, der verwendet werden kann, um die Zentren für jeden Cluster zurückzugeben. #15709 von @shivamgargsya und Venkatachalam N.
Enhancement Die Funktionen datasets.make_circles und datasets.make_moons akzeptieren nun Tupel mit zwei Elementen. #15707 von Maciej J Mikulski.
Fix datasets.make_multilabel_classification generiert nun ValueError für die Argumente n_classes < 1 ODER length < 1. #16006 von Rushabh Vasani.
API Change StreamHandler wurde aus sklearn.logger entfernt, um doppeltes Protokollieren von Nachrichten in häufigen Fällen zu vermeiden, in denen ein Handler am Root-Logger angebracht ist, und um die Empfehlung der Python-Dokumentation für Bibliotheken zu befolgen, die Handhabung von Protokollnachrichten den Benutzern und der Anwendung zu überlassen. #16451 von Christoph Deil.

`sklearn.decomposition`#

Enhancement decomposition.NMF und decomposition.non_negative_factorization behalten nun den float32-Datentyp bei. #16280 von Jeremie du Boisberranger.
Enhancement decomposition.TruncatedSVD.transform ist nun auf gegebenen spärlichen csc-Matrizen schneller. #16837 von @wornbb.
Fix decomposition.PCA mit einem Float-Parameter n_components wählt ausschließlich die Komponenten aus, die die Varianz größer als n_components erklären. #15669 von Krishna Chaitanya
Fix decomposition.PCA mit n_components='mle' behandelt nun korrekt kleine Eigenwerte und leitet nicht 0 als korrekte Anzahl von Komponenten ab. #16224 von Lisa Schwetlick, und Gelavizh Ahmadi und Marija Vlajic Wheeler und #16841 von Nicolas Hug.
Fix Die Methode inverse_transform von decomposition.KernelPCA wendet nun die korrekte inverse Transformation auf die transformierten Daten an. #16655 von Lewis Ball.
Fix Behoben: Ein Fehler, der dazu führte, dass decomposition.KernelPCA während fit manchmal invalid value encountered in multiply auslöste. #16718 von Gui Miotto.
Feature Attribut n_components_ wurde zu decomposition.SparsePCA und decomposition.MiniBatchSparsePCA hinzugefügt. #16981 von Mateusz Górski.

`sklearn.ensemble`#

Major Feature ensemble.HistGradientBoostingClassifier und ensemble.HistGradientBoostingRegressor unterstützen nun sample_weight. #14696 von Adrin Jalali und Nicolas Hug.
Feature Das Early Stopping in ensemble.HistGradientBoostingClassifier und ensemble.HistGradientBoostingRegressor wird nun mit einem neuen Parameter early_stopping anstelle von n_iter_no_change bestimmt. Der Standardwert ist 'auto', was Early Stopping aktiviert, wenn mindestens 10.000 Samples im Trainingsdatensatz vorhanden sind. #14516 von Johann Faouzi.
Major Feature ensemble.HistGradientBoostingClassifier und ensemble.HistGradientBoostingRegressor unterstützen nun monotone Einschränkungen, nützlich, wenn Features einen positiven/negativen Einfluss auf das Ziel haben sollen. #15582 von Nicolas Hug.
API Change Boolean-Flag verbose wurde zu den Klassen ensemble.VotingClassifier und ensemble.VotingRegressor hinzugefügt. #16069 von Sam Bail, Hanna Bruce MacDonald, Reshama Shaikh, und Chiara Marmo.
API Change Ein Fehler in ensemble.HistGradientBoostingClassifier und ensemble.HistGradientBoostingRegressor wurde behoben, der den Parameter max_leaf_nodes nicht berücksichtigte, wenn das Kriterium gleichzeitig mit dem max_depth-Kriterium erreicht wurde. #16183 von Nicolas Hug.
Fix Die Konvention für den Parameter max_depth von ensemble.HistGradientBoostingClassifier und ensemble.HistGradientBoostingRegressor wurde geändert. Die Tiefe entspricht nun der Anzahl der Kanten vom Wurzelknoten bis zum tiefsten Blatt. Stumps (Bäume mit einer einzigen Aufteilung) sind nun erlaubt. #16182 von Santhosh B
Fix Ein Fehler wurde behoben, bei dem das Attribut estimators_samples_ in ensemble.BaggingClassifier, ensemble.BaggingRegressor und ensemble.IsolationForest die während fit verwendeten korrekten Indizes nicht generierte. #16437 von Jin-Hwan CHO.
Fix Ein Fehler in ensemble.StackingClassifier und ensemble.StackingRegressor wurde behoben, bei dem das Argument sample_weight nicht an cross_val_predict übergeben wurde, wenn die Basis-Estimators auf Kreuzvalidierungsfaltung ausgewertet wurden, um die Eingabe für den Meta-Estimator zu erhalten. #16539 von Bill DeRose.
Feature Die zusätzliche Option loss="poisson" wurde zu ensemble.HistGradientBoostingRegressor hinzugefügt, was die Poisson-Abweichung mit Log-Link für die Modellierung von Zähldaten hinzufügt. #16692 von Christian Lorentzen
Fix Ein Fehler wurde behoben, bei dem ensemble.HistGradientBoostingRegressor und ensemble.HistGradientBoostingClassifier bei mehreren Aufrufen von fit fehlschlugen, wenn warm_start=True, early_stopping=True war und kein Validierungsdatensatz vorhanden war. #16663 von Thomas Fan.

`sklearn.feature_extraction`#

Efficiency feature_extraction.text.CountVectorizer sortiert nun Features nach deren Filterung nach Dokumentenhäufigkeit. Dies verbessert die Leistung für Datensätze mit großen Vokabularen in Kombination mit min_df oder max_df. #15834 von Santiago M. Mola.

`sklearn.feature_selection`#

Enhancement Unterstützung für Multi-Output-Daten wurde zu feature_selection.RFE und feature_selection.RFECV hinzugefügt. #16103 von Divyaprabha M.
API Change Fügt feature_selection.SelectorMixin wieder zur öffentlichen API hinzu. #16132 von @trimeta.

`sklearn.gaussian_process`#

Enhancement gaussian_process.kernels.Matern gibt den RBF-Kernel zurück, wenn nu=np.inf ist. #15503 von Sam Dixon.
Fix Ein Fehler in gaussian_process.GaussianProcessRegressor wurde behoben, der dazu führte, dass die vorhergesagten Standardabweichungen nur zwischen 0 und 1 lagen, wenn kein WhiteKernel verwendet wurde. #15782 von @plgreenLIRU.

`sklearn.impute`#

Enhancement impute.IterativeImputer akzeptiert sowohl Skalar- als auch Array-ähnliche Eingaben für max_value und min_value. Array-ähnliche Eingaben ermöglichen die Angabe eines anderen Maximums und Minimums für jede Funktion. #16403 von Narendra Mukherjee.
Enhancement impute.SimpleImputer, impute.KNNImputer und impute.IterativeImputer akzeptieren pandas' nullable Integer-Datentypen mit fehlenden Werten. #16508 von Thomas Fan.

`sklearn.inspection`#

Feature inspection.partial_dependence und inspection.plot_partial_dependence unterstützen nun die schnelle 'recursion'-Methode für ensemble.RandomForestRegressor und tree.DecisionTreeRegressor. #15864 von Nicolas Hug.

`sklearn.linear_model`#

Major Feature Verallgemeinerte lineare Modelle (GLM) mit nicht-normalen Fehlerverteilungen wurden hinzugefügt, einschließlich linear_model.PoissonRegressor, linear_model.GammaRegressor und linear_model.TweedieRegressor, die Poisson-, Gamma- und Tweedie-Verteilungen verwenden. #14300 von Christian Lorentzen, Roman Yurchak, und Olivier Grisel.
Major Feature Unterstützung für sample_weight in linear_model.ElasticNet und linear_model.Lasso für dichte Feature-Matrizen X. #15436 von Christian Lorentzen.
Efficiency linear_model.RidgeCV und linear_model.RidgeClassifierCV weisen nun keine potenziell große Array-Allokation mehr zu, um duale Koeffizienten für alle Hyperparameter während fit zu speichern, noch ein Array, um alle Fehler- oder LOO-Vorhersagen zu speichern, es sei denn, store_cv_values ist True. #15652 von Jérôme Dockès.
Enhancement linear_model.LassoLars und linear_model.Lars unterstützen nun einen Parameter jitter, der dem Ziel zufälliges Rauschen hinzufügt. Dies kann in einigen Grenzfällen zur Stabilität beitragen. #15179 von @angelaambroz.
Fix Ein Fehler wurde behoben, bei dem, wenn ein Parameter sample_weight an die fit-Methode von linear_model.RANSACRegressor übergeben wurde, dieser nicht an den umschlossenen base_estimator während des Fits des endgültigen Modells übergeben wurde. #15773 von Jeremy Alexandre.
Fix Fügt das Attribut best_score_ zu linear_model.RidgeCV und linear_model.RidgeClassifierCV hinzu. #15655 von Jérôme Dockès.
Fix Behebt einen Fehler in linear_model.RidgeClassifierCV, um eine spezifische Scoring-Strategie zu übergeben. Zuvor gab der interne Schätzer stattdessen Scores anstelle von Vorhersagen aus. #14848 von Venkatachalam N.
Fix linear_model.LogisticRegression vermeidet nun eine unnötige Iteration, wenn solver='newton-cg' ist, indem es auf "inferior oder gleich" statt "strikt inferior" für das Maximum von absgrad und tol in utils.optimize._newton_cg prüft. #16266 von Rushabh Vasani.
API Change Die öffentlichen Attribute standard_coef_, standard_intercept_, average_coef_ und average_intercept_ in linear_model.SGDClassifier, linear_model.SGDRegressor, linear_model.PassiveAggressiveClassifier, linear_model.PassiveAggressiveRegressor werden als veraltet markiert. #16261 von Carlos Brandt.
Fix Efficiency linear_model.ARDRegression ist stabiler und viel schneller, wenn n_samples > n_features ist. Es kann nun auf Hunderttausende von Samples skaliert werden. Die Stabilitätskorrektur kann Änderungen in der Anzahl der Nicht-Null-Koeffizienten und der vorhergesagten Ausgabe bedeuten. #16849 von Nicolas Hug.
Fix Behebt einen Fehler in linear_model.ElasticNetCV, linear_model.MultiTaskElasticNetCV, linear_model.LassoCV und linear_model.MultiTaskLassoCV, bei denen die Anpassung fehlschlagend war, wenn das Joblib loky-Backend verwendet wurde. #14264 von Jérémie du Boisberranger.
Efficiency Beschleunigt linear_model.MultiTaskLasso, linear_model.MultiTaskLassoCV, linear_model.MultiTaskElasticNet, linear_model.MultiTaskElasticNetCV, indem langsamere BLAS Level 2 Aufrufe auf kleinen Arrays vermieden werden #17021 von Alex Gramfort und Mathurin Massias.

`sklearn.metrics`#

Enhancement metrics.pairwise_distances_chunked erlaubt nun, dass seine reduce_func keinen Rückgabewert hat, was In-Place-Operationen ermöglicht. #16397 von Joel Nothman.
Fix Behebt einen Fehler in metrics.mean_squared_error, um das Argument squared nicht zu ignorieren, wenn das Argument multioutput='raw_values' ist. #16323 von Rushabh Vasani
Fix Behebt einen Fehler in metrics.mutual_info_score, wo negative Scores zurückgegeben werden konnten. #16362 von Thomas Fan.
Fix Behebt einen Fehler in metrics.confusion_matrix, der einen Fehler auslöste, wenn y_true und y_pred die Länge Null hatten und labels nicht None war. Außerdem wird ein Fehler ausgelöst, wenn eine leere Liste an den labels Parameter übergeben wird. #16442 von Kyle Parsons.
API Change Die Formatierung von Werten in metrics.ConfusionMatrixDisplay.plot und metrics.plot_confusion_matrix wurde geändert, um das kürzere Format (entweder '2g' oder 'd') zu wählen. #16159 von Rick Mackenbach und Thomas Fan.
API Change Ab Version 0.25 berechnet metrics.pairwise_distances nicht mehr automatisch den Parameter VI für die Mahalanobis-Distanz und den Parameter V für die seuclidean-Distanz, wenn Y übergeben wird. Der Benutzer muss diesen Parameter auf seinen Trainingsdaten berechnen und ihn an pairwise_distances übergeben. #16993 von Joel Nothman.

`sklearn.model_selection`#

Enhancement model_selection.GridSearchCV und model_selection.RandomizedSearchCV geben zusätzlich zu den zuvor ausgegebenen Typ- und Detailinformationen auch Stack-Trace-Informationen in Fehlermeldungen bei fehlgeschlagener Anpassung aus. #15622 von Gregory Morse.
Fix model_selection.cross_val_predict unterstützt method="predict_proba", wenn y=None ist. #15918 von Luca Kubin.
Fix model_selection.fit_grid_point ist in Version 0.23 veraltet und wird in Version 0.25 entfernt. #16401 von Arie Pratama Sutiono

`sklearn.multioutput`#

Feature multioutput.MultiOutputRegressor.fit und multioutput.MultiOutputClassifier.fit können nun fit_params akzeptieren, um sie an die estimator.fit Methode jedes Schritts weiterzugeben. #15953 #15959 von Ke Huang.
Enhancement multioutput.RegressorChain unterstützt nun fit_params für base_estimator während fit. #16111 von Venkatachalam N.

`sklearn.naive_bayes`#

Fix In naive_bayes.CategoricalNB wird nun eine korrekt formatierte Fehlermeldung angezeigt, wenn die Anzahl der Features in der Eingabe zwischen predict und fit unterschiedlich ist. #16090 von Madhura Jayaratne.

`sklearn.neural_network`#

Efficiency neural_network.MLPClassifier und neural_network.MLPRegressor haben einen reduzierten Speicherbedarf bei Verwendung von stochastischen Lösern, 'sgd' oder 'adam', und shuffle=True. #14075 von @meyer89.
Fix Erhöht die numerische Stabilität der logistischen Verlustfunktion in neural_network.MLPClassifier durch Clipping der Wahrscheinlichkeiten. #16117 von Thomas Fan.

`sklearn.inspection`#

Enhancement inspection.PartialDependenceDisplay stellt nun die Dezillinien als Attribute bereit, sodass sie ausgeblendet oder angepasst werden können. #15785 von Nicolas Hug

`sklearn.preprocessing`#

Feature Das Argument drop von preprocessing.OneHotEncoder akzeptiert nun den Wert 'if_binary' und entfernt die erste Kategorie jeder zweikategorischen Feature. #16245 von Rushabh Vasani.
Enhancement Das drop_idx_ ndarray von preprocessing.OneHotEncoder kann nun None enthalten, wobei drop_idx_[i] = None bedeutet, dass für Index i keine Kategorie entfernt wird. #16585 von Chiara Marmo.
Enhancement preprocessing.MaxAbsScaler, preprocessing.MinMaxScaler, preprocessing.StandardScaler, preprocessing.PowerTransformer, preprocessing.QuantileTransformer, preprocessing.RobustScaler unterstützen nun Pandas' nullable Integer-Datentyp mit fehlenden Werten. #16508 von Thomas Fan.
Efficiency preprocessing.OneHotEncoder transformiert nun schneller. #15762 von Thomas Fan.
Fix Behebt einen Fehler in preprocessing.StandardScaler, der Statistiken bei Aufruf von partial_fit auf sparse Eingaben falsch berechnete. #16466 von Guillaume Lemaitre.
Fix Behebt einen Fehler in preprocessing.Normalizer mit norm='max', der den Absolutwert der Maximalwerte nicht berücksichtigte, bevor die Vektoren normalisiert wurden. #16632 von Maura Pintor und Battista Biggio.

`sklearn.semi_supervised`#

Fix semi_supervised.LabelSpreading und semi_supervised.LabelPropagation vermeiden Division-durch-Null-Warnungen beim Normalisieren von label_distributions_. #15946 von @ngshya.

`sklearn.svm`#

Fix Efficiency Verbessert die Zufallszahlengeneratoren von libsvm und liblinear, die zur zufälligen Auswahl von Koordinaten in den Coordinate-Descent-Algorithmen verwendet werden. Die plattformabhängige C rand()-Funktion wurde verwendet, die unter Windows nur Zahlen bis 32767 generieren kann (siehe Blogbeitrag) und auch eine schlechte Randomisierungsleistung aufweist, wie in dieser Präsentation angedeutet wird. Sie wurde durch C++11 mt19937, einen Mersenne Twister, ersetzt, der auf allen Plattformen korrekt 31-Bit/63-Bit-Zufallszahlen generiert. Zusätzlich wurde der grobe "Modulo"-Nachbearbeitungsfilter zur Erzeugung einer Zufallszahl in einem begrenzten Intervall durch die angepasste Lemire-Methode ersetzt, wie in diesem Blogbeitrag vorgeschlagen. Jedes Modell, das den svm.libsvm- oder den svm.liblinear-Löser verwendet, einschließlich svm.LinearSVC, svm.LinearSVR, svm.NuSVC, svm.NuSVR, svm.OneClassSVM, svm.SVC, svm.SVR, linear_model.LogisticRegression, ist betroffen. Insbesondere können Benutzer bei einer großen Anzahl von Stichproben (LibSVM) oder einer großen Anzahl von Features (LibLinear) eine bessere Konvergenz erwarten. #13511 von Sylvain Marié.
Fix Behebt die Verwendung von benutzerdefinierten Kerneln, die keine Float-Einträge akzeptieren, wie String-Kernel in svm.SVC und svm.SVR. Beachten Sie, dass benutzerdefinierte Kernel nun ihre Eingabe validieren müssen, während sie zuvor gültige numerische Arrays erhalten haben. #11296 von Alexandre Gramfort und Georgi Peev.
API Change Die Attribute probA_ und probB_ von svm.SVR und svm.OneClassSVM sind nun veraltet, da sie nicht nützlich waren. #15558 von Thomas Fan.

`sklearn.tree`#

Fix Der Parameter rotate von tree.plot_tree wurde nicht verwendet und ist nun veraltet. #15806 von Chiara Marmo.
Fix Behebt die Unterstützung für schreibgeschützte Float32-Array-Eingaben in den Methoden predict, decision_path und predict_proba von tree.DecisionTreeClassifier, tree.ExtraTreeClassifier und ensemble.GradientBoostingClassifier sowie die Methode predict von tree.DecisionTreeRegressor, tree.ExtraTreeRegressor und ensemble.GradientBoostingRegressor. #16331 von Alexandre Batisse.

`sklearn.utils`#

Major Feature Schätzer können nun mit einer Rich-HTML-Repräsentation angezeigt werden. Dies kann in Jupyter-Notebooks aktiviert werden, indem display='diagram' in set_config gesetzt wird. Das rohe HTML kann durch die Verwendung von utils.estimator_html_repr zurückgegeben werden. #14180 von Thomas Fan.
Enhancement Verbessert die Fehlermeldung in utils.validation.column_or_1d. #15926 von Loïc Estève.
Enhancement Fügt eine Warnung in utils.check_array für pandas sparse DataFrames hinzu. #16021 von Rushabh Vasani.
Enhancement utils.check_array konstruiert nun eine sparse Matrix aus einem Pandas DataFrame, der nur SparseArray-Spalten enthält. #16728 von Thomas Fan.
Enhancement utils.check_array unterstützt Pandas' nullable Integer-Datentyp mit fehlenden Werten, wenn force_all_finite auf False oder 'allow-nan' gesetzt ist. In diesem Fall werden die Daten in Gleitkommazahlen umgewandelt, wobei pd.NA-Werte durch np.nan ersetzt werden. Infolgedessen akzeptieren nun alle sklearn.preprocessing-Transformer, die numerische Eingaben mit fehlenden Werten als np.nan akzeptieren, auch die direkte Übergabe von Pandas DataFrames mit pd.Int* oder `pd.Uint*-Datentypen, die pd.NA als Markierung für fehlende Werte verwenden. #16508 von Thomas Fan.
API Change Das Übergeben von Klassen an utils.estimator_checks.check_estimator und utils.estimator_checks.parametrize_with_checks ist nun veraltet und die Unterstützung für Klassen wird in 0.24 entfernt. Übergeben Sie stattdessen Instanzen. #17032 von Nicolas Hug.
API-Änderung Das private Hilfsprogramm _safe_tags in utils.estimator_checks wurde entfernt. Daher sollten alle Tags über estimator._get_tags() bezogen werden. Beachten Sie, dass Mixins wie RegressorMixin in der MRO vor den Basisklassen stehen müssen, damit _get_tags() ordnungsgemäß funktioniert. #16950 von Nicolas Hug.
Fehlerbehebung utils.all_estimators gibt nun nur noch öffentliche Estimators zurück. #15380 von Thomas Fan.

Sonstiges#

Hauptfunktion Fügt eine HTML-Darstellung von Estimators hinzu, die in einem Jupyter Notebook oder Lab angezeigt werden kann. Diese Visualisierung wird durch Setzen der Option display in sklearn.set_config aktiviert. #14180 von Thomas Fan.
Verbesserung scikit-learn funktioniert nun fehlerfrei mit mypy. #16726 von Roman Yurchak.
API-Änderung Die meisten Estimators stellen nun ein Attribut n_features_in_ bereit. Dieses Attribut ist gleich der Anzahl der Merkmale, die an die fit-Methode übergeben wurden. Einzelheiten finden Sie unter SLEP010. #16112 von Nicolas Hug.
API-Änderung Estimators haben nun einen Tag requires_y, der standardmäßig False ist, außer bei Estimators, die von ~sklearn.base.RegressorMixin oder ~sklearn.base.ClassifierMixin erben. Dieser Tag wird verwendet, um sicherzustellen, dass eine entsprechende Fehlermeldung ausgegeben wird, wenn y erwartet wurde, aber None übergeben wurde. #16622 von Nicolas Hug.
API-Änderung Die Standardeinstellung print_changed_only wurde von False auf True geändert. Das bedeutet, dass die repr von Estimators nun prägnanter ist und nur die Parameter anzeigt, deren Standardwert geändert wurde, wenn ein Estimator ausgegeben wird. Sie können das frühere Verhalten wiederherstellen, indem Sie sklearn.set_config(print_changed_only=False) verwenden. Beachten Sie auch, dass es immer möglich ist, die Parameter eines beliebigen Estimators schnell mit est.get_params(deep=False) zu überprüfen. #17061 von Nicolas Hug.

Code- und Dokumentationsbeitragende

Vielen Dank an alle, die seit Version 0.22 zur Wartung und Verbesserung des Projekts beigetragen haben, darunter

Abbie Popa, Adrin Jalali, Aleksandra Kocot, Alexandre Batisse, Alexandre Gramfort, Alex Henrie, Alex Itkes, Alex Liang, alexshacked, Alonso Silva Allende, Ana Casado, Andreas Mueller, Angela Ambroz, Ankit810, Arie Pratama Sutiono, Arunav Konwar, Baptiste Maingret, Benjamin Beier Liu, bernie gray, Bharathi Srinivasan, Bharat Raghunathan, Bibhash Chandra Mitra, Brian Wignall, brigi, Brigitta Sipőcz, Carlos H Brandt, CastaChick, castor, cgsavard, Chiara Marmo, Chris Gregory, Christian Kastner, Christian Lorentzen, Corrie Bartelheimer, Daniël van Gelder, Daphne, David Breuer, david-cortes, dbauer9, Divyaprabha M, Edward Qian, Ekaterina Borovikova, ELNS, Emily Taylor, Erich Schubert, Eric Leung, Evgeni Chasnovski, Fabiana, Facundo Ferrín, Fan, Franziska Boenisch, Gael Varoquaux, Gaurav Sharma, Geoffrey Bolmier, Georgi Peev, gholdman1, Gonthier Nicolas, Gregory Morse, Gregory R. Lee, Guillaume Lemaitre, Gui Miotto, Hailey Nguyen, Hanmin Qin, Hao Chun Chang, HaoYin, Hélion du Mas des Bourboux, Himanshu Garg, Hirofumi Suzuki, huangk10, Hugo van Kemenade, Hye Sung Jung, indecisiveuser, inderjeet, J-A16, Jérémie du Boisberranger, Jin-Hwan CHO, JJmistry, Joel Nothman, Johann Faouzi, Jon Haitz Legarreta Gorroño, Juan Carlos Alfaro Jiménez, judithabk6, jumon, Kathryn Poole, Katrina Ni, Kesshi Jordan, Kevin Loftis, Kevin Markham, krishnachaitanya9, Lam Gia Thuan, Leland McInnes, Lisa Schwetlick, lkubin, Loic Esteve, lopusz, lrajball, lucgiffon, lucyleeow, Lucy Liu, Lukas Kemkes, Maciej J Mikulski, Madhura Jayaratne, Magda Zielinska, maikia, Mandy Gu, Manimaran, Manish Aradwad, Maren Westermann, Maria, Mariana Meireles, Marie Douriez, Marielle, Mateusz Górski, mathurinm, Matt Hall, Maura Pintor, mc4229, meyer89, m.fab, Michael Shoemaker, Michał Słapek, Mina Naghshhnejad, mo, Mohamed Maskani, Mojca Bertoncelj, narendramukherjee, ngshya, Nicholas Won, Nicolas Hug, nicolasservel, Niklas, @nkish, Noa Tamir, Oleksandr Pavlyk, olicairns, Oliver Urs Lenz, Olivier Grisel, parsons-kyle-89, Paula, Pete Green, Pierre Delanoue, pspachtholz, Pulkit Mehta, Qizhi Jiang, Quang Nguyen, rachelcjordan, raduspaimoc, Reshama Shaikh, Riccardo Folloni, Rick Mackenbach, Ritchie Ng, Roman Feldbauer, Roman Yurchak, Rory Hartong-Redden, Rüdiger Busche, Rushabh Vasani, Sambhav Kothari, Samesh Lakhotia, Samuel Duan, SanthoshBala18, Santiago M. Mola, Sarat Addepalli, scibol, Sebastian Kießling, SergioDSR, Sergul Aydore, Shiki-H, shivamgargsya, SHUBH CHATTERJEE, Siddharth Gupta, simonamaggio, smarie, Snowhite, stareh, Stephen Blystone, Stephen Marsh, Sunmi Yoon, SylvainLan, talgatomarov, tamirlan1, th0rwas, theoptips, Thomas J Fan, Thomas Li, Thomas Schmitt, Tim Nonner, Tim Vink, Tiphaine Viard, Tirth Patel, Titus Christian, Tom Dupré la Tour, trimeta, Vachan D A, Vandana Iyer, Venkatachalam N, waelbenamara, wconnell, wderose, wenliwyan, Windber, wornbb, Yu-Hang “Maxin” Tang

Version 0.23#

Version 0.23.2#

Geänderte Modelle#

Änderungsprotokoll#

Version 0.23.1#

Änderungsprotokoll#

Sonstiges#

Version 0.23.0#

Erzwingen von Keyword-Only-Argumenten#

Geänderte Modelle#

Changelog#

Sonstiges#

Diese Seite