Version 1.3#

Eine kurze Beschreibung der wichtigsten Highlights des Releases finden Sie unter Release Highlights für scikit-learn 1.3.

Legende für Changelogs

Hauptmerkmal etwas Großes, das Sie vorher nicht tun konnten.
Merkmal etwas, das Sie vorher nicht tun konnten.
Effizienz Ein bestehendes Merkmal erfordert nun möglicherweise weniger Rechenleistung oder Speicher.
Verbesserung eine sonstige kleinere Verbesserung.
Korrektur Etwas, das zuvor nicht wie dokumentiert – oder nach vernünftigen Erwartungen – funktionierte, sollte nun funktionieren.
API-Änderung Sie müssen Ihren Code ändern, um in Zukunft die gleiche Wirkung zu erzielen; oder ein Merkmal wird in Zukunft entfernt.

Version 1.3.2#

Oktober 2023

Änderungsprotokoll#

`sklearn.datasets`#

Fix Alle Dataset-Fetcher akzeptieren jetzt data_home als jedes Objekt, das die os.PathLike-Schnittstelle implementiert, z. B. pathlib.Path. #27468 von Yao Xiao.

`sklearn.decomposition`#

Fix Behebt einen Fehler in decomposition.KernelPCA, indem die Ausgabe des internen preprocessing.KernelCenterer zu einem Standardarray gezwungen wird. Wenn der arpack-Solver verwendet wird, erwartet er ein Array mit einem dtype-Attribut. #27583 von Guillaume Lemaitre.

`sklearn.metrics`#

Fix Behebt einen Fehler bei Metriken, die zero_division=np.nan verwenden (z. B. precision_score) innerhalb einer parallelen Schleife (z. B. cross_val_score), bei der das Singleton für np.nan in den Unterprozessen unterschiedlich ist. #27573 von Guillaume Lemaitre.

`sklearn.tree`#

Fix Leckt keine Daten mehr über nicht initialisierten Speicher in Entscheidungsbaum-Pickle-Dateien und macht die Generierung dieser Dateien deterministisch. #27580 von Loïc Estève.

Version 1.3.1#

September 2023

Geänderte Modelle#

Die folgenden Schätzer und Funktionen können, wenn sie mit denselben Daten und Parametern angepasst werden, andere Modelle als in der vorherigen Version ergeben. Dies geschieht häufig aufgrund von Änderungen in der Modellierungslogik (Fehlerbehebungen oder Verbesserungen) oder in zufälligen Stichprobenverfahren.

Fix Ridge-Modelle mit solver='sparse_cg' können leicht unterschiedliche Ergebnisse liefern als bei scipy>=1.12, da sich der zugrunde liegende scipy-Solver geändert hat (siehe scipy#18488 für weitere Details) #26814 von Loïc Estève

Änderungen, die alle Module betreffen#

Fix Die set_output API funktioniert korrekt mit Listen-Eingaben. #27044 von Thomas Fan.

Änderungsprotokoll#

`sklearn.calibration`#

Fix calibration.CalibratedClassifierCV kann jetzt Modelle verarbeiten, die große Vorhersagewerte erzeugen. Zuvor war dies numerisch instabil. #26913 von Omar Salman.

`sklearn.cluster`#

Fix cluster.BisectingKMeans konnte beim Vorhersagen auf Daten mit einer anderen Skala als die zum Anpassen des Modells verwendeten Daten abstürzen. #27167 von Olivier Grisel.
Fix cluster.BisectingKMeans funktioniert jetzt mit Daten, die nur eine einzige Merkmal aufweisen. #27243 von Jérémie du Boisberranger.

`sklearn.cross_decomposition`#

Fix cross_decomposition.PLSRegression ravelt nun automatisch die Ausgabe von predict, wenn mit einem eindimensionalen y angepasst wurde. #26602 von Yao Xiao.

`sklearn.ensemble`#

Fix Behebt einen Fehler in ensemble.AdaBoostClassifier mit algorithm="SAMME", bei dem die Entscheidungsfunktion jedes schwachen Lernenden symmetrisch sein sollte (d. h. die Summe der Scores sollte für eine Stichprobe Null ergeben). #26521 von Guillaume Lemaitre.

`sklearn.feature_selection`#

Fix feature_selection.mutual_info_regression berechnet nun korrekt das Ergebnis, wenn X vom ganzzahligen Typ ist. #26748 von Yao Xiao.

`sklearn.impute`#

Fix impute.KNNImputer fügt jetzt korrekt eine fehlende Indikatorspalte in transform hinzu, wenn add_indicator auf True gesetzt ist und fehlende Werte während fit beobachtet werden. #26600 von Shreesha Kumar Bhat.

`sklearn.metrics`#

Fix Mit metrics.get_scorer verwendete Scorer behandeln jetzt Multilabel-Indikator-Matrizen korrekt. #27002 von Guillaume Lemaitre.

`sklearn.mixture`#

Fix Die Initialisierung von mixture.GaussianMixture aus vom Benutzer bereitgestellten precisions_init für covariance_type von full oder tied war nicht korrekt und wurde behoben. #26416 von Yang Tao.

`sklearn.neighbors`#

Fix neighbors.KNeighborsClassifier.predict löst keine Ausnahme mehr für Eingaben vom Typ pandas.DataFrames aus. #26772 von Jérémie du Boisberranger.
Fix sklearn.neighbors.BallTree.valid_metrics und sklearn.neighbors.KDTree.valid_metrics werden als öffentliche Klassenattribute wieder eingeführt. #26754 von Julien Jerphanion.
Fix sklearn.model_selection.HalvingRandomSearchCV löst keine Ausnahme mehr aus, wenn die Eingabe für den Parameter param_distributions eine Liste von Dictionaries ist. #26893 von Stefanie Senger.
Fix Schätzer, die auf Nachbarn basieren, funktionieren jetzt korrekt, wenn metric="minkowski" und der Metrikparameter p im Bereich 0 < p < 1 liegt, unabhängig vom dtype von X. #26760 von Shreesha Kumar Bhat.

`sklearn.preprocessing`#

Fix preprocessing.LabelEncoder akzeptiert jetzt y korrekt als Schlüsselwortargument. #26940 von Thomas Fan.
Fix preprocessing.OneHotEncoder zeigt eine informativere Fehlermeldung an, wenn sparse_output=True ist und die Ausgabe für Pandas konfiguriert ist. #26931 von Thomas Fan.

`sklearn.tree`#

Fix tree.plot_tree akzeptiert jetzt class_names=True wie dokumentiert. #26903 von Thomas Roehr
Fix Der Parameter feature_names von tree.plot_tree akzeptiert jetzt jede Art von Array-ähnlichem Typ anstelle nur einer Liste. #27292 von Rahil Parikh.

Version 1.3.0#

Juni 2023

Geänderte Modelle#

Die folgenden Schätzer und Funktionen können, wenn sie mit denselben Daten und Parametern angepasst werden, andere Modelle als in der vorherigen Version ergeben. Dies geschieht häufig aufgrund von Änderungen in der Modellierungslogik (Fehlerbehebungen oder Verbesserungen) oder in zufälligen Stichprobenverfahren.

Enhancement multiclass.OutputCodeClassifier.predict verwendet jetzt eine effizientere paarweise Distanzreduktion. Infolgedessen ist die Tie-Breaking-Strategie anders und die vorhergesagten Labels können daher unterschiedlich sein. #25196 von Guillaume Lemaitre.
Enhancement Die Methode fit_transform von decomposition.DictionaryLearning ist effizienter, kann aber im Vergleich zu früheren Versionen unterschiedliche Ergebnisse liefern, wenn transform_algorithm nicht mit fit_algorithm übereinstimmt und die Anzahl der Iterationen gering ist. #24871 von Omar Salman.
Enhancement Der Parameter sample_weight wird jetzt bei der Zentroideninitialisierung für cluster.KMeans, cluster.BisectingKMeans und cluster.MiniBatchKMeans verwendet. Diese Änderung bricht die Abwärtskompatibilität, da Zahlen, die aus denselben Zufallssamen generiert werden, unterschiedlich sein werden. #25752 von Hleb Levitski, Jérémie du Boisberranger, Guillaume Lemaitre.
Fix Kleine Werte in den Matrizen W und H während der fit- und transform-Schritte von decomposition.NMF und decomposition.MiniBatchNMF werden konsistenter behandelt, was zu unterschiedlichen Ergebnissen als in früheren Versionen führen kann. #25438 von Yotam Avidar-Constantini.
Fix decomposition.KernelPCA kann durch inverse_transform unterschiedliche Ergebnisse liefern, wenn gamma None ist. Jetzt wird es korrekt als 1/n_features der Daten gewählt, auf denen es angepasst wurde, während es zuvor fälschlicherweise als 1/n_features der Daten gewählt werden konnte, die an inverse_transform übergeben wurden. Ein neues Attribut gamma_ wird bereitgestellt, um den tatsächlichen Wert von gamma anzuzeigen, der jedes Mal verwendet wird, wenn der Kernel aufgerufen wird. #26337 von Yao Xiao.

Geänderte Anzeigen#

Enhancement model_selection.LearningCurveDisplay zeigt standardmäßig sowohl die Trainings- als auch die Testkurven an. Sie können score_type="test" setzen, um das frühere Verhalten beizubehalten. #25120 von Guillaume Lemaitre.
Fix model_selection.ValidationCurveDisplay akzeptiert jetzt das Übergeben einer Liste an den Parameter param_range. #27311 von Arturo Amor.

Änderungen, die alle Module betreffen#

Enhancement Die Methode get_feature_names_out der folgenden Klassen löst jetzt eine NotFittedError aus, wenn die Instanz nicht angepasst wurde. Dies stellt sicher, dass der Fehler bei allen Schätzern mit der Methode get_feature_names_out konsistent ist.
Die NotFittedError zeigt eine informative Nachricht an, die zur Anpassung der Instanz mit den entsprechenden Argumenten auffordert.

#25294, #25308, #25291, #25367, #25402, von John Pangas, Rahil Parikh , und Alex Buzenet.
Enhancement Eine Multi-Thread-Cython-Routine wurde zur Berechnung von quadrierten euklidischen Distanzen (manchmal gefolgt von einer Fused-Reduktionsoperation) für ein Paar von Datensätzen hinzugefügt, bestehend aus einer spärlichen CSR-Matrix und einem dichten NumPy-Array.

Dies kann die Leistung der folgenden Funktionen und Schätzer verbessern
Ein typisches Beispiel für diese Leistungsverbesserung tritt auf, wenn eine spärliche CSR-Matrix an die Methoden predict oder transform von Schätzern übergeben wird, die eine dichte NumPy-Repräsentation zur Speicherung ihrer angepassten Parameter (oder umgekehrt) verwenden.

Zum Beispiel ist sklearn.neighbors.NearestNeighbors.kneighbors in diesem Fall auf gängigen Laptops bis zu 2x schneller.

#25044 von Julien Jerphanion.
Enhancement Alle Schätzer, die intern OpenMP-Multithreading (über Cython) verwenden, nutzen jetzt standardmäßig eine Anzahl von Threads, die der Anzahl physischer (anstelle von logischen) Kerne entspricht. In der Vergangenheit haben wir beobachtet, dass die Verwendung von so vielen Threads wie logische Kerne auf SMT-Hosts je nach Algorithmen und Datenform zu erheblichen Leistungsproblemen führen konnte. Beachten Sie, dass es immer noch möglich ist, die von OpenMP verwendete Anzahl von Threads manuell anzupassen, wie in Parallelism dokumentiert.

#26082 von Jérémie du Boisberranger und Olivier Grisel.

Experimentell / In Entwicklung#

Major Feature Die mit Metadata Routing verbundenen Basis-Methoden sind in diesem Release enthalten. Dieses Feature ist nur über das Feature-Flag enable_metadata_routing verfügbar, das mit sklearn.set_config und sklearn.config_context aktiviert werden kann. Vorerst ist dieses Feature hauptsächlich für Drittentwickler nützlich, um ihre Codebasis für das Metadata-Routing vorzubereiten, und wir empfehlen dringend, dass sie es ebenfalls hinter demselben Feature-Flag verbergen, anstatt es standardmäßig zu aktivieren. #24027 von Adrin Jalali, Benjamin Bossan, und Omar Salman.

Änderungsprotokoll#

`sklearn`#

Feature Eine neue Option skip_parameter_validation wurde zur Funktion sklearn.set_config und zum Kontextmanager sklearn.config_context hinzugefügt, die es ermöglicht, die Validierung der an Schätzer und öffentliche Funktionen übergebenen Parameter zu überspringen. Dies kann nützlich sein, um den Code zu beschleunigen, sollte aber mit Vorsicht verwendet werden, da es zu unerwarteten Verhaltensweisen führen oder obskure Fehlermeldungen auslösen kann, wenn ungültige Parameter gesetzt werden. #25815 von Jérémie du Boisberranger.

`sklearn.base`#

Feature Ein Protokoll __sklearn_clone__ ist jetzt verfügbar, um das Standardverhalten von base.clone zu überschreiben. #24568 von Thomas Fan.
Fix base.TransformerMixin behält nun den Klassennamen eines Named-Tuples bei, wenn transform ein Named-Tuple zurückgibt. #26121 von Thomas Fan.

`sklearn.calibration`#

Fix calibration.CalibratedClassifierCV erzwingt nun keine Sample-Ausrichtung mehr auf fit_params. #25805 von Adrin Jalali.

`sklearn.cluster`#

Major Feature Hinzugefügt wurde cluster.HDBSCAN, ein moderner hierarchischer dichte-basierter Clustering-Algorithmus. Ähnlich wie cluster.OPTICS kann er als Verallgemeinerung von cluster.DBSCAN betrachtet werden, indem er hierarchisches statt flaches Clustering erlaubt. Seine Vorgehensweise unterscheidet sich jedoch von cluster.OPTICS. Dieser Algorithmus ist sehr robust hinsichtlich der Werte seiner Hyperparameter und kann ohne viel oder gar keine Abstimmung auf einer Vielzahl von Daten verwendet werden.

Diese Implementierung ist eine Anpassung der ursprünglichen Implementierung von HDBSCAN in scikit-learn-contrib/hdbscan von Leland McInnes et al.

#26385 von Meekail Zain
Enhancement Der Parameter sample_weight wird jetzt bei der Zentroideninitialisierung für cluster.KMeans, cluster.BisectingKMeans und cluster.MiniBatchKMeans verwendet. Diese Änderung bricht die Abwärtskompatibilität, da Zahlen, die aus denselben Zufallssamen generiert werden, unterschiedlich sein werden. #25752 von Hleb Levitski, Jérémie du Boisberranger, Guillaume Lemaitre.
Fix cluster.KMeans, cluster.MiniBatchKMeans und cluster.k_means behandeln nun korrekt die Kombination von n_init="auto" und init als Array-ähnlich, und führen in diesem Fall eine Initialisierung durch. #26657 von Binesh Bannerjee.
API Change Der Parameter sample_weight in predict für cluster.KMeans.predict und cluster.MiniBatchKMeans.predict ist nun veraltet und wird in v1.5 entfernt. #25251 von Hleb Levitski.
API Change Das Argument Xred in cluster.FeatureAgglomeration.inverse_transform wird in Xt umbenannt und in v1.5 entfernt. #26503 von Adrin Jalali.

`sklearn.compose`#

Fix compose.ColumnTransformer löst eine informative Fehlermeldung aus, wenn die einzelnen Transformer von ColumnTransformer Pandas DataFrames mit inkonsistenten Indizes ausgeben und die Ausgabe als Pandas konfiguriert ist. #26286 von Thomas Fan.
Fix compose.ColumnTransformer setzt korrekt die Ausgabe des Rests, wenn set_output aufgerufen wird. #26323 von Thomas Fan.

`sklearn.covariance`#

Fix Ermöglicht alpha=0 in covariance.GraphicalLasso zur Konsistenz mit covariance.graphical_lasso. #26033 von Genesis Valencia.
Fix covariance.empirical_covariance gibt nun eine informative Fehlermeldung aus, wenn die Eingabe ungeeignet ist. #26108 von Quentin Barthélemy.
API Change cov_init in covariance.graphical_lasso wird in 1.3 als veraltet markiert, da der Parameter keine Auswirkung hat. Er wird in 1.5 entfernt. #26033 von Genesis Valencia.
API Change Fügt das Fitted-Attribut costs_ in covariance.GraphicalLasso und covariance.GraphicalLassoCV hinzu. #26033 von Genesis Valencia.
API Change Fügt den Parameter covariance in covariance.GraphicalLasso hinzu. #26033 von Genesis Valencia.
API Change Fügt den Parameter eps in covariance.GraphicalLasso, covariance.graphical_lasso und covariance.GraphicalLassoCV hinzu. #26033 von Genesis Valencia.

`sklearn.datasets`#

Enhancement Ermöglicht das Überschreiben der Parameter zum Öffnen der ARFF-Datei über den Parameter read_csv_kwargs in datasets.fetch_openml bei Verwendung des Pandas-Parsers. #26433 von Guillaume Lemaitre.
Fix datasets.fetch_openml gibt verbesserte Datentypen zurück, wenn as_frame=True und parser="liac-arff" verwendet werden. #26386 von Thomas Fan.
Fix Gemäß den ARFF-Spezifikationen wird nur das Zeichen "?" als fehlender Wert betrachtet, wenn ARFF-Dateien, die mit datasets.fetch_openml abgerufen wurden, mit dem Pandas-Parser geöffnet werden. Der Parameter read_csv_kwargs ermöglicht das Überschreiben dieses Verhaltens. #26551 von Guillaume Lemaitre.
Fix datasets.fetch_openml verwendet konsistent np.nan als Marker für fehlende Werte mit beiden Parsern "pandas" und "liac-arff". #26579 von Guillaume Lemaitre.
API Change Das Argument data_transposed von datasets.make_sparse_coded_signal ist veraltet und wird in v1.5 entfernt. #25784 von @Jérémie du Boisberranger.

`sklearn.decomposition`#

Efficiency decomposition.MiniBatchDictionaryLearning und decomposition.MiniBatchSparsePCA sind nun für kleine Batch-Größen schneller, da doppelte Validierungen vermieden werden. #25490 von Jérémie du Boisberranger.
Enhancement decomposition.DictionaryLearning akzeptiert nun den Parameter callback zur Konsistenz mit der Funktion decomposition.dict_learning. #24871 von Omar Salman.
Fix Kleine Werte in den Matrizen W und H während der fit- und transform-Schritte von decomposition.NMF und decomposition.MiniBatchNMF werden konsistenter behandelt, was zu unterschiedlichen Ergebnissen als in früheren Versionen führen kann. #25438 von Yotam Avidar-Constantini.
API Change Das Argument W in decomposition.NMF.inverse_transform und decomposition.MiniBatchNMF.inverse_transform wird in Xt umbenannt und in v1.5 entfernt. #26503 von Adrin Jalali.

`sklearn.discriminant_analysis`#

Enhancement discriminant_analysis.LinearDiscriminantAnalysis unterstützt nun PyTorch. Weitere Details finden Sie unter Array-API-Unterstützung (experimentell). #25956 von Thomas Fan.

`sklearn.ensemble`#

Feature ensemble.HistGradientBoostingRegressor unterstützt nun die Gamma-Devianz-Verlustfunktion über loss="gamma". Die Verwendung der Gamma-Devianz als Verlustfunktion ist nützlich für die Modellierung von schief verteilten, streng positiven Zielvariablen. #22409 von Christian Lorentzen.
Feature Berechnen Sie einen benutzerdefinierten Out-of-Bag-Score, indem Sie eine aufrufbare Funktion an ensemble.RandomForestClassifier, ensemble.RandomForestRegressor, ensemble.ExtraTreesClassifier und ensemble.ExtraTreesRegressor übergeben. #25177 von Tim Head.
Feature ensemble.GradientBoostingClassifier gibt nun Out-of-Bag-Scores über die Attribute oob_scores_ oder oob_score_ aus. #24882 von Ashwin Mathur.
Efficiency Die Vorhersagezeit von ensemble.IsolationForest ist nun schneller (typischerweise um den Faktor 8 oder mehr). Intern berechnet der Schätzer nun im fit-Zeitpunkt die Entscheidungspfadlängen pro Baum. Daher ist es nicht möglich, einen mit scikit-learn 1.2 trainierten Schätzer zu laden, um Vorhersagen mit scikit-learn 1.3 zu treffen: Ein Retraining mit scikit-learn 1.3 ist erforderlich. #25186 von Felipe Breve Siola.
Efficiency ensemble.RandomForestClassifier und ensemble.RandomForestRegressor mit warm_start=True berechnen Out-of-Bag-Scores nur noch neu, wenn bei nachfolgenden fit-Aufrufen tatsächlich mehr n_estimators vorhanden sind. #26318 von Joshua Choo Yun Keat.
Enhancement ensemble.BaggingClassifier und ensemble.BaggingRegressor geben den Tag allow_nan des zugrunde liegenden Schätzers aus. #25506 von Thomas Fan.
Fix ensemble.RandomForestClassifier.fit setzt max_samples = 1, wenn max_samples ein Float ist und round(n_samples * max_samples) < 1 ist. #25601 von Jan Fidor.
Fix ensemble.IsolationForest.fit gibt keine Warnung mehr wegen fehlender Feature-Namen aus, wenn es mit contamination ungleich "auto" auf einem Pandas DataFrame aufgerufen wird. #25931 von Yao Xiao.
Fix ensemble.HistGradientBoostingRegressor und ensemble.HistGradientBoostingClassifier behandeln negative Werte für kategoriale Features konsistent als fehlende Werte, im Einklang mit den Konventionen von LightGBM und Pandas. #25629 von Thomas Fan.
Fix Korrigiert die Veraltung von base_estimator in ensemble.AdaBoostClassifier und ensemble.AdaBoostRegressor, die in #23819 eingeführt wurde. #26242 von Marko Toplak.

`sklearn.exceptions`#

Feature Hinzugefügt wurde exceptions.InconsistentVersionWarning, die ausgelöst wird, wenn ein scikit-learn-Schätzer mit einer scikit-learn-Version entpickelt wird, die inkonsistent mit der scikit-learn-Version ist, mit der der Schätzer entpickelt wurde. #25297 von Thomas Fan.

`sklearn.feature_extraction`#

API Change feature_extraction.image.PatchExtractor folgt nun der Transformer-API von scikit-learn. Diese Klasse ist als zustandslose Transformation definiert, was bedeutet, dass fit vor dem Aufruf von transform nicht aufgerufen werden muss. Die Parameterprüfung erfolgt nur zum Zeitpunkt von fit. #24230 von Guillaume Lemaitre.

`sklearn.feature_selection`#

Enhancement Alle Selektoren in sklearn.feature_selection erhalten bei der Transformation den dtype eines DataFrames. #25102 von Thomas Fan.
Fix Der Parameter cv von feature_selection.SequentialFeatureSelector unterstützt nun Generatoren. #25973 von Yao Xiao <Charlie-XIAO>.

`sklearn.impute`#

Enhancement Hinzugefügt wurde der Parameter fill_value zu impute.IterativeImputer. #25232 von Thijs van Weezel.
Fix impute.IterativeImputer bewahrt nun korrekt den Pandas Index, wenn set_config(transform_output="pandas") verwendet wird. #26454 von Thomas Fan.

`sklearn.inspection`#

Enhancement Unterstützung für sample_weight in inspection.partial_dependence und inspection.PartialDependenceDisplay.from_estimator hinzugefügt. Dies ermöglicht eine gewichtete Mittelung bei der Aggregation für jeden Wert des Rasters, auf dem die Inspektion durchgeführt wird. Die Option ist nur verfügbar, wenn method auf brute gesetzt ist. #25209 und #26644 von Carlo Lemos.
API-Änderung inspection.partial_dependence gibt einen utils.Bunch mit neuem Schlüssel zurück: grid_values. Der Schlüssel values wird zugunsten von grid_values als veraltet markiert und der Schlüssel values wird in Version 1.5 entfernt. #21809 und #25732 von Thomas Fan.

`sklearn.kernel_approximation`#

Korrektur kernel_approximation.AdditiveChi2Sampler ist jetzt zustandslos. Das Attribut sample_interval_ ist veraltet und wird in Version 1.5 entfernt. #25190 von Vincent Maladière.

`sklearn.linear_model`#

Effizienz Vermeidet Datenskalierung, wenn sample_weight=None ist, sowie weitere unnötige Datenkopien und unerwartete Dichte-zu-Dichte-Konvertierungen in linear_model.LinearRegression. #26207 von Olivier Grisel.
Verbesserung linear_model.SGDClassifier, linear_model.SGDRegressor und linear_model.SGDOneClassSVM behalten jetzt den dtype für numpy.float32 bei. #25587 von Omar Salman.
Verbesserung Das Attribut n_iter_ wurde in linear_model.ARDRegression aufgenommen, um die tatsächliche Anzahl von Iterationen anzuzeigen, die zur Erreichung des Stoppkriteriums erforderlich sind. #25697 von John Pangas.
Korrektur Verwendung eines robusteren Kriteriums zur Erkennung der Konvergenz von linear_model.LogisticRegression mit penalty="l1" und solver="liblinear" bei linear separierbaren Problemen. #25214 von Tom Dupre la Tour.
Korrektur Behebt einen Absturz beim Aufruf von fit für linear_model.LogisticRegression mit solver="newton-cholesky" und max_iter=0, der die Zustandsprüfung des Modells vor der ersten Parameteraktualisierung fehlschlagen ließ. #26653 von Olivier Grisel.
API-Änderung n_iter ist zugunsten von max_iter in linear_model.BayesianRidge und linear_model.ARDRegression veraltet. n_iter wird in scikit-learn 1.5 entfernt. Diese Änderung macht diese Schätzer mit den restlichen Schätzern konsistent. #25697 von John Pangas.

`sklearn.manifold`#

Korrektur manifold.Isomap behält jetzt korrekt den Pandas Index bei, wenn set_config(transform_output="pandas") verwendet wird. #26454 von Thomas Fan.

`sklearn.metrics`#

Funktion Fügt zero_division=np.nan zu mehreren Klassifikationsmetriken hinzu: metrics.precision_score, metrics.recall_score, metrics.f1_score, metrics.fbeta_score, metrics.precision_recall_fscore_support, metrics.classification_report. Wenn zero_division=np.nan und eine Nullteilung auftritt, ist die Metrik undefiniert und wird von der Mittelwertbildung ausgeschlossen. Wenn sie nicht für Mittelwerte verwendet wird, ist der zurückgegebene Wert np.nan. #25531 von Marc Torrellas Socastro.
Funktion metrics.average_precision_score unterstützt jetzt den Multiklassenfall. #17388 von Geoffrey Bolmier und #24769 von Ashwin Mathur.
Effizienz Die Berechnung der erwarteten gegenseitigen Information in metrics.adjusted_mutual_info_score ist jetzt schneller, wenn die Anzahl der eindeutigen Labels groß ist, und der Speicherverbrauch ist generell reduziert. #25713 von Kshitij Mathur, Guillaume Lemaitre, Omar Salman und Jérémie du Boisberranger.
Verbesserung metrics.silhouette_samples akzeptiert jetzt eine spärliche Matrix von paarweisen Distanzen zwischen Stichproben oder ein Feature-Array. #18723 von Sahil Gupta und #24677 von Ashwin Mathur.
Verbesserung Ein neuer Parameter drop_intermediate wurde zu metrics.precision_recall_curve, metrics.PrecisionRecallDisplay.from_estimator, metrics.PrecisionRecallDisplay.from_predictions hinzugefügt, der einige suboptimale Schwellenwerte verwirft, um leichtere Präzisions-Recall-Kurven zu erstellen. #24668 von @dberenbaum.
Verbesserung metrics.RocCurveDisplay.from_estimator und metrics.RocCurveDisplay.from_predictions akzeptieren jetzt zwei neue Schlüsselwörter, plot_chance_level und chance_level_kw, um die Basis-Chance-Level zu plotten. Diese Linie wird im Attribut chance_level_ exponiert. #25987 von Yao Xiao.
Verbesserung metrics.PrecisionRecallDisplay.from_estimator und metrics.PrecisionRecallDisplay.from_predictions akzeptieren jetzt zwei neue Schlüsselwörter, plot_chance_level und chance_level_kw, um die Basis-Chance-Level zu plotten. Diese Linie wird im Attribut chance_level_ exponiert. #26019 von Yao Xiao.
Korrektur metrics.pairwise.manhattan_distances unterstützt jetzt schreibgeschützte spärliche Datensätze. #25432 von Julien Jerphanion.
Korrektur metrics.classification_report wurde korrigiert, so dass leere Eingaben np.nan zurückgeben. Zuvor gab "macro avg" und "weighted avg" z.B. f1-score=np.nan und f1-score=0.0 zurück, was inkonsistent war. Jetzt geben beide np.nan zurück. #25531 von Marc Torrellas Socastro.
Korrektur metrics.ndcg_score gibt jetzt eine aussagekräftige Fehlermeldung für Eingaben der Länge 1 aus. #25672 von Lene Preuss und Wei-Chun Chu.
Korrektur metrics.log_loss gibt eine Warnung aus, wenn die Werte des Parameters y_pred nicht normalisiert sind, anstatt sie in der Metrik zu normalisieren. Ab Version 1.5 wird dies einen Fehler auslösen. #25299 von @Omar Salman <OmarManzoor.
Korrektur In metrics.roc_curve wird der Schwellenwert np.inf anstelle des willkürlichen max(y_score) + 1 verwendet. Dieser Schwellenwert ist mit dem ROC-Kurvenpunkt tpr=0 und fpr=0 verbunden. #26194 von Guillaume Lemaitre.
Korrektur Die Metrik 'matching' wurde mit SciPy>=1.9 entfernt, um sie mit scipy.spatial.distance konsistent zu halten, das 'matching' nicht mehr unterstützt. #26264 von Barata T. Onggo
API-Änderung Der Parameter eps der Funktion metrics.log_loss ist veraltet und wird in Version 1.5 entfernt. #25299 von Omar Salman.

`sklearn.gaussian_process`#

Korrektur gaussian_process.GaussianProcessRegressor hat ein neues Argument n_targets, das verwendet wird, um die Anzahl der Ausgaben bei der Stichprobenziehung aus den Prior-Verteilungen zu bestimmen. #23099 von Zhehao Liu.

`sklearn.mixture`#

Effizienz mixture.GaussianMixture ist jetzt effizienter und umgeht unnötige Initialisierung, wenn Gewichte, Mittelwerte und Präzisionen vom Benutzer bereitgestellt werden. #26021 von Jiawei Zhang.

`sklearn.model_selection`#

Hauptfunktion Fügt die Klasse model_selection.ValidationCurveDisplay hinzu, die das einfache Plotten von Validierungskurven ermöglicht, die von der Funktion model_selection.validation_curve erhalten wurden. #25120 von Guillaume Lemaitre.
API-Änderung Der Parameter log_scale in der Methode plot der Klasse model_selection.LearningCurveDisplay ist in Version 1.3 veraltet und wird in Version 1.5 entfernt. Die Standard-Skalierung kann überschrieben werden, indem sie direkt auf dem ax-Objekt gesetzt wird, und wird andernfalls automatisch aus dem Abstand der Datenpunkte gesetzt. #25120 von Guillaume Lemaitre.
Verbesserung model_selection.cross_validate akzeptiert einen neuen Parameter return_indices, um die Trainings-Test-Indizes jeder CV-Aufteilung zurückzugeben. #25659 von Guillaume Lemaitre.

`sklearn.multioutput`#

Korrektur getattr auf multioutput.MultiOutputRegressor.partial_fit und multioutput.MultiOutputClassifier.partial_fit löst jetzt korrekt einen AttributeError aus, wenn er vor dem Aufruf von fit erfolgt. #26333 von Adrin Jalali.

`sklearn.naive_bayes`#

Korrektur naive_bayes.GaussianNB löst keine ZeroDivisionError mehr aus, wenn das bereitgestellte sample_weight das Problem in fit auf eine einzige Klasse reduziert. #24140 von Jonathan Ohayon und Chiara Marmo.

`sklearn.neighbors`#

Verbesserung Die Leistung von neighbors.KNeighborsClassifier.predict und neighbors.KNeighborsClassifier.predict_proba wurde verbessert, wenn n_neighbors groß ist und algorithm="brute" mit nicht-euklidischen Metriken verwendet wird. #24076 von Meekail Zain, Julien Jerphanion.
Korrektur Entfernt die Unterstützung für KulsinskiDistance in neighbors.BallTree. Diese Unähnlichkeit ist keine Metrik und kann vom BallTree nicht unterstützt werden. #25417 von Guillaume Lemaitre.
API-Änderung Die Unterstützung für andere Metriken als euclidean und manhattan sowie für aufrufbare Funktionen in neighbors.NearestNeighbors ist veraltet und wird in Version 1.5 entfernt. #24083 von Valentin Laurent.

`sklearn.neural_network`#

Korrektur neural_network.MLPRegressor und neural_network.MLPClassifier melden die korrekte Anzahl von Iterationen n_iter_, wenn warm_start=True ist. Dies entspricht der Anzahl der Iterationen, die bei dem aktuellen Aufruf von fit durchgeführt wurden, anstatt der Gesamtzahl der seit der Initialisierung des Schätzers durchgeführten Iterationen. #25443 von Marvin Krawutschke.

`sklearn.pipeline`#

Funktion pipeline.FeatureUnion kann jetzt Indexierungsnotation (z.B. feature_union["scalar"]) verwenden, um Transformer nach Namen zuzugreifen. #25093 von Thomas Fan.
Funktion pipeline.FeatureUnion kann jetzt auf das Attribut feature_names_in_ zugreifen, wenn der bei .fit gesehene X-Wert ein columns-Attribut hat und alle Spalten Zeichenketten sind. Z.B. wenn X ein pandas.DataFrame ist. #25220 von Ian Thompson.
Korrektur pipeline.Pipeline.fit_transform löst jetzt einen AttributeError aus, wenn der letzte Schritt der Pipeline fit_transform nicht unterstützt. #26325 von Adrin Jalali.

`sklearn.preprocessing`#

Hauptfunktion Einführung von preprocessing.TargetEncoder, einer kategorialen Kodierung, die auf dem Zielmittelwert basiert, konditioniert auf den Wert der Kategorie. #25334 von Thomas Fan.
Funktion preprocessing.OrdinalEncoder unterstützt jetzt die Gruppierung seltener Kategorien zu einer einzigen Merkmal. Die Gruppierung seltener Kategorien wird durch Angabe, wie seltene Kategorien ausgewählt werden sollen, mit min_frequency oder max_categories aktiviert. #25677 von Thomas Fan.
Verbesserung preprocessing.PolynomialFeatures berechnet jetzt a priori die Anzahl der erweiterten Terme, wenn spärliche csr-Matrizen behandelt werden, um die Wahl des dtype für indices und indptr zu optimieren. Es kann jetzt csr-Matrizen mit np.int32 indices/indptr-Komponenten ausgeben, wenn es wenige Elemente gibt, und verwendet automatisch np.int64 für ausreichend große Matrizen. #20524 von niuk-a und #23731 von Meekail Zain
Verbesserung Ein neuer Parameter sparse_output wurde zu preprocessing.SplineTransformer hinzugefügt, verfügbar ab SciPy 1.8. Wenn sparse_output=True, gibt preprocessing.SplineTransformer eine spärliche CSR-Matrix zurück. #24145 von Christian Lorentzen.
Erweiterung Fügt einen Parameter feature_name_combiner zu preprocessing.OneHotEncoder hinzu. Dieser spezifiziert einen benutzerdefinierten aufrufbaren Funktionsaufruf, um Feature-Namen zu erstellen, die von preprocessing.OneHotEncoder.get_feature_names_out zurückgegeben werden. Der aufrufbare Funktionsaufruf kombiniert die Eingabeargumente (input_feature, category) zu einem String. #22506 von Mario Kostelac.
Erweiterung Unterstützung für sample_weight in preprocessing.KBinsDiscretizer hinzugefügt. Dies ermöglicht die Angabe des Parameters sample_weight für jede Stichprobe, die beim Anpassen verwendet werden soll. Die Option ist nur verfügbar, wenn strategy auf quantile und kmeans gesetzt ist. #24935 von Seladus, Guillaume Lemaitre und Dea María Léon, #25257 von Hleb Levitski.
Erweiterung Subsampling über den Parameter subsample kann nun in preprocessing.KBinsDiscretizer unabhängig von der verwendeten Strategie verwendet werden. #26424 von Jérémie du Boisberranger.
Korrektur preprocessing.PowerTransformer bewahrt den Pandas Index nun korrekt, wenn set_config(transform_output="pandas") verwendet wird. #26454 von Thomas Fan.
Korrektur preprocessing.PowerTransformer wirft nun korrekt einen Fehler, wenn method="box-cox" auf Daten mit einer konstanten np.nan Spalte verwendet wird. #26400 von Yao Xiao.
Korrektur preprocessing.PowerTransformer mit method="yeo-johnson" lässt konstante Features unverändert anstatt mit einem beliebigen Wert für den angepassten Parameter lambdas_ zu transformieren. #26566 von Jérémie du Boisberranger.
API-Änderung Der Standardwert des Parameters subsample von preprocessing.KBinsDiscretizer ändert sich von None auf 200_000 in Version 1.5, wenn strategy="kmeans" oder strategy="uniform". #26424 von Jérémie du Boisberranger.

`sklearn.svm`#

API-Änderung Der Parameter dual akzeptiert nun die Option auto für svm.LinearSVC und svm.LinearSVR. #26093 von Hleb Levitski.

`sklearn.tree`#

Hauptfunktion tree.DecisionTreeRegressor und tree.DecisionTreeClassifier unterstützen fehlende Werte, wenn splitter='best' und das Kriterium gini, entropy oder log_loss für Klassifikation oder squared_error, friedman_mse oder poisson für Regression ist. #23595, #26376 von Thomas Fan.
Erweiterung Fügt einen Parameter class_names zu tree.export_text hinzu. Dies ermöglicht die Angabe des Parameters class_names für jede Zielklasse in aufsteigender numerischer Reihenfolge. #25387 von William M und crispinlogan.
Korrektur tree.export_graphviz und tree.export_text akzeptieren nun feature_names und class_names als array-ähnlich anstelle von Listen. #26289 von Yao Xiao

`sklearn.utils`#

Korrektur Korrigiert utils.check_array, um Pandas Extension Arrays ordnungsgemäß zu konvertieren. #25813 und #26106 von Thomas Fan.
Korrektur utils.check_array unterstützt nun Pandas DataFrames mit Extension Arrays und Objekt-Datentypen, indem es ein ndarray mit Objekt-Datentyp zurückgibt. #25814 von Thomas Fan.
API-Änderung utils.estimator_checks.check_transformers_unfitted_stateless wurde eingeführt, um sicherzustellen, dass zustandslose Transformer bei transform ohne vorherigen Aufruf von fit oder fit_transform keine NotFittedError auslösen. #25190 von Vincent Maladière.
API-Änderung Eine FutureWarning wird nun ausgelöst, wenn eine Klasse instanziiert wird, die von einer veralteten Basisklasse erbt (d. h. dekoriert mit utils.deprecated) und die __init__ Methode überschreibt. #25733 von Brigitta Sipőcz und Jérémie du Boisberranger.

`sklearn.semi_supervised`#

Erweiterung semi_supervised.LabelSpreading.fit und semi_supervised.LabelPropagation.fit akzeptieren nun Sparse-Metriken. #19664 von Kaushik Amar Das.

Sonstiges#

Erweiterung Veraltete Ausnahmen EnvironmentError, IOError und WindowsError ersetzt. #26466 von Dimitri Papadopoulos ORfanos.

Code- und Dokumentationsbeitragende

Vielen Dank an alle, die seit Version 1.2 zur Wartung und Verbesserung des Projekts beigetragen haben, einschließlich

2357juan, Abhishek Singh Kushwah, Adam Handke, Adam Kania, Adam Li, adienes, Admir Demiraj, adoublet, Adrin Jalali, A.H.Mansouri, Ahmedbgh, Ala-Na, Alex Buzenet, AlexL, Ali H. El-Kassas, amay, András Simon, André Pedersen, Andrew Wang, Ankur Singh, annegnx, Ansam Zedan, Anthony22-dev, Artur Hermano, Arturo Amor, as-90, ashah002, Ashish Dutt, Ashwin Mathur, AymericBasset, Azaria Gebremichael, Barata Tripramudya Onggo, Benedek Harsanyi, Benjamin Bossan, Bharat Raghunathan, Binesh Bannerjee, Boris Feld, Brendan Lu, Brevin Kunde, cache-missing, Camille Troillard, Carla J, carlo, Carlo Lemos, c-git, Changyao Chen, Chiara Marmo, Christian Lorentzen, Christian Veenhuis, Christine P. Chai, crispinlogan, Da-Lan, DanGonite57, Dave Berenbaum, davidblnc, david-cortes, Dayne, Dea María Léon, Denis, Dimitri Papadopoulos Orfanos, Dimitris Litsidis, Dmitry Nesterov, Dominic Fox, Dominik Prodinger, Edern, Ekaterina Butyugina, Elabonga Atuo, Emir, farhan khan, Felipe Siola, futurewarning, Gael Varoquaux, genvalen, Hleb Levitski, Guillaume Lemaitre, gunesbayir, Haesun Park, hujiahong726, i-aki-y, Ian Thompson, Ido M, Ily, Irene, Jack McIvor, jakirkham, James Dean, JanFidor, Jarrod Millman, JB Mountford, Jérémie du Boisberranger, Jessicakk0711, Jiawei Zhang, Joey Ortiz, JohnathanPi, John Pangas, Joshua Choo Yun Keat, Joshua Hedlund, JuliaSchoepp, Julien Jerphanion, jygerardy, ka00ri, Kaushik Amar Das, Kento Nozawa, Kian Eliasi, Kilian Kluge, Lene Preuss, Linus, Logan Thomas, Loic Esteve, Louis Fouquet, Lucy Liu, Madhura Jayaratne, Marc Torrellas Socastro, Maren Westermann, Mario Kostelac, Mark Harfouche, Marko Toplak, Marvin Krawutschke, Masanori Kanazu, mathurinm, Matt Haberland, Max Halford, maximeSaur, Maxwell Liu, m. bou, mdarii, Meekail Zain, Mikhail Iljin, murezzda, Nawazish Alam, Nicola Fanelli, Nightwalkx, Nikolay Petrov, Nishu Choudhary, NNLNR, npache, Olivier Grisel, Omar Salman, ouss1508, PAB, Pandata, partev, Peter Piontek, Phil, pnucci, Pooja M, Pooja Subramaniam, precondition, Quentin Barthélemy, Rafal Wojdyla, Raghuveer Bhat, Rahil Parikh, Ralf Gommers, ram vikram singh, Rushil Desai, Sadra Barikbin, SANJAI_3, Sashka Warner, Scott Gigante, Scott Gustafson, searchforpassion, Seoeun Hong, Shady el Gewily, Shiva chauhan, Shogo Hida, Shreesha Kumar Bhat, sonnivs, Sortofamudkip, Stanislav (Stanley) Modrak, Stefanie Senger, Steven Van Vaerenbergh, Tabea Kossen, Théophile Baranger, Thijs van Weezel, Thomas A Caswell, Thomas Germer, Thomas J. Fan, Tim Head, Tim P, Tom Dupré la Tour, tomiock, tspeng, Valentin Laurent, Veghit, VIGNESH D, Vijeth Moudgalya, Vinayak Mehta, Vincent M, Vincent-violet, Vyom Pathak, William M, windiana42, Xiao Yuan, Yao Xiao, Yaroslav Halchenko, Yotam Avidar-Constantini, Yuchen Zhou, Yusuf Raji, zeeshan lone

Version 1.3#

Version 1.3.2#

Änderungsprotokoll#

Version 1.3.1#

Geänderte Modelle#

Änderungen, die alle Module betreffen#

Änderungsprotokoll#

Version 1.3.0#

Geänderte Modelle#

Geänderte Anzeigen#

Änderungen, die alle Module betreffen#

Experimentell / In Entwicklung#

Änderungsprotokoll#

sklearn#

Sonstiges#

Diese Seite

`sklearn`#