Version 0.18#

Warnung

Scikit-learn 0.18 ist die letzte Hauptversion von scikit-learn, die Python 2.6 unterstützt. Spätere Versionen von scikit-learn erfordern Python 2.7 oder höher.

Version 0.18.2#

20. Juni 2017

Änderungsprotokoll#

Fehlerbehebungen zur Kompatibilität mit NumPy 1.13.0: #7946 #8355 von Loic Esteve.
Kleinere Kompatibilitätsänderungen in den Beispielen #9010 #8040 #9149.

Code-Mitarbeiter#

Aman Dalmia, Loic Esteve, Nate Guerin, Sergei Lebedev

Version 0.18.1#

11. November 2016

Änderungsprotokoll#

Verbesserungen#

Verbesserte Geschwindigkeit von sample_without_replacement durch Nutzung von numpy.random.permutation für die meisten Fälle. Als Ergebnis können Stichproben in dieser Version für einen festen Zufallszustand unterschiedlich sein. Betroffene Schätzer
Dies betrifft auch die Methode datasets.make_classification.

Fehlerbehebungen#

Behebung eines Problems, bei dem die Parameter min_grad_norm und n_iter_without_progress von manifold.TSNE nicht verwendet wurden. #6497 von Sebastian Säger
Behebung eines Fehlers bei den Entscheidungswerten von SVMs, wenn decision_function_shape ovr ist, in svm.SVC. Die Entscheidung_Funktion von svm.SVC war von den Versionen 0.17.0 bis 0.18.0 falsch. #7724 von Bing Tian Dai
Das Attribut explained_variance_ratio von discriminant_analysis.LinearDiscriminantAnalysis, berechnet mit SVD und Eigen-Solver, hat nun die gleiche Länge. #7632 von JPFrancoia
Behebung eines Problems bei der univariaten Merkmalsauswahl, bei dem Punktwertfunktionen keine Multi-Label-Ziele akzeptierten. #7676 von Mohammed Affan
Behebung der Einstellung von Parametern beim mehrfachen Aufruf von fit auf feature_selection.SelectFromModel. #7756 von Andreas Müller
Behebung eines Problems in der Methode partial_fit von multiclass.OneVsRestClassifier, wenn die Anzahl der in partial_fit verwendeten Klassen kleiner war als die Gesamtzahl der Klassen in den Daten. #7786 von Srivatsan Ramesh
Behebung eines Problems in calibration.CalibratedClassifierCV, bei dem die Summe der Wahrscheinlichkeiten jeder Klasse für Daten nicht 1 war, und CalibratedClassifierCV behandelt nun den Fall, dass der Trainingsdatensatz weniger Klassen als die Gesamtdaten hat. #7799 von Srivatsan Ramesh
Behebung eines Fehlers, bei dem sklearn.feature_selection.SelectFdr das Benjamini-Hochberg-Verfahren nicht exakt implementierte. Es wählte früher möglicherweise weniger Merkmale aus als erforderlich. #7490 von Peng Meng.
sklearn.manifold.LocallyLinearEmbedding behandelt nun Integer-Eingaben korrekt. #6282 von Jake Vanderplas.
Der Parameter min_weight_fraction_leaf von baumbasierten Klassifikatoren und Regressoren geht nun von gleichmäßigen Stichprobengewichten aus, wenn das Argument sample_weight nicht an die Funktion fit übergeben wird. Zuvor wurde der Parameter stillschweigend ignoriert. #7301 von Nelson Liu.
Numerisches Problem mit linear_model.RidgeCV bei zentrierten Daten, wenn n_features > n_samples. #6178 von Bertrand Thirion
Das Klonen/Pickling von Baumaufteilungs-Kriterium-Klassen ist nun speichersicher #7680 von Ibraim Ganiev.
Behebung eines Fehlers, bei dem decomposition.NMF sein Attribut n_iters_ in transform() setzt. #7553 von Ekaterina Krivich.
sklearn.linear_model.LogisticRegressionCV behandelt nun Zeichenketten-Labels korrekt. #5874 von Raghav RV.
Behebung eines Fehlers, bei dem sklearn.model_selection.train_test_split einen Fehler auslöste, wenn stratify eine Liste von Zeichenketten-Labels war. #7593 von Raghav RV.
Behebung eines Fehlers, bei dem sklearn.model_selection.GridSearchCV und sklearn.model_selection.RandomizedSearchCV aufgrund eines Pickling-Fehlers in np.ma.MaskedArray nicht pickelbar waren. #7594 von Raghav RV.
Alle Cross-Validation-Utilities in sklearn.model_selection erlauben nun One-Time-Cross-Validation-Splitter für den Parameter cv. Auch nicht-deterministische Cross-Validation-Splitter (bei denen mehrere Aufrufe von split unterschiedliche Aufteilungen ergeben) können als cv-Parameter verwendet werden. sklearn.model_selection.GridSearchCV wird jede Parametereinstellung anhand der vom ersten split-Aufruf des Cross-Validation-Splitters erzeugten Aufteilung validieren. #7660 von Raghav RV.
Fehlerbehebung, bei der preprocessing.MultiLabelBinarizer.fit_transform eine ungültige CSR-Matrix zurückgab. #7750 von CJ Carey.
Behebung eines Fehlers, bei dem metrics.pairwise.cosine_distances eine geringfügig negative Distanz zurückgeben konnte. #7732 von Artsion.

Zusammenfassung der API-Änderungen#

Bäume und Wälder

Der Parameter min_weight_fraction_leaf von baumbasierten Klassifikatoren und Regressoren geht nun von gleichmäßigen Stichprobengewichten aus, wenn das Argument sample_weight nicht an die Funktion fit übergeben wird. Zuvor wurde der Parameter stillschweigend ignoriert. #7301 von Nelson Liu.
Das Klonen/Pickling von Baumaufteilungs-Kriterium-Klassen ist nun speichersicher. #7680 von Ibraim Ganiev.

Lineare, kernelisierte und verwandte Modelle

Die Länge von explained_variance_ratio von discriminant_analysis.LinearDiscriminantAnalysis hat sich sowohl für den Eigen- als auch für den SVD-Solver geändert. Das Attribut hat nun die Länge min(n_components, n_classes - 1). #7632 von JPFrancoia
Numerisches Problem mit linear_model.RidgeCV bei zentrierten Daten, wenn n_features > n_samples. #6178 von Bertrand Thirion

Version 0.18#

28. September 2016

Verbesserungen und API-Änderungen bei der Modellauswahl#

Das Modul model_selection

Das neue Modul sklearn.model_selection, das die Funktionalitäten der früheren Module sklearn.cross_validation, sklearn.grid_search und sklearn.learning_curve zusammenfasst, führt neue Möglichkeiten ein, wie verschachtelte Kreuzvalidierung und bessere Manipulation von Parametersuchen mit Pandas.

Viele Dinge bleiben gleich, aber es gibt einige wichtige Unterschiede. Lesen Sie weiter unten, um mehr über die Änderungen zu erfahren.
Datenunabhängige CV-Splitter für verschachtelte Kreuzvalidierung

Die neuen Kreuzvalidierungs-Splitter, die in sklearn.model_selection definiert sind, werden nicht mehr mit datenabhängigen Parametern wie y initialisiert. Stattdessen bieten sie eine split-Methode, die die Daten entgegennimmt und einen Generator für die verschiedenen Aufteilungen liefert.

Diese Änderung ermöglicht die Verwendung der Kreuzvalidierungs-Splitter zur Durchführung von verschachtelten Kreuzvalidierungen, unterstützt durch die Utilities model_selection.GridSearchCV und model_selection.RandomizedSearchCV.
Das erweiterte cv_results_-Attribut

Das neue Attribut cv_results_ (von model_selection.GridSearchCV und model_selection.RandomizedSearchCV) ersetzt das Attribut grid_scores_ und ist ein Wörterbuch mit 1D-Arrays, wobei die Elemente in jedem Array den Parametereinstellungen (d. h. Suchkandidaten) entsprechen.

Das Wörterbuch cv_results_ kann einfach in pandas als DataFrame importiert werden, um die Suchergebnisse zu analysieren.

Die Arrays cv_results_ enthalten Punktwerte für jede Kreuzvalidierungsaufteilung (mit Schlüsseln wie 'split0_test_score') sowie deren Mittelwert ('mean_test_score') und Standardabweichung ('std_test_score').

Die Ränge der Suchkandidaten (basierend auf ihrem mittleren Kreuzvalidierungs-Score) sind unter cv_results_['rank_test_score'] verfügbar.

Die Parameterwerte für jeden Parameter werden separat als masked NumPy-Objekt-Arrays gespeichert. Der Wert für diesen Suchkandidaten ist maskiert, wenn der entsprechende Parameter nicht anwendbar ist. Zusätzlich wird eine Liste aller Parameterwörterbücher unter cv_results_['params'] gespeichert.
Parameter n_folds und n_iter umbenannt in n_splits

Einige Parameternamen haben sich geändert: Der Parameter n_folds in den neuen Klassen model_selection.KFold, model_selection.GroupKFold (siehe unten für die Namensänderung) und model_selection.StratifiedKFold wurde in n_splits umbenannt. Der Parameter n_iter in model_selection.ShuffleSplit, der neuen Klasse model_selection.GroupShuffleSplit und model_selection.StratifiedShuffleSplit wurde in n_splits umbenannt.
Umbenennung von Splitter-Klassen, die Gruppenlabels zusammen mit Daten akzeptieren

Die Kreuzvalidierungs-Splitter LabelKFold, LabelShuffleSplit, LeaveOneLabelOut und LeavePLabelOut wurden in model_selection.GroupKFold, model_selection.GroupShuffleSplit, model_selection.LeaveOneGroupOut und model_selection.LeavePGroupsOut umbenannt.

Beachten Sie die Änderung von der Singular- zur Pluralform in model_selection.LeavePGroupsOut.
Parameter fit labels umbenannt in groups

Der Parameter labels in der split-Methode der neu umbenannten Splitter model_selection.GroupKFold, model_selection.LeaveOneGroupOut, model_selection.LeavePGroupsOut, model_selection.GroupShuffleSplit wurde in groups umbenannt, entsprechend der neuen Nomenklatur ihrer Klassennamen.
Parameter n_labels umbenannt in n_groups

Der Parameter n_labels in der neu umbenannten Klasse model_selection.LeavePGroupsOut wurde in n_groups geändert.
Trainingspunktwerte und Timing-Informationen

cv_results_ enthält auch die Trainingspunktwerte für jede Kreuzvalidierungsaufteilung (mit Schlüsseln wie 'split0_train_score') sowie deren Mittelwert ('mean_train_score') und Standardabweichung ('std_train_score'). Um die Kosten für die Auswertung des Trainings-Scores zu vermeiden, setzen Sie return_train_score=False.

Zusätzlich sind der Mittelwert und die Standardabweichung der Zeiten, die für die Aufteilung, das Training und die Bewertung des Modells über alle Kreuzvalidierungsaufteilungen hinweg benötigt werden, unter den Schlüsseln 'mean_time' bzw. 'std_time' verfügbar.

Änderungsprotokoll#

Neue Funktionen#

Klassifikatoren und Regressoren

Das Gauß-Prozess-Modul wurde neu implementiert und bietet nun Klassifizierungs- und Regressionsschätzer über gaussian_process.GaussianProcessClassifier und gaussian_process.GaussianProcessRegressor. Die neue Implementierung unterstützt unter anderem Kernel-Engineering, gradientenbasierte Hyperparameter-Optimierung oder das Sampling von Funktionen aus dem GP-Prior und GP-Posterior. Umfangreiche Dokumentation und Beispiele sind verfügbar. Von Jan Hendrik Metzen.
Neuer Algorithmus für überwachtes Lernen hinzugefügt: Multi-layer Perceptron #3204 von Issam H. Laradji
Hinzugefügt linear_model.HuberRegressor, ein lineares Modell, das robust gegenüber Ausreißern ist. #5291 von Manoj Kumar.
Der Meta-Schätzer multioutput.MultiOutputRegressor wurde hinzugefügt. Er wandelt Single-Output-Regressoren in Multi-Output-Regressoren um, indem er einen Regressor pro Ausgabe anpasst. Von Tim Head.

Andere Schätzer

Neue Klassen mixture.GaussianMixture und mixture.BayesianGaussianMixture ersetzen frühere Mischmodelle und verwenden schnellere Inferenz für fundiertere Ergebnisse. #7295 von Wei Xue und Thierry Guillemot.
Die Klasse decomposition.RandomizedPCA wurde in decomposition.PCA integriert und ist durch Aufruf mit dem Parameter svd_solver='randomized' verfügbar. Die Standardanzahl von n_iter für 'randomized' wurde auf 4 geändert. Das alte Verhalten von PCA wird durch svd_solver='full' wiederhergestellt. Ein zusätzlicher Solver ruft arpack auf und führt eine abgeschnittene (nicht-randomisierte) SVD durch. Standardmäßig wird der beste Solver basierend auf der Größe der Eingabe und der angeforderten Anzahl von Komponenten ausgewählt. Von Giorgio Patrini.
Zwei Funktionen zur Schätzung der gegenseitigen Information hinzugefügt: feature_selection.mutual_info_classif und feature_selection.mutual_info_regression. Diese Funktionen können in feature_selection.SelectKBest und feature_selection.SelectPercentile als Score-Funktionen verwendet werden. Von Andrea Bravi und Nikolay Mayorov.
Die Klasse ensemble.IsolationForest zur Anomalieerkennung auf Basis von Random Forests wurde hinzugefügt. Von Nicolas Goix.
Zu cluster.KMeans wurde algorithm="elkan" hinzugefügt, das den schnellen K-Means-Algorithmus von Elkan implementiert. Von Andreas Müller.

Modellauswahl und -bewertung

Die Funktion metrics.fowlkes_mallows_score wurde hinzugefügt, der Fowlkes-Mallows-Index, der die Ähnlichkeit zweier Clusterings einer Punktmenge misst. Von Arnaud Fouchet und Thierry Guillemot.
Die Funktion metrics.calinski_harabaz_score wurde hinzugefügt, die den Calinski-Harabaz-Score zur Bewertung des resultierenden Clusterings einer Punktmenge berechnet. Von Arnaud Fouchet und Thierry Guillemot.
Ein neuer Kreuzvalidierungs-Splitter model_selection.TimeSeriesSplit wurde zur Verarbeitung von Zeitreihendaten hinzugefügt. #6586 von YenChen Lin
Die Kreuzvalidierungs-Iteratoren werden durch Kreuzvalidierungs-Splitter aus sklearn.model_selection ersetzt, was verschachtelte Kreuzvalidierungen ermöglicht. Weitere Informationen finden Sie unter Verbesserungen und API-Änderungen bei der Modellauswahl. #4294 von Raghav RV.

Verbesserungen#

Bäume und Ensembles

Ein neues Aufteilungs-Kriterium für tree.DecisionTreeRegressor wurde hinzugefügt: der mittlere absolute Fehler. Dieses Kriterium kann auch in ensemble.ExtraTreesRegressor, ensemble.RandomForestRegressor und den Gradient-Boosting-Schätzern verwendet werden. #6667 von Nelson Liu.
Hinzugefügtes gewichtetes, auf Verunreinigung basiertes Kriterium für frühes Stoppen des Wachstums von Entscheidungsbäumen. #6954 von Nelson Liu
Die Schätzer für Zufallswälder, Extra Trees und Entscheidungsbäume haben nun eine Methode decision_path, die den Entscheidungsbaum von Stichproben im Baum zurückgibt. Von Arnaud Joly.
Ein neues Beispiel wurde hinzugefügt, das die Struktur des Entscheidungsbaums aufzeigt. Von Arnaud Joly.
Zufallswälder, Extra Trees, Entscheidungsbäume und Gradient Boosting Schätzer akzeptieren die Parameter min_samples_split und min_samples_leaf, die als Prozentsatz der Trainingsstichproben angegeben werden. Von yelite und Arnaud Joly.
Gradient Boosting Schätzer akzeptieren den Parameter criterion, um das Teilungskriterium für die erstellten Entscheidungsbäume anzugeben. #6667 von Nelson Liu.
Der Speicherverbrauch wird für ensemble.bagging.BaseBagging und davon abgeleitete Klassen, z. B. ensemble.BaggingClassifier, ensemble.BaggingRegressor und ensemble.IsolationForest, reduziert (manchmal erheblich), indem das Attribut estimators_samples_ dynamisch und nur bei Bedarf generiert wird. Von David Staub.
Hinzugefügte Parameter n_jobs und sample_weight für ensemble.VotingClassifier, um zugrundeliegende Schätzer parallel zu trainieren. #5805 von Ibraim Ganiev.

Lineare, kernelisierte und verwandte Modelle

In linear_model.LogisticRegression ist der SAG-Solver nun auch im multivariaten Fall verfügbar. #5251 von Tom Dupre la Tour.
linear_model.RANSACRegressor, svm.LinearSVC und svm.LinearSVR unterstützen nun sample_weight. Von Imaculate.
Parameter loss zu linear_model.RANSACRegressor hinzugefügt, um den Fehler bei den Stichproben für jeden Versuch zu messen. Von Manoj Kumar.
Die Vorhersage von Out-of-Sample-Ereignissen mit Isotonic Regression (isotonic.IsotonicRegression) ist nun deutlich schneller (über 1000x in Tests mit synthetischen Daten). Von Jonathan Arfa.
Isotonic Regression (isotonic.IsotonicRegression) verwendet nun einen besseren Algorithmus, um ein O(n^2) Verhalten in pathologischen Fällen zu vermeiden, und ist generell auch schneller (##6691). Von Antony Lee.
naive_bayes.GaussianNB akzeptiert nun datenunabhängige Klassenvorhersagen über den Parameter priors. Von Guillaume Lemaitre.
linear_model.ElasticNet und linear_model.Lasso arbeiten nun mit np.float32 Eingabedaten, ohne sie in np.float64 zu konvertieren. Dies ermöglicht eine Reduzierung des Speicherverbrauchs. #6913 von YenChen Lin.
semi_supervised.LabelPropagation und semi_supervised.LabelSpreading akzeptieren nun beliebige Kernel-Funktionen zusätzlich zu den Strings knn und rbf. #5762 von Utkarsh Upadhyay.

Zerlegung, Manifold Learning und Clustering

Hinzufügung der Funktion inverse_transform zu decomposition.NMF, um die Datenmatrix ursprünglicher Form zu berechnen. Von Anish Shah.
cluster.KMeans und cluster.MiniBatchKMeans arbeiten nun mit np.float32 und np.float64 Eingabedaten, ohne diese zu konvertieren. Dies ermöglicht eine Reduzierung des Speicherverbrauchs durch die Verwendung von np.float32. #6846 von Sebastian Säger und YenChen Lin.

Vorverarbeitung und Merkmalsauswahl

preprocessing.RobustScaler akzeptiert nun den Parameter quantile_range. #5929 von Konstantin Podshumok.
feature_extraction.FeatureHasher akzeptiert nun Zeichenkettenwerte. #6173 von Ryad Zenine und Devashish Deshpande.
Schlüsselwortargumente können nun über den Parameter kw_args an func in preprocessing.FunctionTransformer übergeben werden. Von Brian McFee.
feature_selection.SelectKBest und feature_selection.SelectPercentile akzeptieren nun Bewertungsfunktionen, die X, y als Eingabe nehmen und nur die Bewertungen zurückgeben. Von Nikolay Mayorov.

Modellauswertung und Meta-Schätzer

multiclass.OneVsOneClassifier und multiclass.OneVsRestClassifier unterstützen nun partial_fit. Von Asish Panda und Philipp Dowling.
Unterstützung für den Austausch oder die Deaktivierung von Komponenten in pipeline.Pipeline und pipeline.FeatureUnion über die Schnittstelle set_params, die sklearn.grid_search antreibt, wurde hinzugefügt. Siehe Auswahl der Dimensionalitätsreduktion mit Pipeline und GridSearchCV Von Joel Nothman und Robert McGibbon.
Das neue Attribut cv_results_ von model_selection.GridSearchCV (und model_selection.RandomizedSearchCV) kann einfach als DataFrame in Pandas importiert werden. Weitere Informationen finden Sie unter Verbesserungen und API-Änderungen bei der Modellauswahl. #6697 von Raghav RV.
Verallgemeinerung von model_selection.cross_val_predict. Man kann Methodennamen wie predict_proba übergeben, die im Kreuzvalidierungsframework anstelle des Standardwerts predict verwendet werden sollen. Von Ori Ziv und Sears Merritt.
Die Trainingsergebnisse und die für das Training benötigte Zeit, gefolgt von der Bewertung für jeden Suchkandidaten, sind nun im Wörterbuch cv_results_ verfügbar. Weitere Informationen finden Sie unter Verbesserungen und API-Änderungen bei der Modellauswahl. #7325 von Eugene Chen und Raghav RV.

Metriken

Hinzugefügtes Flag labels zu metrics.log_loss, um die Labels explizit anzugeben, wenn die Anzahl der Klassen in y_true und y_pred unterschiedlich ist. #7239 von Hong Guangguo mit Hilfe von Mads Jensen und Nelson Liu.
Unterstützung für spärliche Kontingenzmatrizen in der Cluster-Bewertung (metrics.cluster.supervised), um die Skalierbarkeit auf eine große Anzahl von Clustern zu ermöglichen. #7419 von Gregory Stupp und Joel Nothman.
Parameter sample_weight zu metrics.matthews_corrcoef hinzugefügt. Von Jatin Shah und Raghav RV.
Beschleunigung von metrics.silhouette_score durch Verwendung vektorisierter Operationen. Von Manoj Kumar.
Parameter sample_weight zu metrics.confusion_matrix hinzugefügt. Von Bernardo Stein.

Verschiedenes

Hinzugefügter Parameter n_jobs zu feature_selection.RFECV, um die Bewertung auf den Testfaltungen parallel durchzuführen. Von Manoj Kumar
Der Code-Bestand enthält keine generierten C/C++-Cython-Dateien: sie werden während des Builds generiert. Distributionspakete enthalten weiterhin generierte C/C++-Dateien. Von Arthur Mensch.
Reduzierung des Speicherverbrauchs für 32-Bit-Float-Eingabearrays von utils.sparse_func.mean_variance_axis und utils.sparse_func.incr_mean_variance_axis durch Unterstützung von Cython-Fused-Typen. Von YenChen Lin.
ignore_warnings akzeptiert nun ein Kategorie-Argument, um nur die Warnungen eines bestimmten Typs zu ignorieren. Von Thierry Guillemot.
Hinzugefügter Parameter return_X_y und Rückgabetyp (data, target) : tuple Option für den Datensatz datasets.load_iris #7049, den Datensatz datasets.load_breast_cancer #7152, den Datensatz datasets.load_digits, den Datensatz datasets.load_diabetes, den Datensatz datasets.load_linnerud, den Datensatz datasets.load_boston #7154. Von Manvendra Singh.
Vereinfachung der Funktion clone, Deprecation der Unterstützung für Schätzer, die Parameter in __init__ ändern. #5540 von Andreas Müller.
Beim Entpickeln eines scikit-learn Schätzers in einer anderen Version als der, mit der der Schätzer trainiert wurde, wird eine UserWarning ausgegeben. Weitere Details finden Sie in der Dokumentation zur Modellpersistenz. (#7248) Von Andreas Müller.

Fehlerbehebungen#

Bäume und Ensembles

Zufallswälder, Extra Trees, Entscheidungsbäume und Gradient Boosting akzeptieren nicht mehr min_samples_split=1, da mindestens 2 Stichproben zum Teilen eines Entscheidungsknotens erforderlich sind. Von Arnaud Joly
ensemble.VotingClassifier löst nun NotFittedError aus, wenn predict, transform oder predict_proba auf dem nicht trainierten Schätzer aufgerufen werden. Von Sebastian Raschka.
Fehler behoben, bei dem ensemble.AdaBoostClassifier und ensemble.AdaBoostRegressor schlecht performten, wenn random_state gesetzt war (#7411). Von Joel Nothman.
Fehler in Ensembles mit Randomisierung behoben, bei dem das Ensemble random_state nicht auf Basis-Schätzer in einer Pipeline oder ähnlicher Verschachtelung setzte. (#7411). Beachten Sie, dass die Ergebnisse für ensemble.BaggingClassifier ensemble.BaggingRegressor, ensemble.AdaBoostClassifier und ensemble.AdaBoostRegressor nun von früheren Versionen abweichen werden. Von Joel Nothman.

Lineare, kernelisierte und verwandte Modelle

Falsche Gradientenberechnung für loss='squared_epsilon_insensitive' in linear_model.SGDClassifier und linear_model.SGDRegressor (#6764) behoben. Von Wenhua Yang.
Fehler in linear_model.LogisticRegressionCV behoben, bei dem solver='liblinear' class_weights='balanced nicht akzeptierte. (#6817). Von Tom Dupre la Tour.
Fehler in neighbors.RadiusNeighborsClassifier behoben, bei dem ein Fehler auftrat, wenn Ausreißer mit einem Gewichtungsfunktion markiert und spezifiziert wurden (#6902). Von LeonieBorne.
Fehler in linear_model.ElasticNet korrigiert, damit die spärliche Entscheidungsfunktion im Multi-Output-Fall mit der dichten Version übereinstimmt.

Zerlegung, Manifold Learning und Clustering

Die Standardanzahl von iterated_power in decomposition.RandomizedPCA ist 4 statt 3. #5141 von Giorgio Patrini.
utils.extmath.randomized_svd führt standardmäßig 4 Potenziterationen durch, anstatt 0. In der Praxis reicht dies aus, um eine gute Annäherung an die wahren Eigenwerte/-vektoren bei Vorhandensein von Rauschen zu erhalten. Wenn n_components klein ist (< .1 * min(X.shape)), wird n_iter auf 7 gesetzt, es sei denn, der Benutzer gibt eine höhere Zahl an. Dies verbessert die Genauigkeit bei wenigen Komponenten. #5299 von Giorgio Patrini.
Inkonsistenz zwischen Whitening/Nicht-Whitening der Komponenten von decomposition.PCA und decomposition.RandomizedPCA (jetzt in PCA integriert, siehe Neue Funktionen) wurde behoben. components_ werden ohne Whitening gespeichert. #5299 von Giorgio Patrini.
Fehler in manifold.spectral_embedding behoben, bei dem die Diagonale der unnormalisierten Laplace-Matrix falsch auf 1 gesetzt wurde. #4995 von Peter Fischer.
Fehlerhafte Initialisierung von utils.arpack.eigsh in allen Fällen behoben. Betrifft cluster.bicluster.SpectralBiclustering, decomposition.KernelPCA, manifold.LocallyLinearEmbedding und manifold.SpectralEmbedding (#5012). Von Peter Fischer.
Das Attribut explained_variance_ratio_, das mit dem SVD-Solver von discriminant_analysis.LinearDiscriminantAnalysis berechnet wurde, liefert nun korrekte Ergebnisse. Von JPFrancoia

Vorverarbeitung und Merkmalsauswahl

preprocessing.data._transform_selected übergibt nun immer eine Kopie von X an die Transformationsfunktion, wenn copy=True ist (#7194). Von Caio Oliveira.

Modellauswertung und Meta-Schätzer

model_selection.StratifiedKFold löst nun einen Fehler aus, wenn alle n_labels für einzelne Klassen kleiner als n_folds sind. #6182 von Devashish Deshpande.
Fehler in model_selection.StratifiedShuffleSplit behoben, bei dem Trainings- und Teststichproben in einigen Randfällen überlappen konnten. Weitere Details siehe #6121. Von Loic Esteve.
Korrektur in sklearn.model_selection.StratifiedShuffleSplit, um in allen Fällen Splits der Größe train_size und test_size zurückzugeben (#6472). Von Andreas Müller.
Kreuzvalidierung von multiclass.OneVsOneClassifier und multiclass.OneVsRestClassifier funktioniert jetzt mit vortrainierten Kernels. #7350 von Russell Smith.
Unvollständige Delegierung der Methode predict_proba von model_selection.GridSearchCV an linear_model.SGDClassifier behoben (#7159) von Yichuan Liu.

Metriken

Fehler in metrics.silhouette_score behoben, bei dem Cluster der Größe 1 fälschlicherweise bewertet wurden. Sie sollten eine Bewertung von 0 erhalten. Von Joel Nothman.
Fehler in metrics.silhouette_samples behoben, sodass es nun mit beliebigen Labels funktioniert, nicht nur mit solchen im Bereich von 0 bis n_clusters - 1.
Fehler behoben, bei dem die erwartete und die angepasste gegenseitige Information falsch waren, wenn die Zellen der Cluster-Kontingenz 2**16 überschritten. Von Joel Nothman.
metrics.pairwise_distances konvertiert Arrays nun in boolesche Arrays, wenn dies in scipy.spatial.distance erforderlich ist. #5460 von Tom Dupre la Tour.
Unterstützung für sparse Eingaben in metrics.silhouette_score sowie in den Beispiel-Dateien examples/text/document_clustering.py behoben. Von YenChen Lin.
metrics.roc_curve und metrics.precision_recall_curve runden y_score Werte bei der Erstellung von ROC-Kurven nicht mehr; dies verursachte Probleme für Benutzer mit sehr geringen Score-Unterschieden (#7353).

Verschiedenes

model_selection.tests._search._check_param_grid funktioniert nun korrekt mit allen Typen, die Sequence erweitern/implementieren (außer Strings), einschließlich range (Python 3.x) und xrange (Python 2.x). #7323 von Viacheslav Kovalevskyi.
utils.extmath.randomized_range_finder ist numerisch stabiler, wenn viele Potenziterationen angefordert werden, da standardmäßig eine LU-Normalisierung angewendet wird. Wenn n_iter<2 sind, sind numerische Probleme unwahrscheinlich, daher wird keine Normalisierung angewendet. Andere Normalisierungsoptionen sind verfügbar: 'none', 'LU' und 'QR'. #5141 von Giorgio Patrini.
Fehler behoben, bei dem einige Formate von scipy.sparse Matrizen und Estimators mit ihnen als Parameter nicht an base.clone übergeben werden konnten. Von Loic Esteve.
datasets.load_svmlight_file kann nun lange QID-Werte lesen. #7101 von Ibraim Ganiev.

Zusammenfassung der API-Änderungen#

Lineare, kernelisierte und verwandte Modelle

residual_metric ist in linear_model.RANSACRegressor veraltet. Verwenden Sie stattdessen loss. Von Manoj Kumar.
Der Zugriff auf öffentliche Attribute .X_ und .y_ ist in isotonic.IsotonicRegression veraltet. Von Jonathan Arfa.

Zerlegung, Manifold Learning und Clustering

Das alte mixture.DPGMM ist zugunsten des neuen mixture.BayesianGaussianMixture (mit dem Parameter weight_concentration_prior_type='dirichlet_process') veraltet. Die neue Klasse löst die Rechenprobleme der alten Klasse und berechnet das Gaußsche Mischmodell mit einem Dirichlet-Prozess-Prior schneller als zuvor. #7295 von Wei Xue und Thierry Guillemot.
Das alte mixture.VBGMM ist zugunsten des neuen mixture.BayesianGaussianMixture (mit dem Parameter weight_concentration_prior_type='dirichlet_distribution') veraltet. Die neue Klasse löst die Rechenprobleme der alten Klasse und berechnet das Variational Bayesian Gaussian Mixture schneller als zuvor. #6651 von Wei Xue und Thierry Guillemot.
Das alte mixture.GMM ist zugunsten des neuen mixture.GaussianMixture veraltet. Die neue Klasse berechnet das Gaußsche Mischmodell schneller als zuvor und einige Rechenprobleme wurden behoben. #6666 von Wei Xue und Thierry Guillemot.

Modellauswertung und Meta-Schätzer

sklearn.cross_validation, sklearn.grid_search und sklearn.learning_curve sind veraltet und die Klassen und Funktionen wurden in das Modul sklearn.model_selection verschoben. Weitere Informationen finden Sie unter Erweiterungen und API-Änderungen der Modellauswahl. #4294 von Raghav RV.
Das Attribut grid_scores_ von model_selection.GridSearchCV und model_selection.RandomizedSearchCV ist zugunsten des Attributs cv_results_ veraltet. Weitere Informationen finden Sie unter Erweiterungen und API-Änderungen der Modellauswahl. #6697 von Raghav RV.
Die Parameter n_iter oder n_folds in alten CV-Splittern werden durch den neuen Parameter n_splits ersetzt, da dieser eine konsistente und eindeutige Schnittstelle zur Darstellung der Anzahl der Train-Test-Splits bieten kann. #7187 von YenChen Lin.
Der Parametername classes wurde in metrics.hamming_loss in labels umbenannt. #7260 von Sebastián Vanrell.
Die Splitter-Klassen LabelKFold, LabelShuffleSplit, LeaveOneLabelOut und LeavePLabelsOut werden in model_selection.GroupKFold, model_selection.GroupShuffleSplit, model_selection.LeaveOneGroupOut und model_selection.LeavePGroupsOut umbenannt. Ebenso wird der Parameter labels in der split Methode der neu benannten Splitter model_selection.LeaveOneGroupOut und model_selection.LeavePGroupsOut in groups umbenannt. Zusätzlich wird in model_selection.LeavePGroupsOut der Parameter n_labels in n_groups umbenannt. #6660 von Raghav RV.
Fehler- und Verlustnamen für Parameter scoring werden nun mit 'neg_' präfixiert, z. B. neg_mean_squared_error. Die ungeprägten Versionen sind veraltet und werden in Version 0.20 entfernt. #7261 von Tim Head.

Code-Mitwirkende#

Aditya Joshi, Alejandro, Alexander Fabisch, Alexander Loginov, Alexander Minyushkin, Alexander Rudy, Alexandre Abadie, Alexandre Abraham, Alexandre Gramfort, Alexandre Saint, alexfields, Alvaro Ulloa, alyssaq, Amlan Kar, Andreas Mueller, andrew giessel, Andrew Jackson, Andrew McCulloh, Andrew Murray, Anish Shah, Arafat, Archit Sharma, Ariel Rokem, Arnaud Joly, Arnaud Rachez, Arthur Mensch, Ash Hoover, asnt, b0noI, Behzad Tabibian, Bernardo, Bernhard Kratzwald, Bhargav Mangipudi, blakeflei, Boyuan Deng, Brandon Carter, Brett Naul, Brian McFee, Caio Oliveira, Camilo Lamus, Carol Willing, Cass, CeShine Lee, Charles Truong, Chyi-Kwei Yau, CJ Carey, codevig, Colin Ni, Dan Shiebler, Daniel, Daniel Hnyk, David Ellis, David Nicholson, David Staub, David Thaler, David Warshaw, Davide Lasagna, Deborah, definitelyuncertain, Didi Bar-Zev, djipey, dsquareindia, edwinENSAE, Elias Kuthe, Elvis DOHMATOB, Ethan White, Fabian Pedregosa, Fabio Ticconi, fisache, Florian Wilhelm, Francis, Francis O’Donovan, Gael Varoquaux, Ganiev Ibraim, ghg, Gilles Louppe, Giorgio Patrini, Giovanni Cherubin, Giovanni Lanzani, Glenn Qian, Gordon Mohr, govin-vatsan, Graham Clenaghan, Greg Reda, Greg Stupp, Guillaume Lemaitre, Gustav Mörtberg, halwai, Harizo Rajaona, Harry Mavroforakis, hashcode55, hdmetor, Henry Lin, Hobson Lane, Hugo Bowne-Anderson, Igor Andriushchenko, Immaculate, Inki Hwang, Isaac Sijaranamual, Ishank Gulati, Issam Laradji, Iver Jordal, jackmartin, Jacob Schreiber, Jake Vanderplas, James Fiedler, James Routley, Jan Zikes, Janna Brettingen, jarfa, Jason Laska, jblackburne, jeff levesque, Jeffrey Blackburne, Jeffrey04, Jeremy Hintz, jeremynixon, Jeroen, Jessica Yung, Jill-Jênn Vie, Jimmy Jia, Jiyuan Qian, Joel Nothman, johannah, John, John Boersma, John Kirkham, John Moeller, jonathan.striebel, joncrall, Jordi, Joseph Munoz, Joshua Cook, JPFrancoia, jrfiedler, JulianKahnert, juliathebrave, kaichogami, KamalakerDadi, Kenneth Lyons, Kevin Wang, kingjr, kjell, Konstantin Podshumok, Kornel Kielczewski, Krishna Kalyan, krishnakalyan3, Kvle Putnam, Kyle Jackson, Lars Buitinck, ldavid, LeiG, LeightonZhang, Leland McInnes, Liang-Chi Hsieh, Lilian Besson, lizsz, Loic Esteve, Louis Tiao, Léonie Borne, Mads Jensen, Maniteja Nandana, Manoj Kumar, Manvendra Singh, Marco, Mario Krell, Mark Bao, Mark Szepieniec, Martin Madsen, MartinBpr, MaryanMorel, Massil, Matheus, Mathieu Blondel, Mathieu Dubois, Matteo, Matthias Ekman, Max Moroz, Michael Scherer, michiaki ariga, Mikhail Korobov, Moussa Taifi, mrandrewandrade, Mridul Seth, nadya-p, Naoya Kanai, Nate George, Nelle Varoquaux, Nelson Liu, Nick James, NickleDave, Nico, Nicolas Goix, Nikolay Mayorov, ningchi, nlathia, okbalefthanded, Okhlopkov, Olivier Grisel, Panos Louridas, Paul Strickland, Perrine Letellier, pestrickland, Peter Fischer, Pieter, Ping-Yao, Chang, practicalswift, Preston Parry, Qimu Zheng, Rachit Kansal, Raghav RV, Ralf Gommers, Ramana.S, Rammig, Randy Olson, Rob Alexander, Robert Lutz, Robin Schucker, Rohan Jain, Ruifeng Zheng, Ryan Yu, Rémy Léone, saihttam, Saiwing Yeung, Sam Shleifer, Samuel St-Jean, Sartaj Singh, Sasank Chilamkurthy, saurabh.bansod, Scott Andrews, Scott Lowe, seales, Sebastian Raschka, Sebastian Saeger, Sebastián Vanrell, Sergei Lebedev, shagun Sodhani, shanmuga cv, Shashank Shekhar, shawpan, shengxiduan, Shota, shuckle16, Skipper Seabold, sklearn-ci, SmedbergM, srvanrell, Sébastien Lerique, Taranjeet, themrmax, Thierry, Thierry Guillemot, Thomas, Thomas Hallock, Thomas Moreau, Tim Head, tKammy, toastedcornflakes, Tom, TomDLT, Toshihiro Kamishima, tracer0tong, Trent Hauck, trevorstephens, Tue Vo, Varun, Varun Jewalikar, Viacheslav, Vighnesh Birodkar, Vikram, Villu Ruusmann, Vinayak Mehta, walter, waterponey, Wenhua Yang, Wenjian Huang, Will Welch, wyseguy7, xyguo, yanlend, Yaroslav Halchenko, yelite, Yen, YenChenLin, Yichuan Liu, Yoav Ram, Yoshiki, Zheng RuiFeng, zivori, Óscar Nájera

Version 0.18#

Version 0.18.2#

Änderungsprotokoll#

Code-Mitarbeiter#

Version 0.18.1#

Änderungsprotokoll#

Verbesserungen#

Fehlerbehebungen#

Zusammenfassung der API-Änderungen#

Version 0.18#

Verbesserungen und API-Änderungen bei der Modellauswahl#

Änderungsprotokoll#

Neue Funktionen#

Verbesserungen#

Fehlerbehebungen#

Zusammenfassung der API-Änderungen#

Code-Mitwirkende#

Diese Seite