Version 0.13#
Version 0.13.1#
23. Februar 2013
Das Release 0.13.1 behebt nur einige Fehler und fügt keine neue Funktionalität hinzu.
Änderungsprotokoll#
Behebt einen Testfehler, der dadurch verursacht wurde, dass die Funktion
cross_validation.train_test_splitvon Yaroslav Halchenko als Test interpretiert wurde.Behebt einen Fehler bei der Neuzuweisung kleiner Cluster in
cluster.MiniBatchKMeansvon Gael Varoquaux.Behebt den Standardwert von
gammaindecomposition.KernelPCAvon Lars Buitinck.Aktualisiert joblib auf
0.7.0dvon Gael Varoquaux.Behebt die Skalierung der Deviance in
ensemble.GradientBoostingClassifiervon Peter Prettenhofer.Besseres Tie-Breaking in
multiclass.OneVsOneClassifiervon Andreas Müller.Weitere kleine Verbesserungen an Tests und Dokumentation.
Personen#
Liste der Mitwirkenden für Release 0.13.1 nach Anzahl der Commits.
5 Robert Marchman
2 Hrishikesh Huilgolkar
1 Bastiaan van den Berg
1 Diego Molla
1 Rafael Cunha de Almeida
1 Rolando Espinoza La fuente
Version 0.13#
21. Januar 2013
Neue Schätzer-Klassen#
dummy.DummyClassifierunddummy.DummyRegressor, zwei datenunabhängige Prädiktoren von Mathieu Blondel. Nützlich zur Überprüfung Ihrer Schätzer. Siehe Dummy-Schätzer im Benutzerhandbuch. Multioutput-Unterstützung hinzugefügt von Arnaud Joly.decomposition.FactorAnalysis, ein Transformer, der die klassische Faktorenanalyse implementiert, von Christian Osendorfer und Alexandre Gramfort. Siehe Faktorenanalyse im Benutzerhandbuch.feature_extraction.FeatureHasher, ein Transformer, der den „Hashing-Trick“ für schnelle, speichereffiziente Merkmalsextraktion aus Zeichenkettenfeldern implementiert, von Lars Buitinck undfeature_extraction.text.HashingVectorizerfür Textdokumente von Olivier Grisel. Siehe Feature-Hashing und Vektorisierung eines großen Textkorpus mit dem Hashing-Trick für die Dokumentation und Beispiele.pipeline.FeatureUnion, ein Transformer, der die Ergebnisse mehrerer anderer Transformer verkettet, von Andreas Müller. Siehe FeatureUnion: zusammengesetzte Merkmalsräume im Benutzerhandbuch.random_projection.GaussianRandomProjection,random_projection.SparseRandomProjectionund die Funktionrandom_projection.johnson_lindenstrauss_min_dim. Die ersten beiden sind Transformer, die Gaußsche und dünne Zufallsprojektionsmatrizen implementieren, von Olivier Grisel und Arnaud Joly. Siehe Zufallsprojektion im Benutzerhandbuch.kernel_approximation.Nystroem, ein Transformer zur Approximation beliebiger Kerne von Andreas Müller. Siehe Nystroem-Methode zur Kernapproximation im Benutzerhandbuch.preprocessing.OneHotEncoder, ein Transformer, der binäre Kodierungen kategorialer Merkmale berechnet, von Andreas Müller. Siehe Kodierung kategorialer Merkmale im Benutzerhandbuch.linear_model.PassiveAggressiveClassifierundlinear_model.PassiveAggressiveRegressor, Prädiktoren, die eine effiziente stochastische Optimierung für lineare Modelle implementieren, von Rob Zinkov und Mathieu Blondel. Siehe Passive Aggressive Algorithmen im Benutzerhandbuch.ensemble.RandomTreesEmbedding, ein Transformer zur Erzeugung hochdimensionaler dünner Repräsentationen mittels Ensembles von völlig zufälligen Bäumen, von Andreas Müller. Siehe Totally Random Trees Embedding im Benutzerhandbuch.manifold.SpectralEmbeddingund Funktionmanifold.spectral_embedding, die die „Laplacian Eigenmaps“-Transformation zur nichtlinearen Dimensionsreduktion implementieren, von Wei Li. Siehe Spektrale Einbettung im Benutzerhandbuch.isotonic.IsotonicRegressionvon Fabian Pedregosa, Alexandre Gramfort und Nelle Varoquaux,
Änderungsprotokoll#
metrics.zero_one_loss(frühermetrics.zero_one) hat nun eine Option für normalisierte Ausgabe, die den Bruchteil der Fehlklassifizierungen anzeigt, anstatt der rohen Anzahl der Fehlklassifizierungen. Von Kyle Beauchamp.tree.DecisionTreeClassifierund alle abgeleiteten Ensemble-Modelle unterstützen nun Stichprobengewichtung, von Noel Dawe und Gilles Louppe.Geschwindigkeitsverbesserung bei der Verwendung von Bootstrap-Stichproben in Ensembles von zufälligen Bäumen, von Peter Prettenhofer und Gilles Louppe.
Partial Dependence Plots für Gradient-Boosting-Bäume in
ensemble.partial_dependence.partial_dependencevon Peter Prettenhofer. Siehe Partial Dependence und Individual Conditional Expectation Plots als Beispiel.Das Inhaltsverzeichnis auf der Website ist nun erweiterbar, von Jaques Grobler.
feature_selection.SelectPercentilebricht nun Bindungen deterministisch auf, anstatt alle gleichrangigen Merkmale zurückzugeben.feature_selection.SelectKBestundfeature_selection.SelectPercentilesind numerisch stabiler, da sie Scores anstelle von p-Werten zur Rangfolge der Ergebnisse verwenden. Dies bedeutet, dass sie manchmal andere Merkmale auswählen als zuvor.Ridge-Regression und Ridge-Klassifizierung mit dem
sparse_cg-Löser haben keine quadratische Speicherkomplexität mehr, von Lars Buitinck und Fabian Pedregosa.Ridge-Regression und Ridge-Klassifizierung unterstützen nun einen neuen schnellen Löser namens
lsqr, von Mathieu Blondel.Beschleunigung von
metrics.precision_recall_curvevon Conrad Lee.Unterstützung für das Lesen/Schreiben von svmlight-Dateien mit paarweisem Präferenzattribut (qid im svmlight-Dateiformat) in
datasets.dump_svmlight_fileunddatasets.load_svmlight_filehinzugefügt, von Fabian Pedregosa.Schnellere und robustere
metrics.confusion_matrixund Bewertung der Clustering-Leistung von Wei Li.cross_validation.cross_val_scorefunktioniert nun mit vorberechneten Kernels und Affinitätsmatrizen, von Andreas Müller.LARS-Algorithmus wurde mit Heuristiken zur Entfernung zu stark korrelierter Regressoren und zum Stoppen des Pfades bei überwiegendem numerischem Rauschen numerisch stabiler gemacht, von Gael Varoquaux.
Schnellere Implementierung von
metrics.precision_recall_curvevon Conrad Lee.Neuer Kernel
metrics.chi2_kernelvon Andreas Müller, oft in Computer-Vision-Anwendungen verwendet.Behebung eines seit langem bestehenden Fehlers in
naive_bayes.BernoulliNB, behoben von Shaun Jackman.Implementiert
predict_probainmulticlass.OneVsRestClassifier, von Andrew Winterman.Verbesserte Konsistenz beim Gradient Boosting: Die Schätzer
ensemble.GradientBoostingRegressorundensemble.GradientBoostingClassifierverwenden den Schätzertree.DecisionTreeRegressoranstelle der Datenstrukturtree._tree.Tree, von Arnaud Joly.Behebt einen Gleitkommafehler im Modul Entscheidungsbäume, von Seberg.
Behebt, dass
metrics.roc_curvefehlschlägt, wenn y_true nur eine Klasse hat, von Wei Li.Fügt die Funktion
metrics.mean_absolute_errorhinzu, die den mittleren absoluten Fehler berechnet. Die Metrikenmetrics.mean_squared_error,metrics.mean_absolute_errorundmetrics.r2_scoreunterstützen Multi-Output, von Arnaud Joly.Behebt die Unterstützung für
class_weightinsvm.LinearSVCundlinear_model.LogisticRegression, von Andreas Müller. Die Bedeutung vonclass_weightwurde umgekehrt, da ein höherer Gewichtswert fälschlicherweise weniger Positive einer bestimmten Klasse bedeutete.Verbesserung der erzählerischen Dokumentation und Konsistenz in
sklearn.metricsfür Metriken bei Regression und Klassifizierung, von Arnaud Joly.Behebt einen Fehler in
sklearn.svm.SVCbei Verwendung von csr-Matrizen mit unsortierten Indizes, von Xinfan Meng und Andreas Müller.cluster.MiniBatchKMeans: Zufällige Neuzuweisung von Cluster-Zentren mit wenigen zugeordneten Beobachtungen, von Gael Varoquaux.
Zusammenfassung der API-Änderungen#
Alle Vorkommen von
n_atomswurden zur Konsistenz inn_componentsumbenannt. Dies gilt fürdecomposition.DictionaryLearning,decomposition.MiniBatchDictionaryLearning,decomposition.dict_learning,decomposition.dict_learning_online.Alle Vorkommen von
max_iterswurden zur Konsistenz inmax_iterumbenannt. Dies gilt fürsemi_supervised.LabelPropagationundsemi_supervised.label_propagation.LabelSpreading.Alle Vorkommen von
learn_ratewurden zur Konsistenz inlearning_rateumbenannt. Dies gilt fürensemble.BaseGradientBoostingundensemble.GradientBoostingRegressor.Das Modul
sklearn.linear_model.sparseist verschwunden. Die Unterstützung für dünne Matrizen wurde bereits in die „regulären“ linearen Modelle integriert.sklearn.metrics.mean_square_error, das fälschlicherweise den akkumulierten Fehler zurückgab, wurde entfernt. Verwenden Sie stattdessenmetrics.mean_squared_error.Das Übergeben von
class_weight-Parametern anfit-Methoden wird nicht mehr unterstützt. Übergeben Sie sie stattdessen an die Konstruktoren der Schätzer.GMMs haben keine
decode- undrvs-Methoden mehr. Verwenden Sie stattdessen die Methodenscore,predictodersample.Die Option
solverbeim Anpassen von Ridge-Regression und -Klassifizierung ist nun veraltet und wird in v0.14 entfernt. Verwenden Sie stattdessen die Konstruktoroption.feature_extraction.text.DictVectorizergibt nun dünne Matrizen im CSR-Format zurück, anstatt COO.kincross_validation.KFoldundcross_validation.StratifiedKFoldwurde inn_foldsumbenannt,n_bootstrapsinn_iterincross_validation.Bootstrap.Alle Vorkommen von
n_iterationswurden zur Konsistenz inn_iterumbenannt. Dies gilt fürcross_validation.ShuffleSplit,cross_validation.StratifiedShuffleSplit,utils.extmath.randomized_range_finderundutils.extmath.randomized_svd.rhoinlinear_model.ElasticNetundlinear_model.SGDClassifierwurde durchl1_ratioersetzt. Der Parameterrhohatte unterschiedliche Bedeutungen;l1_ratiowurde eingeführt, um Verwirrung zu vermeiden. Er hat die gleiche Bedeutung wie das frühererhoinlinear_model.ElasticNetund(1-rho)inlinear_model.SGDClassifier.linear_model.LassoLarsundlinear_model.Larsspeichern nun eine Liste von Pfaden im Falle mehrerer Ziele, anstatt eines Arrays von Pfaden.Das Attribut
gmmvonhmm.GMMHMMwurde ingmm_umbenannt, um stärker mit der API übereinzustimmen.cluster.spectral_embeddingwurde nachmanifold.spectral_embeddingverschoben.eig_tolinmanifold.spectral_embedding,cluster.SpectralClusteringwurde ineigen_tolumbenannt,modewurde ineigen_solverumbenannt.modeinmanifold.spectral_embeddingundcluster.SpectralClusteringwurde ineigen_solverumbenannt.Die Attribute
classes_undn_classes_vontree.DecisionTreeClassifierund allen abgeleiteten Ensemble-Modellen sind nun flach für Probleme mit einer einzigen Ausgabe und verschachtelt für Probleme mit mehreren Ausgaben.Das Attribut
estimators_vonensemble.GradientBoostingRegressorundensemble.GradientBoostingClassifierist nun ein Array vontree.DecisionTreeRegressor.Umbenannt
chunk_sizeinbatch_sizeindecomposition.MiniBatchDictionaryLearningunddecomposition.MiniBatchSparsePCAzur Konsistenz.svm.SVCundsvm.NuSVCstellen nun einclasses_Attribut bereit und unterstützen beliebige dtypes für Labelsy. Außerdem spiegelt der vonpredictzurückgegebene dtype nun den dtype vonywährendfit(war frühernp.float).Standard
test_sizeincross_validation.train_test_splitauf None geändert, Möglichkeit hinzugefügt,test_sizeaustrain_sizeincross_validation.ShuffleSplitundcross_validation.StratifiedShuffleSplitabzuleiten.Funktion
sklearn.metrics.zero_oneumbenannt insklearn.metrics.zero_one_loss. Beachten Sie, dass das Standardverhalten insklearn.metrics.zero_one_losssich vonsklearn.metrics.zero_oneunterscheidet:normalize=Falsewurde zunormalize=Truegeändert.Funktion
metrics.zero_one_scoreumbenannt inmetrics.accuracy_score.datasets.make_circleshat nun die gleiche Anzahl von inneren und äußeren Punkten.Bei den Naive Bayes Klassifikatoren wurde der Parameter
class_priorvonfitnach__init__verschoben.
Personen#
Liste der Mitwirkenden für Release 0.13 nach Anzahl der Commits.
364 Andreas Müller
143 Arnaud Joly
131 Gael Varoquaux
117 Mathieu Blondel
108 Lars Buitinck
106 Wei Li
101 Olivier Grisel
65 Vlad Niculae
30 Rob Zinkov
19 Aymeric Masurelle
18 Andrew Winterman
17 Nelle Varoquaux
14 Daniel Nouri
13 syhw
10 Corey Lynch
10 Kyle Beauchamp
9 Brian Cheung
9 Immanuel Bayer
9 mr.Shu
8 Conrad Lee
7 Tadej Janež
6 Brian Cajes
6 Michael
6 Noel Dawe
6 Tiago Nunes
6 cow
5 Anze
5 Shiqiao Du
4 Christian Jauvin
4 Jacques Kvam
4 Richard T. Guy
3 Alexandre Abraham
3 Doug Coleman
3 Scott Dickerson
2 ApproximateIdentity
2 John Benediktsson
2 Mark Veronda
2 Matti Lyra
2 Mikhail Korobov
2 Xinfan Meng
1 Alejandro Weinstein
1 Christoph Deil
1 Eugene Nizhibitsky
1 Kenneth C. Arnold
1 Luis Pedro Coelho
1 Miroslav Batchkarov
1 Pavel
1 Sebastian Berg
1 Shaun Jackman
1 Subhodeep Moitra
1 bob
1 dengemann
1 emanuele
1 x006