Version 0.13#

Version 0.13.1#

23. Februar 2013

Das Release 0.13.1 behebt nur einige Fehler und fügt keine neue Funktionalität hinzu.

Änderungsprotokoll#

Behebt einen Testfehler, der dadurch verursacht wurde, dass die Funktion cross_validation.train_test_split von Yaroslav Halchenko als Test interpretiert wurde.
Behebt einen Fehler bei der Neuzuweisung kleiner Cluster in cluster.MiniBatchKMeans von Gael Varoquaux.
Behebt den Standardwert von gamma in decomposition.KernelPCA von Lars Buitinck.
Aktualisiert joblib auf 0.7.0d von Gael Varoquaux.
Behebt die Skalierung der Deviance in ensemble.GradientBoostingClassifier von Peter Prettenhofer.
Besseres Tie-Breaking in multiclass.OneVsOneClassifier von Andreas Müller.
Weitere kleine Verbesserungen an Tests und Dokumentation.

Personen#

Liste der Mitwirkenden für Release 0.13.1 nach Anzahl der Commits.

16 Lars Buitinck
12 Andreas Müller
8 Gael Varoquaux
5 Robert Marchman
3 Peter Prettenhofer
2 Hrishikesh Huilgolkar
1 Bastiaan van den Berg
1 Diego Molla
1 Gilles Louppe
1 Mathieu Blondel
1 Nelle Varoquaux
1 Rafael Cunha de Almeida
1 Rolando Espinoza La fuente
1 Vlad Niculae
1 Yaroslav Halchenko

Version 0.13#

21. Januar 2013

Neue Schätzer-Klassen#

dummy.DummyClassifier und dummy.DummyRegressor, zwei datenunabhängige Prädiktoren von Mathieu Blondel. Nützlich zur Überprüfung Ihrer Schätzer. Siehe Dummy-Schätzer im Benutzerhandbuch. Multioutput-Unterstützung hinzugefügt von Arnaud Joly.
decomposition.FactorAnalysis, ein Transformer, der die klassische Faktorenanalyse implementiert, von Christian Osendorfer und Alexandre Gramfort. Siehe Faktorenanalyse im Benutzerhandbuch.
feature_extraction.FeatureHasher, ein Transformer, der den „Hashing-Trick“ für schnelle, speichereffiziente Merkmalsextraktion aus Zeichenkettenfeldern implementiert, von Lars Buitinck und feature_extraction.text.HashingVectorizer für Textdokumente von Olivier Grisel. Siehe Feature-Hashing und Vektorisierung eines großen Textkorpus mit dem Hashing-Trick für die Dokumentation und Beispiele.
pipeline.FeatureUnion, ein Transformer, der die Ergebnisse mehrerer anderer Transformer verkettet, von Andreas Müller. Siehe FeatureUnion: zusammengesetzte Merkmalsräume im Benutzerhandbuch.
random_projection.GaussianRandomProjection, random_projection.SparseRandomProjection und die Funktion random_projection.johnson_lindenstrauss_min_dim. Die ersten beiden sind Transformer, die Gaußsche und dünne Zufallsprojektionsmatrizen implementieren, von Olivier Grisel und Arnaud Joly. Siehe Zufallsprojektion im Benutzerhandbuch.
kernel_approximation.Nystroem, ein Transformer zur Approximation beliebiger Kerne von Andreas Müller. Siehe Nystroem-Methode zur Kernapproximation im Benutzerhandbuch.
preprocessing.OneHotEncoder, ein Transformer, der binäre Kodierungen kategorialer Merkmale berechnet, von Andreas Müller. Siehe Kodierung kategorialer Merkmale im Benutzerhandbuch.
linear_model.PassiveAggressiveClassifier und linear_model.PassiveAggressiveRegressor, Prädiktoren, die eine effiziente stochastische Optimierung für lineare Modelle implementieren, von Rob Zinkov und Mathieu Blondel. Siehe Passive Aggressive Algorithmen im Benutzerhandbuch.
ensemble.RandomTreesEmbedding, ein Transformer zur Erzeugung hochdimensionaler dünner Repräsentationen mittels Ensembles von völlig zufälligen Bäumen, von Andreas Müller. Siehe Totally Random Trees Embedding im Benutzerhandbuch.
manifold.SpectralEmbedding und Funktion manifold.spectral_embedding, die die „Laplacian Eigenmaps“-Transformation zur nichtlinearen Dimensionsreduktion implementieren, von Wei Li. Siehe Spektrale Einbettung im Benutzerhandbuch.
isotonic.IsotonicRegression von Fabian Pedregosa, Alexandre Gramfort und Nelle Varoquaux,

Änderungsprotokoll#

metrics.zero_one_loss (früher metrics.zero_one) hat nun eine Option für normalisierte Ausgabe, die den Bruchteil der Fehlklassifizierungen anzeigt, anstatt der rohen Anzahl der Fehlklassifizierungen. Von Kyle Beauchamp.
tree.DecisionTreeClassifier und alle abgeleiteten Ensemble-Modelle unterstützen nun Stichprobengewichtung, von Noel Dawe und Gilles Louppe.
Geschwindigkeitsverbesserung bei der Verwendung von Bootstrap-Stichproben in Ensembles von zufälligen Bäumen, von Peter Prettenhofer und Gilles Louppe.
Partial Dependence Plots für Gradient-Boosting-Bäume in ensemble.partial_dependence.partial_dependence von Peter Prettenhofer. Siehe Partial Dependence und Individual Conditional Expectation Plots als Beispiel.
Das Inhaltsverzeichnis auf der Website ist nun erweiterbar, von Jaques Grobler.
feature_selection.SelectPercentile bricht nun Bindungen deterministisch auf, anstatt alle gleichrangigen Merkmale zurückzugeben.
feature_selection.SelectKBest und feature_selection.SelectPercentile sind numerisch stabiler, da sie Scores anstelle von p-Werten zur Rangfolge der Ergebnisse verwenden. Dies bedeutet, dass sie manchmal andere Merkmale auswählen als zuvor.
Ridge-Regression und Ridge-Klassifizierung mit dem sparse_cg-Löser haben keine quadratische Speicherkomplexität mehr, von Lars Buitinck und Fabian Pedregosa.
Ridge-Regression und Ridge-Klassifizierung unterstützen nun einen neuen schnellen Löser namens lsqr, von Mathieu Blondel.
Beschleunigung von metrics.precision_recall_curve von Conrad Lee.
Unterstützung für das Lesen/Schreiben von svmlight-Dateien mit paarweisem Präferenzattribut (qid im svmlight-Dateiformat) in datasets.dump_svmlight_file und datasets.load_svmlight_file hinzugefügt, von Fabian Pedregosa.
Schnellere und robustere metrics.confusion_matrix und Bewertung der Clustering-Leistung von Wei Li.
cross_validation.cross_val_score funktioniert nun mit vorberechneten Kernels und Affinitätsmatrizen, von Andreas Müller.
LARS-Algorithmus wurde mit Heuristiken zur Entfernung zu stark korrelierter Regressoren und zum Stoppen des Pfades bei überwiegendem numerischem Rauschen numerisch stabiler gemacht, von Gael Varoquaux.
Schnellere Implementierung von metrics.precision_recall_curve von Conrad Lee.
Neuer Kernel metrics.chi2_kernel von Andreas Müller, oft in Computer-Vision-Anwendungen verwendet.
Behebung eines seit langem bestehenden Fehlers in naive_bayes.BernoulliNB, behoben von Shaun Jackman.
Implementiert predict_proba in multiclass.OneVsRestClassifier, von Andrew Winterman.
Verbesserte Konsistenz beim Gradient Boosting: Die Schätzer ensemble.GradientBoostingRegressor und ensemble.GradientBoostingClassifier verwenden den Schätzer tree.DecisionTreeRegressor anstelle der Datenstruktur tree._tree.Tree, von Arnaud Joly.
Behebt einen Gleitkommafehler im Modul Entscheidungsbäume, von Seberg.
Behebt, dass metrics.roc_curve fehlschlägt, wenn y_true nur eine Klasse hat, von Wei Li.
Fügt die Funktion metrics.mean_absolute_error hinzu, die den mittleren absoluten Fehler berechnet. Die Metriken metrics.mean_squared_error, metrics.mean_absolute_error und metrics.r2_score unterstützen Multi-Output, von Arnaud Joly.
Behebt die Unterstützung für class_weight in svm.LinearSVC und linear_model.LogisticRegression, von Andreas Müller. Die Bedeutung von class_weight wurde umgekehrt, da ein höherer Gewichtswert fälschlicherweise weniger Positive einer bestimmten Klasse bedeutete.
Verbesserung der erzählerischen Dokumentation und Konsistenz in sklearn.metrics für Metriken bei Regression und Klassifizierung, von Arnaud Joly.
Behebt einen Fehler in sklearn.svm.SVC bei Verwendung von csr-Matrizen mit unsortierten Indizes, von Xinfan Meng und Andreas Müller.
cluster.MiniBatchKMeans: Zufällige Neuzuweisung von Cluster-Zentren mit wenigen zugeordneten Beobachtungen, von Gael Varoquaux.

Zusammenfassung der API-Änderungen#

Alle Vorkommen von n_atoms wurden zur Konsistenz in n_components umbenannt. Dies gilt für decomposition.DictionaryLearning, decomposition.MiniBatchDictionaryLearning, decomposition.dict_learning, decomposition.dict_learning_online.
Alle Vorkommen von max_iters wurden zur Konsistenz in max_iter umbenannt. Dies gilt für semi_supervised.LabelPropagation und semi_supervised.label_propagation.LabelSpreading.
Alle Vorkommen von learn_rate wurden zur Konsistenz in learning_rate umbenannt. Dies gilt für ensemble.BaseGradientBoosting und ensemble.GradientBoostingRegressor.
Das Modul sklearn.linear_model.sparse ist verschwunden. Die Unterstützung für dünne Matrizen wurde bereits in die „regulären“ linearen Modelle integriert.
sklearn.metrics.mean_square_error, das fälschlicherweise den akkumulierten Fehler zurückgab, wurde entfernt. Verwenden Sie stattdessen metrics.mean_squared_error.
Das Übergeben von class_weight-Parametern an fit-Methoden wird nicht mehr unterstützt. Übergeben Sie sie stattdessen an die Konstruktoren der Schätzer.
GMMs haben keine decode- und rvs-Methoden mehr. Verwenden Sie stattdessen die Methoden score, predict oder sample.
Die Option solver beim Anpassen von Ridge-Regression und -Klassifizierung ist nun veraltet und wird in v0.14 entfernt. Verwenden Sie stattdessen die Konstruktoroption.
feature_extraction.text.DictVectorizer gibt nun dünne Matrizen im CSR-Format zurück, anstatt COO.
k in cross_validation.KFold und cross_validation.StratifiedKFold wurde in n_folds umbenannt, n_bootstraps in n_iter in cross_validation.Bootstrap.
Alle Vorkommen von n_iterations wurden zur Konsistenz in n_iter umbenannt. Dies gilt für cross_validation.ShuffleSplit, cross_validation.StratifiedShuffleSplit, utils.extmath.randomized_range_finder und utils.extmath.randomized_svd.
rho in linear_model.ElasticNet und linear_model.SGDClassifier wurde durch l1_ratio ersetzt. Der Parameter rho hatte unterschiedliche Bedeutungen; l1_ratio wurde eingeführt, um Verwirrung zu vermeiden. Er hat die gleiche Bedeutung wie das frühere rho in linear_model.ElasticNet und (1-rho) in linear_model.SGDClassifier.
linear_model.LassoLars und linear_model.Lars speichern nun eine Liste von Pfaden im Falle mehrerer Ziele, anstatt eines Arrays von Pfaden.
Das Attribut gmm von hmm.GMMHMM wurde in gmm_ umbenannt, um stärker mit der API übereinzustimmen.
cluster.spectral_embedding wurde nach manifold.spectral_embedding verschoben.
eig_tol in manifold.spectral_embedding, cluster.SpectralClustering wurde in eigen_tol umbenannt, mode wurde in eigen_solver umbenannt.
mode in manifold.spectral_embedding und cluster.SpectralClustering wurde in eigen_solver umbenannt.
Die Attribute classes_ und n_classes_ von tree.DecisionTreeClassifier und allen abgeleiteten Ensemble-Modellen sind nun flach für Probleme mit einer einzigen Ausgabe und verschachtelt für Probleme mit mehreren Ausgaben.
Das Attribut estimators_ von ensemble.GradientBoostingRegressor und ensemble.GradientBoostingClassifier ist nun ein Array von tree.DecisionTreeRegressor.
Umbenannt chunk_size in batch_size in decomposition.MiniBatchDictionaryLearning und decomposition.MiniBatchSparsePCA zur Konsistenz.
svm.SVC und svm.NuSVC stellen nun ein classes_ Attribut bereit und unterstützen beliebige dtypes für Labels y. Außerdem spiegelt der von predict zurückgegebene dtype nun den dtype von y während fit (war früher np.float).
Standard test_size in cross_validation.train_test_split auf None geändert, Möglichkeit hinzugefügt, test_size aus train_size in cross_validation.ShuffleSplit und cross_validation.StratifiedShuffleSplit abzuleiten.
Funktion sklearn.metrics.zero_one umbenannt in sklearn.metrics.zero_one_loss. Beachten Sie, dass das Standardverhalten in sklearn.metrics.zero_one_loss sich von sklearn.metrics.zero_one unterscheidet: normalize=False wurde zu normalize=True geändert.
Funktion metrics.zero_one_score umbenannt in metrics.accuracy_score.
datasets.make_circles hat nun die gleiche Anzahl von inneren und äußeren Punkten.
Bei den Naive Bayes Klassifikatoren wurde der Parameter class_prior von fit nach __init__ verschoben.

Personen#

Liste der Mitwirkenden für Release 0.13 nach Anzahl der Commits.

364 Andreas Müller
143 Arnaud Joly
137 Peter Prettenhofer
131 Gael Varoquaux
117 Mathieu Blondel
108 Lars Buitinck
106 Wei Li
101 Olivier Grisel
65 Vlad Niculae
54 Gilles Louppe
40 Jaques Grobler
38 Alexandre Gramfort
30 Rob Zinkov
19 Aymeric Masurelle
18 Andrew Winterman
17 Fabian Pedregosa
17 Nelle Varoquaux
16 Christian Osendorfer
14 Daniel Nouri
13 Virgile Fritsch
13 syhw
12 Satrajit Ghosh
10 Corey Lynch
10 Kyle Beauchamp
9 Brian Cheung
9 Immanuel Bayer
9 mr.Shu
8 Conrad Lee
8 James Bergstra
7 Tadej Janež
6 Brian Cajes
6 Jake Vanderplas
6 Michael
6 Noel Dawe
6 Tiago Nunes
6 cow
5 Anze
5 Shiqiao Du
4 Christian Jauvin
4 Jacques Kvam
4 Richard T. Guy
4 Robert Layton
3 Alexandre Abraham
3 Doug Coleman
3 Scott Dickerson
2 ApproximateIdentity
2 John Benediktsson
2 Mark Veronda
2 Matti Lyra
2 Mikhail Korobov
2 Xinfan Meng
1 Alejandro Weinstein
1 Alexandre Passos
1 Christoph Deil
1 Eugene Nizhibitsky
1 Kenneth C. Arnold
1 Luis Pedro Coelho
1 Miroslav Batchkarov
1 Pavel
1 Sebastian Berg
1 Shaun Jackman
1 Subhodeep Moitra
1 bob
1 dengemann
1 emanuele
1 x006

Version 0.13#

Version 0.13.1#

Änderungsprotokoll#

Personen#

Version 0.13#

Neue Schätzer-Klassen#

Änderungsprotokoll#

Zusammenfassung der API-Änderungen#

Personen#

Diese Seite