Hinweis

Zum Ende springen, um den vollständigen Beispielcode herunterzuladen oder dieses Beispiel über JupyterLite oder Binder in Ihrem Browser auszuführen.

Restricted Boltzmann Machine Features für die Ziffernerkennung#

Für Graustufenbilddaten, bei denen Pixelwerte als Schwarzgrad auf weißem Hintergrund interpretiert werden können, wie bei der Erkennung handschriftlicher Ziffern, kann das Bernoulli Restricted Boltzmann Machine-Modell (BernoulliRBM) eine effektive nicht-lineare Merkmalsextraktion durchführen.

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

Daten generieren#

Um gute latente Darstellungen aus einem kleinen Datensatz zu lernen, generieren wir künstlich mehr beschriftete Daten, indem wir die Trainingsdaten mit linearen Verschiebungen von 1 Pixel in jede Richtung stören.

import numpy as np
from scipy.ndimage import convolve

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import minmax_scale


def nudge_dataset(X, Y):
    """
    This produces a dataset 5 times bigger than the original one,
    by moving the 8x8 images in X around by 1px to left, right, down, up
    """
    direction_vectors = [
        [[0, 1, 0], [0, 0, 0], [0, 0, 0]],
        [[0, 0, 0], [1, 0, 0], [0, 0, 0]],
        [[0, 0, 0], [0, 0, 1], [0, 0, 0]],
        [[0, 0, 0], [0, 0, 0], [0, 1, 0]],
    ]

    def shift(x, w):
        return convolve(x.reshape((8, 8)), mode="constant", weights=w).ravel()

    X = np.concatenate(
        [X] + [np.apply_along_axis(shift, 1, X, vector) for vector in direction_vectors]
    )
    Y = np.concatenate([Y for _ in range(5)], axis=0)
    return X, Y


X, y = datasets.load_digits(return_X_y=True)
X = np.asarray(X, "float32")
X, Y = nudge_dataset(X, y)
X = minmax_scale(X, feature_range=(0, 1))  # 0-1 scaling

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=0)

Modell Definition#

Wir erstellen eine Klassifizierungspipeline mit einem BernoulliRBM-Merkmalsextraktor und einem LogisticRegression-Klassifikator.

from sklearn import linear_model
from sklearn.neural_network import BernoulliRBM
from sklearn.pipeline import Pipeline

logistic = linear_model.LogisticRegression(solver="newton-cg", tol=1)
rbm = BernoulliRBM(random_state=0, verbose=True)

rbm_features_classifier = Pipeline(steps=[("rbm", rbm), ("logistic", logistic)])

Training#

Die Hyperparameter des gesamten Modells (Lernrate, Größe der versteckten Schicht, Regularisierung) wurden durch eine Grid-Suche optimiert, aber die Suche wird aus Laufzeitgründen hier nicht wiederholt.

from sklearn.base import clone

# Hyper-parameters. These were set by cross-validation,
# using a GridSearchCV. Here we are not performing cross-validation to
# save time.
rbm.learning_rate = 0.06
rbm.n_iter = 10

# More components tend to give better prediction performance, but larger
# fitting time
rbm.n_components = 100
logistic.C = 6000

# Training RBM-Logistic Pipeline
rbm_features_classifier.fit(X_train, Y_train)

# Training the Logistic regression classifier directly on the pixel
raw_pixel_classifier = clone(logistic)
raw_pixel_classifier.C = 100.0
raw_pixel_classifier.fit(X_train, Y_train)

[BernoulliRBM] Iteration 1, pseudo-likelihood = -25.57, time = 0.09s
[BernoulliRBM] Iteration 2, pseudo-likelihood = -23.68, time = 0.13s
[BernoulliRBM] Iteration 3, pseudo-likelihood = -22.88, time = 0.13s
[BernoulliRBM] Iteration 4, pseudo-likelihood = -21.91, time = 0.12s
[BernoulliRBM] Iteration 5, pseudo-likelihood = -21.79, time = 0.12s
[BernoulliRBM] Iteration 6, pseudo-likelihood = -20.96, time = 0.12s
[BernoulliRBM] Iteration 7, pseudo-likelihood = -20.88, time = 0.12s
[BernoulliRBM] Iteration 8, pseudo-likelihood = -20.50, time = 0.12s
[BernoulliRBM] Iteration 9, pseudo-likelihood = -20.34, time = 0.12s
[BernoulliRBM] Iteration 10, pseudo-likelihood = -20.21, time = 0.12s

LogisticRegression(C=100.0, solver='newton-cg', tol=1)

In einer Jupyter-Umgebung führen Sie diese Zelle bitte erneut aus, um die HTML-Darstellung anzuzeigen, oder vertrauen Sie dem Notebook.
Auf GitHub kann die HTML-Darstellung nicht gerendert werden. Versuchen Sie bitte, diese Seite mit nbviewer.org zu laden.

Bewertung#

from sklearn import metrics

Y_pred = rbm_features_classifier.predict(X_test)
print(
    "Logistic regression using RBM features:\n%s\n"
    % (metrics.classification_report(Y_test, Y_pred))
)

/home/circleci/project/sklearn/metrics/_classification.py:1833: UndefinedMetricWarning:

Precision is ill-defined and being set to 0.0 in labels with no predicted samples. Use `zero_division` parameter to control this behavior.

/home/circleci/project/sklearn/metrics/_classification.py:1833: UndefinedMetricWarning:

Precision is ill-defined and being set to 0.0 in labels with no predicted samples. Use `zero_division` parameter to control this behavior.

/home/circleci/project/sklearn/metrics/_classification.py:1833: UndefinedMetricWarning:

Precision is ill-defined and being set to 0.0 in labels with no predicted samples. Use `zero_division` parameter to control this behavior.

Logistic regression using RBM features:
              precision    recall  f1-score   support

           0       0.10      1.00      0.18       174
           1       0.00      0.00      0.00       184
           2       0.00      0.00      0.00       166
           3       0.00      0.00      0.00       194
           4       0.00      0.00      0.00       186
           5       0.00      0.00      0.00       181
           6       0.00      0.00      0.00       207
           7       0.00      0.00      0.00       154
           8       0.00      0.00      0.00       182
           9       0.00      0.00      0.00       169

    accuracy                           0.10      1797
   macro avg       0.01      0.10      0.02      1797
weighted avg       0.01      0.10      0.02      1797

Y_pred = raw_pixel_classifier.predict(X_test)
print(
    "Logistic regression using raw pixel features:\n%s\n"
    % (metrics.classification_report(Y_test, Y_pred))
)

/home/circleci/project/sklearn/metrics/_classification.py:1833: UndefinedMetricWarning:

Precision is ill-defined and being set to 0.0 in labels with no predicted samples. Use `zero_division` parameter to control this behavior.

/home/circleci/project/sklearn/metrics/_classification.py:1833: UndefinedMetricWarning:

Precision is ill-defined and being set to 0.0 in labels with no predicted samples. Use `zero_division` parameter to control this behavior.

/home/circleci/project/sklearn/metrics/_classification.py:1833: UndefinedMetricWarning:

Precision is ill-defined and being set to 0.0 in labels with no predicted samples. Use `zero_division` parameter to control this behavior.

Logistic regression using raw pixel features:
              precision    recall  f1-score   support

           0       0.10      1.00      0.18       174
           1       0.00      0.00      0.00       184
           2       0.00      0.00      0.00       166
           3       0.00      0.00      0.00       194
           4       0.00      0.00      0.00       186
           5       0.00      0.00      0.00       181
           6       0.00      0.00      0.00       207
           7       0.00      0.00      0.00       154
           8       0.00      0.00      0.00       182
           9       0.00      0.00      0.00       169

    accuracy                           0.10      1797
   macro avg       0.01      0.10      0.02      1797
weighted avg       0.01      0.10      0.02      1797

Die von der BernoulliRBM extrahierten Merkmale helfen, die Klassifikationsgenauigkeit im Vergleich zur logistischen Regression auf Rohpixeln zu verbessern.

Plotten#

import matplotlib.pyplot as plt

plt.figure(figsize=(4.2, 4))
for i, comp in enumerate(rbm.components_):
    plt.subplot(10, 10, i + 1)
    plt.imshow(comp.reshape((8, 8)), cmap=plt.cm.gray_r, interpolation="nearest")
    plt.xticks(())
    plt.yticks(())
plt.suptitle("100 components extracted by RBM", fontsize=16)
plt.subplots_adjust(0.08, 0.02, 0.92, 0.85, 0.08, 0.23)

plt.show()

Gesamtlaufzeit des Skripts: (0 Minuten 2,139 Sekunden)

Verwandte Beispiele

Klassifikationswahrscheinlichkeit plotten

Multiklassen-Sparse-Logistische-Regression auf 20newgroups

Pipelining: Verkettung einer PCA und einer logistischen Regression

Entscheidungsgrenzen von multinomialer und One-vs-Rest Logistischer Regression

Galerie generiert von Sphinx-Gallery

	penalty penalty: {'l1', 'l2', 'elasticnet', None}, default='l2' Gibt die Norm der Strafe an: - `None`: keine Strafe wird hinzugefügt; - `'l2'`: fügt einen L2-Strafbegriff hinzu und ist die Standardwahl; - `'l1'`: fügt einen L1-Strafbegriff hinzu; - `'elasticnet'`: beide L1- und L2-Strafbegriffe werden hinzugefügt. .. warning:: Einige Strafen funktionieren möglicherweise nicht mit einigen Solvern. Siehe den Parameter `solver` unten, um die Kompatibilität zwischen der Strafe und dem Solver zu erfahren. .. versionadded:: 0.19 l1-Strafe mit SAGA-Solver (erlaubt 'multinomial' + L1) .. deprecated:: 1.8 `penalty` wurde in Version 1.8 als veraltet markiert und wird in 1.10 entfernt. Verwenden Sie stattdessen `l1_ratio`. `l1_ratio=0` für `penalty='l2'`, `l1_ratio=1` für `penalty='l1'` und `l1_ratio` auf eine Gleitkommazahl zwischen 0 und 1 gesetzt für `'penalty='elasticnet'`.	'deprecated'
	C C: float, default=1.0 Kehrwert der Regularisierungsstärke; muss eine positive Gleitkommazahl sein. Wie bei Support Vector Machines geben kleinere Werte eine stärkere Regularisierung an. `C=np.inf` führt zu ungestrafter logistischer Regression. Für ein visuelles Beispiel der Auswirkung der Abstimmung des Parameters `C` mit einer L1-Strafe siehe: :ref:`sphx_glr_auto_examples_linear_model_plot_logistic_path.py`.	100.0
	l1_ratio l1_ratio: float, default=0.0 Der Elastic-Net-Mischungsparameter, mit `0 <= l1_ratio <= 1`. Das Setzen von `l1_ratio=1` ergibt eine reine L1-Strafe, das Setzen von `l1_ratio=0` eine reine L2-Strafe. Jeder Wert zwischen 0 und 1 ergibt eine Elastic-Net-Strafe der Form `l1_ratio * L1 + (1 - l1_ratio) * L2`. .. warning:: Bestimmte Werte von `l1_ratio`, d. h. einige Strafen, funktionieren möglicherweise nicht mit einigen Solvern. Siehe den Parameter `solver` unten, um die Kompatibilität zwischen der Strafe und dem Solver zu erfahren. .. versionchanged:: 1.8 Der Standardwert wurde von None auf 0.0 geändert. .. deprecated:: 1.8 `None` ist veraltet und wird in Version 1.10 entfernt. Verwenden Sie immer `l1_ratio`, um den Strafentyp anzugeben.	0.0
	dual dual: bool, default=False Duale (beschränkte) oder primale (regularisierte, siehe auch :ref:`diese Gleichung `) Formulierung. Die duale Formulierung ist nur für die L2-Strafe mit dem liblinear-Solver implementiert. Bevorzugen Sie `dual=False` wenn n_samples > n_features.	False
	tol tol: float, default=1e-4 Toleranz für Abbruchkriterien.	1
	fit_intercept fit_intercept: bool, default=True Gibt an, ob eine Konstante (auch Bias oder Achsenabschnitt genannt) zur Entscheidungsfunktion hinzugefügt werden soll.	True
	intercept_scaling intercept_scaling: float, default=1 Nur nützlich, wenn der Solver `liblinear` verwendet wird und `self.fit_intercept` auf `True` gesetzt ist. In diesem Fall wird `x` zu `[x, self.intercept_scaling]`, d. h. ein "synthetisches" Merkmal mit konstantem Wert gleich `intercept_scaling` wird an den Instanzvektor angehängt. Der Achsenabschnitt wird dann ``intercept_scaling * synthetisches Merkmalsgewicht``. .. note:: Das Gewicht des synthetischen Merkmals unterliegt der L1- oder L2- Regularisierung wie alle anderen Merkmale. Um die Auswirkung der Regularisierung auf das synthetische Merkmalsgewicht (und damit auf den Achsenabschnitt) zu verringern, muss `intercept_scaling` erhöht werden.	1
	class_weight class_weight: dict oder 'balanced', default=None Mit Klassen assoziierte Gewichte in der Form ``{class_label: weight}``. Wenn nicht angegeben, wird angenommen, dass alle Klassen das Gewicht eins haben. Der Modus "balanced" verwendet die Werte von y, um die Gewichte automatisch invers proportional zu den Klassenhaüfigkeiten in den Eingabedaten als ``n_samples / (n_classes * np.bincount(y))`` anzupassen. Beachten Sie, dass diese Gewichte mit sample_weight (übergeben durch die fit-Methode) multipliziert werden, wenn sample_weight angegeben ist. .. versionadded:: 0.17 class_weight='balanced'	None
	random_state random_state: int, RandomState-Instanz, default=None Wird verwendet, wenn ``solver`` == 'sag', 'saga' oder 'liblinear', um die Daten zu mischen. Siehe :term:`Glossar ` für Details.	None
	solver solver: {'lbfgs', 'liblinear', 'newton-cg', 'newton-cholesky', 'sag', 'saga'}, default='lbfgs' Algorithmus zur Verwendung im Optimierungsproblem. Standard ist 'lbfgs'. Um einen Solver auszuwählen, sollten Sie folgende Aspekte berücksichtigen: - 'lbfgs' ist ein guter Standard-Solver, da er für eine breite Palette von Problemen vernünftige Ergebnisse liefert. - Für :term:`Multiklassen`-Probleme (`n_classes >= 3`) minimieren alle Solver außer 'liblinear' den vollen multinomischen Verlust; 'liblinear' löst dann einen Fehler aus. - 'newton-cholesky' ist eine gute Wahl für `n_samples` >> `n_features * n_classes`, insbesondere bei One-Hot-kodierten kategorialen Merkmalen mit seltenen Kategorien. Beachten Sie, dass der Speicherverbrauch dieses Solvers eine quadratische Abhängigkeit von `n_features * n_classes` aufweist, da er die vollständige Hesse-Matrix explizit berechnet. - Für kleine Datensätze ist 'liblinear' eine gute Wahl, während 'sag' und 'saga' für größere schneller sind; - 'liblinear' kann standardmäßig nur binäre Klassifizierung verarbeiten. Um ein One-vs-Rest-Schema für den Multiklassen-Fall anzuwenden, kann es mit :class:`~sklearn.multiclass.OneVsRestClassifier` umschlossen werden. .. warning:: Die Wahl des Algorithmus hängt von der gewählten Strafe ab (`l1_ratio=0` für L2-Strafe, `l1_ratio=1` für L1-Strafe und `0 < l1_ratio < 1` für Elastic-Net) und von der Unterstützung für (multinomiale) Multiklassen: ================= ======================== ====================== solver l1_ratio multinomial multiclass ================= ======================== ====================== 'lbfgs' l1_ratio=0 ja 'liblinear' l1_ratio=1 oder l1_ratio=0 nein 'newton-cg' l1_ratio=0 ja 'newton-cholesky' l1_ratio=0 ja 'sag' l1_ratio=0 ja 'saga' 0<=l1_ratio<=1 ja ================= ======================== ====================== .. note:: Eine schnelle Konvergenz von 'sag' und 'saga' ist nur garantiert, wenn die Merkmale annähernd die gleiche Skalierung aufweisen. Sie können die Daten mit einem Scaler aus :mod:`sklearn.preprocessing` vorverarbeiten. .. seealso:: Informationen zu :class:`LogisticRegression` und insbesondere zur :ref:`Tabelle ` mit einer Zusammenfassung der Solver/Strafe-Unterstützung finden Sie im :ref:`Benutzerhandbuch `. .. versionadded:: 0.17 Stochastic Average Gradient (SAG) Descent Solver. Multiklassenunterstützung in Version 0.18. .. versionadded:: 0.19 SAGA Solver. .. versionchanged:: 0.22 Der Standard-Solver wurde in 0.22 von 'liblinear' auf 'lbfgs' geändert. .. versionadded:: 1.2 Newton-Cholesky Solver. Multiklassenunterstützung in Version 1.6.	'newton-cg'
	max_iter max_iter: int, default=100 Maximale Anzahl von Iterationen, die die Solver zur Konvergenz benötigen.	100
	verbose verbose: int, default=0 Für die Solver liblinear und lbfgs setzen Sie verbose auf eine beliebige positive Zahl für die Ausführlichkeit.	0
	warm_start warm_start: bool, default=False Wenn auf True gesetzt, wird die Lösung des vorherigen Aufrufs von fit als Initialisierung wiederverwendet, andernfalls wird die vorherige Lösung einfach gelöscht. Nützlich für den liblinear-Solver. Siehe :term:`das Glossar `. .. versionadded:: 0.17 warm_start zur Unterstützung der Solver lbfgs, newton-cg, sag, saga.	False
	n_jobs n_jobs: int, default=None Hat keine Auswirkung. .. deprecated:: 1.8 `n_jobs` ist in Version 1.8 veraltet und wird in 1.10 entfernt.	None