GroupKFold#

class sklearn.model_selection.GroupKFold(n_splits=5, *, shuffle=False, random_state=None)[Quelle]#

K-Fold Iterator-Variante mit nicht überlappenden Gruppen.

Jede Gruppe erscheint genau einmal im Testset über alle Folds hinweg (die Anzahl der unterschiedlichen Gruppen muss mindestens gleich der Anzahl der Folds sein).

Die Folds sind ungefähr ausgewogen in dem Sinne, dass die Anzahl der Samples in jedem Test-Fold ungefähr gleich ist, wenn shuffle True ist.

Lesen Sie mehr im Benutzerhandbuch.

Zur Visualisierung des Kreuzvalidierungsverhaltens und zum Vergleich zwischen gängigen scikit-learn-Split-Methoden siehe Visualisierung des Kreuzvalidierungsverhaltens in scikit-learn

Parameter:

n_splitsint, default=5: Anzahl der Folds. Muss mindestens 2 sein.

Geändert in Version 0.22: n_splits Standardwert von 3 auf 5 geändert.
shufflebool, default=False: Ob die Gruppen vor dem Aufteilen in Batches gemischt werden sollen. Beachten Sie, dass die Samples innerhalb jedes Splits nicht gemischt werden.

Hinzugefügt in Version 1.6.
random_stateint, RandomState-Instanz oder None, default=None: Wenn shuffle True ist, beeinflusst random_state die Reihenfolge der Indizes, die die Zufälligkeit jedes Folds steuert. Andernfalls hat dieser Parameter keine Auswirkung. Übergeben Sie eine Ganzzahl für reproduzierbare Ergebnisse über mehrere Funktionsaufrufe hinweg. Siehe Glossar.

Hinzugefügt in Version 1.6.

Siehe auch

LeaveOneGroupOut: Zur Aufteilung des Datensatzes gemäß expliziter domänenspezifischer Stratifizierung des Datensatzes.
StratifiedKFold: Berücksichtigt Klasseninformationen, um Folds mit unausgewogenen Klassenanteilen zu vermeiden (für binäre oder multiklassen Klassifizierungsaufgaben).

Anmerkungen

Gruppen erscheinen in beliebiger Reihenfolge in den Folds.

Beispiele

>>> import numpy as np
>>> from sklearn.model_selection import GroupKFold
>>> X = np.array([[1, 2], [3, 4], [5, 6], [7, 8], [9, 10], [11, 12]])
>>> y = np.array([1, 2, 3, 4, 5, 6])
>>> groups = np.array([0, 0, 2, 2, 3, 3])
>>> group_kfold = GroupKFold(n_splits=2)
>>> group_kfold.get_n_splits()
2
>>> print(group_kfold)
GroupKFold(n_splits=2, random_state=None, shuffle=False)
>>> for i, (train_index, test_index) in enumerate(group_kfold.split(X, y, groups)):
...     print(f"Fold {i}:")
...     print(f"  Train: index={train_index}, group={groups[train_index]}")
...     print(f"  Test:  index={test_index}, group={groups[test_index]}")
Fold 0:
  Train: index=[2 3], group=[2 2]
  Test:  index=[0 1 4 5], group=[0 0 3 3]
Fold 1:
  Train: index=[0 1 4 5], group=[0 0 3 3]
  Test:  index=[2 3], group=[2 2]

get_metadata_routing()[Quelle]#

Holt das Metadaten-Routing dieses Objekts.

Bitte prüfen Sie im Benutzerhandbuch, wie der Routing-Mechanismus funktioniert.

Gibt zurück:

routingMetadataRequest: Ein MetadataRequest, der Routing-Informationen kapselt.

get_n_splits(X=None, y=None, groups=None)[Quelle]#

Gibt die Anzahl der Splitting-Iterationen zurück, die mit dem Parameter n_splits bei der Instanziierung des Kreuzvalidierers festgelegt wurden.

Parameter:

Xarray-like von Shape (n_samples, n_features), default=None: Immer ignoriert, existiert aus API-Kompatibilitätsgründen.
yarray-like mit Form (n_samples,), default=None: Immer ignoriert, existiert aus API-Kompatibilitätsgründen.
groupsarray-like of shape (n_samples,), default=None: Immer ignoriert, existiert aus API-Kompatibilitätsgründen.

Gibt zurück:

n_splitsint: Gibt die Anzahl der Teilungsschritte im Kreuzvalidierer zurück.

set_split_request(*, groups: bool | None | str = '$UNCHANGED$') → GroupKFold[Quelle]#

Konfigurieren Sie, ob Metadaten für die Methode split angefordert werden sollen.

Beachten Sie, dass diese Methode nur relevant ist, wenn dieser Schätzer als Unter-Schätzer innerhalb eines Meta-Schätzers verwendet wird und Metadaten-Routing mit enable_metadata_routing=True aktiviert ist (siehe sklearn.set_config). Bitte lesen Sie das Benutzerhandbuch, um zu erfahren, wie der Routing-Mechanismus funktioniert.

Die Optionen für jeden Parameter sind

True: Metadaten werden angefordert und an split übergeben, wenn sie bereitgestellt werden. Die Anforderung wird ignoriert, wenn keine Metadaten bereitgestellt werden.
False: Metadaten werden nicht angefordert und der Meta-Estimator übergibt sie nicht an split.
None: Metadaten werden nicht angefordert und der Meta-Schätzer löst einen Fehler aus, wenn der Benutzer sie bereitstellt.
str: Metadaten sollten mit diesem Alias an den Meta-Schätzer übergeben werden und nicht mit dem ursprünglichen Namen.

Der Standardwert (sklearn.utils.metadata_routing.UNCHANGED) behält die bestehende Anforderung bei. Dies ermöglicht es Ihnen, die Anforderung für einige Parameter zu ändern und für andere nicht.

Hinzugefügt in Version 1.3.

Parameter:

groupsstr, True, False, oder None, Standard: sklearn.utils.metadata_routing.UNCHANGED: Metadaten-Routing für den Parameter groups in split.

Gibt zurück:

selfobject: Das aktualisierte Objekt.

split(X, y=None, groups=None)[Quelle]#

Generiert Indizes zum Aufteilen von Daten in Trainings- und Testsets.

Parameter:

Xarray-like der Form (n_samples, n_features): Trainingsdaten, wobei n_samples die Anzahl der Stichproben und n_features die Anzahl der Merkmale ist.
yarray-like mit Form (n_samples,), default=None: Die Zielvariable für überwachte Lernprobleme.
groupsarray-like von Form (n_samples,): Gruppenbeschriftungen für die Samples, die beim Aufteilen des Datensatzes in Trainings-/Testsets verwendet werden.

Gibt:

trainndarray: Die Trainingsset-Indizes für diese Teilung.
testndarray: Die Testset-Indizes für diese Teilung.

Galeriebeispiele#

Visualisierung des Kreuzvalidierungsverhaltens in scikit-learn

Release Highlights für scikit-learn 1.4

GroupKFold#

Galeriebeispiele#

Diese Seite