Gelöschtes Mitglied 160054
Guest
Wer Plan von Kernel Density Estimation? Aktuell versuche ich den bedingten Erwartungswert aus einer Zeitreihe zu berechnen. Dazu schätze ich die zwei Dichten (hier beispielhaft für bedingte Erwartung 1. Ordnung) f(x_n,x_n_1) und f(x_n_1) mittels einer Standardmatlabfunktion und berechne dann die bedingte Dichte f(x_n|x_n_1) = f(x_n,x_n_1)/f(x_n_1). Anschließend integriere ich die Dichte numerisch um den bedingten Erwartungswert E(x_n | x_n_1) zu berechnen. Um die sogenannte Bandbreite B zu bestimmen nutze ich einen Optimierungsalgorithmus.
Mit diesem betrachte ich den mittleren quadratischen Fehler der Prädiktion, berechnet mit der Schätzung des bedingten Erwartungswertes gegeben B, und minimiere für einen Teil der Daten den Fehler durch optimale Bestimmung von B.
Ich habe 10k Sample (es sind Sprachsignale) und nutze die ersten 500 derzeit für die Optimierung (d.h. ich schätze die Dichten zwar mittels der 10k Sample, aber für die Anpassung von B wird nur der mittlere quadratische Fehler auf den ersten 500 Samplen berücksichtigt). Kann dieser Ansatz überhaupt overfitten? Sobald ich ein paar Datenpunkte habe sollten eigentlich die Dichten entweder näherungsweise korrekt geschätzt worden sein und die Prädiktion ist "gut", oder die Schätzung der Dichten overfittet, was sich unmittelbar in unsinniger Prädiktion zeigen sollte (mindestens auf den 10k-500 Sample). Auf Grund der relativ komplizierten Berechnung des Erwartungswertes aus den zwei Schätzungen erscheint mir ein anderer Fall unrealistisch. Kann man die Wahrscheinlichkeit noch irgendwie abschätzen, dass das overfittet?
edit: Gestützt wird aktuell die Ansicht das ich nicht overfitte nicht nur durch die Performance auf den Daten mit denen nicht optimiert wurde sowie die Abschätzung des minimalen mittleren quadratischen Fehlers durch einen weiteren Algorithmus (welcher ein anderes Verfahren verwendet). Diese Untergrenze liegt noch deutlich unter dem was ich aktuell mit dem bedingten Erwartungswert erreiche.
Mit diesem betrachte ich den mittleren quadratischen Fehler der Prädiktion, berechnet mit der Schätzung des bedingten Erwartungswertes gegeben B, und minimiere für einen Teil der Daten den Fehler durch optimale Bestimmung von B.
Ich habe 10k Sample (es sind Sprachsignale) und nutze die ersten 500 derzeit für die Optimierung (d.h. ich schätze die Dichten zwar mittels der 10k Sample, aber für die Anpassung von B wird nur der mittlere quadratische Fehler auf den ersten 500 Samplen berücksichtigt). Kann dieser Ansatz überhaupt overfitten? Sobald ich ein paar Datenpunkte habe sollten eigentlich die Dichten entweder näherungsweise korrekt geschätzt worden sein und die Prädiktion ist "gut", oder die Schätzung der Dichten overfittet, was sich unmittelbar in unsinniger Prädiktion zeigen sollte (mindestens auf den 10k-500 Sample). Auf Grund der relativ komplizierten Berechnung des Erwartungswertes aus den zwei Schätzungen erscheint mir ein anderer Fall unrealistisch. Kann man die Wahrscheinlichkeit noch irgendwie abschätzen, dass das overfittet?
edit: Gestützt wird aktuell die Ansicht das ich nicht overfitte nicht nur durch die Performance auf den Daten mit denen nicht optimiert wurde sowie die Abschätzung des minimalen mittleren quadratischen Fehlers durch einen weiteren Algorithmus (welcher ein anderes Verfahren verwendet). Diese Untergrenze liegt noch deutlich unter dem was ich aktuell mit dem bedingten Erwartungswert erreiche.
Zuletzt bearbeitet von einem Moderator: