- Mitglied seit
- 19.05.2003
- Beiträge
- 19.992
- Reaktionen
- 849
Moin,
hier passiert ja nix und manchmal hilft es ja einfach Sachen runterzuschreiben und/oder jemand hat ähnliche Probleme schon mal gehabt.
Ich hab einen Datensatz von (jährlichen) Fragebogen von Unternehmen, so ca 1.000 Unternehmen mit ganz vielen Fragen. Problem ist, dass einige aus Dumheit oder Absicht Bullshit eintragen. Da ich nicht jede Firme einzeln prüfen kann, würde ich gerne automatisiert (vorzugsweise in R) prüfen, welche Beobachtungen nicht passen.
Auf der einen Seite könnte ich über die Jahre prüfen, aber da ist das bei uns mit der Datenbank noch nicht so einfach und außerdem ist die Zeitreihe nicht so lange. Daher würde ich gerne innerhalb der cross section des Datensatzes nach Outliern suchen. Ein Problem dabei ist, dass ich kein Modell im Hinterkopf habe, sondern nur den Datensatz als solches. Daher fallen einige Methoden weg, weil ich imho keine tree based models oder einflussreiche Beobachtungen machen kann.
Bisher ist mir hauptsächlich die Idee mit kmeans Clustern gekommen. Ich nehme 5-6 Variablen aus dem Datensatz von denen ich denke, dass sie zusammenpassen (z.B. Umsatz, Anzahl Mitarbeiter, ect.) und meanclustere den Datensatz. Dann schaue ich mir an wie jede Beobachtung vom Clustermean abweicht und summiere die Absolutwerte der Abweichungen. Die Beobachtungen mit den höchsten Abweichungen würde ich mir genauer anschauen und "manuell" prüfen.
Überlege gerade noch, ob ich so etwas ähnliches mit Kernelanalysen mache. Einfach die 5-6 Variablen reinwerfen und gucken welche Beobachtungen die niedrigste Density haben. Irgendwie sollte ich wohl dabei auch noch Clustern. Scheinbar würde sich sowas wie Local Outlier Factor Analyse oder ähnliches anbieten.
Jemand sonst noch gute Ideen?
hier passiert ja nix und manchmal hilft es ja einfach Sachen runterzuschreiben und/oder jemand hat ähnliche Probleme schon mal gehabt.
Ich hab einen Datensatz von (jährlichen) Fragebogen von Unternehmen, so ca 1.000 Unternehmen mit ganz vielen Fragen. Problem ist, dass einige aus Dumheit oder Absicht Bullshit eintragen. Da ich nicht jede Firme einzeln prüfen kann, würde ich gerne automatisiert (vorzugsweise in R) prüfen, welche Beobachtungen nicht passen.
Auf der einen Seite könnte ich über die Jahre prüfen, aber da ist das bei uns mit der Datenbank noch nicht so einfach und außerdem ist die Zeitreihe nicht so lange. Daher würde ich gerne innerhalb der cross section des Datensatzes nach Outliern suchen. Ein Problem dabei ist, dass ich kein Modell im Hinterkopf habe, sondern nur den Datensatz als solches. Daher fallen einige Methoden weg, weil ich imho keine tree based models oder einflussreiche Beobachtungen machen kann.
Bisher ist mir hauptsächlich die Idee mit kmeans Clustern gekommen. Ich nehme 5-6 Variablen aus dem Datensatz von denen ich denke, dass sie zusammenpassen (z.B. Umsatz, Anzahl Mitarbeiter, ect.) und meanclustere den Datensatz. Dann schaue ich mir an wie jede Beobachtung vom Clustermean abweicht und summiere die Absolutwerte der Abweichungen. Die Beobachtungen mit den höchsten Abweichungen würde ich mir genauer anschauen und "manuell" prüfen.
Überlege gerade noch, ob ich so etwas ähnliches mit Kernelanalysen mache. Einfach die 5-6 Variablen reinwerfen und gucken welche Beobachtungen die niedrigste Density haben. Irgendwie sollte ich wohl dabei auch noch Clustern. Scheinbar würde sich sowas wie Local Outlier Factor Analyse oder ähnliches anbieten.
Jemand sonst noch gute Ideen?