2 kredit, 8 kontakt óra
Tárgyfelelős: Dr. Fehérvári Péter
A tárgy célja:
Az adattisztítás az adatfeldolgozás szükséges első lépése, melynek során ellenőrizzük az adatfájl szerkezetét, a hiányzó értékeket, az adatközlési és adatbeviteli hibákat, gyanús “kiugró” értékeket. Exploratív elemzésekkel feltárjuk a változóink eloszlását, összefüggésrendszerét. A hibásnak tűnő adatokat felülvizsgáljuk, javítjuk, elemzésre alkalmas “tiszta” adattáblázatot hozunk létre. A kurzuson a reprodukálható adattisztítás eszközeivel és lépéseivel ismerkedünk meg a gyakorlatban. Foglalkozunk a hiányzó adatok problémájával, struktúrájuk felderítésének módszereivel.
Ajánlott irodalom:
Wickham et al., (2019). Welcome to the Tidyverse. Journal of Open Source Software, 4(43), 1686, https://doi.org/10.21105/joss.01686.
Wickham, H., & Grolemund, G. (2016). R for data science: import, tidy, transform, visualize, and model data. ” O’Reilly Media, Inc.”.
Little R, Rubin D (2014).Statistical Analysis with Missing Data. John Wiley & Sons.
Alexander Kowarik, Matthias Templ (2016). Imputation with the R Package VIM. Journal of Statistical Software, 74(7), 1-16. doi:10.18637/jss.v074.i07
Számonkérés:
Beadandó feladat
Előfeltétel: R bevezető, Reprodukálható kutatás