Adatkezelés (adattisztítás, exploratív elemzések, hiányzó adatok)

2 kredit, 8 kontakt óra

Tárgyfelelős: Dr. Fehérvári Péter

A tárgy célja:
Az adattisztítás az adatfeldolgozás szükséges első lépése, melynek során ellenőrizzük az adatfájl szerkezetét, a hiányzó értékeket, az adatközlési és adatbeviteli hibákat, gyanús “kiugró” értékeket. Exploratív elemzésekkel feltárjuk a változóink eloszlását, összefüggésrendszerét. A hibásnak tűnő adatokat felülvizsgáljuk, javítjuk, elemzésre alkalmas “tiszta” adattáblázatot hozunk létre. A kurzuson a reprodukálható adattisztítás eszközeivel és lépéseivel ismerkedünk meg a gyakorlatban. Foglalkozunk a hiányzó adatok problémájával, struktúrájuk felderítésének módszereivel.


Ajánlott irodalom:

Wickham et al., (2019). Welcome to the Tidyverse. Journal of Open Source Software, 4(43), 1686, https://doi.org/10.21105/joss.01686.

Wickham, H., & Grolemund, G. (2016). R for data science: import, tidy, transform, visualize, and model data. ” O’Reilly Media, Inc.”.

Little R, Rubin D (2014).Statistical Analysis with Missing Data. John Wiley & Sons.

Alexander Kowarik, Matthias Templ (2016). Imputation with  the R Package VIM. Journal of Statistical Software, 74(7), 1-16. doi:10.18637/jss.v074.i07

Számonkérés:
Beadandó feladat

Előfeltétel: R bevezető, Reprodukálható kutatás