2 kredit, 6 kontakt óra + 6 óra önálló tanulás és gyakorlás
Tárgyfelelős: Rakovics Márton
A kurzus célja az adatbányászat elvi alapjainak és legfontosabb módszereinek áttekintése. Az előadás a tárgyalt módszereket a statisztikai tanulás alapkérdése – a függvényapproximáció általános problémája – felől közelíti meg, majd bemutatja a főbb megoldásokat, illetve azok kapcsolatát. A kurzus gyakorlati részében a hallgatók az előadáson szerzett ismereteiket – R-ben elvégzett – adatelemzési példák és saját módszer-implementációk segítségével mélyíthetik el.
Tematika:
- A statisztikai tanulás
elméleti alapjai
- A rosszul-definiáltság problémája
- Az empirikus és strukturális rizikó minimalizálásának elve
- Modellek komplexitása, kapacitás-kontroll (regularizáció)
- Shrinkage módszerek
- Ridge regresszió
- LASSO
- Döntési fák
- Ensemble módszerek
- Bagging
- Boosting
- Random forest
- Kernel módszerek alapjai
- Support Vector Machines
- Maximal margin és support vector klasszifikáló
- Kernel függvényes SVM
- (SVM variánsok)
Ajánlott irodalom (fontossági sorrendben):
James, G., Witten, D., Hastie, T., Tibshirani, R., 2013. An introduction to statistical learning (Vol. 112). New York: Springer.
Hastie, T., Tibshirani, R., Friedman, J., 2009. The Elements of Statistical Learning. Springer, New York, NY.
Vapnik, V., 2000. The Nature of Statistical Learning Theory. 2nd ed. Springer Science & Business Media.
Shawe-Taylor, J., Cristianini, N., 2004. Kernel Methods for Pattern Analysis. Cambridge University Press.
Hastie, T., Tibshirani, R., Wainwright, M., 2015. Statistical Learning with Sparsity: the Lasso and Generalizations. CRC Press.
Számonkérés:
Szóbeli vizsga, a fenti témalista szerinti tételsor