Adatbányászat

2 kredit, 6 kontakt óra + 6 óra önálló tanulás és gyakorlás

Tárgyfelelős:
Rakovics Márton

A kurzus célja az adatbányászat elvi alapjainak és legfontosabb módszereinek áttekintése. Az előadás a tárgyalt módszereket a statisztikai tanulás alapkérdése – a függvényapproximáció általános problémája – felől közelíti meg, majd bemutatja a főbb megoldásokat, illetve azok kapcsolatát. A kurzus gyakorlati részében a hallgatók az előadáson szerzett ismereteiket – R-ben elvégzett – adatelemzési példák és saját módszer-implementációk segítségével mélyíthetik el.

Tematika:

  • A statisztikai tanulás elméleti alapjai
    • A rosszul-definiáltság problémája
    • Az empirikus és strukturális rizikó minimalizálásának elve
    • Modellek komplexitása, kapacitás-kontroll (regularizáció)
  • Shrinkage módszerek
    • Ridge regresszió
    • LASSO
  • Döntési fák
  • Ensemble módszerek
    • Bagging
    • Boosting
    • Random forest
  • Kernel módszerek alapjai
  • Support Vector Machines
    • Maximal margin és support vector klasszifikáló
    • Kernel függvényes SVM
    • (SVM variánsok)

Ajánlott irodalom (fontossági sorrendben):
James, G., Witten, D., Hastie, T., Tibshirani, R., 2013. An introduction to statistical learning (Vol. 112). New York: Springer.

Hastie, T., Tibshirani, R., Friedman, J., 2009. The Elements of Statistical Learning. Springer, New York, NY.

Vapnik, V., 2000. The Nature of Statistical Learning Theory. 2nd ed. Springer Science & Business Media.

Shawe-Taylor, J., Cristianini, N., 2004. Kernel Methods for Pattern Analysis. Cambridge University Press.

Hastie, T., Tibshirani, R., Wainwright, M., 2015. Statistical Learning with Sparsity: the Lasso and Generalizations. CRC Press.

Számonkérés:
Szóbeli vizsga, a fenti témalista szerinti tételsor