Statistisches Lernen

    Nummer
    0-I-B-X-0stl.EN/20
    ECTS
    4.0
    Kategorie-Codes
    Modul
    Anmeldestatus Info
    m.Aktiv
    Spezifizierung
    Finde optimales f für y = f(x) mit Mitteln der Statistik
    Anspruchsniveau
    Advanced
    Inhalt

    Viele Statistiker argumentieren, dass Data Science und Machine Learning nur neue Namen für Statistik seien. Die Diskussion dieser Aussage sei den Studierenden überlassen, Machine Learning ist aber tatsächlich nicht viel mehr als das Anpassen einer Funktion an einen Trainingsdatensatz, mit der Hoffnung, dass die gefundene Funktion auch auf Testdaten generalisiert.

      Statistical Learning behandelt das Schätzen einer Funktion f, die das Regressions- oder Klassifikationsproblem y = f(x) optimal löst. In diesem Modul sollen verschiedene mögliche Funktionsfamilien für f untersucht werden und insbesondere, wie sich die eine gegen eine andere bezüglich eines Fehler- oder Performance-Masses unterscheidet und welche sich schliesslich am besten für das betrachtete Problem eignet. Wichtig in diesem Modul: All dies soll unter Berücksichtigung der beschränkten Natur der gewählten Stichprobe geschehen.

    Lernergebnisse
    LE1: Theoretische Grundlagen des STL
      Die Studierenden können das Regressions- und das Klassifikationsproblem und deren optimale Lösungen statistisch formulieren. Sie verstehen den Unterschied zwischen parametrischen und nicht-parametrischen Funktionsfamilien, kennen geeignete Masse zur Beurteilung der Güte eines Fits und sind insbesondere mit dem Bias-Variance-Tradeoff vertraut.
        LE2: Lineare Regression
          Die Studierenden verstehen die Regressionsparameter als statistische Grössen und können kategorische Variablen, Interaktionen zwischen Variablen und nicht-lineare Beziehungen in Regressionsprobleme einbeziehen. Sie sind sich bewusst, wo die Grenzen des Einsatzes der Methode der linearen Regression liegen.
            LE3: Klassifikationsprobleme
              Die Studierenden kennen die bekanntesten Ansätze zur Lösung von Klassifikationsproblemen (logistische Regression, lineare Diskriminantenanalyse (LDA), Naive Bayes) und können diese auf entsprechende Datensätze anwenden.
                LE4: Generalisierte Lineare Modelle (GLMs)
                  Die Studierenden verstehen GLMs als Verallgemeinerung des klassischen Regressionsmodells. Sie kennen die Anwendungsbereiche der häufig benutzten Link-Funktionen und können damit entsprechende Datensätze modellieren.
                    LE4: Resampling
                      Der Einfluss beschränkter Stichproben auf Performance-Grössen kann mittels Cross-Validation (CV) und Bootstrap von den Studierenden statistisch betrachtet werden.
                        LE5: Model Selection
                          Die Studierenden können mittels verschiedener Selektionskriterien (Subset Selection, AIC, BIC, Adjusted R2) und unter Berücksichtigung der beschränkten Grösse der Stichprobe aus einer Gruppe von Modellen das beste auswählen.
                            LE6: Nicht-lineare Regression
                              Die Studierenden erkennen die Anwendungsgebiete von nicht-linearer Regression und können insbesondere Polynomiale Regression, Splines, Lokale Regression und Generalisierte Additive Modelle (GAMs) an Daten anpassen.
    Modulbewertung
    Note
    Baut auf folgenden Modulen auf
    Wahrscheinlichkeitsrechnen (WER), Explorative Datenanalyse (EDA), Grundlagen der linearen Algebra (GLA), Grundlagen der Analysis (GAN), Lineare und logistische Regression (LLR)
    Modultyp
    Portfoliomodul