Gastvortrag: Andreas Haupt (MIT)
Abstract: Online-Lernalgorithmen, die gleichzeitig Entscheidungen treffen und aus Feedback lernen sind weit verbreitet, etwa in den Feeds von Instagram, TikTok, Youtube, und Facebook. Wir beweisen eine unerwartete Eigenschaft solcher Algorithmen in einem vereinfachten Setting: ε-Greedy-Algorithmen werden sich, wenn sie zwischen zwei Alternativen—etwa Arten von Posts—unterschiedlicher Qualitätsvarianz entscheiden, mit hoher Wahrscheinlichkeit für den Post mit geringerer Varianz entscheiden. Das bedeutet z.B., dass Algorithmen Arten von Posts bevorzugen, die häufiger Feedback geben, etwa kürzere
Videos auf Youtube. Ein ähnliches Problem hat breitere Auswirkungen auf Lernsysteme und das sogenannte Reward-Design-Problem: Wenn ein selbstlernender Algorithmus ein Feedback nur in bestimmten “guten” Lösungen kriegen, kann es sein, dass sie sich für deutlich schlechtere Lösungen entscheiden, die häufiger Feedback geben.
Bio: Andreas Haupt
Institutions