Skip to main content

Warum das Entdecken von Podcasts so schwierig ist und was man mit Machine Learning dagegen tun kann

Mit seiner Data-Science-Projektarbeit an der FHNW zeigt Patrick Arnecke neue Wege, um mit Sprachverarbeitung und Machine Learning Podcasts besser suchen und entdecken zu können.

Das Potential zeigt er mit einer Suchapplikation namens PodShotExplorer, mit dem Nutzerinnnen und Nutzer auf inspirierende Weise aus über 7000 Podcasts für sie passende Hörinhalte finden können.

das-data-science-diplomarbeit-patrick-arnecke-screenshot-app.png

In der vergangenen Dekade haben sich Podcasts zu einem äusserst beliebten Medium entwickelt. 2021 gab es weltweit etwa 2 Millionen Podcasts mit 48 Millionen Episoden. Es ist ein boomender Markt und eine Branche mit einem Umsatz von über 1 Mrd. USD mit einem jährlichen Wachstum von ~10 %. Podcasthörerinnen und -hörer haben eine enorme Auswahl an Inhalten. Sie stehen zugleich vor der Herausforderung, in diesem riesigen Angebot das zu finden, was zu ihren Interessen, ihrem Zeitrahmen und Nutzungskontext passt.

Trotz der explosiven Entwicklung im Podcastmarkt ist das Suchen und Entdecken von Hörinhalten immer noch erstaunlich umständlich und funktional begrenzt. Ranglisten und Charts herrschen vor, dazu gibt es einfache Suchmöglichkeiten nach Stichworten wie Themen oder Personen. Ein Podcast steht ist in der Regel nur als Tonspur zur Verfügung. Der Inhalt ist nicht verschriftlicht und steht damit nicht als durchsuchbarer Text zur Verfügung. Die Suche hängt praktisch ausschliesslich von Metadaten ab, die die Podcastautor:innen zur Verfügung stellen, z.B. Titel, Podcast- und Episodenbeschreibung. Anbieter wie Google und Spotify haben begonnen, einen Teil der Podcasts auf ihren Plattformen automatisch zu verschriftlichen und für die Suche zu indexieren. Dies umfasst zugleich bei weitem noch nicht alle Inhalte und Sprachräume und hilft Nutzer:innen derzeit nur begrenzt.

Patrick Arnecke hat im Rahmen seiner Projektarbeit untersucht, inwieweit Data-Science-Methoden helfen können, Podcastmetadaten aufzuwerten und das Suchen und Auffinden von Podcasts zu verbessern. Er hat dazu einen Datensatz von rund 7’600 Podcasts und insgesamt 462’000 Episoden zusammengetragen, die Daten bereinigt, standardisiert und methodisch analysiert. In einem zweiten Schritt konnte er die Metadaten modellieren, d.h. Podcasts mit Machine Learning-Algorithmen numerisch fassbar machen und übergreifende Themen extrahieren. Die Algorithmen versuchen hierbei, die vorliegenden Textinhalte in einen numerischen Raum zu übersetzen, in dem ähnliche Inhalte nah beieinander liegen und unähnliche Inhalte möglich weit voneinander entfernte Koordinaten haben. Dies macht auch komplexe Inhalte für eine Suche quantitativ greifbar.

In einem weiteren Schritt hat Patrick Arnecke gezeigt, dass sich die modernen und sehr leistungsfähigen Textmodelle der sog. Transformerarchitektur sehr gut eignen, um Podcastinhalte auf völlig neuartige Weise inhaltlich einzuordnen. Mittels sog. Zero Shot Learning wird ein Modell befragt, inwieweit es einen Podcasttext bestimmten Eigenschaften zuordnet. Zero Shot Learning erlaubt es interessanterweise, diese Eigenschaften völlig frei zu wählen. Ist ein Podcast eher etwas für «Renter» oder «Kinder», geht es um etwas «Lustiges» oder «Ernstes», um «Rationales» oder Emotionales»? Behandelt ein Podcast «Macht» oder «Ohnmacht», das «Individuum» oder «die Gesellschaft»? Geht es um «Altes» oder «Neues», «Geschichten» oder «Fakten»?

Die Bewertungen des Transformermodells hat Patrick Arnecke dann für seine Suchapplikation – dem PodShotExplorer – verwendet, die den ganzen Datensatz mit allen 7’600 Podcasts zugänglich macht. Die Applikation erlaubt es dem Nutzenden, diese kreativen Eigenschaften beliebig zu justieren und zu kombinieren, um bestmögliche Hörvorschläge zu erhalten.

Diese Seite teilen: