Kluge Algorithmen übernehmen Detektivarbeit
Alle wollen die Leiter nach oben: Ein Team vom TECO hat es auf Anhieb geschafft unter die besten 1% im Leaderboard auf Kaggle zu kommen. Im Rahmen eines Praktikums haben drei Gruppen von jeweils fünf Studierenden eine Problemstellung auf „Kaggle.com“ bearbeitet.
Das fünfköpfige Studierendenteam belegt Platz 22 im Ranking auf Kaggle.
Kaggle bietet eine Plattform für „Big-Data-Battles“ zwischen verschiedenen Teilnehmern. Ziel der Competitions ist es, eine Datenanalyse mithilfe eines möglichst effizienten Algorithmus vorzunehmen. Wie gut die Analyse-Ergebnisse etwas vorhersagen, ermittelt Kaggle mithilfe einer Metrik. Die Performance der Teilnehmer wird anschließend im Leaderboard öffentlich sichtbar gemacht.
Das Start-Up „Kaggle“ besteht seit 2010. Seitdem konnten auf „Kaggle.com“ mehr als 200 Wettbewerbe bestritten werden. Von Kobe Bryant’s Wurfquote über die Bestimmung der nächsten Grippewelle bis hin zur Vorhersage des Eurovision Songcontest Ergebnisses waren bislang die unterschiedlichsten Themen vertreten. Gemeinsam haben alle Aufgaben, dass ihnen große Datensätze zugrunde liegen. Diese werden mithilfe von möglichst schlauen Big-Data-Modellen je nach Problemstellung in „Smart Data“ verwandelt. Die besten Vorhersagen können mitunter hohe Geldpreise gewinnen.
Eine Auswahl aktueller Competitions auf Kaggle (Stand: 15.06.2016).
Das Team „TECO-PKSS16-TSPJM“ schaffte mit einem Lösungsvorschlag den Sprung auf Platz 22 von über 2.200 Performern. Die fünf Studierenden Timo Knapp, Samuel Abt, Patrick Frey, Johannes Popp und Michaela Etter aus Informatik und Informationswirtschaft am KIT beschäftigten sich mit der Vorhersage von Verbrechenskategorien. Grundlage für die Prognose stellten Daten der Stadt San Francisco über eine Zeitspanne von 12 Jahren dar. Die Competition war insgesamt ein Jahr bearbeitbar, die Studierenden beschäftigten sich allerdings erst drei Wochen vor der Deadline mit ihrer Prognose.
Never change a winning Team. v.l.n.r.: Samuel Abt, Patrick Frey, Timo Knapp, Michaela Etter und Johannes Popp.
Nicht zuletzt ermöglichte die Nutzung der Big-Data-Infrastruktur des Smart Data Innovation Labs (SDIL) ein hervorragendes Ergebnis im Ranking des Wettbewerbs. Die SDIL Plattform, welche von Industriepartnern und Forschungsinstituten am KIT betrieben wird, wurde den Studenten testweise zur beschleunigten Optimierung ihrer Lösung zur Verfügung gestellt.