In der Bahnbranche werden viele Daten von Mess- und Diagnosesystemen aller Art erfasst. Meist wird nur ein kleiner Teil der Daten verwendet, da schwer zu bestimmen ist, welche Teile der Daten wertvolle Informationen enthalten. Dadurch bleibt ein Großteil des Potenzials dieser Daten ungenutzt. Durch explorative Datenanalyse kann dieses Potenzial für Schienenfahrzeuge sowie Infrastruktur offengelegt und es können komplexe Abhängigkeiten erkannt werden, die zu neuen wertvollen Anwendungen verhelfen. Als praktisches Beispiel für die explorative Datenanalyse wird gezeigt, wie eine modulare Machine-Learning-Datenpipeline auf einen großen Datensatz aus einem bestehenden Onboard-Datendiagnosesystem einer S-Bahn-Flotte angewendet wird, das Daten von mehreren Onboard-Systemen aufzeichnet. Es wird ein erprobter Ansatz vorgestellt, um Use Cases zu extrahieren und Erkenntnisse aus einem bestehenden Datenpool zu generieren.