Neural Architectures

Multimodal Foundation Models (VLA)

Motivation

In einer zunehmend komplexen und dynamischen Welt benötigen Roboter die Fähigkeit, multimodale Informationen wie visuelle, sprachliche und propriozeptive Daten zu interpretieren, um vielseitige Aufgaben effektiv auszuführen. Herkömmliche Systeme haben oft Schwierigkeiten, diese unterschiedlichen Modalitäten zu verbinden, was die Anpassungsfähigkeit der Roboter in realen Szenarien einschränkt. Die Entwicklung vereinheitlichter multimodaler Architekturen stellt daher einen entscheidenden Schritt in Richtung wirklich autonomer Robotersysteme dar, die intelligent in unvorhersehbaren und kontextreichen Umgebungen agieren können.

Forschungsrichtung

Unsere Forschung zielt darauf ab, skalierbare Vision-Language-Action-Architekturen zu entwickeln, die multimodale sensorische Eingaben direkt in ausführbare Befehle übersetzen. Durch das Erforschen verschiedener Architekturparadigmen und den Schwerpunkt auf Skalierbarkeit ermöglichen wir Robotern, komplexe Aufgaben zuverlässig in unstrukturierten Umgebungen durchzuführen. Unser Ziel ist es, fundamentale Modelle zu schaffen, die Sensordaten und Entscheidungsprozesse nahtlos integrieren und somit den Anwendungsbereich von Robotik erheblich erweitern.