- Daily Pausenbrot
- Posts
- Gemini 1.5 Pro treibt Roboternavigation voran
Gemini 1.5 Pro treibt Roboternavigation voran
PLUS: OpenAIs 5-stufige Roadmap zur AGI
GuMo! Hier ist dein Daily Pausenbrot. Wir liefern dir die KI-News wie frische Blumen am Morgen – sie erhellen deinen Tag und bringen frischen Wind in deine Inbox. 💐
Heute in der Brotdose 🥪
Gemini 1.5 Pro treibt Roboternavigation voran
OpenAIs 5-stufige Roadmap zur AGI
Verwandle Text zu Audio in Sekundenschnelle
Marc Andreessen investiert 50.000 US-Dollar in KI-Agent
Lesedauer: 3 Minuten
NEUESTE ENTWICKLUNGEN
Google Deepmind
Gemini 1.5 Pro treibt Roboternavigation voran
Google DeepMind hat neue Forschungsergebnisse zur Roboternavigation veröffentlicht, bei denen das große Kontextfenster des Gemini 1.5 Pro genutzt wird, um Robotern das Verstehen und Navigieren in komplexen Umgebungen anhand menschlicher Anweisungen zu ermöglichen.
DeepMinds "Mobility VLA" kombiniert das 1M-Token-Kontextfenster von Gemini mit einer kartenähnlichen Darstellung von Räumen, um leistungsstarke Navigationsrahmen zu schaffen. Die Roboter erhalten zunächst eine Video-Tour durch eine Umgebung, wobei wichtige Orte verbal hervorgehoben werden, und erstellen anschließend mithilfe der Videoaufnahmen ein graphisches Abbild des Raumes. In Tests reagierten die Roboter auf multimodale Anweisungen, einschließlich Kartenskizzen, Audiobefehlen und visuellen Hinweisen wie einer Spielzeugkiste. Das System ermöglicht zudem natürliche Sprachbefehle wie „bring mich zu einem Ort, an dem man zeichnen kann“, woraufhin der Roboter die Nutzer zu geeigneten Orten führt.
Die Bedeutung dieser Forschung liegt darin, dass Roboter mit multimodalen Fähigkeiten und großen Kontextfenstern ausgestattet werden, was eine Vielzahl neuer Anwendungsfälle ermöglicht. Googles „Project Astra“-Demo deutete bereits an, was die Zukunft für sprachgesteuerte Assistenten bereithält, die sehen, hören und denken können. Die Integration dieser Funktionen in einen Roboter hebt das Ganze jedoch auf ein neues Niveau.