SeeAct wurde entwickelt, um visuelle Sprach-Agenten mit einer zweistufigen Pipeline zu befähigen: Ein Planungsmodul, angetrieben von großen Sprachmodellen, generiert Unterziele basierend auf beobachteten Szenen, und ein Ausführungsmodul übersetzt Unterziele in umgebungsspezifische Aktionen. Ein Wahrnehmungshintergrund extrahiert Objekt- und Szenenmerkmale aus Bildern oder Simulationen. Die modulare Architektur ermöglicht den einfachen Austausch von Planern oder Wahrnehmungsnetzwerken und unterstützt die Bewertung auf AI2-THOR, Habitat und benutzerdefinierten Umgebungen. SeeAct beschleunigt die Forschung im Bereich interaktiver embodied AI durch End-to-End-Aufgabenzerlegung, Verankerung und Ausführung.
SeeAct Hauptfunktionen
LLM-basierte Unterzielplanung
Visuelle Wahrnehmung und Merkmalsextraktion
Modulare Ausführungs-Pipeline
Benchmark-Aufgaben in simulierten Umgebungen
Konfigurierbare Komponenten
SeeAct Vor- und Nachteile
Vorteile
Nutzt fortschrittliche multimodale große Modelle wie GPT-4V für anspruchsvolle Web-Interaktionen.
Kombiniert Aktionsgenerierung und Verankerung, um Aufgaben effektiv auf Live-Websites auszuführen.
Zeigt starke Fähigkeiten in spekulativer Planung, Inhaltsbeurteilung und Selbstkorrektur.
Offen als Python-Paket verfügbar, was die Nutzung und Weiterentwicklung erleichtert.
Demonstrierte wettbewerbsfähige Leistung bei der Online-Aufgabenerfüllung mit einer Erfolgsquote von 50%.
Akzeptiert auf einer großen KI-Konferenz (ICML 2024), was validierte Forschungsbeiträge widerspiegelt.
Nachteile
Die Verankerung von Aktionen bleibt eine große Herausforderung mit einer deutlichen Leistungslücke im Vergleich zur Orakel-Verankerung.
Aktuelle Verankerungsmethoden (Elementattribute, textuelle Auswahl, Bildanmerkung) weisen Fehlerfälle auf, die zu Ausfällen führen.
Die Erfolgsrate auf Live-Websites ist auf etwa die Hälfte der Aufgaben begrenzt, was Raum für Verbesserungen bei Robustheit und Generalisierung lässt.
ggfai bietet eine einheitliche Schnittstelle, um Ziele zu definieren, mehrstufiges Denken zu verwalten und den Konversationskontext mit Speichermodulen aufrechtzuerhalten. Es unterstützt anpassbare Tool-Integrationen für externe Dienste oder APIs, asynchrone Ausführungsflüsse und Abstraktionen für OpenAI GPT-Modelle. Die Plugin-Architektur ermöglicht den Austausch von Speicher-Backends, Wissensspeichern und Aktionsvorlagen, was die Koordination von Agenten bei Aufgaben wie Kundenservice, Datenabruf oder persönlichen Assistenten vereinfacht.