Google DeepMinds Perch 2.0-KI, auf Vögeln trainiert, erkennt jetzt Walgeräusche unter Wasser

Google DeepMinds Perch 2.0 transformiert die Meeresakustik mithilfe von Vogeldaten

In einer überraschenden Entwicklung für den Bereich der Bioakustik hat Google DeepMind enthüllt, dass sein neuestes KI-Modell, Perch 2.0 – ursprünglich entwickelt, um Vogelstimmen und Landtiere zu identifizieren – außergewöhnliche Fähigkeiten bei der Erkennung von Unterwasser-Walsounds demonstriert. Dieser Durchbruch unterstreicht die Leistungsfähigkeit des Transfer-Lernens (Transfer Learning), bei dem ein Basismodell (Foundation Model), das in einem Bereich trainiert wurde, sein Wissen erfolgreich auf eine völlig andere Umgebung anwendet, ohne dass es zuvor direkten Kontakt dazu hatte.

Die Ergebnisse, die in einem neuen Forschungspapier und Blog-Post von Google Research und Google DeepMind detailliert beschrieben werden, legen nahe, dass die akustischen Merkmale, die durch die Unterscheidung subtiler Vogelvokalisationen erlernt wurden, hochwirksam für die Klassifizierung komplexer Meeres-Soundlandschaften sind. Dieser Fortschritt verspricht, die Bemühungen im Meeresschutz zu beschleunigen, indem er Forschern agile und effiziente Werkzeuge zur Überwachung gefährdeter Arten an die Hand gibt.

Die Lücke schließen: Von Wäldern zu Ozeanen

Perch 2.0 dient als bioakustisches Basismodell (Bioacoustics Foundation Model), eine Art von KI, die auf riesigen Datenmengen trainiert wurde, um die grundlegenden Strukturen von Klang zu verstehen. Im Gegensatz zu seinen Vorgängern oder spezialisierten Marinemodellen wurde Perch 2.0 primär auf den Vokalisationen von Vögeln und anderen landbewohnenden Tieren trainiert. Es war während seiner Trainingsphase keinen Unterwasser-Audioaufnahmen ausgesetzt.

Trotzdem schnitt Perch 2.0 bemerkenswert gut ab, als Forscher das Modell an marinen Validierungsaufgaben testeten. Es konkurrierte mit Modellen, die speziell für Unterwasserumgebungen entwickelt wurden, und übertraf diese oft sogar. Dieses Phänomen deutet darauf hin, dass die zugrunde liegenden Muster der biologischen Lauterzeugung universelle Merkmale teilen, was es einer KI ermöglicht, ihre Expertise von der Luft auf das Wasser zu „übertragen“.

Lauren Harrell, eine Datenwissenschaftlerin bei Google Research, merkte an, dass die Fähigkeit des Modells, zwischen ähnlichen Vogelstimmen zu unterscheiden – wie etwa den verschiedenen „Gurr-Lauten“ von 14 verschiedenen nordamerikanischen Taubenarten – es dazu zwingt, detaillierte akustische Merkmale zu lernen. Dieselben Merkmale scheinen entscheidend zu sein, um zwischen den Nuancen der Vokalisationen von Meeressäugern zu differenzieren.

Technischer Überblick: Die Kraft des Transfer-Lernens

Der Kern dieser Innovation liegt in einer Technik, die als Transfer-Lernen (Transfer Learning) bekannt ist. Anstatt für jede neu entdeckte Meeresart ein neues tiefes neuronales Netzwerk von Grund auf neu zu erstellen, können Forscher Perch 2.0 verwenden, um „Embeddings“ zu generieren.

Embeddings sind komprimierte numerische Repräsentationen von Audiodaten. Perch 2.0 verarbeitet rohe Unterwasseraufnahmen und wandelt sie in diese handhabbaren Merkmale um. Forscher trainieren dann einen einfachen, rechentechnisch günstigen Klassifikator (wie eine logistische Regression) auf diesen Embeddings, um spezifische Klänge zu identifizieren.

Vorteile dieses Ansatzes sind unter anderem:

Effizienz: Drastische Reduzierung des Rechenaufwands im Vergleich zum Training neuer Deep-Learning-Modelle.
Geschwindigkeit: Ermöglicht „agiles Modellieren“, sodass Forscher maßgeschneiderte Klassifikatoren in Stunden statt in Wochen erstellen können.
Flexibilität: Effektiv sogar beim „Few-Shot“-Lernen, bei dem nur eine geringe Anzahl von beschrifteten Beispielen verfügbar ist.

Leistung auf marinen Datensätzen

Um die Fähigkeiten des Modells zu validieren, evaluierte das Team Perch 2.0 im Vergleich zu mehreren anderen Bioakustik-Modellen (Bioacoustics), darunter Perch 1.0, SurfPerch und spezialisierte Walmodelle. Die Evaluierung nutzte drei primäre Datensätze, die vielfältige akustische Herausforderungen unter Wasser repräsentieren.

Tabelle 1: Wichtige marine Datensätze, die für die Evaluierung verwendet wurden

Datensatzname	Quelle/Beschreibung	Ziel-Klassifizierungen
NOAA PIPAN	NOAA Pacific Islands Fisheries Science Center	Bartenwal-Arten: Blau-, Finn-, Sei-, Buckel- und Brydewale Enthält den geheimnisvollen „Biotwang“-Klang
ReefSet	Google Arts & Culture „Calling in Our Corals“	Riffgeräusche (Quaken, Knistern) Spezifische Fischarten (Riffbarsche, Zackenbarsche)
DCLDE	Vielfältige biologische und abiotische Klänge	Schwertwal-Ökotypen (Resident, Transient, Offshore) Unterscheidung zwischen biologischen und abiotischen Geräuschen

In diesen Tests belegte Perch 2.0 bei verschiedenen Stichprobengrößen konsistent den ersten oder zweiten Platz. Bemerkenswerterweise glänzte es bei der Unterscheidung zwischen verschiedenen „Ökotypen“ oder Subpopulationen von Schwertwalen – eine bekanntermaßen schwierige Aufgabe, die das Erkennen subtiler Dialektunterschiede erfordert.

Visualisierungstechniken unter Verwendung von t-SNE-Plots zeigten, dass Perch 2.0 deutliche Cluster für verschiedene Schwertwal-Populationen bildete. Im Gegensatz dazu lieferten andere Modelle oft vermischte Ergebnisse und scheiterten daran, die unterschiedlichen akustischen Signaturen von nördlichen sesshaften (Resident) versus wandernden (Transient) Schwertwalen klar zu trennen.

Warum Vogel-KI Wale versteht

Die Forscher schlagen mehrere Theorien für diesen erfolgreichen domänenübergreifenden Transfer vor. Der Haupttreiber ist wahrscheinlich die enorme Größe des Modells. Große Basismodelle neigen dazu, besser zu generalisieren und robuste Merkmalsdarstellungen zu lernen, die breit anwendbar sind.

Zusätzlich spielt die „Rohrdommel-Lektion“ (Bittern Lesson) eine Rolle. In der Ornithologie erfordert die Unterscheidung des dröhnenden Rufs einer Rohrdommel von ähnlichen niederfrequenten Geräuschen hohe Präzision. Durch das Meistern dieser terrestrischen Herausforderungen trainiert sich das Modell effektiv selbst darauf, auf die winzigen Frequenzmodulationen zu achten, die auch Walgesänge charakterisieren.

Darüber hinaus gibt es eine biologische Basis: konvergente Evolution. Viele Arten haben, unabhängig davon, ob sie in Bäumen oder Ozeanen leben, ähnliche Mechanismen zur Lauterzeugung entwickelt. Ein Basismodell (Foundation Model), das die Physik einer Syrinx (Vokalorgan der Vögel) erfasst, kann unabsichtlich auch die Physik der Vokalisation von Meeressäugern erfassen.

Auswirkungen auf den Naturschutz

Die Fähigkeit, ein vortrainiertes terrestrisches Modell für die Meeresforschung (Marine Research) zu nutzen, demokratisiert den Zugang zu fortschrittlichen KI-Werkzeugen. Google hat ein End-to-End-Tutorial über Google Colab veröffentlicht, das es Meeresbiologen ermöglicht, Perch 2.0 mit Daten aus dem passiven akustischen Datenarchiv des NOAA NCEI zu nutzen.

Dieser Workflow des „agilen Modellierens“ beseitigt die Barriere, umfangreiches Fachwissen im Bereich maschinelles Lernen oder massive Rechenressourcen zu benötigen. Naturschützer können nun schnell maßgeschneiderte Klassifikatoren einsetzen, um wandernde Walpopulationen zu verfolgen, die Gesundheit von Riffen zu überwachen oder neue, unbekannte Klänge – wie den kürzlich identifizierten „Biotwang“ des Brydewals – mit beispielloser Geschwindigkeit und Genauigkeit zu identifizieren.

Indem es beweist, dass Klang eine universelle Sprache für KI ist, bringt Google DeepMinds Perch 2.0 nicht nur die Informatik voran, sondern bietet auch eine lebenswichtige Hilfe für das Verständnis und den Schutz der verborgenen Geheimnisse des Ozeans.