Google DeepMind의 Perch 2.0 AI는 조류로 학습되어 이제 수중의 고래 소리를 감지한다

Google DeepMind의 Perch 2.0, 조류 데이터를 활용하여 해양 음향학 변모

생물음향학(Bioacoustics) 분야의 놀라운 발전으로, Google DeepMind는 원래 새의 울음소리와 육지 동물을 식별하기 위해 설계된 최신 AI 모델인 Perch 2.0이 수중 고래 소리를 감지하는 데 탁월한 능력을 보여준다고 밝혔습니다. 이러한 획기적인 성과는 전이 학습(Transfer Learning)의 힘을 강조합니다. 전이 학습은 한 분야에서 훈련된 파운데이션 모델(Foundation Model)이 직접적인 사전 노출 없이 완전히 다른 환경에 지식을 성공적으로 적용하는 기술입니다.

Google Research와 Google DeepMind가 새로운 연구 논문과 블로그 게시물에 상세히 설명한 이번 연구 결과는, 미묘한 조류 발성 구분을 통해 학습된 음향 특징이 복잡한 해양 음향 풍경을 분류하는 데 매우 효과적임을 시사합니다. 이러한 진보는 연구자들에게 멸종 위기 종을 모니터링할 수 있는 민첩하고 효율적인 도구를 제공함으로써 해양 보존 노력을 가속화할 것으로 기대됩니다.

간극 메우기: 숲에서 바다로

Perch 2.0는 소리의 근본적인 구조를 이해하기 위해 방대한 양의 데이터로 훈련된 일종의 AI인 생물음향학 파운데이션 모델 역할을 합니다. 이전 모델이나 특화된 해양 모델과 달리, Perch 2.0은 주로 조류와 기타 육상 동물의 발성을 통해 훈련되었습니다. 훈련 단계 동안 수중 오디오에는 노출되지 않았습니다.

그럼에도 불구하고 연구자들이 해양 검증 과제에서 모델을 테스트했을 때, Perch 2.0은 현저히 우수한 성능을 보였습니다. 이 모델은 수중 환경을 위해 특별히 설계된 모델들과 대등하거나 종종 이를 능가하는 성능을 보였습니다. 이러한 현상은 생물학적 소리 생성의 근저에 깔린 패턴이 보편적인 특성을 공유하고 있으며, AI가 공중에서 수중으로 전문 지식을 "전이"할 수 있음을 시사합니다.

Google Research의 데이터 과학자인 Lauren Harrell은 북미 비둘기 14종의 뚜렷한 "구구" 소리와 같이 유사한 새의 울음소리를 구분하는 모델의 능력이 상세한 음향 특징을 학습하도록 유도한다고 언급했습니다. 이러한 동일한 특징들이 해양 포유류 발성의 미묘한 차이를 구별하는 데에도 결정적인 것으로 보입니다.

기술적 분석: 전이 학습의 힘

이 혁신의 핵심은 **전이 학습(Transfer Learning)**이라고 알려진 기술에 있습니다. 매번 새로운 해양 종이 발견될 때마다 처음부터 새로운 심층 신경망을 구축하는 대신, 연구자들은 Perch 2.0을 사용하여 "임베딩(Embeddings)"을 생성할 수 있습니다.

임베딩은 오디오 데이터의 압축된 수치 표현입니다. Perch 2.0은 가공되지 않은 수중 녹음 데이터를 처리하여 관리 가능한 이러한 특징들로 변환합니다. 그런 다음 연구자들은 이러한 임베딩 위에 특정 소리를 식별하기 위해 로지스틱 회귀와 같은 간단하고 계산 비용이 저렴한 분류기를 훈련시킵니다.

이 접근 방식의 장점은 다음과 같습니다:

효율성: 새로운 딥러닝 모델을 훈련하는 것에 비해 필요한 계산량을 획기적으로 줄여줍니다.
속도: "민첩한 모델링(Agile modeling)"을 가능하게 하여 연구자가 몇 주가 아닌 몇 시간 만에 맞춤형 분류기를 만들 수 있도록 합니다.
유연성: 레이블이 지정된 예시가 소량만 있는 "퓨샷 학습(Few-shot learning)"에서도 효과적입니다.

해양 데이터셋에서의 성능

모델의 성능을 검증하기 위해 팀은 Perch 1.0, SurfPerch 및 특화된 고래 모델을 포함한 여러 다른 생물음향학(Bioacoustics) 모델과 Perch 2.0을 비교 평가했습니다. 평가는 다양한 수중 음향 과제를 대표하는 세 가지 주요 데이터셋을 활용했습니다.

표 1: 평가에 사용된 주요 해양 데이터셋

데이터셋 이름	출처/설명	대상 분류
NOAA PIPAN	NOAA 태평양 제도 수산 과학 센터	수염고래 종: 대왕고래, 참고래, 보리고래, 혹등고래 및 브라이드고래 신비로운 "biotwang" 소리 포함
ReefSet	Google Arts & Culture "산호초 소리 불러오기(Calling in Our Corals)"	산호초 소음(개굴개굴 소리, 따닥 소리) 특정 어종(자리돔, 바리)
DCLDE	다양한 생물학적 및 비생물적 소리	범고래 생태형(상주형, 이동형, 외해형) 생물학적 소음 대 비생물적 소음 구분

이 테스트들에서 Perch 2.0은 다양한 샘플 크기에 걸쳐 지속적으로 1위 또는 2위의 성능을 기록했습니다. 특히, 미묘한 방언 차이를 감지해야 하는 매우 어려운 과제인 범고래의 서로 다른 "생태형" 또는 하위 집단을 구분하는 데 뛰어난 성능을 보였습니다.

t-SNE 플롯을 사용한 시각화 기법을 통해 Perch 2.0이 서로 다른 범고래 개체군에 대해 뚜렷한 클러스터를 형성했음을 확인했습니다. 대조적으로, 다른 모델들은 종종 뒤섞인 결과를 내놓으며 북부 상주형 범고래와 이동형 범고래의 뚜렷한 음향 서명을 명확하게 분리하지 못했습니다.

조류 AI가 고래를 이해하는 이유

연구자들은 이러한 성공적인 교차 도메인 전이에 대해 몇 가지 이론을 제시합니다. 주요 동력은 모델의 거대한 규모일 가능성이 높습니다. 대규모 파운데이션 모델은 광범위하게 적용되는 견고한 특징 표현을 학습하여 더 잘 일반화하는 경향이 있습니다.

또한, "해오라기 교훈(Bittern lesson)"이 역할을 합니다. 조류학에서 해오라기(Bittern)의 웅웅거리는 울음소리를 이와 유사한 저주파 소리와 구별하려면 높은 정밀도가 필요합니다. 이러한 지상 과제를 마스터함으로써 모델은 고래 노래의 특징이기도 한 미세한 주파수 변조에 주의를 기울이도록 스스로를 효과적으로 훈련시킵니다.

나아가 생물학적 근거인 수렴 진화(Convergent evolution)도 존재합니다. 나무에 살든 바다에 살든 상관없이 많은 종은 소리 생성을 위해 유사한 메커니즘을 진화시켜 왔습니다. 명관(Syrinx, 조류의 발성 기관)의 물리적 특성을 포착하는 파운데이션 모델(Foundation Model)은 부지불식간에 해양 포유류 발성의 물리적 특성도 포착할 수 있습니다.

보존을 위한 시사점

지상 모델을 해양 연구(Marine Research)에 사용할 수 있는 능력은 고급 AI 도구에 대한 접근성을 대중화합니다. Google은 Google Colab을 통해 엔드투엔드 튜토리얼을 공개하여 해양 생물학자들이 NOAA NCEI 수동 음향 데이터 아카이브의 데이터와 함께 Perch 2.0을 활용할 수 있도록 했습니다.

이러한 "민첩한 모델링" 워크플로는 광범위한 머신러닝 전문 지식이나 방대한 컴퓨팅 자원의 필요성이라는 장벽을 제거합니다. 이제 보존 과학자들은 이동하는 고래 개체군을 추적하거나, 산호초 건강을 모니터링하거나, 최근 확인된 브라이드고래의 "biotwang"과 같은 새롭고 알려지지 않은 소리를 식별하기 위해 전례 없는 속도와 정확성으로 맞춤형 분류기를 신속하게 배포할 수 있습니다.

소리가 AI에게 보편적인 언어임을 증명함으로써, Google DeepMind의 Perch 2.0은 컴퓨터 과학을 발전시킬 뿐만 아니라 바다의 숨겨진 신비를 이해하고 보호하기 위한 필수적인 생명선을 제공합니다.