
인공지능(AI) 환경은 오랫동안 더 큰 모델, 더 많은 파라미터, 그리고 계속해서 증가하는 클라우드 컴퓨팅 요구 사항이라는 규모의 경쟁으로 정의되어 왔습니다. 그러나 업계가 클라우드에서 거대 모델을 실행하는 데 드는 에너지 및 지연 시간 비용으로 고심함에 따라 중요한 패러다임 변화가 일어나고 있습니다. 칼텍(Caltech)에서 시작된 최첨단 벤처 기업인 PrismML은 "Bonasi 8B"를 필두로 한 새로운 1비트 대규모 언어 모델(Large Language Model, LLM) 제품군을 출시하며 이러한 제약 사항을 직접 해결하기 위해 등장했습니다.
신경망이 정보를 저장하고 처리하는 방식을 근본적으로 재설계함으로써, PrismML은 AI 성능을 클라우드 의존성으로부터 분리하는 것을 목표로 합니다. 이러한 발전은 에지 컴퓨팅(Edge Computing)의 잠재적인 전환점을 시사하며, 기존에 필요했던 에너지의 극히 일부만을 소비하면서도 노트북, 태블릿, 스마트폰과 같은 소비자용 하드웨어에서 강력한 생성형 AI(Generative AI) 모델이 기본적으로 실행될 수 있도록 지원합니다.
Bonasi 모델 제품군의 핵심은 대부분의 신경망에서 표준인 부동 소수점 숫자 표현 방식에서 벗어난 것입니다. 전통적인 LLM은 16비트 또는 32비트 정밀도에 의존하며, 이는 정교한 가중치 표현을 제공하지만 상당한 메모리 대역폭과 전력을 요구합니다.
PrismML의 접근 방식은 각 가중치가 -1 또는 +1로 제한되는 1비트 아키텍처를 활용하며, 가중치 그룹에 대한 공유 스케일 팩터로 보완됩니다. PrismML의 창립자이자 Caltech 전기공학 교수인 바박 하시비(Babak Hassibi)의 수년간의 이론적 연구를 바탕으로 한 이 방식은 사용자가 최첨단 AI에 기대하는 추론 능력을 희생하지 않으면서도 모델을 효과적으로 압축합니다.
이러한 압축의 기술적 영향은 매우 큽니다. 모델의 크기를 줄임으로써 PrismML은 단 1.15 GB의 메모리에 들어갈 정도로 콤팩트할 뿐만 아니라, 최고 사양의 데이터 센터 GPU에서 볼 수 있는 대규모 VRAM 여유분이 부족한 하드웨어에도 고도로 최적화된 시스템을 성공적으로 구축했습니다.
PrismML은 모델의 성공을 측정하는 방식의 변화를 주장하고 있습니다. 단순한 파라미터 수에서 벗어나, 이 회사는 모델의 평균 오류율의 음의 로그를 모델 크기로 나눈 값으로 계산되는 "지능 밀도(Intelligence Density)"라는 개념을 도입했습니다. 이 지표에 따르면 Bonasi 8B는 유사한 80억 개 파라미터 모델보다 훨씬 뛰어난 성능을 보입니다.
Bonasi 8B가 업계 표준과 비교하여 어떤 위치에 있는지 더 명확하게 보여주기 위해, 다음 표는 주요 성능 이점을 상세히 설명합니다:
| 카테고리 | 효율성/성능 지표 |
|---|---|
| 메모리 점유(Memory Footprint) | 1.15 GB 메모리에 적재 가능 |
| 상대적 크기 | 유사한 8B 모델보다 14배 작음 |
| 에너지 효율(Energy Efficiency) | 에지 하드웨어에서 5배 더 효율적 |
| 지능 밀도(Intelligence Density) | 1.06/GB (Qwen3 8B의 0.10/GB 대비) |
| 런타임 호환성 | Apple Silicon용 MLX 및 CUDA용 llama.cpp를 통한 네이티브 지원 |
에지에서 고기능 LLM을 배포할 수 있는 능력은 개발자와 기업 모두에게 계산 방식을 바꿉니다. 클라우드 기반 AI는 오랫동안 개인 정보 보호, 지연 시간 및 지속적인 API 호출 비용과 관련된 문제에 직면해 왔습니다. Bonasi를 통해 이러한 장벽이 크게 낮아졌습니다.
기업 부문의 경우, 그 시사점이 특히 두드러집니다. 안전한 로컬 우선(Local-first) AI 시스템은 민감한 독점 데이터를 기기 내에서 처리할 수 있음을 의미하며, 이는 타사 클라우드 서버로 정보를 전송할 때 발생하는 데이터 유출 위험을 완화합니다. 또한 로봇 공학, 산업 자동화, 모바일 우선 에이전트와 같은 실시간 애플리케이션의 경우 로컬 추론이 제공하는 지연 시간 단축은 매우 중요합니다.
PrismML이 Apache 2.0 라이선스에 따라 가중치를 공개함으로써 배포 유연성은 이미 확인되었습니다. 이러한 개방성은 개발자가 Bonasi 8B와 더 작은 4B 및 1.7B 변형 모델을 즉시 자신의 애플리케이션에 통합하기 시작할 수 있도록 보장합니다. llama.cpp를 통해 로컬 Nvidia GPU에서 실행하든, Mac 또는 iPhone에서 Apple MLX 프레임워크를 활용하든, 고성능 로컬 AI에 대한 진입 장벽은 그 어느 때보다 낮아졌습니다.
에너지 효율적인 로컬 AI의 전망은 매력적이지만, 앞으로의 길이 험난하지 않은 것은 아닙니다. 저비트 양자화(Quantization)는 역사적으로 특히 지시 이행(Instruction-following), 다단계 추론의 신뢰성 및 도구 사용 정확도 측면에서 트레이드오프와 연관되어 왔습니다.
그러나 PrismML은 자사의 1비트 압축에 대한 수학적 접근 방식이 이러한 기존 문제들을 성공적으로 우회한다고 주장합니다. 신경망 압축 뒤에 숨겨진 수학적 이론을 철저히 개발함으로써, 팀은 1비트 아키텍처가 단순한 틈새 최적화가 아니라 인공지능의 미래를 위한 실행 가능하고 지속 가능하며 확장 가능한 토대임을 증명하는 강력한 솔루션을 제공하는 것을 목표로 삼았습니다.
업계가 Bonasi 8B가 다양한 실제 사용 사례에서 어떤 성능을 발휘하는지 지켜보고 있는 가운데 한 가지는 분명합니다. "클수록 좋다"고 가정하던 시대는 새로운 효율성 우선 혁신의 물결에 의해 도전받고 있습니다. PrismML과 더 넓은 연구 커뮤니티에게 이것은 아마도 점점 더 디지털화되는 우리 세상에서 지능 밀도를 최적화하려는 광범위한 트렌드의 시작일 뿐일 것입니다.