AI 기술이 하루가 다르게 발전하는 가운데, 카카오가 국내 기술력을 총집결한 인공지능 모델을 오픈소스로 공개해 큰 화제가 되고 있습니다. 바로 경량 멀티모달 AI 모델 ‘카나나(Kanana)’ 시리즈입니다.
이 모델은 텍스트만이 아닌 이미지 정보까지 동시에 처리할 수 있는 멀티모달 기능을 갖추고 있으며, 그 성능은 GPT-4o와 견줄 정도로 평가받고 있어 많은 개발자와 연구자들이 주목하고 있습니다.
'카나나' 모델, 무엇이 특별한가?
카카오가 공개한 ‘카나나 1.5-v-3b’는 단순한 언어모델이 아닙니다. 텍스트와 이미지를 함께 이해하고 해석할 수 있는 멀티모달 능력을 갖추고 있으며, 가볍고 효율적인 구조 덕분에 비용 대비 성능에서 큰 장점을 보입니다.
1. 이미지+텍스트 동시 처리
기존 대부분의 AI 모델은 텍스트 중심이었지만, 카나나는 이미지도 함께 처리할 수 있어 사진 기반 질의응답, 이미지 캡션 생성, 시각적 문맥 이해 등이 가능합니다.
예를 들어 사용자가 고장 난 기계 부품 사진을 올리며 "이게 어떤 문제일까요?"라고 질문하면, 카나나는 이미지를 해석하고 텍스트 질문을 종합적으로 분석해 답변을 제공할 수 있습니다.
2. 오픈소스로 누구나 사용 가능
카카오는 해당 모델을 허깅페이스(Hugging Face) 플랫폼에 오픈소스로 공개했습니다. 이는 전 세계 누구나 무료로 사용하고 응용할 수 있다는 의미이며, 스타트업부터 대기업까지 다양한 곳에서 실제 서비스에 적용할 수 있습니다.
3. 고성능 경량 구조
‘카나나’는 경량 모델임에도 불구하고 GPT-4o 수준의 지식 이해와 처리 성능을 보입니다. 특히 한국어, 영어 모두에서 높은 이해력을 보여주며, 중국의 '쿠윈 2.5', 네이버의 '하이퍼클로바 X 3B' 모델보다 이미지 이해 분야에서는 더 높은 점수를 기록했다고 합니다.
전문가 혼합 모델(MoE)도 함께 공개
카카오는 이번에 ‘카나나 1.5-15.7b-a3b’라는 전문가 혼합(Mixture of Experts, MoE) 모델도 공개했습니다. MoE는 여러 개의 대형 언어모델을 조합해 필요한 작업에 따라 최적의 전문가 모델만 작동시키는 구조입니다.
이 방식은 처리 속도는 빠르면서도 정확도와 효율성이 뛰어나, 대규모 AI 서비스에서도 유용하게 활용됩니다.
향후 활용 가능성
- 챗봇: 고객이 보낸 이미지와 텍스트를 동시에 해석하여 상담 가능
- 의료 AI: 의료 영상과 환자의 설명을 함께 분석해 진단 보조
- 교육 AI: 이미지 자료와 문제 설명을 동시에 인식해 학습 지원
- 콘텐츠 제작: 자동 이미지 캡션, 이미지 기반 글쓰기 등 창작 도구
이처럼 ‘카나나’는 단순히 기술적 시연을 넘어서 실제 산업에 직접 투입 가능한 수준의 AI 모델로 평가받고 있습니다.
마치며
카카오가 공개한 '카나나' AI는 국내 기술력으로 만든 세계 수준의 멀티모달 AI입니다. 오픈소스로 제공된 덕분에 개발자들은 보다 낮은 비용으로 고성능 AI를 활용할 수 있으며, 다양한 산업 현장에 빠르게 적용될 수 있는 가능성을 제시하고 있습니다.
앞으로 ‘카나나’ 기반의 서비스들이 얼마나 빠르게 실생활에 녹아들지 기대가 큽니다. AI 기술의 민주화를 이끄는 대표적 사례로 기록될 이번 카카오의 발표는, 한국형 AI 생태계의 또 다른 출발점이 될 것입니다.