
카카오가 통합 멀티모달 언어모델 ‘카나나 오(Kanana-o)’와 오디오 언어모델 ‘카나나 에이(Kanana-a)’의 성능과 개발 후기를 1일 공개했다. 카나나는 카카오가 지난해 자체 개발한 인공지능(AI) 모델이다.
카카오 테크블로그를 통해 베일을 벗은 카나나 오는 국내 최초로 텍스트와 음성, 이미지를 다양한 형태의 정보를 동시에 이해하고 처리할 수 있다. 모델 병합 기술을 기반으로, 이미지 처리에 특화된 ‘카카나 브이(Kanana-v)’와 오디오 이해 및 생성에 특화된 카나나 에이를 통합한 모델이다.
통합 후에는 이미지, 오디오, 텍스트 데이터를 동시에 학습하는 병합 학습을 통해 시각과 청각 정보를 동시에 이해하고, 텍스트와 연결 지을 수 있도록 통합 훈련을 거쳤다. 이로써 기존 대형언어모델(LLM) 구조에서 이미지 이해 능력과 음성 인식과 합성, 감정 이해 등 고도화된 오디오 능력을 확장시킨 통합 멀티모달 언어모델이 구현됐다.
카나나 오는 음성 감정 인식 기술을 통해 사용자의 의도를 올바르게 해석하고, 상황에 맞는 적절한 반응과 답변을 제공한다. 억양, 말투, 목소리 떨림 등 비언어적 신호를 분석하고, 대화 맥락에 맞는 감정적이고 자연스러운 음성의 응답을 생성하는 것이다.

아울러 대규모 한국어 데이터셋을 활용해 한국어의 특수한 발화 구조, 억양, 어미 변화 등을 정밀하게 반영했다. 특히 제주도, 경상도 등 지역 방언을 인식하고 이를 표준어로 변환해 자연스러운 음성을 생성할 수 있다. 카카오는 독자적 한국어 음성 토크나이저(오디오 신호를 일정 단위로 작게 분해하는 도구) 개발도 진행 중이다.
카나나 오는 스트리밍 방식의 음성합성 기술을 적용해 사용자가 긴 대기 시간 없이 응답을 제공하는 강점도 보유했다. 예를 들어, 이미지와 함께 “이 그림에 어울리는 동화를 만들어 줘”라고 입력하면, 사용자의 억양과 감정 등을 분석해 자연스럽고 창의적인 이야기를 실시간으로 생성해서 들려준다.
김병학 카나나 성과리더는 “카나나 모델은 복합적인 형태의 정보를 통합적으로 처리함으로써 기존 텍스트 중심 AI를 넘어 사람처럼 보고 듣고 말하며 공감하는 인공지능으로 진화하고 있다”며 “독자적 멀티모달 기술을 바탕으로 AI 경쟁력을 강화하는 동시에 연구결과 공유를 통해 국내 생태계 발전에 기여할 계획”이라고 말했다.
박재림 기자 jamie@segye.com