카카오, 카나나 AI 모델 10종 선봬…고성능·실용성 강조

에너지경제신문 입력 2024.10.23 12:06

LLM 3종·MLLM 3종·비주얼 2종·음성 2종
투명성·비용효율 강조…“한국어·처리 우수”
그룹 AI 서비스 적용…업무 생산성 향상 도모

ㄹㄹ

▲카카오가 새 인공지능(AI) 서비스 '카나나' 기반 자체 언어모델 10종을 선보였다.

카카오가 새 인공지능(AI) 서비스 '카나나(Kanana)'에 이어 자체 개발한 AI 모델 10종을 선보였다.




김병학 카카오 카나나알파 성과리더는 23일 개발자 콘퍼런스 '이프카카오(ifKAKAO)'에서 AI)2024'에서 △거대언어모델(LLM) 3종 △멀티모달 언어모델(MLLM) 3종 △비주얼(이미지·영상) 생성모델 2종 △음성 모델 2종 등 총 10종의 자체 모델 라인업을 공개했다.


언어모델은 용량에 따라 △초거대 '플래그' △최적화 '에센스' △초경량 '나노'로 분류되며, 카카오톡을 비롯한 그룹 내 모든 서비스에 적용할 방침이다.



최적화 모델인 카나나 에센스는 저작권이나 개인정보 이슈가 해소된 고품질 데이터를 기반으로 필터링·데이터 큐레이션 등 전처리 작업을 통해 독자적 고품질 데이터셋를 구축했다. 유사 사이즈의 글로벌 대표 모델들과 비교한 결과, 한국어 논리 및 추론을 평가하는 KMMLU·HAE-RAE 벤치마크에서 우위를 보였다.


김 성과리더는 “정제된 데이터의 학습과 최적화된 모델 크기로 탁월한 성능과 비용 효율성을 보여준다"고 설명했다.




초경량 모델인 카나나 나노 역시 글로벌 대표 모델 대비 전반적인 벤치마크에서 평균적으로 탁월한 성능을 보였다. 모바일 디바이스에서도 활용 가능해 어디서나 편하게 이용할 수 있다. 초거대 모델인 카나나 플래그는 현재 학습 중에 있다.


MLLM 3종은 △통합 버전 '카나나-오(O)' △이미지·비디오 중심 '카나나-브이(V)' △오디오 중심 '카나나-에이(A)'로 나뉜다. 김 성과리더는 이날 카나나-오를 중심으로 MLLM을 소개했다.




카나나-오는 여러 형태의 데이터를 통합 처리하는 형태로 개발됐다. 이는 음성인식·합성, 텍스트 등 모델을 각각 필요에 따라 모듈식으로 결합해 사용했던 기존 구조에서 벗어난 것이다.


다양한 형태의 데이터를 동시에 이해해 빠르게 결과를 생성할 수 있다. 이를 통해 텍스트·오디오를 함께 생성하며 어떤 질문을 하던 평균 1.6초의 속도로 빠른 답변을 출력할 수 있다는 설명이다. 향후 영상 데이터를 이해하고, 이미지·영상도 생성할 수 있는 통합 MLLM 구조로 진화할 예정이다.


김 성과리더는 “이미지 이해 성능 평가 시 자체 구축한 한국어와 한국 문화에 특화된 한국형 벤치마크에서 글로벌 모델 대비 높은 성능을 기록했다"며 “음성 성능 평가에선 근소한 성능 우위를, 음성 질문 답변(SQA) 벤치마크에선 월등히 높은 정확도를 보였다"고 말했다.


비주얼 생성 모델 2종은 △이미지 중심 '칼리지' △동영상 중심 '키네마'로 나뉜다. 이들은 텍스트 입력부터 이미지 그리고 개인 프로필 사진까지 다양한 입력을 처리하는 형태로 개발 중이다. 입력된 이미지를 영상으로 생성하는 것을 넘어 간단한 마우스 조작만으로 카메라와 캐릭터 움직임을 쉽게 제어할 수 있게 될 것으로 보고 있다.


김 성과리더는 이들 모델의 특징으로 △탁월한 한국어·처리 성능 △신뢰할 수 있는 데이터로 학습해 투명성 확보 △서비스 최적화에 맞춘 비용효율을 꼽았다.


아울러 카나나 기반 자체 모델들을 카카오의 AI 서비스에 적용하는 것 외에도 직원들의 업무 생산성 향상을 도모해 AI 네이티브 컴퍼니로 나아가기 위한 기반을 확대하겠다고 밝혔다.


그는 “카나나 모델을 기반으로 이용자들에게 직접적인 도움을 줄 수 있는 AI 서비스를 제공할 것"이라며 “서비스에 최적화된 LLM은 좋은 성능과 비용 효율성, 튜닝을 통해 서비스 문제 해결 능력을 갖춰야 한다"고 말했다.



이태민 기자 기사 더 보기

0



TOP