
[더팩트ㅣ조소현 기자] KT가 자체 개발한 한국어 특화 대규모언어모델(LLM) '믿:음 2.0'이 한국어 LLM 성능 평가 플랫폼 '호랑이 리더보드'에서 국내 1위를 차지했다.
KT는 믿:음 2.0 Base 모델이 '호랑이 리더보드3'에서 파라미터 수 150억개 미만의 국내 기업 개발 모델 중 종합 성능 1위를 기록했다고 9일 밝혔다.
믿:음 2.0 Base의 종합 점수는 0.7197로, 세부 항목별로는 범용 성능 0.7004, 응답 정렬 성능 0.739를 기록했다. 이는 전 세계 동급 모델 중에서도 3위에 해당하는 수준이다.
호랑이 리더보드는 글로벌 MLOps 기업 웨이트앤바이어스(W&B)가 주관하는 한국어 특화 LLM 평가 벤치마크로, 실제 한국어 환경을 반영한 범용 언어 이해력과 응답의 안전성, 정렬성 등을 종합적으로 평가한다. 기존 단답형 지식 응답 정확성 위주의 벤치마크와 달리, 작문과 추론, 정보 추출 등 실생활 시나리오 기반 평가를 통해 모델의 실용적 성능을 측정한다.
특히 한국어 특유의 문맥, 표현, 사회적 맥락 등을 얼마나 정밀하게 반영하는지를 평가하는 방식으로, 국내 시장에서의 실효성을 가늠하는 지표로 주목받고 있다. 해당 리더보드의 결과는 W&B의 WanDB 플랫폼을 통해 투명하게 공개돼 누구나 검증 가능하다는 점에서도 신뢰도가 높다는 평가다.
KT는 이번 성과가 믿:음 2.0이 국산 기술력 기반으로 한국어 LLM 시장에서 실질적인 경쟁력을 확보했다는 점을 객관적으로 입증하는 결과라고 밝혔다. 믿:음 2.0은 단순히 외산 모델을 튜닝한 것이 아닌, 아키텍처 설계부터 데이터 구축, 학습까지 전 과정을 KT가 직접 수행한 '프롬 스크래치' 방식으로 개발된 순수 자체 모델이라는 점에서 기술적 의미가 크다는 설명이다.
신동훈 KT Gen AI Lab장(CAIO) 상무는 "믿:음 2.0을 국내 다양한 산업 분야에 적용해 '한국적 AI'의 시장 확산에 본격 나설 것"이라며 "한국적 AI의 실용화와 기술 발전을 이끄는 핵심 주체로 자리매김하겠다"고 강조했다.
KT는 현재 믿:음 2.0 기반의 맞춤형 B2B AI 솔루션을 산업 전반에 제공하고 있으며, 공공·금융·교육·법률 분야에서의 실증도 추진 중이다. 또 성능을 강화한 믿:음 2.0 Pro 버전의 공개를 준비하고 있으며, 추론 성능 강화, 멀티모달 기능 확장, 국산 AI 반도체 기업 리벨리온과의 협업 등을 통해 AI 생태계 확장도 이어갈 계획이다.
sohyun@tf.co.kr