[더팩트ㅣ조소현 기자] SK텔레콤이 한국어 처리 능력을 특화한 대규모언어모델(LLM) '에이닷 엑스(A.X) 4.0'을 오픈소스로 공개했다고 3일 밝혔다.
SK텔레콤은 이날 오픈소스 커뮤니티 허깅페이스(Hugging Face)를 통해 A.X 4.0의 표준 모델과 경량 모델 2종을 공개했다.
해당 모델은 오픈소스 모델인 Qwen2.5에 방대한 한국어 데이터를 추가 학습시켜 국내 비즈니스 환경에 최적화된 성능을 갖췄다. SK텔레콤은 지난 5월부터 A.X 4.0을 '에이닷' 통화 요약에 적용, 성공적으로 활용하고 있다.
SK텔레콤에 따르면 A.X 4.0은 자체 설계한 토크나이저를 활용해 높은 수준의 한국어 처리 효율을 달성했다. 자체 테스트 결과, 같은 한국어 문장에 대해 GPT-4o 대비 약 33% 높은 토큰 효율을 기록, 정보 처리 용량과 비용 측면에서 경쟁력을 갖췄다는 평가다.
또 한국어 능력 평가 벤치마크인 KMMLU에서 A.X 4.0은 78.3점을 기록해 GPT-4o(72.5점)를 상회했다. 한국 문화·언어 이해도를 측정하는 CLIcK에서도 83.5점을 받아 GPT-4o(80.2점)보다 우수한 성능을 보였다.
보안 측면에서도 온프레미스 방식으로 제공돼, 데이터 유출에 민감한 기업 환경에서도 내부 서버에 설치해 운영할 수 있다는 설명이다. SK텔레콤은 대규모 학습(CPT·Continual Pre-Training) 과정 전반을 외부 연동 없이 자체 데이터로 학습해 데이터 주권도 확보했다고 강조했다.
모델 사양은 표준 모델이 720억개(72B), 경량 모델이 70억개(7B)의 매개변수를 갖췄으며, 사용자는 목적에 따라 선택적으로 활용할 수 있다.
이번 공개로 기업은 파생형 모델을 개발하거나 연구 목적으로도 활용할 수 있게 됐다. SK텔레콤은 A.X 4.0을 통해 국내 기업들이 자체 환경에서 AI 기술을 활용할 수 있는 선택지를 제공하겠다는 방침이다.
SK텔레콤은 추론형 모델 공개도 예고했다. 이달 중 수학 문제 해결과 코드 개발 능력을 강화한 추론형 모델을 공개하고, 이미지와 텍스트를 동시에 이해하는 멀티모달 모델로의 확장도 계획하고 있다. 또 소버린 AI 관점에서 A.X 3.0에 적용한 '프롬 스크래치' 방식도 병행해 개발을 진행하고 있으며, 후속 모델도 순차적으로 공개할 예정이다.
sohyun@tf.co.kr