[더팩트ㅣ황지향 기자] LG는 LG AI연구원이 자연어 처리(NLP) 분야 최고 권위 학회 중 하나인 미국 전산언어학회(NAACL) 2025에서 '최고논문상'을 수상했다고 30일 밝혔다.
NAACL은 AI NLP 분야 학회다. 올해 NAACL에는 1400편 이상의 논문이 채택됐다.
논문은 저자인 김승원 카네기멜론대 박사과정 연구생이 LG AI연구원 초지능랩 인턴 과정 중 이문태 초지능랩장, 이경재 데이터 스쿼드 리더, 서민준 카이스트 교수 등과 함께 생성형 AI 모델 성능을 평가하는 '빅젠 벤치'를 개발했다.
빅젠 벤치는 생성형 AI 모델이 갖춰야 할 핵심 역량을 9개 항목, 77개 세부 역할, 총 765개 지표로 정량화해 평가하는 새로운 기준이다. 지시 수행, 추론 능력, 도구 사용, 안전성, 문화적 이해 등 실제 사용 환경에서 요구되는 다면적 능력을 평가할 수 있도록 설계됐다.
이문태 초지능랩장은"빅젠 벤치는 생성형 AI의 다양한 능력을 객관적이고 종합적으로 평가할 수 있도록 설계됐으며, 기존 벤치마크들의 한계를 극복하고 인간의 정교한 평가기준에 부합하여 AI 모델의 능력을 파악할 수 있다는 장점이 있다"고 말했다.
서민준 교수는 "빅젠 벤치는 생성형 AI 모델을 평가할 때 사람들이 실제로 사용할 때 느끼는 실용성을 지표화 할 수 있다는 점이 가장 큰 장점"이라며 "빅젠 벤치에서 좋은 결과를 얻는다는 것은 실제로 사용할 때 만족스러운 성능을 보이는 생성형 AI 모델이라는 의미"이라고 설명했다.
LG AI연구원은 평가자 역할을 수행하는 AI 모델'‘프로메테우스-2'도 오픈소스로 공개했다. 이 모델은 GPT-4에 버금가는 성능으로 평가 신뢰도를 입증했다. 연구진은 빅젠 벤치를 기반으로 생성형 AI 개발 전반에서 항목별 자동 평가가 가능한 시스템 연구도 병행 중이다.
hyang@tf.co.kr