LG AI연구원, 세계 최고 NLP 학회서 최고논문상 수상
  • 황지향 기자
  • 입력: 2025.04.30 10:15 / 수정: 2025.04.30 10:15
"생성형 AI 평가 새 기준 제시"
LG는 LG AI연구원이 자연어 처리(NLP) 분야 최고 권위 학회 중 하나인 미국 전산언어학회(NAACL) 2025에서 최고논문상을 수상했다고 30일 밝혔다. 김승원 카네기멜론대 박사과정 연구생, 이문태 LG AI연구원 초지능랩장, 이경재 데이터 스쿼드 리더, 서민준 KAIST 교수. /LG
LG는 LG AI연구원이 자연어 처리(NLP) 분야 최고 권위 학회 중 하나인 미국 전산언어학회(NAACL) 2025에서 '최고논문상'을 수상했다고 30일 밝혔다. 김승원 카네기멜론대 박사과정 연구생, 이문태 LG AI연구원 초지능랩장, 이경재 데이터 스쿼드 리더, 서민준 KAIST 교수. /LG

[더팩트ㅣ황지향 기자] LG는 LG AI연구원이 자연어 처리(NLP) 분야 최고 권위 학회 중 하나인 미국 전산언어학회(NAACL) 2025에서 '최고논문상'을 수상했다고 30일 밝혔다.

NAACL은 AI NLP 분야 학회다. 올해 NAACL에는 1400편 이상의 논문이 채택됐다.

논문은 저자인 김승원 카네기멜론대 박사과정 연구생이 LG AI연구원 초지능랩 인턴 과정 중 이문태 초지능랩장, 이경재 데이터 스쿼드 리더, 서민준 카이스트 교수 등과 함께 생성형 AI 모델 성능을 평가하는 '빅젠 벤치'를 개발했다.

빅젠 벤치는 생성형 AI 모델이 갖춰야 할 핵심 역량을 9개 항목, 77개 세부 역할, 총 765개 지표로 정량화해 평가하는 새로운 기준이다. 지시 수행, 추론 능력, 도구 사용, 안전성, 문화적 이해 등 실제 사용 환경에서 요구되는 다면적 능력을 평가할 수 있도록 설계됐다.

빅젠(BIGGEN) 벤치마크는 생성형 AI 모델이 갖추어야 할 9가지 핵심 역량을 기준으로 77개의 세부 역할 수행 능력을 객관적이고 종합적으로 평가하도록 설계됐다. /LG
빅젠(BIGGEN) 벤치마크는 생성형 AI 모델이 갖추어야 할 9가지 핵심 역량을 기준으로 77개의 세부 역할 수행 능력을 객관적이고 종합적으로 평가하도록 설계됐다. /LG

이문태 초지능랩장은"빅젠 벤치는 생성형 AI의 다양한 능력을 객관적이고 종합적으로 평가할 수 있도록 설계됐으며, 기존 벤치마크들의 한계를 극복하고 인간의 정교한 평가기준에 부합하여 AI 모델의 능력을 파악할 수 있다는 장점이 있다"고 말했다.

서민준 교수는 "빅젠 벤치는 생성형 AI 모델을 평가할 때 사람들이 실제로 사용할 때 느끼는 실용성을 지표화 할 수 있다는 점이 가장 큰 장점"이라며 "빅젠 벤치에서 좋은 결과를 얻는다는 것은 실제로 사용할 때 만족스러운 성능을 보이는 생성형 AI 모델이라는 의미"이라고 설명했다.

LG AI연구원은 평가자 역할을 수행하는 AI 모델'‘프로메테우스-2'도 오픈소스로 공개했다. 이 모델은 GPT-4에 버금가는 성능으로 평가 신뢰도를 입증했다. 연구진은 빅젠 벤치를 기반으로 생성형 AI 개발 전반에서 항목별 자동 평가가 가능한 시스템 연구도 병행 중이다.

hyang@tf.co.kr

발로 뛰는 <더팩트>는 24시간 여러분의 제보를 기다립니다.
· 카카오톡: '더팩트제보' 검색
· 이메일: jebo@tf.co.kr
· 뉴스 홈페이지: https://talk.tf.co.kr/bbs/report/write
· 네이버 메인 더팩트 구독하고 [특종보자→]
· 그곳이 알고싶냐? [영상보기→]
AD