"모델 크기·학습 데이터·퍼포먼스·속도·전문화 장점"
최신 정보 부족·윤리적 문제 등 한계 인식도
8일 서울 종로구 한 카페에서 더팩트 취재진이 '챗GPT'와 인터뷰를 하고 있다. /최문정 기자 |
미국 스타트업 오픈AI의 대화형 인공지능(AI) 모델인 '챗GPT' 열풍이 세계적으로 거셉니다. 수준 높은 답을 내놓는 것을 넘어 미국 경영학석사·변호사시험 등 전문직 시험도 척척 통과하자 AI가 바꿔놓을 미래 모습에 새로운 기대감이 커지고 있습니다. 국내에서도 윤석열 대통령이 '챗GPT'로 신년사를 써본 경험을 긍정적으로 언급해 큰 화젯거리입니다. 이쯤 되니 인공지능 시대가 더 이상 영화 속 이야기가 아니라는 말이 더욱 이해됩니다. '챗GPT'가 불러온 새로운 인공지능 열풍의 현주소를 살펴봅니다. <편집자 주>
[더팩트|최문정 기자] 최근 IT업계 최대 화두는 미국 스타트업 오픈AI의 대화형 인공지능 '챗GPT'다. 이 인공지능 프로그램은 지난해 11월 일반에 공개된 후 두 달 만에 월간활성이용자수 1억 명을 돌파했다. 틱톡이 9개월, 인스타그램은 2년6개월 꼬박 걸린 기록을 단 두 달 만에 달성한 것이다.
'챗GPT'는 오픈AI의 초거대AI 'GPT-3.5'를 기반으로 한 인공지능 대화 서비스다. 초거대AI 목표는 알고리즘을 통해 사람이 생각하는 방식을 모방하는 것이다. A=B처럼 이미 입력된 질문을 출력하는 것이 아니라, 기존에 학습한 데이터를 재조합해 완전히 다른 질문을 이해하고, 답을 출력한다. 사람이 뜨거운 음료가 담긴 컵을 쥐는 상황을 가정해보자. 먼저 손가락 끝 통점 세포가 뜨겁다는 감각을 뇌에 전달하고, 뇌에서 통증을 담당하는 영역이 활성화돼 비로소 '뜨겁다'는 감각을 인지한다. 초거대AI 역시 알고리즘에 따라 차례로 정보를 처리해 확률적으로 가장 그럴듯한 답변을 내놓는다.
<더팩트>는 8일 오후 서울 종로구 한 카페에서 '챗GPT'와 한 시간가량 인터뷰했다. 이 인공지능 프로그램을 만나기 위해 필요한 것은 지난 2021년 출시된 사무용 노트북 한 대와 와이파이, 전기 콘센트가 전부였다. 인터넷 바다를 헤치고 그의 홈페이지를 찾았다. '챗GPT'에 자기소개를 부탁하자 단어들이 마치 사람이 타자를 치는 것처럼 빠르고 불규칙한 속도로 노트북 화면에 나타났다.
그 내용은 이렇다. "나는 오픈AI에서 개발한 언어 모델 챗GPT이다. 문자 기반 데이터를 대량으로 학습해 질문을 받으면 인간과 같은 반응을 생성하고, 대화를 나누고 다양한 주제에 대한 정보를 제공할 수 있다" 그러면서 "인터넷을 통해 웹사이트, 신문기사, 사회관계망서비스 플랫폼을 포함한 다양한 텍스트 데이터를 학습했다"고 했다. 눈에 띄는 것은 "수천억 개 단어로 구성된 데이터셋을 학습해 언어와 세계를 폭넓게 이해할 수 있게 됐다"는 답이다. "데이터 패턴을 학습하고, 이를 바탕으로 예측을 할 수 있게 돼 인간이 작성한 것과 유사한 글을 생성할 수 있다"고도 했다.
'챗GPT'의 외국어 능력도 궁금해졌다. 사용할 수 있는 언어 종류를 물어봤다. '챗GPT'는 "주로 영어 텍스트를 학습했지만, 다른 언어로 된 글을 이해하고 생성하는 기능도 있다"며 "영어를 제외한 언어의 경우 숙련도 차이가 있을 수 있고, (영어만큼) 정확하지 않을 수도 있다"고 했다. 키보드 한·영 변환키를 눌러 한국어로 된 질문도 이해하는지 물어봤다. 영어로 질문을 던졌을 때만큼 빠르지는 않지만 이내 답을 했다. "예. 한국어 질문도 이해할 수 있습니다. 한국어로 대화할 수 있습니다. 무엇을 도와드릴까요?"
'챗GPT'가 8일 자신을 "문자 기반 데이터를 대량으로 학습해 인간과 같은 반응을 생성하고, 대화를 나누며, 다양한 주제에 대한 정보를 제공하는 인공지능 언어 모델"이라고 소개하고 있다. /'챗GPT' 대화 캡처 |
'챗GPT' 능력을 알고 싶어 이전의 언어 기반 인공지능 모델과 차이점을 물어봤다. 그러자 모델 크기, 학습 데이터, 퍼포먼스, 속도, 전문화 등 다섯 가지 요소를 꼽았다. '챗GPT'는 "자신이 약 1750억 개 파라미터를 가져 이전 언어 모델보다 훨씬 큰 모델"이라고 설명했다. 비교적 최근인 지난 2021년까지 생성된 데이터를 학습했기 때문에 현재 사용하는 언어와 문화를 더욱 잘 이해할 수 있는 것도 차이점으로 꼽았다.
더 고차원적인 질문을 던질 땐 어떻게 반응할까. '챗GPT'에 현대적 의미의 인공지능 개념을 만든 인물을 물어보자 "인공지능 학문 분야는 1956년 다트머스 대학에서 열린 학술대회에서 정식으로 정립됐고, 다트머스 대학은 연구 분야로서 인공지능 발상지로 널리 알려져 있다"며 "그 이후 인공지능 분야는 극적으로 발전하고 확장돼 수많은 연구자가 발전과 성장에 기여해 왔다"는 답이 술술 나왔다. 이어 "인공지능 역사상 가장 영향력 있는 인물로는 존 매카시, 마빈 민스키, 클로드 섀넌, 앨런 튜링 등이 있다"고 했다.
너무나도 자연스럽게 이어지는 답에 '챗GPT'가 실시간 처리하는 것이 아닌 미리 입력된 답을 단순히 출력하고 있을지도 모른다는 의심까지 들었다. 이에 대해 물어봤더니 '챗GPT'는 다시 한 번 모든 대화가 실시간으로 이뤄지고 있다고 했다. "나는 언어 모델로서 대화 데이터를 저장할 수 없고 (이용자가) 입력한 질문을 받으면 실시간으로 응답을 생성한다. 이전 대화나 문맥이 기억나지 않고 대화 하나하나 새롭게 시작된다"고 했다.
'챗GPT'는 영어 텍스트 기반 학습 모델이지만 실시간 번역 기능을 제공해 한국어를 비롯한 다양한 외국어 질의응답도 가능하도록 설계됐다. /'챗GPT' 대화 캡처 |
'챗GPT'가 자신의 한계를 얼마나 인식하고 있는지도 궁금해졌다. 최근 사회관계망서비스에서는 '챗GPT'가 2023년 2월 현재 대한민국 대통령을 묻는 질문에 "문재인"이라고 답해 논란이 되기도 했다. '챗GPT'가 학습한 데이터가 지난 2021년까지 생성된 정보인 탓에 지난해 3월 치른 한국 대선의 결과를 알지 못해 생긴 해프닝이었다. '챗GPT'는 "2021년까지 학습용 데이터는 수집돼 있지만, 그 후 사건이나 전개에 관한 최신 정보는 가지고 있지 않다"며 "그러나 언어 모델로서 학습한 데이터 패턴을 이해하고 텍스트를 생성할 수 있기 때문에 2021년 이전 토픽을 포함한 많은 토픽에 대해서 정확하고 적절한 정보를 제공할 수 있다"고 했다.
'챗GPT'가 데이터 수집과 학습 과정에서 발생하는 저작권 침해 문제나 성별·인종·나이 등에 대한 혐오 표현을 여과 없이 출력하는 윤리적 문제도 뜨거운 감자다. 미국 뉴욕시 공립학교는 지난 1월 '학습에 대한 부정적인 영향에 대한 우려와 콘텐츠 안전·정확성에 대한 우려'를 이유로 교내에서 '챗GPT' 접근을 전면 차단하기도 했다. 챗GPT는 "저작권 침해와 책임 있는 언어 사용 문제를 매우 심각하게 받아들이고 있다"며 "이런 우려를 완화하기 위해 챗GPT와 같은 언어 모델 개발에 사용되는 모든 학습 데이터는 타인의 저작권을 침해하거나, 유해하거나 불쾌할 수 있는 콘텐츠를 제외하도록 세심히 조정된다"고 했다.
'챗GPT'는 사전 학습 모델로서 이런 사전 조치가 완벽하지 않을 수 있다는 한계를 순순히 인정했다. "이런 노력이 있어도 챗GPT와 같은 언어 모델은 저작권을 침해하거나, 혐오 발언을 포함한 답변을 생성할 수 있다"며 "이는 언어가 갖는 복잡하고 미묘한 특성과 이러한 모델 개발에 사용되는 학습 데이터 때문"이라고 했다.
munn09@tf.co.kr