'더 똑똑한' GPT-4 뭐가 달라졌나…이미지 읽고 언어능력 향상

처리단어량·기억력 대폭 높여…"인간 수준 아니지만 범용 AI 현실화 훨씬 앞당겨"

오픈AI "GPT-4 한국어능력, 챗GPT 영어능력보다 좋아"…네이버·카카오 '긴장'

GPT-4
GPT-4

[오픈AI 홈페이지 캡처. 재판매 및 DB 금지]

임성호 기자 = 생성형 인공지능(AI) 챗GPT를 개발해 세계적 돌풍을 일으킨 오픈AI가 챗GPT에 적용된 GPT-3.5의 업그레이드 버전인 를 공개하면서 구체적으로 어떻게 성능이 향상됐는지 관심이 쏠린다.

16일 정보기술(IT) 업계에 따르면 오픈AI는 지난 14일 대규모 AI 언어 모델(LLM) GPT-4를 공개했다. 지난해 11월 챗GPT를 내놓은 지 약 4개월 만이다.

한때 GPT-4는 GPT-3의 매개 변수(파라미터) 규모인 1천750억개를 아득히 뛰어넘은 1조개 이상의 매개 변수를 갖출 것이라는 추정이 나왔지만, 오픈AI는 GPT-4 매개 변수 규모를 공개하지 않았다.

다만 업계에서는 확실히 '더 똑똑한 모델'이라는 평가가 나온다. 이미지를 보고 이해할 수 있게 됐고, 언어 구사 능력과 기억력이 높아진 것은 물론 영어 이외의 외국어 실력도 전반적으로 향상됐다는 점에서다.

오픈AI에 따르면 GPT-4는 기존 GPT-3.5와 달리 텍스트뿐 아니라 이미지까지 여러 데이터 형태를 인식하는 멀티모달(복합 정보 처리) 모델이다.

문자로만 대화할 수 있었던 데서 사진과 문자를 결합한 질문도 이해하고 답변할 수 있게 발전한 것이다. 계란과 밀가루, 버터, 우유 사진을 올리고 "이걸로 요리할 수 있는 게 뭐지?"라고 물으면 "팬케이크나 와플, 프렌치토스트 등등"이라고 답하는 식이다.

언어 능력 자체도 향상됐다. 처리할 수 있는 단어량은 2만 5천 단어로 챗GPT보다 약 8배 늘어났다. GPT-4는 미국 모의 변호사 시험에서 90번째, 대학 입학 자격시험인 SAT 읽기·수학 시험에서는 각각 93번째와 89번째의 백분위수를 기록했는데 이는 상위 10% 수준이라고 오픈AI는 설명했다.

美 하원의원, 의회서 챗GPT 작성 원고로 연설 (CG)
美 하원의원, 의회서 챗GPT 작성 원고로 연설 (CG)

[TV 제공]

대화 내용을 기억할 수 있는 능력도 대폭 늘어났다. 미국 정보기술(IT) 전문 매체 테크크런치는 "GPT 3.5는 책 4∼5페이지에 해당하는 4천96 토큰(메모리 단위)을 보유했는데, GPT-4는 최대 책 50페이지 수준인 3만2천768 토큰을 보유했다"면서 "희곡이나 단편 하나를 통째로 외울 수 있다는 의미"라고 소개했다.

특히 GPT-3.5의 고질적 문제였던 '할루시네이션(환각) 현상'도 크게 줄었다고 오픈 AI는 설명했다. 이는 AI가 틀린 정보나 무의미한 내용을 마치 환각을 보는 듯이 그럴듯하게 제시하는 현상이다.

오픈AI는 "GPT-4는 내부 사실성 평가에서 최신 GPT-3.5보다 40% 높은 점수를 받았다"고 했다.

하이퍼클로바X
하이퍼클로바X

[네이버 제공. 재판매 및 DB 금지]

한국어를 비롯한 비영어 언어 성능이 높아진 점도 주목된다. 오픈AI가 시험한 26개 언어 가운데 GPT-4는 한국어와 일본어, 프랑스어 등 24개 언어에서 GPT-3.5가 영어를 하는 수준보다 더 높은 성능을 보였다.

이는 국내에서 생성형 AI를 개발하는 네이버와 카카오[035720] 등을 가장 긴장하게 하는 지점이다. 두 회사는 GPT-4가 어떤 반향을 부를지 주목하면서 한국어 특화 대규모 언어모델 개발에 더 집중하겠다는 입장을 밝혔다.

네이버 관계자는 "진행 중인 프로젝트를 기반으로 초대규모 AI 생태계를 확대하고, 새로운 검색 경험인 를 통해 AI 기술 경쟁력을 확보해 나갈 예정"이라고 말했다.

카카오 관계자는 "AI 자회사 을 통해 한국어 특화 언어모델 KoGPT(코지피티) 연구에 박차를 가할 것"이라면서 "복잡한 문맥과 뉘앙스 등도 철저히 연구해 한국어를 누구보다 더 잘하는 모델을 만들겠다"고 말했다.

카카오브레인, AI 이미지 모델 '칼로' 성능 높인 API 공개
카카오브레인, AI 이미지 모델 '칼로' 성능 높인 API 공개

[카카오브레인 제공. 재판매 및 DB 금지]

GPT-4가 혁신적인 변화이기는 하지만, 아직 인간과 동일한 수준의 능력을 갖춘 것은 아니라 엉뚱한 답을 내놓을 수 있다는 한계가 지적된다.

AI 스타트업 업스테이지의 박은정 최고과학책임자(CSO)는 "GPT-4는 사람들이 많이 물어보지 않거나 온라인에 정보가 없는 '롱테일 질문', 지식을 단순히 불러올 뿐 아니라 특정 연산을 통해 정보를 소화해야 하는 '추론형 질문'은 잘 답할 수 없다"고 말했다.

박 CSO는 "GPT-4가 범용 인공지능(AGI) 수준에 도달하지 못한 것은 맞지만 '머나먼 미래'였던 예전보다 훨씬 가까워졌다"면서 "검색 대상인 콘텐츠가 대부분 기계에 의해 만들어지며 인간이 만든 것과 구분하기 어려울 정도가 되면서 양질의 콘텐츠를 가려내는 게 또 다른 도전과제가 될 것"이라고 덧붙였다.


답장을 남겨주세요