We help people focus on what matters the most

ACL 2023 리뷰

2022년 겨울부터 2023년 봄은 NLP 분야에서 격변의 시기였습니다. OpenAI가 공개한 InstructGPT, ChatGPT, GPT-4와 같이 사람의 요청사항을 이해하는 초거대 언어모델 (Large Language Model, 이하 LLM) 이 보여준 능력은 AI 산업계 뿐만 아니라 AI 학계 전반에도 큰 영향을 미쳤습니다.

자연어처리 분야에서 국제 최고 수준으로 평가받는 양대 컨퍼런스 (ACL, EMNLP) 들 중에서, ACL 2023은 이러한 시기를 지나고 열리는 컨퍼런스입니다. LLM이 보여준 성능으로 인해서 기존에 많은 사람들이 도전하던 문제가 단시간 내에 모두 해결되는 것으로 여겨졌기 때문에, 이번 ACL 2023은 격변의 시기를 지나며 자연어처리 연구자 커뮤니티가 어떻게 대응했고, 어떤 새로운 연구 주제를 발굴하고 의미 있는 결과를 도출했는지를 한 자리에서 살펴볼 수 있는 좋은 기회입니다.

Keynote: Geoffrey Hinton

인공신경망의 대부 제프리 힌튼(Geoffrey Hinton)의 키노트입니다. 제프리 힌튼이 생각하는 LLM의 특징과 의미, 그리고 향후 인공지능의 발전 방향성에 대해서 다룹니다.

LLM이 다음 단어 예측(Next Token Prediction) 방식으로 언어를 학습하는 것에 내포된 의미

대부분의 LLM은 다음 단어 예측(Next Token Prediction)을 기반으로 학습되었습니다. 이는 LLM이 수많은 언어 데이터를 기반으로 주어진 맥락에 다음에 등장할 단어가 무엇인지를 맞추는 방식으로 사람의 언어의 고유한 패턴을 학습했다는 의미입니다. 물론, 사람의 요청사항이 주어졌을 때 의도를 파악해서 정확한 답변을 생성하기 위한 추가적인 학습 기법 (Reinforcement Learning from Human Feedback, 이하 RLHF) 이 있지만 여기서는 논외로 하겠습니다.

단순하게 생각하면, 다음 단어를 잘 예측한다는 것은 학습 데이터 상에서 자주 등장하는 패턴을 학습하는 것이고, 따라서 LLM은 통계적으로 더 자주 등장하는 단어의 등장 확률을 학습하는 것일 뿐, 실제로 사람처럼 언어와 지식을 이해하지 못한다는 의견도 있습니다. 이러한 주장은 2012년 이후로 유행하기 시작했던 어휘 임베딩(word embedding)을 생각해보면 설득력이 있습니다. 어휘 임베딩은 어떤 문맥 속에서 특정 단어가 등장하는 통계적 패턴 (statistical co-occurence) 을 분석하는 것을 통해서, 어휘의 의미 표상 (semantic representation)을 벡터로 표현할 수 있도록 만드는 방법이었고, 당시 연구자들은 어휘 임베딩을 학습하는 기법에 대하서 사람이 언어를 이렇게 다루고 말한다고까지 주장하지는 않았었습니다.

그렇다면 왜 LLM과 어휘 임베딩은 무엇이 다른걸까요? 제프리 힌튼은 학습 기법과 모델에 대해서 아래와 같은 예시를 듭니다. 다음 단어를 예측하는 학습 방식은 대량의 데이터에서 고차원적인 언어의 패턴을 학습하기에 적합하다는 것입니다. 아래와 같은 고차 방정식이 있다고 해봅시다.

x4 - 7x3 - 10x2 + 103x + 210 = 0

이러한 방정식은 위와 같은 형태로 이해하기는 어렵지만, 아래와 같이 표현한다면 훨씬 이해하기가 쉬워집니다.

(x-5)(x+3)(x-7)(x+2) = 0

즉, 주어진 어떤 데이터를 단순한 구성 요소의 곱(product)로 바라보고 패턴을 학습한다면, 복잡한 패턴을 학습하기 쉬워진다는 것입니다. 언어의 패턴을 이해하기 위해서 다음 단어를 예측하는 학습 방식 또한 이렇게 이해할 수 있습니다. 더불어, LLM은 모델의 크기가 크기 때문에, 어휘 임베딩보다 훨씬 복잡한 패턴을 학습할 수 있다는 점 또한 간과하기 어렵습니다. 따라서, “LLM은 언어의 통계적 패턴만을 학습하는 것이다” 라는 주장은 LLM이 내재하고 있는 언어 패턴에 대한 이해도의 깊이를 지나치게 단순화하는 주장이라고 말합니다.

LLM은 환각(Hallucination) 대신 confabulation이 있다고 불러야 한다

환각(Hallucination) 현상 또한 이러한 LLM의 다음 단어 예측 방식과 관련이 있을 수 있습니다. LLM이 언어의 고차원적인 패턴을 학습하기 때문에, 이러한 고차원적인 언어의 추상적인 패턴에 기반해 그럴듯한 말을 생성해낸다는 것입니다. 거대 언어 모델 (Large Language Models, LLM) 이 환각 현상을 보인다는 것은 이제 널리 알려진 사실인데, 일반적으로 이 현상을 언급할 때 사용자의 질문에 대해서 그럴듯하게 사실과는 다른 정보를 전달하거나 거짓말을 지어내는 것을 의미하는데, 제프리 힌튼은 이러한 특징을 환각이라고 부르기엔 다소 오해가 있을 수 있기 때문에 정확하게는 “confabulation”* 이라고 불러야 한다고 말합니다.
*Confabulation은 어떤 사람이 허구의 사건이나 기억을 만들어내는 것을 의미합니다. 이는 사람이 실제로 경험했던 기억의 일부 조각들을 기반으로 만들어지며, 의도적으로 속이려고 하지 않는다는 점에서 거짓말과 다릅니다.

이러한 특징은 사람과 동일하다고 합니다. 사람의 기억은 컴퓨터 파일처럼 저장되지 않습니다. 인간이 어떻게 정보를 습득하고 지식을 저장하는지는 인지과학에서 오랜 시간동안 다루어졌던 주제였지만, 아직도 우리는 그 정확한 메커니즘을 알지 못합니다. 다만, 직관적으로 생각해보면 우리는 어떤 사실을 기억해서 말을 할 때 기억을 재구성(construct) 해서 이야기를 하는데, 사람도 기억을 재구성하는 과정에서 세부적인 내용은 잊어버리거나 그럴듯하게 틀리는 경우가 많다는 것입니다. 예를 들면, LLM이 어떻게 동작하는지 충분히 이해하지 못한 연구자가 “LLM은 단순히 텍스트의 패턴을 군집화(clustering) 할 뿐”이라고 주장한다면, 이것 또한 “confabulation”의 적절한 예시라고 볼 수 있습니다. 이런 말을 한 연구자는 자신의 주장을 뒷받침할 타당한 증거(evidence)가 없는 상태에서 LLM이 하는 일에 대해서 confabulate 한 예시라고 볼 수 있는 것이죠.

현재 LLM의 한계를 극복하기 위한 하드웨어의 진화

LLM이 앞으로 더 진화하기 위해서 하드웨어의 한계 또한 극복해야한다고 합니다. 현재의 컴퓨팅 하드웨어는 “immortal computer”로, 어떤 소프트웨어도 안정적(reliable)으로 동작할 수 있도록 설계되는 것을 목표로 하며 사람이 컴퓨터가 무엇을 해야하는지 정확하게 지시를 내리면 그것을 수행하는 형태입니다. LLM과 같은 인공지능이 더 알맞게 동작하려면, 이와는 조금 다른 형태의 ‘mortal computer’가 필요하다고 합니다. 인간의 뇌는 주어진 환경과 상호작용하며 발전하듯이, 언어의 패턴을 학습해 가면서 하드웨어 구조 또한 가변적으로 학습되고 최적의 추론 과정(forward path)을 찾아서 진화해 나갈 수 있어야 한다는 것입니다. 이러한 새로운 형태의 컴퓨터는 우리가 익히 알고 있는 비트 기반의 이진 컴퓨터를 대체하지는 않을 것이라고 합니다. 또한, 지금의 LLM은 하드웨어가 정상동작하지 않으면 LLM이 동작하지 않게 되면서 학습했던 지식을 모두 잃어버리게 되는데, 학습한 지식이 하드웨어의 문제와 별개의 것으로 분리되려면 이러한 지식의 보존을 위해 지식 추출 (knowledge distilation)이 필요하다고 이야기 합니다.

인공지능의 미래: 초지능(Super-intelligence)의 등장

그렇다면 이렇게 하드웨어의 한계가 극복된 미래의 인공지능은 어떤 모습일지에 대해서 제프리 힌튼은 초지능(super-intelligence)에 대해서 말합니다. 미래의 인공지능은 단순히 인간의 언어 만을 학습하는 것에서 더 나아가, 인간의 모든 지식을 학습하게 될 것이라고 합니다. 즉, 언어 모델을 학습하기 위해서 사람의 언어 데이터만 수집하여 학습하는 것이 아니라, 사람과 동일하게 세상과 상호작용하며 비지도학습의 형태로 세상에 대한 지식(world knowledge)을 학습하는 것입니다. 이 과정에서 (사람이 시각을 통해 세상에 대한 정보를 받아들이는 것처럼) 세상에 대한 이미지와 비디오를 학습하며 그와 연계하여 언어를 학습하게 된다면, 사람보다 훨씬 더 많은 데이터를 학습할 수 있게 되기에 초지능(Super-intelligence)이 탄생할 것이라고 합니다.

Best Papers

ACL 2023에서 최우수 논문상을 수상한 논문들입니다. 최우수 논문이 어떤 내용을 담고 있는지를 살펴봄으로써, 현재 NLP 커뮤니티에서 어떤 주제를 모두가 관심있게 지켜보고 있고, 어떤 결과가 의미있다고 생각하는지를 살펴볼 수 있습니다. 아래의 3개의 페이퍼가 최우수 논문으로 선정되었습니다.

Do Androids Laugh at Electric Sheep? Humor “Understanding” Benchmarks from The New Yorker Caption Contest

  • 인공지능이 사람처럼 유머(humor)를 이해하고 생성하는 것은 생각보다 고차원적인 일입니다. 유머를 이해하려면 주어진 맥락에 대한 이해 뿐만 아니라, 세상에 대한 지식을 필요로 하는 일이기 때문입니다. LLM에게 적절한 지시(instruction)를 주면 농담을 생성하긴 하지만, LLM이 정말로 유머를 이해하는지 여부는 사실 알기 어려운 일입니다. 특히, 이미지와 함께 제공된 유머라면 더 어려울 것입니다. 따라서, 이 연구는 뉴요커 만화 캡션 콘테스트(New Yorker Caption Contest)에서 파생된 세 가지 과제를 AI에게 수행하도록 했고, 1) 만화 이미지와 주어진 유머를 매칭하는 것, 2) 만화 이미지에 가장 적절한(winning) 캡션을 고르는 것, 3) 그리고 그 캡션이 왜 웃긴지 설명하는 것입니다. 연구 결과, 현재의 멀티모달 모델(vision-language)과 LLM은 생각보다 사람의 유머를 이해하는데 어려움을 겪는다는 것을 발견했으며, 정확도 측면에서 사람보다 30점 이상 떨어지는 성능을 보이는 것을 발견했습니다. 이러한 부분에서 AI가 더 인간의 유머와 그에 포함된 다양한 지식과 맥락을 이해할 수 있도록 벤치마크를 공개했습니다.

What the DAAM: Interpreting Stable Diffusion Using Cross Attention

  • 거대 디퓨전 모델(Large Diffusion Nets)들은 텍스트 기반 이미지 생성 분야에서 놀라운 성능을 보여주고 있지만, 여전히 이 모델이 어떻게 동작하고 왜 잘하는지 이해하기 어렵습니다. 즉, 디퓨전 모델의 부족한 해석 가능성을 향상시키기 위해, 최근에 오픈소스로 공개된 Stable Diffusion 모델을 대상으로 어떤 단어가 어떻게 이미지 생성에 영향을 미치는지 분석하기 위한 DAAM(단어-픽셀 속성 맵)을 만들고 분석했습니다.

From Pretraining Data to Language Models to Downstream Tasks: Tracking the Trails of Political Biases Leading to Unfair NLP Models

  • 언어 모델(LM)은 다양한 데이터를 기반으로 학습되는데, 특히 사전학습(pre-training) 단계에서 뉴스, 토론 포럼, 책, 온라인 백과사전 등이 포함됩니다. 이러한 데이터에는 사람들의 의견과 시각도 포함되어 있는데, 한쪽에서는 민주주의와 다양성을 지지하는 반면에, 사회적으로 편향된 면도 있습니다. 이 연구는 다양한 의견이 포함된 데이터로 학습된 언어 모델에서 정치적 편향을 측정하는 새로운 방법을 개발하고, 이러한 편향이 자연어 처리(NLP) 모델의 공정성(fairness)에 어떤 영향을 미치는지 측정하는 방법도 제안했습니다. 이러한 방법론을 토대로 언어 모델에 편향성이 존재한다는 것을 발견했으며, 이러한 연구 결과가 NLP 연구에 미치는 영향을 논의하고, 불공정성을 줄이기 위한 미래 방향을 제안합니다.

위와 같은 최우수 논문들을 바탕으로 ACL 커뮤니티에서 관심있게 보는 주제는 아래와 같다고 볼 수 있습니다.

멀티모달 정보 기반 언어 이해 및 생성(Multimodal Language Understanding)

이제 Chatgpt를 필두로 하는 사람의 지시를 이해하는 LLM들이 다양한 언어 이해 및 생성 과제에 대해서 좋은 성능을 내고 있기 때문에, 이제 연구자들의 관심사는 LLM이 잘하지 못하는 것 또는 언어만 이해해서는 제대로 수행할 수 없는 과제에 대해서 관심사가 이동하고 있습니다. 특히, 시각-언어(visual-language) 정보를 동시에 활용해야 하는 과제 및 이러한 인공지능 모델을 학습하는 방법에 대해서는 지속적으로 발표되는 논문 수가 증가하고 있었는데, 이번 ACL 또한 이러한 트렌드가 더 커지고 있는 것으로 보입니다.

인공지능 윤리(AI ethics)

인공지능의 편향성을 줄이기 위한 방법과 공정성을 확보하는 방법에 대해서는 여전히 학계의 큰 관심사입니다. 이 주제는 산업계가 다루기엔 다양한 이유로 진지하게 연구하기 어려운 영역이기도 해서, 학계에서 더욱 주목을 받고 있습니다. 인공지능 모델의 예측 결과의 사회적 편향성이 왜 발생하는지 (데이터 때문인지, 혹은 학습 기법 때문인지), 그리고 이를 어떻게 줄일 수 있는지 (공정성) 에 대한 연구 결과들 또한 더 많이 등장할 것으로 예상합니다.

Highlights

최우수 논문들과 더불어, 인공지능이 발전하는 방향에서 최전선에 서 있는 학계 및 산업계 연구 그룹들이 어떤 논문을 발표했는지 살펴봄으로써 얻을 수 있는 인사이트를 공유합니다. 전통적으로 Google Research는 자연어 처리 분야에서 언어 모델의 사전학습 기법 뿐만 아니라, 언어에 내재된 깊은 지식을 다루는 광범위한 문제를 푸는 모델 학습 기법 및 데이터 처리 기법을 제안하는 데 있어서 1인자의 위치를 차지해 왔습니다. 그에 반해 Meta AI Research (전 Facebook AI Research, FAIR) 는 대화 생성, 특히 일상 대화 생성 모델 영역에서 놀라운 성능을 보이는 모델, 데이터, 데모를 자주 공개했었던 저력이 있습니다. 그리고 AI 최전선에서 산업계의 1인자 자리를 놓고 다투던 Meta, Google과 밀접한 연관을 맺고 있는 University of Washington의 자연어처리 연구 그룹이 어떤 프로젝트를 진행했는지 살펴보는 것 또한 의미 있는 일입니다. 2023년 기준으로, OpenAI가 세상에 내놓은 충격적인 수준의 LLM 성능 때문에 Google이 1인자의 위치를 내줄 위기에 처한 상황에서 어떤 논문을 발표했는지, 메타버스로 떠났다가 다시 돌아온 Meta가 어떤 주제에 관심이 있는지 살펴봅니다.

Google

LLM과 관련된 연구결과가 다수를 차지합니다. LLM의 지식과 성능을 조금 더 작은 모델에 추출(distilation)하는 시도나, LLM에 부족한 메모리를 더하려는 시도가 있었습니다. LLM과 관련이 깊은 정보 인출(Information Retrieval) 관련 연구도 다수 발표되었으며, 텍스트 요약(summarization)과 관련된 연구도 보입니다.

Meta

AI에게 주어진 사람의 요구사항(query)과 이를 수행하기 위한 정보를 인출(Retrieval)하는 방법, 그리고 알맞은 답변을 생성하는데 필요한 연구들이 발표되었습니다. 여기서 더 나아가 음성 기반 이해 및 생성을 동시에 수행하는 번역 관련 연구가 보입니다.

University of Washington

LLM이 지식을 생성할 때 어떤 기억에 의존해야 하는지를 탐구하여 Hallucination과 관련성을 밝히거나, LLM의 능력 중 하나인 Chain-of-thought이 왜 동장하는지 이유를 밝힙니다. 최근 유행하는 생성형 인출 기법(Generative Retrieval) 또한 발표되었습니다.

아래는 주목할만한 논문을 추가적으로 선정한 내용입니다. LLM과 멀티모달 정보 기반 언어 이해 및 생성(Multimodal Language Understanding) 관련 논문들입니다.

Large Language Models

관심있는 연구자 분들은 이미 한번씩 읽어보셨을 논문입니다. 고성능의 외부 모델을 활용해서 LLM을 학습하기 위한 데이터를 생성하는 방법이 인기를 끌었습니다. 단시간 내에 오픈소스 LLM이 사람의 요구사항을 일정 수준까지 이해하게 만드는 데 매우 효과적이지만, 이러한 방식으로는 성능의 한계가 있다는 사실이 최근 밝혀진 바 있습니다.

Visual-language Understanding Models

LLM을 통해 대부분의 기존 자연어처리 문제들이 해결되어, 이제는 적극적으로 시각-언어(visual-language) 정보를 결합하기 위한 AI 모델의 학습 및 추론 방식에 대한 논문들이 점차 늘어나고 있습니다. 시각-언어 정보를 통합적으로 이해하기 위한 다양한 모델링 방식들이 발표되었습니다.

마치며

많은 논문들이 LLM의 능력과 한계를 탐구함에 있어서 OpenAI의 모델을 직간접적으로 언급하지만, 아직까지는 OpenAI의 최신 모델인 GPT-4가 왜 잘 동작하는지, 혹은 어떻게 하면 그와 근접한 수준의 LLM을 학습할 수 있는지를 엿볼 수 있는 결과는 없었으며, 대부분의 발표된 논문 또한 OpenAI가 GPT 계열 모델에 적용했다고 알려진 RLHF 프로세스를 적용했다기보다는 Instruction fine-tuning 정도에 그치는 결과입니다.

이는 2019년 Google이 발표한 BERT로 인해 분위기 전환이 크게 일어났던 시점이나, OpenAI가 GPT-3을 발표하며 LLM의 가능성을 보여주었을 때와는 사뭇 다릅니다. 작년 겨울 ChatGPT 이후로 빅테크 기업들이 논문을 통해서 고성능 LLM을 만들 수 있는 레시피를 적극적으로 공개하지 않았으며, 학계와 산업계 간의 LLM에 대한 이해도 격차는 커지고 있는 것으로 보입니다. GPT-4, Claude-2 등의 AI 에이전트들 챗봇들의 성능 향상 속도를 학계가 따라가지 못하고 있다는 점이 아쉽습니다.

하지만, ACL 2023을 통해 자연어 처리 분야 연구자들은 LLM 이후에 시대에 빠르게 적응해가며, 이제 연구자들의 관심사는 멀티모달 (시각-언어 통합) 및 LLM이 잘 하지 못하는 것에 대한 탐구의 영역으로 옮겨가고 있습니다. 또한, 인공지능 윤리(AI ethics)는 학계의 고유한 관심사가 되었고, LLM이 강력한 생성 능력을 가진 만큼 AI 윤리와 관련된 연구 문제들도 더 많이 발굴될 것으로 기대합니다.

cta-banner
mobile cta banner
SoftlyAI Logo

회사명: 주식회사 소프트리에이아이 | 대표자: 박성준 | 사업자등록번호: 843-81-02613

2023 © SoftlyAI. All Rights Reserved
contact@softly.ai

Discover more from SoftlyAI

Subscribe now to keep reading and get access to the full archive.

Continue reading