SoftlyAI

We help people focus on what matters the most

ChatGPT의 학습 원리와 활용법

ChatGPT, 대화형 인공지능의 혁명

ChatGPT는 OpenAI가 공개한 대화형 인공지능 모델이자 서비스입니다. 이전에도 Blenderbot 2.0이나 대화형 인공지능 모델이나 서비스를 공개한 사례는 많이 있었지만, 전 세계 사람들이 열광한 대화형 인공지능은 ChatGPT가 처음이라고 해도 과언이 아닙니다. ChatGPT가 보여준 놀라운 성능과 가능성은 많은 사람들의 상상력을 자극했고, 출시 2달 만에 MAU 1억 명을 돌파하는 기염을 토했습니다. ChatGPT에게 자기소개를 부탁하면 아래와 같은 응답을 출력합니다.

안녕하세요! 저는 OpenAI가 만든 언어 모델 ChatGPT입니다. 저는 자연어로 사용자와 소통하기 위해서 책, 기사, 웹사이트 등 인터넷의 방대한 텍스트 데이터에서 사람의 언어와 대화를 학습해서 사람의 질문에 응답을 생성할 수 있습니다. 저는 사용자와의 상호작용을 바탕으로 끊임없이 학습하고 개선되고 있어요.

ChatGPT, 너는 누구냐!

ChatGPT는 언어 모델로 다양한 능력을 갖추고 있습니다. 인공지능 언어 모델이 수행할 수 있는 과제를 대화형으로 수행할 수 있습니다.

  • 질의 응답(Question Answering): 주어진 질문에 대한 답변을 생성합니다. 답변의 길이는 다양합니다. 질문에 대한 답이 명확한 경우 더 좋은 답변을 생성할 수 있으며, 다양한 주제에 대한 폭넓은 질문을 커버합니다.
  • 주요 정보 추출 및 요약(Information Extraction): 장문의 텍스트에서 주요 내용을 추출하거나 요약이 가능합니다.
  • 번역(Translation): 한 언어에서 다른 언어로 주어진 입력을 번역할 수 있습니다.
  • 일상 대화(Dialogue Generation): 요청 사항을 수행하는 것 이외에도 다양한 주제에 대한 토론이 가능합니다.
  • 작문 보조(Writing Assistance): 글쓰기를 위해서 어떤 개념에 대해서 알려달라고 하면 일반적인 내용을 자연스럽게 소개해주기도 하고, 작성된 글에 대한 문법 교정 및 일관성 개선도 가능합니다.

ChatGPT 수행할 수 있는 위의 능력들은 사실 ChatGPT 뿐만 아니라 고성능 언어 모델이 모두 수행할 수 있는 과제들이기도 합니다. 인상적인 점은, 이전 자연어 처리 분야의 일상 대화 인공지능 혹은 목적형 대화 인공지능 모델이 보이던 특성과는 달리, ChatGPT는 이전 대화의 맥락을 더 잘 활용하고, 대화 중에 등장하는 사람의 요청사항에 대해 매우 잘 이해한다는 점입니다. 이러한 ChatGPT는 어떻게 만들어졌을까요?

ChatGPT 관련 용어 정리

ChatGPT가 어떻게 만들어졌는지 이해하기 위해선 여러가지 용어를 알아야 합니다.

  • 지시문 (Instruction): 사람이 AI에게 요청하는 간략한 내용을 담은 텍스트입니다. AI에게 요청하는 “내용 요약해줘, 요약해줘, 답 찾아줘” 등의 요청 사항이 지시문에 해당합니다.
  • 목적형 대화 (Task-oriented Dialogue): AI 에이전트와 사람의 1:1 대화를 의미하며, 대화에 참여하는 사람은 어떤 목적을 이루기 위해 AI에게 요구사항을 전달하는 대화를 의미합니다. 예를 들어, 식당에서 주문을 하거나 숙박 혹은 교통 수단을 예약하기 위한 대화가 있습니다.
  • 정렬 (Alignment): AI가 사람이 추구하는 가치를 따르도록 학습하여 사람과 AI를 동일선상에 있게(align) 합니다. AI가 사람이 추구하는 가치를 이해할 수 있게 되면, 사람의 요청사항을 이해하고 그것을 따라서 도움을 줄 수 있게 됩니다.
  • 정렬 연구 (Alignment Research): 현재의 AI는 아직 사람이 추구하는 가치를 충분히 이해하지 못하고 수행할 수 없기 때문에, 사람과 AI가 동일선상에 있게 하기 위한 일련의 연구를 뜻합니다.
  • 강화 학습 (Reinforcement Learning): AI 학습 기법 중 하나입니다. 주어진 환경 안에서 AI 모델이 자신의 상태를 파악하고, 현 상태에서 선택 가능한 행동 중에서 자신에게 보상이 극대화하는 행동 선택하는법을 배움으로써 조금씩 AI 에이전트를 발전시켜 나가는 방법입니다.
  • 보상 모델 (Reward Model): 강화 학습 기반의 AI 모델 학습 기법을 다룰 때 등장합니다. AI 모델이 주어진 환경 안에서 어떤 행동을 선택했을 때, 그 행동에 따른 보상이 얼마인지를 계산해주는 별도의 AI 모델입니다. 환경이 복잡하고 주어진 상태에 따라서 행동할 수 있는 선택지가 많을 때, 보상을 계산하는 방법 또한 복잡해지게 되는데, 이 때 AI 모델에게 보상의 정도를 계산하기 위해 별도의 AI 모델을 활용합니다.

ChatGPT의 학습 원리

ChatGPT의 학습 원리는 아래와 같습니다.

1단계: 사람의 피드백을 기반으로 인공지능 모델을 학습합니다.

이미 공개된 API를 통해 수집된 사람들의 지시(instruction)에 대해서 인공지능이 응답을 어떻게 해야하는지 사람이 직접 정답을 작성합니다. 일반적인 목적형 대화 (Task-oriented Dialogue) 데이터셋 을 제작하는 것과 유사한 방식을 따랐는데, 인공지능과 사람이 대화하는 상황을 설정하고 사람이 인공지능과 인공지능 사용자의 역할 양 쪽을 모두 연기하며 대화를 진행하고 이를 대화 데이터로 축적합니다. GPT-3.5를 이 데이터셋을 바탕으로 추가 학습을 진행하여 ChatGPT의 초기 버전을 제작합니다.

2단계: 사람이 선호하는 응답을 평가하는 인공지능 모델을 학습합니다.

1단계에서 학습한 ChatGPT의 초기 버전이 동일한 지시(instruction)에 대해서 가능한 여러 개의 응답을 생성하고, 사람이 보기에 무엇이 더 나은지 순위를 매긴 데이터셋을 구축합니다. 이 과정에 필요한 이유는 사람의 응답 평가 과정을 자동화하기 위해 평가용 인공지능(Reward Model, 보상 모델)을 학습하기 위함입니다. 평가용 인공지능은 주어진 지시(instruction)에 가능한 응답 중에서 어떤 것이 사람이 보기에 더 나은지를 학습하여 사람의 인공지능 평가 과정을 수월하게 만들어 줍니다.

3단계: 강화학습 기법을 활용하여 ChatGPT를 학습합니다.

1단계에서 학습한 대화형 인공지능과 2단계에서 학습한 평가용 인공지능을 활용하여 ChatGPT 초기 버전의 성능을 끌어올립니다. ChatGPT의 초기 버전은 다양한 사람의 지시에 맞추어 응답을 생성하고, 생성한 응답이 얼마나 좋은지 평가용 인공지능(Reward Model)이 평가하여, ChatGPT가 점차 더 좋은 답변을 생성할 수 있도록 유도합니다. 학습 알고리즘은 PPO 강화 학습기법을 활용합니다. OpenAI는 이 과정을 여러 번 반복하여 현재의 ChatGPT를 만들었다고 합니다.

ChatGPT 학습 원리에 담긴 철학

OpenAI가 이러한 방식으로 ChatGPT를 만든 이유는 이들이 바라보는 인공지능의 최종적인 목표와 접근 방식에서 기인합니다. OpenAI의 최종적인 목표인공일반지능(Artificial General Intelligence, AGI)을 개발하는 것이며, 이를 위해 OpenAI는 인간과 인공지능이 동일선상에 있어야 한다(alignment)고 말합니다. 즉, 범용 인공지능을 개발하기 위해서 인공지능이 인간을 닮아가야 하고, 이를 위해 인간과 인공지능을 조금씩 정렬(align) 해나간다는 것입니다. 그리고 이 과정을 정렬 연구(alignment research) 라고 부릅니다.

현재 다양한 산업 현장에 사용되는 인공지능 솔루션이나 연구자들이 다루는 논문은 특정한 과제(task)나 인공지능 모델 아키텍쳐 또는 학습 알고리즘에 한정되는 경우가 많지만, 인공일반지능은 인간이 일반적으로 할 수 있는 모든 일을 하는 인공지능이며, 정렬 연구를 통해 인공지능은 인간을 닮아가게 되고, 인공지능은 사람이 추구하는 가치를 이해하고 의도를 이해할 수 있게 된다고 믿습니다. ChatGPT 또한 인공지능이 인간을 닮게 하기 위한 여정 위에서 탄생했고, ChatGPT를 포함한 인공지능 모델은 아래와 같은 세 가지 원리에 의해 점진적으로 발전합니다.

  • 사람의 피드백을 통해 인공지능을 학습시키는 것
  • 인공지능과 인간이 동일선상에 있게 하기 위한 연구(alignment research)에 필요한 인공지능을 학습시키는 것
  • 인공지능의 성능을 수월하게 평가하기 위한 평가용 인공지능을 학습시키는 것
  • 사람의 피드백을 통해 인공지능을 학습시키는 것

사람의 피드백을 활용해 인공지능을 학습시키기 위한 강화 학습 기법(Reinforcement Learning from Human Feedback, RLHF)을 개발하는 것은 ChatGPT와 같은 인공지능을 만들기 위해 OpenAI가 오래 전부터 공들여온 철학이자 연구 방식입니다. 사람의 피드백을 수집하기 위해서 인공지능을 API를 통해 공개하여, 자신들이 개발한 인공지능 알고리즘이 현실 세계에서 의도한 대로 작동하는지 실험할 수 있었고, 이 과정에서 유의미한 사람의 피드백을 수집하여 사용자들이 어떤 인공지능을 더 선호하는지 관찰하고 있다고 합니다. 아직까지 OpenAI는 본인들이 학습한 인공지능이 사람과 동일선상에 있다(aligned)고 보기는 어렵다고 평가합니다. 가끔 사람의 지시(instruction)을 따르지 않기도 하고, 언제나 믿을만한 결과를 출력하는 것은 아니며, 사회적 편견이나 악성 컨텐츠를 생성할 때도 있습니다. 그럼에도 불구하고 이러한 인공지능 학습방식이 현재까지는 매우 효과적인 접근법이라고 생각한다고 합니다.

1. 인공지능의 성능을 수월하게 평가하기 위한 평가용 인공지능을 학습시키는 것

사람의 피드백을 활용해 인공지능을 학습시키기 위한 강화 학습 기법이 갖는 한계점 중 하나는 바로 인간이 인공지능 시스템이 수행하는 작업이 얼마나 잘 했는지 정확하게 평가할 수 있다고 가정한다는 것입니다. 현재 사람은 이 작업에 꽤 능숙하지만, 앞으로 인공지능의 능력이 빠른 속도로 향상된다는 것을 가정한다면, 이제 인공지능의 성능은 인간이 평가하기 훨씬 더 어려워질 것입니다. 이러한 문제에 도전하기 위해 인공지능 성능 평가를 보조하기 위한 평가용 인공지능을 학습할 수 있습니다. 예를 들어, 책을 요약한 결과물을 사람이 평가하려면 책을 모두 읽어야 하는데 이 과정을 반복하는 것이 너무 어렵기 때문에, 해당 책의 챕터 요약을 제공하는 인공지능을 활용한다던지, 웹 검색 결과 등을 참고하여 인공지능이 출력한 결과의 사실 여부를 평가한다던지, 사람이 조금 더 선호하는 ChatGPT의 응답은 무엇일지를 평가하는 별도의 인공지능을 만드는 것입니다.

2. 인공지능과 인간이 동일선상에 있게 하기 위한 연구(alignment research)에 필요한 인공지능을 학습시키는 것

현재 ChatGPT 개발을 위해서 평가용 인공지능을 활용하고 있지만, 이러한 방식이 궁극적으로 인간과 인공지능을 동일선상에 있게 만들 수 있는지는 아직 알 수 없다고 합니다. 인공지능이 급속도로 발전함에 따라서 인간과 인공지능이 어긋나는(misalignment) 부분은 계속해서 생겨날 것이고, 이러한 부분을 모두 해결할 수 있는 방법은 아직 찾지 못했다고 합니다. 다만, 인공지능의 발전을 보조하기 위한 평가용 인공지능의 개발은 앞으로 인공지능 연구자들이 사람에 가까운 인공지능을 개발하는데 집중할 수 있는 환경을 만들어 줄 수 있을 것이고, 새롭게 개발한 인공지능이 사람이 추구하는 가치와 동일선상에 있는지 평가하는 인공지능 모델을 계속해서 발전시켜 나가는 것이 중요하다고 합니다.

ChatGPT의 활용

ChatGPT를 인공일반지능이라고 부르기엔 아직 부족하지만, 그럼에도 불구하고 ChatGPT가 보여준 가능성은 다양한 인공지능 기반 서비스로 응용될 수 있습니다. 현재도 아래와 같은 인공지능 기반 서비스 운영자들이 많이 있으며, ChatGPT가 보여준 가능성으로 인해 더욱 많은 시도들이 나타날 것으로 예상합니다.

  • 대화형 인공지능 서비스(Conversational AI): 사람의 요청사항을 이해하고 응답을 생성할 수 있는 대화형 AI 서비스입니다. 두 가지 형태의 서비스가 가능할 것으로 보이는데, 1) 특정한 페르소나를 가진 일상 대화 챗봇이나, 2) 사용자의 커스텀 데이터베이스와 결합되어 간단한 요청 사항을 처리하는 인공지능 기반 대화형 검색 시스템으로 활용될 수 있습니다.
  • 고객 서비스(Customer Service): 고객의 메시지를 분석하여 관련 답변을 제공하거나 필요한 경우 상담원에게 연결하여 고객의 문의 및 우려 사항을 해결하도록 지원할 수 있습니다.
  • 컨텐츠 제작: 사용자의 입력에 따라서 주어진 정보를 바탕으로 뉴스 기사, 제품 설명, 카피라이팅, 마케팅 문구 등과 같은 콘텐츠를 대량으로 빠르게 생성할 수 있어 이러한 작업을 수월하게 돕는 서비스로 발전할 수 있습니다.

개인 수준에서 ChatGPT를 활용한다면 아래와 같은 방식으로 활용할 수 있습니다. 개인 사용자가 원하는 방식으로 이를 이용하며 요청 사항에 대해서 ChatGPT가 만족스러운 응답을 생성하지 못했을 경우, 생성된 답변을 수정해달라고 구체적인 요청사항을 입력하면 조금씩 결과물을 개선해나갈 수 있습니다.

  • 마케팅 및 세일즈: 마케팅 캠페인에 필요한 아이디어를 브레인스토밍하거나, 카피라이팅에 활용될 수 있는 재료를 빠르고 쉽게 생산할 수 있습니다. 또한, 고객 혹은 사용자와의 인터뷰 이후에 내용을 정리하고 요약하는 용도로 활용할 수 있습니다.
  • 자료 조사: 다양한 직군의 자료 조사 과정을 수월하게 도와줄 수 있습니다. 시장 조사 자료나 동향 보고서, 연구 논문 등의 장문으로 이루어져 있는 내용을 정리하고, 길고 난해한 전문지식이 담긴 글을 알아듣기 쉽게 풀어써달라고 요청(explain like I’m 5)할 수 있습니다.
  • 프로그래밍: ChatGPT의 학습 과정에서는 사람의 언어 뿐만 아니라 프로그래밍 언어도 학습에 활용되었습니다. 간단하고 짧은 코드의 리뷰나 수정 혹은 보완을 요청하면 제법 좋은 결과물을 기대할 수 있습니다.

ChatGPT의 한계점 또한 존재합니다. 대표적인 한계점은 아래와 같습니다.

  • 잘못된 정보를 포함한 응답 생성: 대부분의 경우 정확하거나 그럴듯한 답변을 제공하지만, 언제나 옳은 정보만 생성하는 것은 아닙니다.
  • 비윤리적 응답 생성: 인공지능의 응답이 사람의 가치에 부합하고 윤리적이어야 한다는 점에서 OpenAI는 많은 노력을 기울이고 있지만, 인공지능의 답변 패턴을 사람이 이해할 수 있는 방식으로 통제할 수 있는 것은 아니기 때문에 가끔 윤리적이지 못한 응답을 생성하고는 합니다. ChatGPT는 윤리적 기준에 대한 정보를 제공할 수 있지만, 기준을 활용해서 어떤 상황에서 무엇이 더 윤리적인지 추론하는 능력은 없으며, 학습 데이터를 기반으로만 응답을 생성합니다.
  • 비언어적 정보 이해의 어려움: 사람은 소통 과정에서 의식적으로 혹은 무의식적으로 사람의 몸짓, 목소리 등의 비언어적 표현을 참고하여 의사소통 합니다. ChatGPT는 이러한 기능이 없기 때문에, 언어 만을 활용해서 사람이 원하는 내용과 맥락을 매우 자세하게 풀어서 설명해야 합니다.
  • 창의적인 해결책 생성 혹은 미래 예측의 어려움: 가끔 사람들은 인공지능에게 복잡한 상황에 대한 해결책을 달라고 요청하거나 주식 가격과 같은 미래를 예측해달라고 하기도 합니다. 인공지능은 학습 데이터를 기반으로 과거에는 이랬다는 정보를 제공할 수 있지만, 창의적인 해결책이나 정확한 미래 추세 예측은 불가능하며, 주어진 요청사항에 대해서 원론적인 답변을 생성할 것입니다.

이러한 한계점은 ChatGPT의 기반이 되는 언어 모델이 특정 시점에 수집된 학습 데이터를 기반으로 하며, 답변 하는 중에 외부 정보에 접근하지 않기 때문에 발생합니다. ChatGPT는 외부 자극 (소리, 시각 등) 혹은 정보 (인터넷) 에 접근하지 않기 때문에 대화 맥락이 아닌 정보를 통합해서 사람처럼 사고할 수 없습니다. 또한, 세상의 정보는 시시각각 변하지만 학습 데이터는 고정되어 있어서 잘못된 정보를 생성하기도 하며, 사용자가 받아들이는 윤리적 기준도 개인마다 다를 수 있기 때문에 인공지능이 사람의 윤리적인 기준에 맞추어 동일선상에 있을 수 있도록(aligned) 데이터를 수집하고 인공지능의 응답 패턴을 개선해나가는 것입니다. 따라서, 이러한 장단점을 잘 파악하고 나에게 잘 맞는 방식으로 활용하면 많은 도움을 얻을 수 있을 것입니다.

cta-banner
mobile cta banner
SoftlyAI Logo

회사명: 주식회사 소프트리에이아이 | 대표자: 박성준 | 사업자등록번호: 843-81-02613

2023 © SoftlyAI. All Rights Reserved
contact@softly.ai