이 포스트는 2023년에 진행했던 [SoftlyAI 세미나: ChatGPT에 대한 이해와 비즈니스 활용 방식] 에서 핵심 내용이었던 “왜 ChatGPT에서만 가능했을까“를 요약한 내용입니다. 전체 세미나 내용은 본 글 하단에 있는 자료 신청 폼을 통해 확인하실 수 있습니다.
요즘만큼 인공지능이 업무와 일상, 그리고 비즈니스까지 영향을 준 적은 없었던 것 같습니다. ChatGPT를 시작으로 그림과 디자인을 생성해주는 모델까지 만들어지며, AI는 엄청난 속도로 발전하고 있습니다. 이런 발전 속도는 상상력을 사로잡아, 개인뿐만 아니라 기업들도 조직 내에서 AI를 어떻게 사용할지 고민하도록 새로운 패러다임을 형성했습니다.
사실 인공지능은 이전부터 대중에게 공개되어 왔습니다. ChatGPT 이전에도 OpenAI를 포함한 다양한 기업들이 연구를 하며 개발한 AI 모델들을 공개했지만, 큰 효용가치를 제공하지 못하고 흥미를 끌지 못했습니다. 반면, 새롭게 등장한 ChatGPT는 일상이나 비즈니스 생활에서 사람들을 도울 수 있는 강력한 도구로 떠올랐습니다.
이와 같은 흐름 속에서 인공지능을 더욱 잘 활용하기 위해 ChatGPT를 이해할 수 있는 가벼운 지식과 비즈니스 활용 방식을 정리했습니다. 먼저 ChatGPT와 같은 언어 모델에 대한 가벼운 설명과 함께 ChatGPT가 이전 언어 모델들과 어떻게 다른지를 소개하고, 그래서 ChatGPT를 비즈니스에 어떻게 활용하면 좋을지를 주의해야 할 점과 함께 다루어 보겠습니다.
언어 모델과 ChatGPT

언어 모델은 텍스트 데이터에 내포된 단어 및 구문간 패턴과 관계를 학습하여 가장 자연스러운 단어들의 배열을 찾아내는 모델입니다. 우리가 글을 쓸 때나, 말을 할 때에 일련의 규칙을 기반으로 문장을 생성하듯이 말이죠. 사람은 자연스럽게 수행하는 이 능력을 갖추기 위해 언어 모델은 방대한 양의 텍스트 데이터를 학습해야 합니다. BERT, T5, GPT-3 등의 최신 언어 모델들은 트랜스포머의 구조를 활용해 문장의 빈 칸을 맞추거나, 위의 이미지처럼 불완전한 문장 다음에 올 단어를 예측하며 언어의 패턴을 학습합니다.

ChatGPT도 언어 모델 중 하나입니다. 하지만 ChatGPT가 유달리 많은 사람들의 주목을 받은데에는 기존의 언어 모델이 보여주지 못한 매우 높은 수준의 답변을 제공해주는 것에 그 이유가 있습니다. ChatGPT는 여러 질문에 대해 지속적인 응답이나, 실수를 인정하거나, 잘못된 전제를 파고들거나, 적절하지 않은 요구들을 거절합니다. 더 나아가, ChatGPT는 주인공이 실패하는 경우를 상상해 달라고 했을 때, 세상에 존재하지 않는 이야기를 조합해 새로운 이야기를 만들어 낼 수 있습니다.
그렇다면 이전 모델들은 왜 이러한 기능을 제공하지 못했던걸까요? ChatGPT는 어떻게 사람들이 가치를 느낄 정도로 일을 잘 해낼 수 있게 되었을까요?
방대한 웹 데이터와 Misalignment
GPT-3와 같은 생성형 언어 모델은 웹에서 가져온 방대한 데이터를 바탕으로 문장 다음에 올 단어를 예측하며 대화를 진행합니다. 이런 형태로 제작된 언어 모델들은 학습 데이터에서 자주 보았던 패턴을 바탕으로 가장 등장 확률이 높은 단어를 생성하기 때문에 인터넷 상에서 더 자주 보여지는 문장을 기준으로 문장 다음에 올 단어를 선택합니다. 따라서 사람이 의도한 바와 다르게 결과를 도출하는 문제를 갖고 있었습니다.

아래의 예시처럼, 단순히 대량의 데이터의 패턴만을 학습한 언어 모델들은 주어진 명령에 대해 인간의 의도와는 잘 정렬되지 않은 결과를 보여줍니다.
문장: 아마존 분지 전역의 토착 단체들은 월요일 환경 보존에 대한 약속의 대가로 아마존 열대우림을 구성하는 남미 국가들의 국가 부채를 탕감할 것을 금융 기관에 촉구했습니다.
올바른 요약: 부채 탕감을 요구하는 원주민 단체
모델이 생성한 틀린 요약 결과: 부채 상환을 요구하는 원주민 단체
이는 언어 모델이 학습된 데이터가 대부분 부채 상환을 가진 문장을 포함했기 때문입니다.
인간 피드백 강화 학습 (RLHF) 을 바탕으로 학습된 ChatGPT
OpenAI는 GPT 버전을 향상시킬 때마다 데이터와 모델 사이즈를 증가시키며 발전시켰습니다. 이를 통해 사이즈를 키울수록 성능도 증가한다는걸 보여주었죠. 하지만 단순히 사이즈를 증가시키는 것만으로는 사람의 기대하는 만큼의 응답을 생성하지는 못했습니다. ChatGPT의 OpenAI는 기존 모델이 처리하던 다음 단어 예측하기에 더해 인간의 명령을 잘 이해하고 수행하도록 모델을 학습시켰습니다.

OpenAI는 최종적으로 인공일반지능 (Artificial General Intelligence, AGI)를 개발하고자 합니다. 이를 달성하기 위해 인공지능과 인간이 동일선상 (Align)에 있어야 한다고 합니다. 한마디로, 범용 인공지능을 개발하기 위해서 인공지능이 인간과 닮아야 하고, 인공지능을 조금씩 인간과 닮도록 정렬해야 한다고 합니다.
이러한 목적을 갖고, OpenAI는 사람이 작성한 피드백이 모델에게 학습되는 인간 피드백을 통한 강화학습 – Reinforcement Learning from Human Feedback (RLHF) – 을 적용했습니다. ChatGPT가 학습된 RHLF는 다음과 같은 원리로 이루어집니다.
- 사람 피드백을 기반으로 인공지능 모델 학습
- 대화 데이터셋을 생성하기 위해 인공지능과 사람이 대화하는 상황을 설정하고, 인공지능이 응답해야 하는 지시에 대해 사람이 직접 정답을 작성하는 것으로 초기 버전을 제작합니다.
- 사람이 선호하는 응답을 평가하는 인공지능 모델 학습
- 초기 버전에서 생성된 응답을 평가하는 인공지능 모델을 학습하고, 평가 결과를 기반으로 평가용 인공지능(Reward Model)을 구축합니다. 이는 사람의 응답 평가 과정을 자동화하기 위해 필요합니다.
- 강화학습 기법을 활용해 ChatGPT 학습
- PPO 강화 학습기법을 활용하여, 초기 버전에서 생성된 응답을 평가용 인공지능이 평가하여 보상을 주고, 보상을 최대화하는 방향으로 ChatGPT를 학습시킵니다. 이를 여러 번 반복하여 현재의 ChatGPT를 만듭니다.
이렇게 RLHF를 활용하면, 인간의 피드백을 받아들이면서 모델의 성능을 더욱 개선할 수 있습니다. 인간의 직관이나 지식을 활용해 모델을 학습시키므로, 모델이 실제로 이용될 때 더욱 자연스러운 대화를 구사할 수 있게 됩니다. 이러한 방법은 자연어 처리 분야에서 매우 유용하게 활용될 수 있으며, 높은 성능을 기대할 수 있습니다.
ChatGPT에 대해 더 자세한 내용이 궁금하시다면, 이 포스트를 읽어보세요.
그럴싸한 거짓말, Hallucination
대부분의 경우 ChatGPT는 정확하거나 그럴듯한 답변을 제공하지만, 언제나 옳은 정보만 생성하는 것은 아닙니다. 인공지능의 응답이 사람의 가치에 부합하고 윤리적이어야 한다는 점에서 OpenAI는 많은 노력을 기울이고 있지만, 인공지능의 답변 패턴을 사람이 이해할 수 있는 방식으로 통제할 수 있는 것은 아니기 때문에 가끔 윤리적이지 못한 응답을 생성하고는 합니다. ChatGPT는 윤리적 기준에 대한 정보를 제공할 수 있지만, 기준을 활용해서 어떤 상황에서 무엇이 더 윤리적인지 추론하는 능력은 없으며, 학습한 방식에 기반해 응답을 생성할 뿐입니다.
인간의 거짓마저 복제하는 언어 모델
인터넷은 다양한 데이터를 갖고 있습니다. 다양한 학술적인 데이터나 논문, 그리고 서적 데이터 뿐만 아니라 소셜 메신저에 기록된 포스트, 기사에 대한 주관적인 댓글, 특정 주제에 관한 블로그 포스트를 모두 포함해서 말이죠. 그런만큼, 인터넷에 존재하는 데이터는 잘못된 정보를 담고있는 경우도 많습니다. 어떤 데이터는 출처가 확실한 학술적인 내용을 담고 있겠지만, 어떤 데이터는 개인 기분에 대한 감정적인 글일 수도 있습니다. 따라서 인터넷을 잘 학습한 언어 모델은 인터넷에 등록된 거짓 정보를 그대로 내뱉거나 잘못된 정보를 정답인 마냥 응답할 수 있습니다. 이처럼 인공지능 모델이 자신있게 생성한 잘못된 응답을 Hallucination 이라고 합니다.
따라서, 정확한 정보를 제공해야 하는 서비스에서 언어 모델을 활용할 때, Hallucination에 대해 제대로 대처하지 못한다면, 사용자에게 잘못된 정보를 제공하거나 의도하지 않은 바를 꾸며낸 데이터로 인해 오해를 불러 일으킬 수 있습니다.
또한, 인공지능은 학습 데이터를 기반으로 과거에는 어떤 결과가 나왔는지에 대한 정보를 제공할 수 있지만, 최근에 발생한 사건이나 정확한 미래 추세 예측은 아직 불가능하며, 주어진 요청사항에 대해서 원론적인 답변만 생성합니다.
ChatGPT 활용 방법
ChatGPT는 언어 모델로서 다음과 같은 다양한 자연어 처리 능력을 갖추고 있습니다.
- 질문에 대한 답변: 다양한 주제에 대한 질문에 대한 답변을 생성할 수 있습니다.
- 정보 추출: 핵심 내용을 추출하거나 긴 텍스트를 요약할 수 있습니다.
- 번역: 한 언어에서 다른 언어로 입력을 번역할 수 있습니다.
- 대화 생성: 사용자 요청 이상의 다양한 주제에 대한 토론에 참여할 수 있습니다.
- 글쓰기 지원: 쓰여진 텍스트에 대한 개념 소개, 문법 수정 및 일관성 개선을 제공할 수 있습니다.
이를 기반으로 구체적인 활용 예시를 떠올려본다면, 기업에서는 ChatGPT를 활용하여 자동 이메일 답변 시스템, 챗봇 서비스 등에 적용할 수 있습니다. 이외에도 인공지능 기반의 문서 요약, 자동 번역, 자동 요약 등과 같은 분야에서도 ChatGPT를 적용할 수 있습니다. OpenAI에서는 ChatGPT를 더 복잡한 과제에 활용할 수 있도록 일종의 가이드북을 제공하고 있습니다. OpenAI의 가이드북에 SoftlyAI의 노하우를 녹인 가이드북 해설집을 포스트로 발행할 예정이니 많은 관심 부탁드려요!
ChatGPT가 놀라울만큼 높은 성능을 보이는 것은 맞지만 여전히 발전해야 할 부분도 많습니다. 앞서 언급한 Hallucination 현상은 아직 존재하며, 더 나은 성능과 정확도를 위해 지속적인 개선과 연구가 필요합니다. ChatGPT를 활용하실 때 이 점을 유의하시길 바랍니다.