SoftlyAI

We help people focus on what matters the most

AI 기반의 자동화된 컨텐츠 검수

SNS, 소셜 미디어와 같은 다양한 커뮤니티 서비스의 등장으로 사람들이 온라인에서 보내는 시간이 늘어나고 사용자들이 생산한 컨텐츠의 교류가 보편화되면서 다른 사용자에게 악영향을 미칠 수 있는 컨텐츠 또한 배포되기 시작했습니다. 온라인 공간이기 때문에 좋지 않은 컨텐츠가 생성되고 노출되어 확산되는 속도가 빠른 편인데, 코로나19로 시작된 온라인 체류시간 증가 및 사회 양극화 등의 환경적, 사회적 영향으로 인해 이 문제는 더 심각해지고 있었습니다. 이러한 문제를 서비스 책임자가 방치할 경우 사용자들은 지속적으로 부정적인 경험을 하게 되고, 이탈로 이어지게 됩니다. 서비스는 브랜드와 평판을 잃게 되고 심한 경우 국가 차원에서 제도적으로 강하게 규제를 받게 될 수 있습니다. 이 때문에 커뮤니티 책임자는 커뮤니티 내에서 생산되는 컨텐츠를 검수(Moderation)해야할 필요성이 있습니다.

최근에는 생성형 AI(Generative AI)가 보편화되기 시작하면서 사용자 제작 컨텐츠(User-generated Content; UGC)에 대한 검수 뿐 아니라 인공지능 제작 컨텐츠(AI-generated Content; AIGC)에 대한 중요성도 커지고 있습니다. 높아지는 AI의 성능만큼 AI가 일상에 미치는 영향력이 증대되면서 AI의 부정적인 영향력에 대한 책임도 함께 요구되고 있죠. 학습 데이터 양이 증가함에 따라 AI 성능이 지수적으로 증가한다는 연구 결과를 바탕으로 많은 인공지능 모델들은 인터넷의 많은 UGC나 사용자 데이터를 기반으로 학습되고 있었고, 여기에는 부적절한 문장, 민감한 정보가 포함된 문장이나 이미지가 포함되어 있을 수 밖에 없었습니다. 특히 생성형 AI는 학습 데이터에 섞여 있었던 부적절한 발언이나 이미지를 생성할 수 있기 때문에 더 많은 주의가 필요합니다.

이번 포스트에서는 검수가 필요한 컨텐츠의 종류와 이를 자동으로 검수하기 위한 다양한 시도들을 살펴보고, 그 중에서도 가장 효과적이라고 알려져있는 AI를 통한 검수 자동화 방법에 대해 간단하게 소개하려고 합니다.

검수가 필요한 컨텐츠

검수가 필요한 컨텐츠의 기준은 검수의 맥락에 따라 상대적이고 분류 기준도 다양합니다. 커뮤니티 플랫폼이라면 커뮤니티의 원칙에 어긋나는 컨텐츠가 그 대상이 될 수 있고, 서비스의 유저들이 속한 사회에서 요구하는 기준을 벗어나는 경우에도 대상이 될 수 있죠. 검수가 필요한 콘텐츠에 대한 명확하고 널리 합의된 분류는 없지만, 일반적으로 검수 대상이 되는 컨텐츠의 종류는 다음과 같습니다.

  • 욕설(Profanity): 컨텐츠 내에 욕설 및 공격적 발언이 포함된 컨텐츠
  • 성적인 발언(Sexual Contents): 성적으로 노골적이거나 선정적인 컨텐츠
  • 폭력적 발언(Violent Contents): 어떤 대상을 위협하거나 폭력을 조장 혹은 미화하는 컨텐츠
  • 사이버 폭력(Cyberbullying): 청소년을 대상으로 하는 온라인 공간 상의 다양한 형태의 괴롭힘이 포함된 컨텐츠
  • 혐오 발언(Hate Speech): 특정한 집단을 대상으로 한 비하, 조롱, 공격적인 발언이 포함된 컨텐츠
  • 원하지 않는 광고(Spam): 특정 플랫폼 혹은 커뮤니티 이용자 대다수가 관심이 없거나 선호하지 않는 형태의 광고. 일반적으로 다른 플랫폼으로 사용자를 리디렉션 시키는 URL이 포함된 광고, 금전적인 요청, 기부 요청 컨텐츠가 여기에 속합니다.
  • 약물 및 마약의 권유(Drugs): 마약의 판매, 소지 또는 사용을 논의하거나 조장하는 컨텐츠
  • 자해 위험(Self-harm): 자해 혹은 자살 위험을 내포하는 컨텐츠나, 이러한 행위를 조장하는 컨텐츠
  • 아동의 안전을 위협하는 컨텐츠(Child Safety): 아동을 향한 유해 컨텐츠로 아동 성 착취를 언급하거나 명시적으로 암시하는 컨텐츠 및 아동에 대한 학대 및 신체적 폭력, 위협적인 내용을 포함한 컨텐츠
  • 식별 가능한 개인 정보(Personally Identifiable Information): 어떤 개인의 이름, 전화번호, 주소, 개인식별번호, 금융 관련 정보 등 개인을 특정 가능하도록 만드는 컨텐츠

이 카테고리 이외에도 다양한 형태의 카테고리가 포함될 수 있습니다. 예를 들면 사회적으로 논란이 되는 사건이나 이념에 대한 논쟁적인 글 (Controversial contents), 특정 카테고리에 해당 되지 않지만 다수의 사람들에게 불편함을 주는 글 (Incivility) 등이 있을 수 있습니다.

컨텐츠 검수의 자동화

공격적인 발언이 포함된 예시가 등장합니다.

컨텐츠 검수의 필요성이 증대되면서 페이스북, 인스타그램, 틱톡 등의 소셜 서비스에서는 컨텐츠 모더레이터(Content Moderator)를 고용해 커뮤니티 가이드라인에서 벗어나는 컨텐츠를 검수하고 있습니다. 모더레이터는 사용자들의 온라인 서비스 이용 경험을 해치지 않도록 적정 수준의 컨텐츠 품질을 유지하기 위해 개인의 가치 척도, 추측, 가정에 기반한 판단을 배제하고 서비스의 정책과 합의 내용에 기반해 컨텐츠 내용을 검토합니다.

하지만 부적절한 대량의 컨텐츠들을 검수하는 일은 모더레이터 분들에게는 정신적으로, 회사에게는 비용적으로 큰 부담이 되었습니다. 비상식적인 컨텐츠를 아침부터 저녁까지 보면서 정신적인 고통을 호소하는 분들도 많았으며 실시간으로 다양한 형태의 컨텐츠를 신속하게 제거하거나 차단하기 위해서는 굉장히 많은 검수자 분들이 필요합니다.

인공지능 제작 컨텐츠의 경우 사람이 모델의 결과를 검수하는 것이 불가능합니다. 우리가 GPT를 사용하는 방식을 떠올려보면 API 혹은 웹 인터페이스를 통해 모델의 결과를 받아오는데, 이 호출의 수가 매우 방대할 뿐더러 모델 결과는 거의 실시간으로 사용자에게 전달되어야 하기 때문입니다.

키워드 기반의 자동 탐지

자연스럽게 검수 자동화에 대한 니즈가 커지면서 많은 시도들이 이루어졌습니다. 가장 쉽게 생각할 수 있는 자동화는 아직까지도 많이 사용되고 있는 키워드 기반의 탐지입니다. 인터넷에서 발생할 수 있는 모든 욕설이나 발언들을 저장하여 해당 단어가 나타날 때 일정 수준의 규제를 가하는 형태죠.

하지만 키워드 기반 탐지는 사용자가 약간의 변형만 가해도 탐지를 회피할 수 있고 (e.g., 시12발 등), 반대로 욕설로 사용되지 않았는데 욕설로 잘못 탐지되는 경우도 발생하기 때문에 (e.g., 18채널, 스페이스바 등), 자동화된 컨텐츠 검수 해결책이라고 보기에는 성능이 매우 낮습니다.

AI 기반의 자동 탐지

이후 다양한 형태의 moderation 케이스들을 학습한 AI 모델들이 등장하였습니다. AI 모델들은 사람이 직접 라벨링한 moderation 케이스들이 많으면 많을수록 다양한 형태의 바람직하지 않은 발언들(e.g., 욕설을 쓰지 않고 상대방을 기분 나쁘게하는 부정적인 발언, 탐지를 피하기 위해 변형된 욕설 등)을 탐지할 수 있기 때문입니다. Google 내의 Jigsaw라는 유닛에서 개발한 Perspective, Facebook의 moderation AI, OpenAI의 moderation AI, Moderation을 전문으로 하고 있는 Hive Moderation에서 개발한 Moderation AI 등 다양한 moderation AI 모델이 있습니다.

Perspective를 사용 중인 서비스 목록

여러 moderation AI가 있지만 각 모델의 특징은 모두 다릅니다. 어떤 정책을 바탕으로 어떤 데이터 라벨링 체계를 가져가는지, 어떻게 데이터를 수집하는지, 어떤 모델을 어떻게 학습시키는지에 따라 어디서든 적용될 수 있는 Generic Moderation에 초점을 맞춘 Moderation AI 모델을 만들 수도 있고, 특정 커뮤니티에 적합한 Custom Moderation에 초점을 맞춘 Moderation AI 모델을 만들 수도 있습니다. 예를 들어, 같은 Perspective에서 제작한 모델이지만 New York Times를 위한 moderation AI 모델과 일반적인 moderation AI 모델의 스펙이 다르고, Perspective의 moderation 카테고리OpenAI의 moderation 카테고리가 다릅니다. 아래에서는 이 중에서도 OpenAI의 moderation을 살펴보며 최신 moderation AI 모델은 어디에 초점을 맞추고 있고, 어떻게 학습되고 있는지 살펴보려고 합니다.

OpenAI Moderation

ChatGPT로 유명해진 OpenAI는 인공지능 언어 모델이 적절하지 않은 문장을 생성하지 않게 하기 위해 AI Safety에 대한 고민을 지속적으로 하고 있습니다. OpenAI는 자체 moderation AI 모델을 활용하여 GPT가 생성한 텍스트를 자동으로 검토하고, 적절하지 않은 내용이나 용어를 필터링하여 사용자들이 안전하고 적합한 결과물만 받을 수 있도록 노력하고 있습니다.

OpenAI는 ChatGPT의 사용 시나리오를 고려하여 많은 사용자들의 다양한 입력에 대해 유용한 답변을 제공하기 위해 다음과 같이 광범위하고 문맥에 관계없이 적용될 수 있는 moderation 카테고리를 설정하고 있습니다.

  • Sexual Content
    • 3: sexual content involving minors
    • 2: depicts certain sexual activities which could be illegal if they happened in real life
    • 1: erotic sexual content that does not depict illegal activities
    • 0: erotic or contextualized sexual content (medical, sex education material)
  • Hateful Content
  • Violence
  • Self-harm
  • Harassment

데이터

데이터는 앞서 정의한 moderation 카테고리에 맞게 탐지할 수 있는 좋은 모델을 학습시키는데 핵심적인 역할을 합니다. OpenAI는 논문을 통해 모델 학습용 데이터에 대한 경험을 자세히 공유하고 있습니다. 그 중 중요한 내용만 정리하면 다음과 같습니다.

  1. Active learning 을 이용한 효율적인 데이터 수집
  2. 데이터 라벨링 (labeling) 작업자들을 위한 상세한 가이드라인과 품질 관리가 필요합니다.
    • 모호한 가이드라인으로 인해 작업자들이 주관적인 판단에 의존하여 작업을 하게 되면, 일관성 없는 라벨링 데이터들로 인해 모델에게 혼란을 야기합니다. 따라서 정기적으로 작업자들과 피드백 세션을 가져 작업자들이 가이드라인을 잘 따라서 작업을 하고 있는지 확인이 필요합니다.
  3. 불균형한 (Imbalanced) 학습 데이터는 잘못된 방향으로 모델을 학습시킬 수 있습니다
    • 학습 데이터에 특정 인종에 대한 바람직하지 않은 발언들 (예: X는 매우 이기적이야!) 이 많았다고 가정해보겠습니다. 이 데이터에 학습된 모델은 특정 인종에 관련된 중립적인 단어(예: X를 주인공으로 하는 영화가 상영되고 있다.)가 들어왔을 때에도 해당 단어를 바람직하지 않다고 판단할 수 있습니다.
    • 이를 방지하기 위해 미리 만들어진 부정적인 구문에 여러 단어를 넣습니다. 예를 들어 “X는 매우 이기적이야!” 라는 문장이 있는 경우 X에 흑인, 백인, 아시아인 등 모든 인종을 넣어 X가 학습에 미치는 영향을 줄입니다.

모델

모델은 자체 GPT를 활용하고 있다고만 공개되어 있고, 구체적으로 어떤 사이즈의 어떤 모델인지는 불분명합니다 (논문에는 lightweight(작은) 모델이라고만 표현되어 있습니다). 원래 GPT 모델은 문장을 생성하기 위해 설계되어 있기 때문에 다음 토큰 예측(next token prediction)을 위해 마지막에 (embedding_dimension, vocab_size) 형태의 linear layer가 있습니다. 하지만 moderation 태스크는 주어진 문장이 moderation 카테고리에 속하는지 아닌지를 판단하는 분류 문제를 푸는 것입니다. 이 때문에 GPT 모델의 마지막 layer를 변형하여 (embdding_dimension, 1) 형태의 layer를, 판단하고 싶은 moderation 카테고리의 개수(K)만큼 붙여서 학습시킵니다. 다시 말해, GPT 모델의 구조에서 마지막 layer만 (embdding_dimension, 1) 형태의 K개의 서로 다른 linear layer로 변형합니다.

Custom Moderation AI의 필요성

OpenAI Moderation을 포함해, 앞서 소개드린 Moderation AI 모델들은 모두 각각의 사용 목적에 맞게 학습되어 있습니다. OpenAI는 ChatGPT의 사용 맥락에 맞게, Facebook은 소셜 미디어에 등장하는 컨텐츠의 특징과 Facebook의 가이드라인에 맞게, Perspective는 대부분의 고객사인 영미권 커뮤니티 게시판 형식에 맞게 제작되었죠. 또한 영어 이외의 언어 – 프랑스어, 독일어, 스페인어, 심지어 한국어까지 – 로 작성된 컨텐츠도 탐지할 수 있다고 소개되어 있습니다.

하지만 원래의 학습 목적에서 벗어난 도메인에서는 탐지 성능이 떨어지며, 영미권이 아닌 다른 국가나 문화권에서 비하의 의도로 사용되는 단어 혹은 이모지, 사회적으로 논쟁이 되는 발언으로 상대방을 기분 나쁘게 하는 발언은 아직 탐지 정확도가 낮습니다. 따라서 나의 서비스에 적합한 자동 탐지 모델이 필요하다면 서비스의 주 사용자의 문화를 반영하면서도 서비스의 사용 목적을 고려한 Custom Moderation AI가 권장됩니다.

Live-streaming을 위한 Moderation AI

예를 들어, SoftlyAI Moderation AI 중 Live-streaming 서비스에 특화된 Moderation AI는 스트리머들이 바람직하지 않다고 생각하는 표현을 고려하여 Twitch Automod, OpenAI Moderation, Perspective 대비 탐지 성능을 높였고, Live-streaming 서비스의 특징을 고려해 빠른 탐지 속도를 보장하였습니다.

Live-streaming 서비스를 위한 Moderation AI

한국 커뮤니티 서비스를 위한 Moderation AI

또 다른 예로, SoftlyAI Moderation AI 중 한국 커뮤니티 서비스를 위한 Moderation AI는 주 사용자가 한국인임을 고려하여 한국인터넷자율정책기구(KISO)에 가입하여 KISO의 가이드라인을 따르는 Moderation AI를 제공합니다. 구체적으로, KISO에서 정의하고 있는 욕설을 모두 탐지하면서도 AI를 활용해 타인을 비하하기 위한 목적으로 사용되는 경우 그 정도를 더 심하다고 판단하는 Profanity AI가 제공되고 있고, 정치 혹은 젠더 갈등과 같이 한국에서 민감한 주제라고 분류되는 발언을 판단하는 Controversial Topic AI가 있습니다.

23년 4월 기준 KISO 회원사 목록 (출처: https://www.kiso.or.kr)

서비스의 특징과 사용자를 고려한 Moderation AI 모델을 만들기 위한 SoftlyAI의 노력은 EMNLP 2022 Natural Language Processing and Computational Social Science 워크샵에 Analyzing Norm Violations in Real-Time Live-Streaming Chat 이라는 제목의 논문으로 공개되었으며 다음 블로그에서 자세히 다루도록 하겠습니다.

cta-banner
mobile cta banner
SoftlyAI Logo

회사명: 주식회사 소프트리에이아이 | 대표자: 박성준 | 사업자등록번호: 843-81-02613

2023 © SoftlyAI. All Rights Reserved
contact@softly.ai