필사 모드: AI 콘텐츠 모더레이션 & 트러스트 & 세이프티 2026 완벽 가이드 - Hive · Perspective API · Microsoft Content Safety · Spectrum Labs · Cinder · Sift · ActiveFence 심층 분석
한국어프롤로그 — 왜 지금 T&S 인프라인가
2026년 봄, 한 동남아시아 게임 회사의 트러스트 & 세이프티(T&S) 운영실. 새벽 4시 17분, 한 유저가 음성 채팅에서 다른 유저에게 폭언과 함께 어린 자녀를 언급하는 메시지를 보낸다. 음성은 Hive AI의 실시간 오디오 모더레이션으로 흘러들어가 "abuse, harassment, child reference" 세 라벨이 동시에 켜진다. 같은 유저의 텍스트 채팅은 Spectrum Labs의 Guardian으로 가서 그루밍 패턴(grooming pattern) 가능성을 평가받는다. 두 시그널이 합쳐져 Cinder의 T&S 워크플로 큐에 "P0 — child safety" 케이스로 들어간다. T&S 분석가가 15분 안에 해당 계정을 일시정지하고, 미국·영국 유저의 신고가 함께 들어왔으니 NCMEC CyberTipline에 정식 리포트가 자동 생성된다.
같은 시간, 베를린의 한 메시징 플랫폼 본사에서는 EU DSA의 분기 트랜스페어런시 리포트 데드라인이 다가오고 있다. T&S 디렉터는 자기 플랫폼이 한 분기에 처리한 약 6천만 건의 콘텐츠 액션 — 삭제·다운랭크·계정 정지·연령 게이트 — 을 카테고리별로 정리해 EC에 제출해야 한다. 노출 통계, 인적 검토 비율, 자동화 결정의 비율, 오판율, 이의신청 처리 시간까지 모두 들어간다.
도쿄의 한 SNS 회사는 다른 문제를 본다. 일본 PCMA(Platform Carrier Mandatory Act) 2024 개정안이 명예훼손 콘텐츠에 대한 발신자 정보 공개 청구를 강화하면서, "어떤 콘텐츠를 어떤 근거로 삭제하지 않았는가"도 같은 무게의 의무가 됐다. 너무 많이 지워도, 너무 적게 지워도 책임이 따른다.
이 글은 그 모든 풍경의 뒤에 있는 2026년 봄의 콘텐츠 모더레이션 & T&S 지도다. AI 모더레이션 인프라, 해시 공유, 딥페이크 탐지, LLM 안전, 워크플로 플랫폼, 규제 — 미국·EU·영국·한국·일본의 회사들 — 한 호흡으로.
1장 · 왜 T&S가 2026년의 핵심 인프라가 되었는가
콘텐츠 모더레이션은 인터넷의 가장 오래된 작업 중 하나다. 1990년대 BBS의 시삽(sysop)부터 2000년대 포럼 모더레이터, 2010년대 SNS 신고/삭제까지. 2026년이 다른 이유는 세 가지다.
**첫째, 규제의 격변**. 2022년 EU에서 통과돼 2024년 전면 시행된 **DSA(Digital Services Act)** 는 월간 활성 사용자 4,500만 명 이상의 "VLOP"에 대해 시스템적 리스크 평가, 외부 감사, 분기 트랜스페어런시 리포트를 의무화했다. 영국의 **Online Safety Act 2023**(2025년 본격 발효)은 Ofcom에게 강력한 집행 권한을 주었고, "harm to children" 카테고리에 대한 적극적 대응 의무를 깔았다. 한국은 전기통신사업법과 정보통신망법, 일본은 **プロバイダ責任制限法(PCMA)** 의 2024년 개정으로 발신자 정보 공개와 삭제 의무 절차를 정비했다. 미국은 KOSA(Kids Online Safety Act)와 주별 입법이 이어진다.
**둘째, 콘텐츠 생산의 폭증**. 생성형 AI가 텍스트·이미지·비디오·음성의 생산비를 거의 0으로 끌어내리면서, 스팸·사기·딥페이크의 절대량이 폭발했다. 2024년 한 해 동안 Meta가 처리한 콘텐츠 액션은 약 50억 건을 넘었다. 사람만으로는 절대 처리 불가능한 규모다.
**셋째, 브랜드 안전과 광고 시장**. 광고주들이 자기 브랜드가 어떤 콘텐츠 옆에 붙는지에 대해 점점 엄격해지면서, "brand safety"는 T&S의 또 다른 축이 됐다. GARM(Global Alliance for Responsible Media)의 brand safety 카테고리, IAB의 콘텐츠 분류 체계가 광고 입찰에 직접 들어간다.
이 셋이 만든 시장이 2026년 기준 약 100억 USD를 넘는다. 그 안에 우리는 인프라 회사들과 워크플로 회사들, 그리고 플랫폼 내부 팀들을 본다.
2장 · AI 모더레이션 카테고리 — 이미지·비디오·텍스트·오디오·멀티모달
콘텐츠 모더레이션을 모달리티별로 나눠 보면 윤곽이 명확해진다.
**이미지 모더레이션** — 가장 오래된 영역이다. CSAM(아동 성착취물), 누드/성적 콘텐츠, 폭력, 혐오 상징(나치 심볼·일본의 욱일기·테러 조직 깃발 등), 마약, 무기 — 이 분류의 표준이 거의 잡혀 있다. PhotoDNA(해시 매칭)와 CNN 기반 분류기가 같이 쓰인다.
**비디오 모더레이션** — 이미지의 확장이지만 시간축이 추가된다. 폭력 장면, 자해, CSAM 비디오, 그리고 **딥페이크**. 2024년 이후 정치인·연예인·여성에 대한 비동의 딥페이크가 폭증하면서 비디오 진위 판별이 별도 카테고리로 떴다.
**텍스트 모더레이션** — 혐오발언(hate speech), 괴롭힘(harassment), 스팸, 사기, 정치적 허위정보. 언어별로 모델이 다르고, 슬랭과 신조어의 변화 속도가 빠르다. 한국어·일본어·아랍어·힌디어처럼 토크나이저 자체가 어려운 언어에서 정확도가 떨어진다.
**오디오 모더레이션** — 음성 채팅, 보이스 챗, 라이브 스트리밍 사운드. 욕설·괴롭힘·딥페이크 음성(보이스 클로닝). 게임 회사들(Riot, Activision, Epic)이 가장 절박한 분야.
**멀티모달** — 이미지+캡션, 비디오+자막, 음성+영상. 각 모달리티만으로는 무해해 보이지만 조합하면 문제가 되는 케이스(예: 일반 사진 + 협박 텍스트)를 잡으려면 멀티모달 모델이 필요하다. CLIP·BLIP 계열, LLaVA, 그리고 2024년부터는 GPT-4V·Claude 3.5 Sonnet vision·Gemini의 zero-shot 모더레이션이 표준에 들어왔다.
3장 · Hive AI — 멀티모달 모더레이션의 사실상 표준
미국 샌프란시스코의 **Hive AI**는 2017년에 설립됐다. 창업자 Kevin Guo와 Dmitriy Karpman은 처음에 데이터 라벨링 회사로 시작했다가 자체 모델을 만들고, 그것을 콘텐츠 모더레이션 API로 풀었다.
2026년 시점에서 Hive AI는 콘텐츠 모더레이션 분야의 가장 넓은 모달리티 커버리지를 가지고 있다.
- **이미지 모더레이션** — 약 90개 카테고리. NSFW, 성인 콘텐츠, 폭력, 약물, 혐오 상징, 자해.
- **비디오 모더레이션** — 프레임 샘플링 + 시간축 분석.
- **텍스트 모더레이션** — 영어·스페인어·포르투갈어·일본어·한국어·아랍어 등 30개 이상 언어.
- **오디오 모더레이션** — 실시간 음성 채팅, 라이브 스트리밍, 게임 보이스 챗.
- **AI 생성 콘텐츠 탐지** — Stable Diffusion, Midjourney, DALL-E로 생성된 이미지 판별.
- **딥페이크 탐지** — 얼굴 합성 영상 판별.
- **OCR + 컨텍스트** — 이미지 안의 텍스트를 읽어 함께 분류.
Hive의 강점은 **단일 API에서 멀티모달**이다. 한 플랫폼이 이미지·비디오·텍스트·오디오 모더레이션을 한 벤더에게 통합 구매할 수 있다. Reddit, Yubo, Bumble, 그리고 군 — 미 국방부의 일부 프로그램 — 이 고객이다. 2024년 시점에서 Reddit과의 멀티이어 계약을 공개했다.
가격은 처리 볼륨에 따라 다르지만, 텍스트는 1만 건당 약 $0.5~1, 이미지는 1만 건당 $2~5 수준이 공개된 표준 단가다. 대규모 계약은 별도.
4장 · Microsoft Azure AI Content Safety
마이크로소프트의 **Azure AI Content Safety**는 2023년 정식 출시됐다. Azure Cognitive Services 안의 별도 라인업으로, 마이크로소프트의 자체 LLM·검색·게임 사업을 위해 만든 인프라를 외부에 푼 것이다.
핵심 기능:
- **이미지·텍스트 모더레이션 API** — Hate, Self-harm, Sexual, Violence의 네 가지 핵심 카테고리. 각 카테고리에 0~7의 심각도 점수.
- **Prompt Shields** — LLM 프롬프트 인젝션과 jailbreak 탐지.
- **Groundedness Detection** — RAG 시스템에서 LLM 응답이 소스 문서에 근거하는지 판별.
- **Protected Material Detection** — 저작권이 있는 텍스트·코드의 의도치 않은 재생산 탐지.
Azure 플랫폼과 통합이 깊다. Azure OpenAI Service를 쓰면 Content Safety가 입력·출력 양쪽에 자동으로 끼어들어가, RAI(Responsible AI) 필터링을 기본으로 제공한다. 의료·금융·법률 같은 규제 산업에서는 이 기본 필터가 채택의 결정적 요인이다.
2024년부터는 **Custom Categories**가 정식 출시되어, 플랫폼별로 자기만의 카테고리(예: "스포일러", "의료 진단 발언", "투자 추천")를 small-shot 학습으로 추가할 수 있다.
5장 · Google Perspective API — 톡시시티 스코어링의 원조
Google의 **Jigsaw**(전 Google Ideas)가 2017년 공개한 **Perspective API**는 텍스트 톡시시티 스코어링의 사실상 첫 표준이다. 처음에는 The New York Times의 댓글 모더레이션을 위해 만들어진 모델이 그 출발점이었다.
핵심 어트리뷰트:
- **TOXICITY** — 무례하고 비존중적인 코멘트.
- **SEVERE_TOXICITY** — 더 강한 형태.
- **IDENTITY_ATTACK** — 정체성(인종·종교·성·장애 등) 공격.
- **INSULT** — 모욕.
- **PROFANITY** — 욕설.
- **THREAT** — 협박.
- **SEXUALLY_EXPLICIT** (실험적), **FLIRTATION**(실험적) 등.
각 어트리뷰트는 0~1 사이의 확률 점수를 반환한다. 임계값을 어디에 둘지는 플랫폼이 결정한다.
지원 언어는 영어·스페인어·프랑스어·독일어·이탈리아어·포르투갈어·러시아·중국어·일본어·아랍어 등. 한국어는 2024년 후반에 들어왔다.
Perspective API는 무료다(공정 사용 한도 안에서). 그래서 작은 플랫폼·연구자·시민단체가 처음 들어가는 도구로 표준이 됐다. 단, 학술 연구에서 인종·방언에 대한 false positive 편향이 여러 차례 지적됐다 — 흑인 영어(AAVE)나 LGBTQ+ 정체성 단어가 자체로 톡시시티로 잘못 분류되는 경향. Jigsaw는 이에 대해 "Unintended Bias" 시리즈로 재학습을 거듭하고 있다.
6장 · OpenAI Moderation API · Anthropic Constitutional Classifiers
LLM 시대의 모더레이션 인프라는 LLM 회사들이 직접 만들었다.
**OpenAI Moderation API** — 무료 제공. text-moderation-latest 모델(GPT-4o 기반)이 2024년에 들어오면서 정확도가 크게 올랐다. 카테고리: sexual, hate, harassment, self-harm, sexual/minors, hate/threatening, violence/graphic 등. 각 카테고리에 boolean 플래그 + 0~1 점수. ChatGPT·Sora의 내부 필터링도 같은 시그널을 쓴다.
**Anthropic Constitutional Classifiers** — 2025년 3월 발표. Anthropic이 자사 Claude 모델의 안전성 평가에서 사용해 온 분류기들을 외부에 풀었다. 핵심은 "헌법적 AI(Constitutional AI)"의 원칙 — 위해(harm), 차별, 자기-위해, 폭력, 사기, 사이버 공격, 화학·생물·방사·핵(CBRN) 무기, 약물 — 카테고리. Claude API와 함께 쓰면 입력·출력 양쪽에 끼울 수 있다.
차이점: OpenAI는 "행위로 발화되는 콘텐츠"에 집중한 일반 카테고리, Anthropic은 "AI가 출력하면 위험한 콘텐츠"에 더 비중을 둔 카테고리(특히 CBRN과 사이버). LLM 안전이 콘텐츠 모더레이션과 합쳐지는 지점이다.
7장 · Spectrum Labs · Cinder · Cove — 커뮤니티와 워크플로
**Spectrum Labs** — 미국 샌프란시스코. 2016년 설립. 대표 제품 **Guardian**은 텍스트 + 행동 신호를 결합해서 "사용자의 의도"를 추론한다. 단순 키워드가 아니라, 한 유저의 대화 흐름에서 그루밍, 사기, 자해 신호, 인종주의를 잡는다. 게임 회사(Riot Games, Wildlife Studios), 데이팅 앱, 마켓플레이스가 주요 고객. 2023년 ActiveFence와의 파트너십을 확장.
**Cinder** — 2021년 Y Combinator. 페이스북 T&S 출신 Brian Fishman, Declan Cummings, Glen Wise가 공동창업. Cinder는 모델 회사가 아니라 **T&S 운영 플랫폼**이다. 여러 AI 시그널(Hive, Perspective, 내부 모델)을 한 큐로 모으고, T&S 분석가의 워크플로(분류·에스컬레이션·이의신청 처리·트랜스페어런시 리포트 생성)를 표준화한다. Discord, Yelp, Bumble, Patreon이 고객. 2024년 시리즈 B.
**Cove** — Y Combinator 2024 동기. Cinder보다 더 작은 플랫폼·신생 SaaS를 타깃으로 한 T&S 워크플로. "T&S as a Service" 콘셉트.
**ActiveFence** — 이스라엘 텔아비브 + 뉴욕. 처음에는 정보전(intel)과 테러·아동 안전 위주의 모더레이션 정보회사로 시작. 2024년 LLM 시대에 맞춰 **ActiveScore** + **ActiveOS** 라인업으로 일반 콘텐츠 모더레이션 인프라까지 확장. Microsoft·Reddit·X·Discord에 솔루션 공급.
**Two Hat / Community Sift** — 2021년 마이크로소프트가 인수. 게임·키즈 콘텐츠 모더레이션. Xbox·Minecraft의 채팅 모더레이션 표준.
**Sentropy** — 2021년 Discord가 인수. 텍스트 모더레이션 + 안티-스팸. 흡수 후 Discord의 자체 T&S 인프라가 됐다.
**Sift** — 미국. 처음에는 사기·계정탈취 방지(fraud)였지만, T&S에 가까운 콘텐츠 + 사용자 신호 분석까지 확장. Airbnb·DoorDash·Twitch.
**TrustLab** — 미국. 선거 무결성(election integrity) + 허위정보 분석. EU의 Code of Practice on Disinformation 모니터링 파트너.
**Bodyguard.ai** — 프랑스. 커뮤니티 모더레이션 자동화. 유럽 미디어 회사들의 댓글 모더레이션에 채택.
8장 · 이미지 해시 — PhotoDNA · PDQ · TMK+PDQF
CSAM과 테러 콘텐츠는 모더레이션의 가장 오래되고 가장 합의된 카테고리다. 거기서 표준이 된 기술이 **퍼셉추얼 해싱(perceptual hashing)** — 약간 변형된 이미지(크롭, 리사이즈, 워터마크, JPEG 재압축)도 같은 해시를 만드는 알고리즘.
**PhotoDNA** — 마이크로소프트가 2009년 Dartmouth College의 Hany Farid 교수와 공동 개발. NCMEC와의 협력으로 알려진 CSAM 이미지 해시 데이터베이스(약 수십만~수백만 건)에 대한 매칭을 무료로 제공한다. Facebook, Twitter, Google, Reddit 등 거의 모든 큰 플랫폼이 채택. 가장 오래되고 가장 보편적인 표준.
**PDQ + TMK** — 메타가 2019년 오픈소스로 공개. PDQ는 이미지 해시, TMK+PDQF는 비디오 해시. ThreatExchange와 묶여 플랫폼 간 해시 공유에 쓰인다. 메타의 결정은 "한 플랫폼이 잡은 CSAM·테러 콘텐츠를 다른 플랫폼이 다시 잡을 수 있게 하자"였다.
**NeuralHash**(Apple) — 2021년 발표했다가 프라이버시 단체 반발로 보류. CSAM 클라이언트 사이드 스캐닝의 시초.
해시 매칭은 단순하지만 강력하다. 알려진 자료에 대해서는 "찾는 즉시 잡는다"가 가능하다. 단, 새로운/처음 보는 CSAM에는 효과가 없어서 분류기(classifier) 모델과 병행한다.
9장 · NCMEC · IWF · GIFCT · Tech Coalition — 해시 공유 네트워크
해시는 만들어도 공유되지 않으면 의미가 약하다. 그래서 2010년대 초부터 해시 공유 컨소시엄들이 만들어졌다.
**NCMEC(National Center for Missing & Exploited Children)** — 미국. 1984년 설립. **CyberTipline**은 미국 법에 따라 모든 미국 기반 플랫폼이 CSAM을 발견하면 신고해야 하는 채널이다. 2023년 한 해 동안 약 3,600만 건의 CyberTipline 리포트가 들어왔다. NCMEC는 해시 데이터베이스를 운영하고, 플랫폼에 PhotoDNA 라이선스를 제공하고, 법집행 기관과 연결한다.
**IWF(Internet Watch Foundation)** — 영국. NCMEC의 영국판. URL 블록리스트와 해시 데이터베이스를 운영. Ofcom의 Online Safety Act 집행과 깊게 묶여 있다.
**GIFCT(Global Internet Forum to Counter Terrorism)** — 2017년 페이스북·마이크로소프트·트위터·유튜브가 공동 설립. 테러 콘텐츠(폭력적 극단주의)의 해시를 공유하는 컨소시엄. 2019년 크라이스트처치 테러 이후 회원 플랫폼이 크게 늘었다. 핵심은 **Hash-Sharing Database** — 회원이 잡은 테러 콘텐츠를 다른 회원이 즉시 차단할 수 있다.
**Tech Coalition** — CSAM 대응 플랫폼 컨소시엄. NCMEC·IWF와 협력하면서 회원 플랫폼 간의 해시·시그널 공유를 표준화. 2024년 **Lantern** 프로젝트로 CSAM 시그널 공유 인프라를 출시.
**StopNCII.org**(IWF + Meta + Bumble 등) — 동의 없이 공유된 친밀 이미지(intimate image abuse)의 사전 차단 해시. 본인이 자기 이미지를 해싱해서 등록하면, 회원 플랫폼이 그 해시와 매칭되는 이미지의 업로드를 차단.
10장 · 딥페이크 탐지 — Reality Defender · Sensity · Truepic · TrueMedia
2024년의 가장 큰 콘텐츠 안전 이슈는 딥페이크였다. 특히 비동의 친밀 딥페이크(주로 여성·청소년 피해)와 정치 딥페이크.
**Reality Defender** — 미국 뉴욕. 2021년 설립. 멀티모델(이미지·비디오·오디오·텍스트) 딥페이크 탐지. CNN, NBC, U.S. State Department, NATO StratCom가 고객. 2024년 시리즈 A.
**Sensity AI**(전 Deeptrace Labs) — 네덜란드 암스테르담. 2018년부터 딥페이크 위협 모니터링. 보안 회사·금융기관·정부 위주 고객.
**Truepic** — 미국 샌디에이고. 다른 방향의 접근 — **C2PA(Content Authenticity Initiative)** 표준의 메타데이터 서명을 카메라 단에서 박는다. 사진의 출처(provenance)를 cryptographic하게 증명해 "이 사진은 진짜다"의 근거를 만든다. Adobe·Microsoft·Nikon·Sony가 같은 표준 진영.
**TrueMedia.org** — 2024년 출시된 비영리 딥페이크 탐지 도구. AI2(Allen Institute) 등의 협력. 저널리스트·연구자 무료.
**Hive AI Deepfake Detection** — 3장 참조. Hive의 멀티모달 라인업 안에 포함.
**Microsoft Video Authenticator** — 2020년 미국 대선용으로 출시. 정치 영상에 한정.
**Intel FakeCatcher** — 얼굴의 미세 혈류(PPG) 신호를 분석해 진짜 사람인지 판별.
2026년의 표준 구조는 "탐지(detection) + 출처(provenance) 둘 다". 탐지만으로는 한계가 있고, 카메라부터 서명을 붙이는 출처 표준(C2PA)이 양면 보완책이다.
11장 · 플랫폼 내부 도구 — Meta · YouTube · Microsoft · Google
대형 플랫폼들은 외부 인프라 + 자체 도구의 조합으로 움직인다.
**Meta Hasher-Matcher-Actioner(HMA)** — 2022년 오픈소스 공개. PDQ·TMK 해시를 받아 매칭하고 액션을 트리거하는 파이프라인. 작은 플랫폼이 자체 해시 매칭을 구축할 때 표준 출발점.
**YouTube CSAI Match** — 유튜브가 자체 개발한 CSAM 비디오 매칭 도구. 외부에 무료 라이선스 제공.
**Microsoft Content Moderator** — Azure Content Safety 이전 세대 모더레이션 API. 일부 기능은 Content Safety로 이관, 일부는 deprecated 진행 중.
**Google Content ID** — 유튜브의 저작권 매칭. T&S와는 다른 분야지만, "콘텐츠 핑거프린팅 매칭"의 가장 큰 산업 사례다. 매월 수십억 건의 매칭.
**Meta Llama Guard 3** — 14장 참조. LLM 안전 분류기. 오픈소스.
**Roblox Voice Safety** — 음성 채팅 모더레이션 자체 모델. 키즈 플랫폼의 특수성.
**TikTok TIDAL**(Trust & Safety Insights, Data, Analytics, Learnings) — 자체 T&S 운영 플랫폼.
12장 · 한국 콘텐츠 모더레이션 — KOCSC · 카카오 · 네이버 · KISA
한국은 콘텐츠 모더레이션의 법제와 사적 자율규제가 함께 발달한 곳이다.
**KOCSC(방송통신심의위원회, Korea Communications Standards Commission)** — 인터넷 콘텐츠에 대한 시정요구·삭제 권한을 가진 행정기관. 명예훼손, 음란물, 도박, 마약, 자살유도, 선거 관련 허위정보 등. 2024년 시정요구 건수는 약 24만 건. 비판도 많다 — 표현의 자유와의 긴장.
**KISA(한국인터넷진흥원, Korea Internet & Security Agency)** — 과학기술정보통신부 산하. 불법 음란정보 신고 처리(국번 없이 118), 디지털 성범죄 피해자 지원, 사이버보안 인시던트 대응. 2018년부터 디지털 성범죄 피해 콘텐츠 삭제지원 사업.
**카카오 안전센터** — 카카오톡·다음 뉴스·카카오스토리 등의 신고 채널. 카카오는 2024년 트러스트 & 세이프티 리포트 정기 발간을 시작.
**네이버 신고센터** — 네이버 카페·블로그·지식인·뉴스 댓글의 신고 처리. 네이버는 자체 AI(클로바 X 계열)로 댓글 모더레이션을 자동화한다. 욕설·혐오발언 자동 비공개 처리.
**카카오 AI 안전 — 사이렌(Siren)** — 카카오의 콘텐츠 모더레이션 내부 AI. 신고 분류, 자동 차단, 사람 검토 큐 라우팅. 카카오톡 오픈채팅의 자동 모더레이션도 같은 라인업.
**네이버 클린봇 / 댓글 모더레이션** — 네이버 뉴스 댓글의 욕설·혐오·도배 자동 차단. 2020년 정식 도입. 한국어 욕설 사전과 변형(자모 분리, 띄어쓰기 변형)에 강하다.
**N번방 방지법(2020)** — 디지털 성범죄 콘텐츠에 대한 적극적 의무. 일정 규모 이상의 플랫폼은 기술적 조치를 강제한다. 이 법으로 한국의 콘텐츠 매칭 인프라가 의무화됐다.
13장 · 일본 콘텐츠 모더레이션 — Yahoo!Japan · LINE · Mercari · Pixiv
일본은 PCMA(プロバイダ責任制限法)의 2024년 개정이 큰 변곡점이다. 발신자 정보 공개 청구 절차가 간소화되면서, 플랫폼의 적극적 조치가 늘었다.
**Yahoo!Japan Comment Moderator** — 야후재팬 뉴스 댓글의 AI 모더레이션. 2019년부터 자체 모델(특히 일본어 욕설·인격공격 감지에 특화). 2024년 LLM 기반 모더레이터로 업그레이드.
**LINE Cleansing** — LINE의 그룹/오픈챗 콘텐츠 모더레이션 AI. 보이스 통화·이모지·스티커까지 멀티모달.
**Mercari Hate-Detection** — 마이크로소프트 + 자체 모델로 출품 상품의 위조품·금지품·혐오 표상을 탐지. 2024년에는 AI 모더레이터로 출품 시점부터 자동 차단.
**Cybozu Moderation** — 일본 기업용 SaaS인 사이보즈가 자기 플랫폼에서 쓰는 모더레이션 AI.
**Pixiv Moderation** — 일러스트·소설 플랫폼인 픽시브. 성적 콘텐츠 분류, R-18·R-18G 자동 태깅, CSAM 검출(외부 + 자체).
**ニコニコ動画 / Niconico** — 일본 동영상 플랫폼. 자체 모더레이션 + 외부 해시 매칭.
**Twitter / X 일본법인** — 2024년 PCMA 개정 이후 발신자 정보 공개 청구 응대 의무 증가. 일본 사용자에 대한 명예훼손 콘텐츠 처리가 가장 큰 운영 부담.
**일본 인터넷 핫라인 센터(IHC)** — 위법·유해 정보 신고 채널. 경찰청 연계.
14장 · LLM 안전 — Llama Guard 3 · Lakera Guard · Guardrails AI · NeMo Guardrails
LLM 챗봇과 에이전트가 일상에 들어오면서, "AI가 출력하는 콘텐츠"의 모더레이션이 별도 산업이 됐다. 입력 프롬프트(prompt injection, jailbreak)와 출력 응답(hallucination, harmful content) 양쪽을 본다.
**Llama Guard 3**(Meta) — Llama 3 기반의 안전 분류기. 2024년 7월 공개. 입력·출력 양쪽을 분류하고, MLCommons의 위해 분류 체계를 따른다. 카테고리: violent crimes, non-violent crimes, sex crimes, child exploitation, defamation, specialized advice, privacy, IP, indiscriminate weapons, hate, self-harm, sexual content. 오픈소스(라이선스 조건 있음).
**Anthropic Constitutional Classifiers**(2025년 3월) — 6장 참조. Claude의 안전 시그널을 외부에 풀었다.
**Lakera Guard** — 스위스 취리히. **프롬프트 인젝션** 탐지에 특화. LLM 챗봇이 시스템 프롬프트를 우회하거나 도구 호출을 악용하는 패턴을 잡는다. 2024년 Series A.
**Guardrails AI** — 오픈소스 + 상용. LLM 응답의 구조·내용 검증을 선언적으로 정의한다. JSON 스키마, regex, 외부 분류기 호출까지 한 곳에서.
**NVIDIA NeMo Guardrails** — NVIDIA의 오픈소스 LLM 가드레일 프레임워크. "Colang"이라는 DSL로 대화 흐름과 안전 규칙을 정의한다. 엔터프라이즈 챗봇에서 채택 활발.
**Prompt Guard**(Meta, 2024) — Llama Guard 3와 함께 공개. 프롬프트 인젝션과 jailbreak 탐지 전용 작은 모델.
**Rebuff** — 오픈소스 프롬프트 인젝션 방어. 다중 레이어(휴리스틱, 임베딩 유사도, LLM 분류, 카나리 토큰).
**OpenAI Moderation API** — 6장 참조. LLM 시대의 출력 필터링에도 같은 시그널을 쓸 수 있다.
**Microsoft Prompt Shields** — 4장 참조. Azure AI Content Safety의 LLM 보호 컴포넌트.
LLM 안전은 2026년 이미 별도 시장이 됐다. Gartner는 2026년 "AI Trust, Risk and Security Management(AI TRiSM)" 시장 규모를 약 10억 USD로 추산한다.
15장 · 오픈소스 도구 — detoxify · Project Arachnid · 기타
연구자·중소 플랫폼·시민단체가 쓰는 오픈소스 도구도 풍부하다.
**detoxify**(Unitary) — 영국. 파이썬 라이브러리. Jigsaw의 톡시시티 데이터셋으로 학습한 오픈소스 분류기. 한 줄 코드로 톡시시티 점수. 학술 연구에서 많이 쓰인다.
**Perspective API**(Jigsaw) — 5장 참조. 무료 API.
**Project Arachnid**(C3P, Canadian Centre for Child Protection) — CSAM 콘텐츠 크롤링 + 매칭 + 신고 자동화. 캐나다 기반.
**Microsoft Reporting Service** — PhotoDNA를 일부 비영리 조직에 무료 라이선스로 제공.
**Hive Submarine**(오픈 모델) — Hive가 일부 모델을 학술 라이선스로 공개한 프로젝트(범위 제한).
**LLM Guard**(오픈소스) — LLM 입출력 검사 라이브러리. PII 마스킹, 프롬프트 인젝션 탐지, 토픽 차단 등.
**Open-source CSAM hash database** — 일반에 공개되지 않는다. 운영상 정당한 이유로 NCMEC·IWF의 인증된 플랫폼에만 제공된다.
16장 · 평가 — 정밀도/재현율, 편향, 데이터셋
콘텐츠 모더레이션 모델은 단순히 정확도가 높으면 끝이 아니다. **편향**이 핵심 평가 축이다.
**False Positive 편향**:
- AAVE(African American Vernacular English)에 대한 톡시시티 과대 평가. 2019년 Sap et al. 논문이 대표.
- LGBTQ+ 정체성 단어(예: "gay", "lesbian", "trans")가 자체로 톡시시티로 분류되는 경향.
- 한국어 방언, 일본어 캐주얼 표현에 대한 false positive.
**False Negative 편향**:
- 비주류 언어(스와힐리, 우즈벡 등)에서의 혐오발언 탐지 실패.
- 멀티모달(이미지+텍스트 결합)에서의 missing detection.
**평가 데이터셋**:
- **Jigsaw Toxicity Classification**(Kaggle) — Wikipedia Talk 댓글.
- **Jigsaw Unintended Bias** — 정체성 기준 편향 평가.
- **HolisticBias**(Meta) — 약 600개 정체성 디스크립터에 대한 평가.
- **TextDetox**(공유 태스크) — 다국어 톡시시티 + 디톡스(rewriting).
- **HateXplain** — 혐오발언 분류 + 설명(rationale).
- **Stormfront 데이터셋** — 백인 우월주의 포럼 텍스트(연구 한정).
- **CivilComments** — 뉴스 댓글 + 정체성 라벨.
- **MMHS150K** — 멀티모달(이미지+텍스트) 혐오 밈.
**플랫폼 표준 평가**:
- **MLCommons AILuminate** — 2024년 출시. AI 안전 벤치마크. Llama Guard 3가 따르는 카테고리 체계와 같다.
- **HELM Safety** — Stanford CRFM의 평가 셋.
핵심 교훈: **하나의 점수**로는 콘텐츠 모더레이션 모델을 평가할 수 없다. 정체성·언어·도메인 sliced 정확도를 봐야 한다.
17장 · AI 레드티밍 — Anthropic · OpenAI · GIFCT
T&S 모델은 적대적 환경에서 살아남아야 한다. 그래서 **레드티밍(red teaming)** 이 필수 절차가 됐다.
**Anthropic Red Teaming** — Claude의 출시 전 internal + external 레드티밍. CBRN, 사이버, 정치 영향 같은 카테고리에 대해 전문가 패널과 함께 평가한다. 결과는 Model Card와 Constitutional Classifier 학습에 들어간다.
**OpenAI Red Team Network** — GPT-4 출시 시점부터 운영. 외부 전문가(보안, 화학, 생물, 정치, 의료, 사이버) 풀이 신모델을 사전 평가한다. 결과는 GPT-4 System Card 등에 공개.
**Microsoft AI Red Team** — Azure AI 시스템에 대한 내부 적대적 평가. **PyRIT**(Python Risk Identification Tool, 2024년 오픈소스)을 공개해 일반에 풀었다.
**GIFCT Red Team Exercises** — 테러 콘텐츠에 대한 회원 플랫폼 합동 레드팀. 2023년부터 정기 운영.
**DEF CON AI Village** — 2023년 처음 열린 대규모 공개 LLM 레드팀 이벤트(약 2,200명 참가). 이후 매년.
**MITRE ATLAS** — AI 시스템에 대한 위협 분류 프레임워크. ATT&CK의 AI 버전.
레드티밍의 결과물은 단순한 발견 보고가 아니다. **자동화된 적대 평가 셋(adversarial eval)**, **모델 재학습용 데이터**, **카테고리 정책 업데이트**의 입력이 된다. 즉 한 번의 레드팀이 분류기·정책·LLM 가중치 세 곳 모두를 움직인다.
18장 · 트랜스페어런시 리포트 — DSA · 정기 공시
2026년 봄, 모든 큰 플랫폼은 정기 트랜스페어런시 리포트를 낸다.
**EU DSA Article 15** — 모든 중개 서비스 제공자(VLOP 외 포함)는 연간 트랜스페어런시 리포트를 영어 + 자국어로 공개해야 한다. 카테고리: 콘텐츠 액션 수, 자동화/수동의 비율, 카테고리별 분류, 인적 검토 시간, 이의신청 처리.
**EU DSA Article 24** — VLOP는 분기 리포트.
**미국**: 캘리포니아 AB 587(2023년)이 일정 규모 이상 플랫폼에 분기 리포트를 의무화. 텍사스·플로리다 등 주별 차이.
**한국**: 정보통신망법에 따른 정기 보고는 일부 의무지만 전체 트랜스페어런시 리포트는 자율. 카카오·네이버는 자율 공개.
**일본**: 자율. 야후재팬·LINE의 자율 보고.
**주요 회사의 리포트**:
- **Meta Community Standards Enforcement Report** — 분기마다 페이스북·인스타그램의 콘텐츠 액션 통계.
- **YouTube Community Guidelines Enforcement Report** — 분기.
- **TikTok Community Guidelines Enforcement Report**.
- **X(Twitter) Transparency Center** — 일관성에 대한 비판이 있다.
- **Discord Transparency Report** — 반기.
- **Reddit Transparency Report** — 연간 + 일부 분기.
- **Snap Transparency Report** — 반기.
리포트의 정밀도가 점점 올라가고 있다. EU DSA 이후 "0.1%" 단위까지 카테고리별 액션 비율을 공개한다.
19장 · 작은 플랫폼의 모더레이션 스택 — 실제 아키텍처
작은 플랫폼(MAU 10만~1천만 규모)이 2026년에 구축할 만한 표준 모더레이션 스택을 한 장으로 그려 보자.
**1) 입력 레이어**:
- 텍스트 → Perspective API(무료) 또는 Hive Text Moderation.
- 이미지 → Hive Image + PhotoDNA 매칭(NCMEC 라이선스).
- 비디오 → Hive Video + PDQ/TMK 해시.
- 오디오/음성 채팅 → Hive Audio.
- LLM 입출력 → Llama Guard 3(셀프호스트) 또는 Lakera Guard.
**2) 분류 + 큐 라우팅**:
- Cinder 또는 Cove의 T&S 워크플로 플랫폼.
- 시그널을 합쳐 P0/P1/P2 큐로 분류.
**3) 사람 검토**:
- 내부 T&S 분석가 + Telus International·TaskUs·Majorel 같은 외부 BPO.
- 다국어 커버리지가 필요하면 외부 BPO 필수.
**4) 액션 + 어필**:
- 콘텐츠 액션(삭제·다운랭크·연령 게이트·계정 정지).
- 사용자에게 알림 + 이의신청 채널.
**5) 리포트 + 신고**:
- CSAM 발견 시 NCMEC CyberTipline 자동 전송.
- 테러 콘텐츠 → GIFCT 해시 공유.
- 정기 트랜스페어런시 리포트 생성.
**6) 모델 거버넌스**:
- 분기 편향 평가(HolisticBias 등).
- 정책 업데이트 → 분류기 재학습 → A/B 테스트.
이 스택을 자체 구축하면 1년에 약 100만 USD~수백만 USD, 외부 솔루션을 조합하면 수십만 USD대에서 시작이 가능하다. 규제(특히 DSA·OSA)가 강한 시장에 진출하면 비용은 두 배 이상으로 오른다.
20장 · 보상과 노동 — 모더레이터의 정신건강
이 글이 빠뜨릴 수 없는 한 장은 사람 모더레이터다. AI가 아무리 발달해도, 가장 어려운 결정은 사람이 한다. CSAM, 자해, 폭력적 극단주의, 학대 — 매일 보는 사람들이 있다.
2018년부터 일련의 보도(The Verge의 Casey Newton 시리즈, The Cleaners 다큐 등)와 소송(Selena Scola v. Facebook, 2018, $52M 합의)이 모더레이터의 PTSD를 공론화했다. 2024년 케냐의 페이스북 모더레이터들(Sama 계약)이 집단소송을 제기했다.
**개선 방향**:
- 화면 회색 처리, 음성 처리, 일일 노출량 제한.
- 의무적 심리 상담 + 동료 지원.
- BPO 종속 직군의 정규직화 또는 직접 고용.
- "보지 않아도 되는 AI 처리량"의 점진적 증가.
T&S 산업의 윤리는 콘텐츠 정확도만이 아니라 **모더레이터의 노동 조건**이기도 하다. 2026년의 T&S 디렉터들이 KPI로 다루는 항목 중 하나가 "human reviewer wellness score"다.
21장 · 사례 — 한 게임 회사의 보이스 채팅 모더레이션
처음 시나리오로 돌아가서, 한 게임 회사의 보이스 채팅 모더레이션 케이스를 분 단위로 펴 보자.
- **T+0:00** — 유저 A가 멀티플레이 매치 중 보이스 채팅을 시작. 음성 스트림이 Hive AI 오디오 모더레이션 + 자체 STT 파이프라인에 동시 전송.
- **T+0:30** — Hive가 "abuse, slur, child reference" 세 라벨에 0.8 이상 점수. 자체 STT가 텍스트를 만들어 Spectrum Labs Guardian으로 보낸다.
- **T+1:00** — Guardian이 유저 A의 최근 7일 채팅 히스토리와 결합. "grooming pattern probability: 0.7" 시그널 추가.
- **T+1:30** — Cinder의 T&S 큐에 "P0 — child safety" 케이스 생성. 자동 알림이 T&S 온콜 분석가에게 전달.
- **T+10:00** — T&S 분석가가 케이스를 열어 보이스 클립과 텍스트, 유저 히스토리, 신고 내역을 본다.
- **T+12:00** — 분석가가 계정 정지 + NCMEC CyberTipline 자동 신고 트리거.
- **T+15:00** — 유저 B(피해자)에게 안전 리소스 안내 메시지. 부모/보호자 연락처가 있으면 별도 채널.
- **T+24:00** — 분기 트랜스페어런시 리포트에 카테고리별 통계로 집계.
이 흐름의 모든 화살표에 한 회사가 들어가 있다. 보이스 모더레이션(Hive), 패턴 탐지(Spectrum Labs), 워크플로(Cinder), CSAM 신고(NCMEC), 리포트(DSA Article 15). 게임 한 판의 15분이 T&S 생태계 전체를 가로지른다.
22장 · 한계 — 편향, 책임, 표현의 자유
이 글의 마지막 한 장은 한계에 대한 정직한 한 마디다.
**언어·문화 편향** — 거의 모든 콘텐츠 모더레이션 모델은 영어 중심으로 학습되고, 비영어 언어와 비주류 방언에서 성능이 떨어진다. 한국어·일본어·아랍어·힌디어·스와힐리·필리피노 — 시장은 작지 않은데 모델 품질의 격차는 크다.
**False Positive와 표현의 자유** — 너무 적극적인 모더레이션은 정당한 의견·풍자·예술을 가린다. AAVE 흑인 영어, LGBTQ+ 자기서술, 정치 풍자가 자동으로 잡히는 케이스가 매년 보고된다. EU DSA의 "이의신청권"이 부분적 답이지만, 한 번 가린 콘텐츠는 다시 회복되기 어렵다.
**False Negative와 피해** — 너무 약한 모더레이션은 피해를 지속시킨다. 비동의 친밀 딥페이크의 폭발은 모더레이션의 부족함을 그대로 드러냈다.
**책임 소재** — 모더레이션 결정의 책임은 누구의 것인가? 플랫폼? AI 모델 제공자? 모더레이터? DSA와 OSA는 플랫폼의 책임을 명확히 하지만, AI 모델의 오작동이 직접 원인일 때의 분배는 아직 판례가 부족하다.
**프라이버시 vs 안전의 긴장** — End-to-end 암호화된 메시지에서 CSAM을 어떻게 잡을 것인가? Apple의 NeuralHash 보류, EU의 "Chat Control" 논쟁, UK Online Safety Act의 기술적 요구 — 같은 질문이 다른 답을 낳고 있다.
**모더레이터의 정신건강** — 20장 참조. AI가 일부 부담을 덜어주지만 가장 어두운 콘텐츠는 여전히 사람이 본다.
**규제의 fragmenation** — EU DSA, UK OSA, 한국 정보통신망법, 일본 PCMA, 미국 주별 법 — 글로벌 플랫폼이 한꺼번에 만족시키려면 가장 엄격한 기준으로 가게 된다. 이게 "Brussels effect" — 사실상 EU 규제가 글로벌 표준이 되는 효과다.
이 한계들은 그러나 분야를 부정하는 이유가 아니다. 표현의 자유와 안전 사이의 줄타기는 인쇄술 이후 모든 미디어가 거쳐 온 길이다. AI도 같은 길을 간다 — 비판적으로, 그리고 한 걸음씩.
23장 · 결론 — 다층 방어, 인적 검토, 그리고 신뢰
2026년 봄, 한 게임 회사의 보이스 채팅 한 케이스의 15분 안에 우리는 이 시대의 그림 한 장을 봤다. Hive, Spectrum Labs, Cinder, NCMEC, EU DSA — 모두 다른 회사, 다른 표준, 다른 알고리즘. 그러나 유저 한 명의 안전이라는 같은 점으로 모인다.
다음 5년의 방향은 명확하다. **다층 방어**(해시 + 분류기 + 행동 시그널 + LLM + 사람), **provenance 표준**(C2PA), **편향 평가의 정착**(HolisticBias 류), **모더레이터 보호의 산업 표준화**, **트랜스페어런시 리포트의 비교 가능성**(DSA Article 39).
T&S는 한 회사의 비밀 무기에서 산업의 공통 인프라가 됐다. NCMEC와 GIFCT가 보여 준 것처럼, "한 플랫폼이 잡은 위해는 다른 플랫폼이 빠르게 막을 수 있어야 한다"가 표준이다. 동시에 한 플랫폼의 모더레이션 결정이 그 플랫폼의 거버넌스 — 표현의 자유, 사용자 권리, 외부 감사 — 와 묶여 있다.
신뢰는 한 번에 만들어지지 않는다. 그러나 한 번씩 잃을 때마다 같은 무게로 빠진다. 2026년 T&S 인프라의 가장 중요한 자산은 결국 알고리즘이 아니라, 사용자가 "이 플랫폼이 나를 보호한다"라고 느끼는 신뢰다. 그리고 그 신뢰는 위에서 본 모든 회사 — Hive, Microsoft, Google, Anthropic, Spectrum Labs, Cinder, ActiveFence, NCMEC, IWF, GIFCT — 와, 그 뒤의 사람 모더레이터들이 함께 만들고 있다.
T&S는 한 나라의 게임이 아니다. 그리고 한 회사의 게임도 아니다.
24장 · 참고자료
- [EU Digital Services Act · Official](https://commission.europa.eu/strategy-and-policy/priorities-2019-2024/europe-fit-digital-age/digital-services-act_en)
- [UK Online Safety Act 2023 · Ofcom](https://www.ofcom.org.uk/online-safety)
- [Hive AI · Content Moderation API](https://thehive.ai/)
- [Microsoft Azure AI Content Safety](https://azure.microsoft.com/en-us/products/ai-services/ai-content-safety)
- [Google Perspective API · Jigsaw](https://perspectiveapi.com/)
- [OpenAI Moderation API · Docs](https://platform.openai.com/docs/guides/moderation)
- [Anthropic Constitutional Classifiers Announcement (Mar 2025)](https://www.anthropic.com/research/constitutional-classifiers)
- [Spectrum Labs · Guardian](https://www.spectrumlabsai.com/)
- [Cinder · Trust and Safety Operations](https://www.cinder.co/)
- [ActiveFence · Content Moderation and Threat Intelligence](https://www.activefence.com/)
- [Sift · Digital Trust and Safety](https://sift.com/)
- [NCMEC · CyberTipline](https://www.missingkids.org/gethelpnow/cybertipline)
- [Internet Watch Foundation (IWF)](https://www.iwf.org.uk/)
- [GIFCT · Global Internet Forum to Counter Terrorism](https://gifct.org/)
- [Tech Coalition · Lantern](https://www.technologycoalition.org/lantern)
- [Microsoft PhotoDNA](https://www.microsoft.com/en-us/photodna)
- [Meta · PDQ and TMK Open Source](https://github.com/facebook/ThreatExchange)
- [Meta · Hasher-Matcher-Actioner](https://github.com/facebook/ThreatExchange/tree/main/hasher-matcher-actioner)
- [Reality Defender · Deepfake Detection](https://www.realitydefender.com/)
- [Sensity AI · Visual Threat Intelligence](https://sensity.ai/)
- [Truepic · C2PA Provenance](https://truepic.com/)
- [TrueMedia.org · Nonprofit Deepfake Detection](https://www.truemedia.org/)
- [Llama Guard 3 · Meta](https://github.com/meta-llama/PurpleLlama)
- [Lakera Guard · Prompt Injection Defense](https://www.lakera.ai/)
- [NVIDIA NeMo Guardrails](https://github.com/NVIDIA/NeMo-Guardrails)
- [Guardrails AI](https://www.guardrailsai.com/)
- [detoxify · Unitary Open Source](https://github.com/unitaryai/detoxify)
- [MLCommons AILuminate Benchmark](https://mlcommons.org/benchmarks/ailuminate/)
- [Korean KOCSC · 방송통신심의위원회](https://www.kocsc.or.kr/)
- [Japan Internet Hotline Center · IHC](https://www.internethotline.jp/)
현재 단락 (1/253)
2026년 봄, 한 동남아시아 게임 회사의 트러스트 & 세이프티(T&S) 운영실. 새벽 4시 17분, 한 유저가 음성 채팅에서 다른 유저에게 폭언과 함께 어린 자녀를 언급하는 메시...