- Authors

- Name
- Youngju Kim
- @fjvbn20031
Season 4 Ep 9 — Ep 8에서 오디오는 여러 모달 중 하나였다. Ep 9은 음성 제품 하나에만 집중한다. 실시간성·자연스러움·안전성 — 이 셋을 한꺼번에 잡는 게 왜 어려운지, 그리고 어떻게 잡는지.
- Prologue — "화면 없는 AI"의 해
- 1장 · 두 가지 아키텍처
- 2장 · 실시간 파이프라인 설계
- 3장 · 지연 버짓 설계
- 4장 · 음성 LLM — GPT-4o Realtime, Gemini Live, Moshi
- 5장 · 감정·억양·속도 — Expressive Speech
- 6장 · 전화(PSTN)·브라우저·모바일
- 7장 · 딥페이크·음성 복제 위협과 방어
- 8장 · 한국어 음성 제품의 특수성
- 9장 · 비용·운영
- 10장 · 실전 케이스 3
- 11장 · UX 원칙 12가지
- 12장 · 안티패턴 10선
- 13장 · 체크리스트 — Voice AI 런칭 전 12가지
- 14장 · 다음 글 예고 — Season 4 Ep 10: "LLM 보안"
Prologue — "화면 없는 AI"의 해
2024년 5월 OpenAI의 GPT-4o 데모는 음성 AI의 전환점이었다. 지연 ~300ms, 자연스러운 발음, 감정 표현, 인터럽션 — 전통 STT→LLM→TTS 파이프라인으로는 도달하기 어려운 품질을 단일 end-to-end 모델이 보여줬다.
2025년 현재:
- 고객센터: 단순 응대의 50%+를 음성 AI가 처리하는 기업 등장
- 교육·코칭: 영어·외국어 회화 앱의 표준 UX
- 헬스·상담: 치료적 대화 보조(의료 조언은 여전히 금지)
- 개인 비서: 자동차·스마트홈·웨어러블
이 글은 "음성 AI를 만들 때 알아야 할 전부"를 한 호흡에 정리한다.
1장 · 두 가지 아키텍처
1.1 전통 파이프라인 (STT → LLM → TTS)
[마이크] → VAD → [스트리밍 STT] → [LLM] → [스트리밍 TTS] → [스피커]
- 각 단계 독립 → 유연, 디버그 쉬움
- 모델·벤더 선택 자유
- 단점: 지연 누적(500ms–1.5s), 감정·억양 소실
1.2 음성 LLM (end-to-end)
[마이크] → [음성 LLM: 음성 → 음성] → [스피커]
- 오디오 토큰을 직접 입출력
- 감정·웃음·한숨까지 재현
- 지연 ~300ms
- 단점: 모델 크기 큼, 벤더 한정(OpenAI/Google/Moshi 등), 세밀 제어 어려움
1.3 2025년 하이브리드 현실
- 실시간 양방향 대화 → 음성 LLM
- 비실시간·배치 처리 → 전통 파이프라인 (비용·로그 이점)
- 엔터프라이즈: 컴플라이언스·감사 요구가 강해 전통 파이프라인이 여전히 우세
- 컨슈머: 음성 LLM이 빠르게 확산
2장 · 실시간 파이프라인 설계
2.1 VAD (Voice Activity Detection)
- 목적: 말하고 있는 구간만 STT로 보내 비용·지연 절감
- 모델: Silero VAD(오픈), WebRTC VAD, PyAnnote
- 파라미터: 임계값·최소 발화 길이·묵음 종료 판단
2.2 스트리밍 STT
- 부분 결과(partial transcript)를 250–500ms 단위로 방출
- 최종 결과(final transcript)는 end-of-utterance 검출 시
- Deepgram, AssemblyAI, Whisper(streaming), Google/Azure/AWS, Clova/Kakao
2.3 LLM 처리
- partial transcript로 "생각 시작" 가능(미리 컨텍스트 빌드)
- final transcript 확정 시 응답 생성
- Speculative generation: partial에 기반해 미리 답을 시작 → final 확정되면 수정
2.4 스트리밍 TTS
- 문장 경계에서 순차 재생
- "생각 중" 필러(uh/hmm) 없이 자연스러운 간격
- 지연 단축의 핵심
2.5 인터럽션 (Barge-in)
- 사용자가 말 시작하면 TTS 즉시 중단
- 부분적으로만 재생된 응답은 "요약/교정"으로 다음 발화 반영
- 로봇식이 아닌 인간처럼 자연스러운 끊김 구현이 UX의 사활
3장 · 지연 버짓 설계
3.1 목표
연구·현업에서 자주 인용되는 수치: 사람 대화의 평균 턴 간 간격 ~200ms. AI가 500ms–1s 이내 응답하면 자연스럽다고 느낌. 1.5s 넘어가면 어색.
3.2 예시 버짓 (전통 파이프라인)
VAD end-of-utterance 검출: 150ms
STT 최종 결과: 150ms
LLM TTFT(첫 토큰): 300ms
TTS 첫 오디오 청크: 150ms
네트워크·디코딩: 100ms
───────────────────
합계 첫 음성 재생까지: 약 850ms
3.3 단축 포인트
- Small/Fast LLM을 first responder로 (필러·동의)
- 스트리밍: STT/LLM/TTS 모두
- 음성 LLM: 아키텍처 자체가 짧음
- 지역성: 사용자 근접 리전 배포
3.4 지터·안정성
- 평균 지연보다 p95/p99가 중요
- 한 턴이 길면 다음 턴 전체 리듬이 무너짐 → 사용자 이탈
4장 · 음성 LLM — GPT-4o Realtime, Gemini Live, Moshi
4.1 GPT-4o Realtime
- 음성·텍스트 양방향 실시간
- WebSocket/WebRTC 기반
- 지연 300–500ms
- 가격은 텍스트보다 상당히 비싸지만 지연/품질이 압도
4.2 Gemini Live
- 1M 컨텍스트 + 실시간 멀티모달
- 화면 공유·카메라 입력 조합 가능
- 인터럽션·감정 표현 우수
4.3 Moshi (Kyutai, 오픈)
- 오픈소스 음성 LLM
- 전이중(full-duplex), 낮은 지연
- 로컬 실행 가능 — 프라이버시 제품에 매력
4.4 차이점
| 항목 | GPT-4o | Gemini Live | Moshi |
|---|---|---|---|
| 가격 | 높음 | 중 | 자체 호스팅 |
| 한국어 | 우수 | 우수 | 제한적 |
| 커스텀 | 제한적 | 제한적 | 높음 (오픈) |
| 모달 혼합 | 음성·텍스트 | 음성·비디오·텍스트 | 음성 주력 |
| 엔터프라이즈 | API + 로깅 | Google Cloud | 자체 관리 |
5장 · 감정·억양·속도 — Expressive Speech
5.1 TTS 제어 축
- 톤/보이스: 사람·성별·연령
- 감정: neutral, happy, sad, angry, excited 등
- 속도: 0.8x–1.5x
- 강세: 특정 단어 강조
- 호흡·쉼:
<break time="300ms"/>같은 SSML
5.2 SSML(Speech Synthesis Markup Language)
<speak>
안녕하세요, <break time="300ms"/>
오늘은 <emphasis level="strong">아주 중요한</emphasis> 이야기를 나눠볼게요.
</speak>
- Google, Microsoft, Naver Clova, Kakao 등 대부분 지원
- ElevenLabs·OpenAI TTS는 자체 포맷(중괄호·자연어 지시)
5.3 감정의 정치
- 기업 브랜드 톤: 과도한 감정 배제
- 어린이 서비스: 따뜻한 톤, 속도 느리게
- 의료·상담: 중립적·차분
모든 목소리에 같은 톤을 쓰지 마라. 서비스 맥락에 맞게 프로파일 분리.
6장 · 전화(PSTN)·브라우저·모바일
6.1 전화 통합
- Twilio, Vonage, Plivo, SignalWire: 프로그래머블 전화
- SIP/PSTN 게이트웨이로 음성 스트림을 STT/LLM에 전달
- 한국: LG U+ AI콜, KT AICC, 네이버 클라우드 AiCall 등 현지 솔루션
6.2 브라우저
- WebRTC로 양방향 오디오
- Permission, 에코 캔슬링, 노이즈 서프레션 내장
- 모바일 브라우저 호환성 확인 필수
6.3 모바일 앱
- iOS: AVAudioEngine, Speech, AVSpeechSynthesizer
- Android: AudioRecord, MediaCodec, TTS API
- 네이티브 VAD 활용 가능
6.4 자동차·임베디드
- 잡음·풍잡음 보정
- 운전 중 안전: 긴급 단축 응답
- 오프라인 모드 필수 (연결 불안정)
7장 · 딥페이크·음성 복제 위협과 방어
7.1 위협
- 보이스 피싱: 가족 목소리 복제로 긴급 송금 요청
- 경영자 사칭: CEO 목소리로 송금 지시
- 신분 사칭: 콜센터·금융 본인인증 우회
7.2 방어 레이어
- 라이브니스 디텍션: 준비된 대사 vs 실시간 응답 요구
- 음성 생체 인증: 성문+행동 기반 이중
- 딥페이크 탐지: 합성 음성 분류기 (정확도 90%대, 완벽 아님)
- 콜백 확인: 민감 요청은 등록된 번호로 콜백
- AI 식별 의무화: 일부 국가·주 법령(AI 음성인 경우 공지)
7.3 워터마킹
- AI 생성 음성에 인지 불가능한 워터마크 삽입(예: Google SynthID for audio)
- 탐지기가 워터마크 확인으로 AI 출처 식별
- 아직 100% 확실치 않음 — 방어 레이어 중 하나로 취급
7.4 운영 정책
- 민감 거래는 "AI 음성 대응 금지" → 인간으로 전환
- 음성 로그 보관·감사(법 준수 범위 내)
- 신규 콜 연결 시 AI 안내: "본 통화는 AI 상담원이 응대 중입니다"
8장 · 한국어 음성 제품의 특수성
8.1 STT
- 표준어 정확도는 Clova/Kakao 95%+
- 사투리·방언 커버리지는 아직 부족
- 전문 용어(의료·법률)는 커스텀 사전 필수
8.2 TTS
- Naver CLOVA Voice, Kakao i, Supertone: 자연스러움 최상위
- ElevenLabs 한국어 보이스도 급속 개선
- 한국어 특유의 억양·존대 말투 제어 중요
8.3 법·규제
- 전기통신사업법·전자상거래법: 통화 녹취 고지 필수
- 개인정보보호법: 음성 데이터도 민감 정보 포함 가능
- 금융: 고객 확인(KYC) 시 AI 음성만으로 인증 불가
8.4 문화·UX
- 반말/존댓말 일관성
- 호칭(씨/님/고객님) 브랜드 정책
- 응답 시작부 "네, ~님" 같은 문구가 신뢰도 ↑
9장 · 비용·운영
9.1 비용 구성
- STT: 분당 $0.003–0.02
- TTS: 글자당 $0.00001–0.00005 (보이스·품질에 따라)
- LLM: 토큰당 (입력/출력) — 텍스트와 동일
- 음성 LLM: 전통 파이프라인 대비 2–5배 비싼 경향 (2025 초반)
- 회선(PSTN): 분당 추가 비용
9.2 스케일링
- 동시 통화 N개 → 각 스트림 TCP/WebSocket + LLM 슬롯
- 오케스트레이션(Kubernetes + HPA) + 리전 분산
- Cold start 줄이기 위한 워밍풀
9.3 관측성
- 통화별 지연(p50/p95), 인터럽션 빈도, 사용자 전환(휴먼) 비율
- 환각·부적절 발언 탐지 실시간 모니터
- NPS·해결률 트래킹
10장 · 실전 케이스 3
10.1 콜센터 1차 응대
- 유즈: 예약·주소 변경·간단 FAQ
- 복잡 문의는 인간 상담원으로 스무스 핸드오프(컨텍스트 요약 전달)
- 녹취·컴플라이언스 문구 자동 체크
10.2 영어 회화 학습 앱
- 음성 LLM(GPT-4o realtime)으로 자연스러운 대화
- 발음 평가(전통 STT가 정확)
- 적정 난이도 조절(사용자 실력에 맞춤)
10.3 시니어 케어·웰빙
- 말벗·간단 알림·복약 리마인드
- 감정 톤 따뜻하게, 속도 느리게
- 긴급 상황(낙상·이상 증상) 감지 시 보호자 연락
11장 · UX 원칙 12가지
- 지연이 전부: 1초 넘기면 어색함
- 인터럽션: 사용자가 끊으면 즉시 멈춤
- 짧게: 한 턴 당 3–5문장 이내
- 불확실성 신호: 모르면 "잘 모르겠네요" 명시
- 스푸핑 방지: 민감 동작은 음성만으로 금지
- 감정 절제: 브랜드 톤 우선, 과잉 연출 금지
- 필러: "음", "네" 같은 짧은 신호로 "듣고 있어요" 전달
- 반복 질문: 사용자가 "뭐라고?" 하면 속도·발음 조정
- 종료 신호: "도움이 더 필요하세요?"로 자연스러운 마무리
- 오류 복구: STT가 틀린 것 같으면 "제가 맞게 이해한 건지요?"로 되묻기
- 개인정보 차단: 카드번호·주민번호 음성 입력 지양
- 접근성: 청각 장애인·고령자 대상 UX 별도 설계
12장 · 안티패턴 10선
12.1 지연 측정 없이 배포
체감 품질의 90%는 지연. p95가 기준.
12.2 LLM에 너무 긴 프롬프트
실시간성 깨짐. 시스템 프롬프트를 짧고 날카롭게.
12.3 인터럽션 처리 없음
말하는 중 계속 밀어붙이는 로봇. UX 파괴.
12.4 감정·톤 일관성 없음
보이스 3개 섞어 쓰다 브랜드 혼란.
12.5 딥페이크 탐지만 믿기
탐지기는 불완전. 라이브니스·콜백·정책 겸용.
12.6 법적 고지 누락
통화 녹취·AI 응대 고지는 필수.
12.7 배치 TTS로 실시간 구현
청크 단위 스트리밍으로 재작성 필요.
12.8 민감 거래 음성만으로
금융·의료 본인인증은 추가 채널.
12.9 사투리·고령자 음성 무시
STT 정확도 편차 큼. 샘플 다양화 + 커스텀.
12.10 로그 없음
분쟁·품질 개선 근거 상실.
13장 · 체크리스트 — Voice AI 런칭 전 12가지
- p50/p95 지연 목표와 측정
- VAD/STT/LLM/TTS 각 단계 장애 폴백
- 인터럽션 처리 UX 테스트
- 감정·톤 프로파일 정의
- AI 응대 고지 문구 삽입
- 녹취·보관·파기 정책 법 준수
- 딥페이크·스푸핑 방어 레이어
- 휴먼 핸드오프 트리거·컨텍스트 전달
- 사용자 만족(NPS/해결률) 측정
- 민감 거래·데이터는 음성 외 채널 권장
- 한국어 STT/TTS 품질 검증 (벤더 비교)
- 접근성(청각·고령자) 대안 경로
14장 · 다음 글 예고 — Season 4 Ep 10: "LLM 보안"
음성도 그렇고 텍스트도 그렇고, 2025년 LLM 제품의 가장 큰 위협은 보안 사고다.
- Prompt injection의 12가지 변종
- Jailbreak·역할극 우회
- Data exfiltration 벡터
- Model extraction·파라미터 유출
- 서비스 거부(DoS), 과금 공격
- Red team 구축·자동화(PyRIT, Garak)
- 가드레일 프롬프트 vs 분류기 모델
- 프라이버시·PII 유출
- 공급망(모델·MCP 서버) 위협
- 표준·규제 (EU AI Act, 한국 개인정보보호)
- 사고 대응 플레이북
"보안은 기능이 아니라 기본값이다." 그런데 2024–2025 많은 LLM 제품이 아직 기본도 못 갖췄다.
다음 글에서 만나자.
요약: Voice AI는 실시간성·자연스러움·안전성 3박자. 전통 파이프라인과 음성 LLM의 선택은 지연·제어·컴플라이언스 요구에 달려 있고, p95 지연이 사용자 경험의 90%를 결정한다. 감정·속도·톤은 브랜드 정책으로 관리하고, 딥페이크·스푸핑은 다층 방어가 필수. 한국어 제품은 Clova·Kakao·Supertone 같은 현지 자산과 글로벌 음성 LLM을 조합해서 품질 경계를 극대화한다. "화면 없는 AI" 시대는 이제 만드는 사람의 상상력이 한계다.