SOTA 음성 인식·합성 분석 — Whisper에서 코덱 언어모델까지

들어가며
큰 그림: 발전의 흐름
음성 인식(ASR)의 계보
- 소리에서 글자로
- HMM 시대
- CTC: 정렬 문제의 돌파구
- 어텐션 기반 인코더-디코더
Whisper: 대규모 약지도 학습
- Whisper의 핵심
- 멀티태스크 구조
스트리밍 vs 오프라인
강건성을 높이는 학습 기법
음성 합성(TTS)의 진화
- 초창기: 접합 합성과 파라메트릭 합성
- Tacotron: 통짜 신경망 TTS
- 뉴럴 보코더
- 운율과 스타일 제어
뉴럴 오디오 코덱
- 오디오를 토큰으로
코덱 언어모델: VALL-E 계열 개념
- 음성 합성을 언어 모델링으로
- 제로샷 음성 복제
- 확산 기반 접근과의 공존
제로샷 음성 복제와 윤리
다국어 지원
소리를 특징으로: 멜 스펙트로그램
평가 지표
- 인식 평가: WER
- 합성 평가: MOS
실무 파이프라인 예시
비교: 접근 방식 정리
화자 분리와 부가 작업
음성 대 음성과 통합 모델
전체 흐름 다이어그램
온디바이스와 경량화
한계와 주의점
마무리
참고 자료

들어가며

음성 기술은 우리 일상에 깊이 들어와 있습니다. 스마트폰의 받아쓰기, 회의록 자동 작성, 내비게이션 안내 음성, 오디오북 낭독까지 모두 음성 인식(ASR, Automatic Speech Recognition)과 음성 합성(TTS, Text-to-Speech)의 산물입니다.

최근 몇 년간 이 분야는 딥러닝, 특히 대규모 사전학습과 트랜스포머의 힘으로 크게 도약했습니다. 인식 쪽에서는 Whisper 같은 대규모 약지도 모델이 등장했고, 합성 쪽에서는 사람과 구분하기 어려운 자연스러운 음성과 짧은 샘플만으로 목소리를 복제하는 코덱 언어모델이 나타났습니다.

이 글에서는 음성 인식과 합성의 계보를 따라가며 핵심 아키텍처와 원리를 살펴봅니다. AI SOTA는 매우 빠르게 바뀌므로 구체적 순위나 수치보다 개념과 구조 중심으로 설명하고, 확실히 아는 모델과 논문만 단정하겠습니다.

큰 그림: 발전의 흐름

세부로 들어가기 전에, 음성 기술의 발전을 한눈에 정리하면 다음과 같습니다.

[음성 인식(ASR) 흐름]
 HMM/GMM  →  DNN 음향모델  →  CTC/어텐션 통짜  →  Whisper 대규모 약지도

[음성 합성(TTS) 흐름]
 접합/파라메트릭  →  Tacotron+뉴럴 보코더  →  뉴럴 코덱  →  코덱 언어모델

큰 흐름은 두 가지로 요약됩니다. 첫째, 여러 부품을 손으로 조립하던 방식에서 데이터로 통째 학습하는 방식으로 옮겨 갔습니다. 둘째, 데이터 규모가 커지고 표현이 토큰화되면서, 인식과 합성 모두 대규모 언어 모델과 비슷한 도구를 공유하게 되었습니다. 아래에서 각 단계를 차례로 살펴봅니다.

음성 인식(ASR)의 계보

소리에서 글자로

음성 인식의 목표는 음성 파형을 텍스트로 바꾸는 것입니다. 문제의 본질은 연속적인 소리 신호를 이산적인 글자 열로 정렬하는 것입니다. 소리는 시간에 따라 흐르고 발음 속도도 제각각이라, 어떤 소리 구간이 어떤 글자에 대응하는지 맞추는 일이 핵심 난제입니다.

[음성 파형]  ~~~~~~/\/\~~~~/\~~~~~
     |  특징 추출 (예: 멜 스펙트로그램)
     v
[음향 특징]  프레임 단위 벡터 열
     |  음향 모델 + 정렬
     v
[텍스트]     "안녕하세요"

HMM 시대

초기 음성 인식은 은닉 마르코프 모델(HMM, Hidden Markov Model)과 가우시안 혼합 모델(GMM)의 조합이 주도했습니다. 음향 모델은 소리 특징을 음소 상태에 대응시키고, 발음 사전이 음소를 단어로, 언어 모델이 단어 열의 확률을 매기는 여러 부품의 결합이었습니다.

이 방식은 오랫동안 표준이었지만, 부품이 많고 각각을 따로 만들어야 해 복잡했습니다. 이후 음향 모델의 GMM 자리를 심층 신경망(DNN)이 대체하면서 성능이 크게 좋아졌고, 점차 통짜(end-to-end) 신경망으로 넘어가는 흐름이 시작됩니다.

CTC: 정렬 문제의 돌파구

통짜 신경망 음성 인식의 중요한 전환점이 CTC(Connectionist Temporal Classification)입니다. CTC는 소리 프레임과 글자를 일일이 정렬하지 않고도 학습할 수 있게 해 줍니다.

핵심 아이디어는 빈(blank) 토큰을 도입하고, 가능한 모든 정렬 경로의 확률을 합산해 최종 텍스트 확률을 계산하는 것입니다.

프레임:  f1  f2  f3  f4  f5  f6
경로예1: 안  안  _   녕  _   녕
경로예2: _   안  _   녕  녕  _
         (_ 는 빈 토큰, 반복/빈칸을 정리하면 "안녕")

모든 유효 경로 확률을 합산 → "안녕"의 확률

CTC 덕분에 프레임 단위 정렬 라벨 없이도 소리와 텍스트 쌍만으로 학습이 가능해졌습니다. 다만 CTC는 각 출력이 서로 독립이라 가정하는 한계가 있어, 언어적 문맥을 반영하려면 별도 언어 모델과 결합하는 경우가 많았습니다.

어텐션 기반 인코더-디코더

또 다른 흐름은 어텐션 기반 인코더-디코더입니다. 인코더가 소리를 표현으로 바꾸고, 디코더가 어텐션으로 필요한 소리 구간을 골라보며 글자를 한 개씩 생성합니다. 트랜스포머가 등장하면서 이 구조가 크게 강해졌습니다.

CTC와 어텐션은 서로 보완적이라 둘을 함께 쓰는 하이브리드 구조도 널리 활용되었습니다. CTC가 단조로운 정렬을 안정적으로 잡아 주고, 어텐션이 유연하게 문맥을 반영하는 식입니다.

Whisper: 대규모 약지도 학습

Whisper의 핵심

Whisper는 OpenAI가 공개한 음성 인식 모델로, 논문 "Robust Speech Recognition via Large-Scale Weak Supervision"(arXiv 2212.04356)으로 발표되었습니다. 이름 그대로 대규모 약지도(weak supervision) 학습이 핵심입니다.

Whisper의 특징은 웹에서 모은 방대한 양(수십만 시간 규모로 알려짐)의 음성-텍스트 쌍으로 학습했다는 점입니다. 라벨이 완벽하지 않은 데이터라도 양이 매우 많으면 강건한 모델을 만들 수 있다는 것을 보여 주었습니다.

[웹에서 수집한 대규모 음성-텍스트]
 다양한 언어, 억양, 잡음, 도메인 포함
              |
              v
[트랜스포머 인코더-디코더]
 로그멜 스펙트로그램 입력 → 인코더
 텍스트 토큰 출력 ← 디코더 (어텐션)
              |
              v
[하나의 모델이 여러 작업 수행]
 다국어 인식, 번역, 언어 식별, 타임스탬프

멀티태스크 구조

Whisper의 또 다른 특징은 하나의 모델이 여러 작업을 처리한다는 점입니다. 특수 토큰을 통해 "지금은 어떤 언어를 인식하라", "영어로 번역하라", "타임스탬프를 붙여라" 같은 지시를 주면 같은 모델이 그 작업을 수행합니다. 이 멀티태스크 설계 덕분에 별도 부품 없이도 다양한 기능을 하나로 처리합니다.

Whisper는 강건성이 강점입니다. 잡음이 있는 환경이나 다양한 억양에서도 비교적 잘 동작하는 것으로 알려져 있습니다. 다만 실시간 스트리밍에는 기본 구조상 바로 맞지 않고, 긴 오디오에서 환각(hallucination)이나 반복이 생길 수 있다는 한계도 보고됩니다.

스트리밍 vs 오프라인

음성 인식은 크게 두 가지 사용 상황이 있습니다.

[오프라인(배치) 인식]
 전체 오디오를 다 받은 뒤 인식
 - 장점: 전후 문맥을 모두 활용, 정확도 유리
 - 용도: 회의록, 자막 생성, 팟캐스트 전사

[스트리밍(실시간) 인식]
 소리가 들어오는 대로 즉시 인식
 - 장점: 지연이 짧음
 - 제약: 미래 문맥을 못 봄, 부분 결과 수정 필요
 - 용도: 실시간 자막, 음성 비서, 통화 인식

Whisper 같은 인코더-디코더 오프라인 모델은 정확도에 유리하지만 지연이 큽니다. 반면 스트리밍에는 미래를 조금만 엿보거나 아예 보지 않는 구조(예: 트랜스듀서 계열)가 적합합니다. 실무에서는 용도에 따라 두 방식을 나눠 씁니다.

강건성을 높이는 학습 기법

실제 환경의 음성은 잡음, 잔향, 다양한 마이크 특성으로 지저분합니다. 깨끗한 데이터로만 학습한 모델은 이런 환경에서 성능이 뚝 떨어집니다. 그래서 데이터 증강(data augmentation)으로 학습 데이터를 일부러 다양하게 만드는 기법이 널리 쓰입니다.

[대표적 음성 데이터 증강]
 - 속도/피치 변형: 말 속도나 음높이를 조금 바꿈
 - 잡음 추가: 배경 소음, 잔향을 섞음
 - SpecAugment: 스펙트로그램의 일부 시간/주파수 구간을 가림
 - 볼륨/게인 변형: 음량을 다양하게

특히 SpecAugment는 멜 스펙트로그램 위에서 시간 축과 주파수 축의 일부를 마스킹하는 간단한 기법인데, 음성 인식 성능을 크게 높여 널리 채택되었습니다. Whisper처럼 대규모 다양한 데이터로 학습하는 것 자체도 강건성을 높이는 방법이라 볼 수 있습니다. 데이터가 실제 환경의 다양성을 충분히 담을수록, 모델은 배포 후에도 잘 견딥니다.

음성 합성(TTS)의 진화

초창기: 접합 합성과 파라메트릭 합성

초기 TTS는 미리 녹음한 음성 조각을 이어붙이는 접합 합성(concatenative)과, 음성 특징을 통계 모델로 생성하는 파라메트릭 합성이 있었습니다. 접합 합성은 특정 화자의 목소리로 자연스러웠지만 유연성이 낮고, 파라메트릭 합성은 유연하지만 기계적인 소리가 났습니다.

Tacotron: 통짜 신경망 TTS

딥러닝 TTS의 전환점이 Tacotron 계열입니다. Tacotron은 텍스트를 입력받아 어텐션 기반 시퀀스-투-시퀀스로 멜 스펙트로그램(소리의 시간-주파수 표현)을 생성합니다. 그 다음 보코더(vocoder)가 멜 스펙트로그램을 실제 파형으로 바꿉니다.

[텍스트]
   |  텍스트 인코더 + 어텐션 디코더 (Tacotron 계열)
   v
[멜 스펙트로그램]  소리의 시간-주파수 표현
   |  보코더 (파형 생성)
   v
[음성 파형]

이 "텍스트 → 멜 스펙트로그램 → 파형" 2단계 구조가 오랫동안 뉴럴 TTS의 표준이 되었습니다.

뉴럴 보코더

멜 스펙트로그램을 파형으로 바꾸는 보코더의 품질이 최종 음질을 좌우합니다. 초기의 WaveNet은 매우 자연스러운 소리를 냈지만 샘플을 하나씩 생성해 매우 느렸습니다. 이후 병렬 생성이 가능한 여러 보코더(예: 흐름 기반, GAN 기반 계열)가 나오면서 품질을 유지하면서도 훨씬 빠른 합성이 가능해졌습니다. 실무에서 널리 쓰인 GAN 기반 보코더 계열은 빠른 속도와 좋은 음질의 균형으로 인기를 끌었습니다.

운율과 스타일 제어

좋은 음성 합성은 단순히 또렷한 발음을 넘어, 자연스러운 운율(prosody)을 담아야 합니다. 운율이란 억양, 강세, 리듬, 쉼처럼 문장의 "말맛"을 결정하는 요소입니다. 같은 문장이라도 운율에 따라 질문처럼, 단정처럼, 혹은 놀란 듯 들릴 수 있습니다.

[운율 제어의 예]
 "정말요"
   - 평탄한 억양 → 담담한 반응
   - 끝을 올리는 억양 → 놀란 질문
   - 강세를 준 억양 → 강한 감탄

 같은 글자, 다른 운율 → 다른 의미/감정

초기 TTS는 운율을 세밀하게 제어하기 어려웠지만, 최근 모델은 참조 음성이나 스타일 토큰, 감정 라벨 등을 조건으로 주어 운율과 화자 스타일을 어느 정도 조절할 수 있습니다. 코덱 언어모델의 제로샷 복제도 참조 음성의 운율을 함께 흉내 내는 성질이 있어, 짧은 예시만으로 특정 화자의 말투를 재현하는 데 유리합니다.

뉴럴 오디오 코덱

오디오를 토큰으로

최신 음성 합성의 핵심 재료가 뉴럴 오디오 코덱(neural audio codec)입니다. 뉴럴 코덱은 신경망으로 오디오를 압축하는 기술로, 연속적인 소리를 이산적인 토큰 열로 바꿉니다.

[연속 오디오 파형]
   |  인코더
   v
[벡터 양자화(VQ)]  → 이산 토큰 열 (오디오 "단어")
   |  디코더
   v
[복원된 오디오 파형]

핵심은 잔차 벡터 양자화(RVQ, Residual Vector Quantization) 같은 기법으로 오디오를 여러 층의 이산 코드로 표현한다는 점입니다. 이렇게 하면 오디오도 텍스트처럼 토큰의 나열이 됩니다. 대표적인 뉴럴 코덱으로 SoundStream, EnCodec 계열이 알려져 있습니다.

오디오가 토큰이 되면, 언어 모델이 텍스트 토큰을 예측하듯 오디오 토큰을 예측하게 만들 수 있습니다. 이것이 다음에 볼 코덱 언어모델의 출발점입니다.

코덱 언어모델: VALL-E 계열 개념

음성 합성을 언어 모델링으로

뉴럴 코덱으로 음성을 토큰화하면, TTS를 "다음 오디오 토큰 예측" 문제로 다시 정의할 수 있습니다. 즉, 텍스트와 짧은 참조 음성을 조건으로 주면, 언어 모델이 그 화자의 목소리로 이어질 오디오 토큰을 생성하는 것입니다. 이 방향의 대표적 개념이 VALL-E 계열입니다.

[텍스트]  +  [짧은 참조 음성 (3초 예시)]
              |  코덱으로 토큰화
              v
[조건: 텍스트 토큰 + 참조 음성 토큰]
              |  언어 모델 (다음 오디오 토큰 예측)
              v
[생성된 오디오 토큰 열]
              |  코덱 디코더
              v
[참조 화자 목소리로 합성된 음성]

제로샷 음성 복제

코덱 언어모델의 인상적인 능력이 제로샷 음성 복제입니다. 별도 재학습 없이, 단 몇 초 분량의 참조 음성만으로 그 사람의 목소리 특성(음색, 억양)을 흉내 내 새로운 문장을 합성할 수 있습니다. 이는 짧은 참조를 문맥(context)으로 받아들여 이어서 생성하는 인컨텍스트 학습과 비슷한 성질입니다.

이 방식은 소량의 데이터로 개인화된 목소리를 만들 수 있어 강력하지만, 뒤에서 다룰 윤리적 위험도 함께 커집니다.

확산 기반 접근과의 공존

코덱 언어모델(오토리그레시브) 외에도, 확산(diffusion) 기반이나 흐름 매칭(flow matching) 기반으로 음성을 생성하는 접근도 활발합니다. 오토리그레시브는 토큰을 순차 생성하는 반면, 확산 계열은 잡음에서 점진적으로 음성을 만들어 냅니다. 둘은 장단이 달라 공존하며 발전하고 있습니다.

제로샷 음성 복제와 윤리

제로샷 음성 복제는 접근성(성대 질환자를 위한 목소리 재현 등)과 콘텐츠 제작 측면에서 큰 가치가 있습니다. 하지만 동시에 심각한 위험을 안고 있습니다.

사칭과 사기: 타인의 목소리로 지인을 속이는 보이스 피싱, 금융 사기 위험이 커집니다.
동의 없는 복제: 본인 동의 없이 목소리를 복제하는 것은 초상권/인격권 침해가 될 수 있습니다.
딥페이크 음성: 가짜 발언을 진짜처럼 만들어 여론을 오도할 수 있습니다.

이런 위험 때문에 많은 연구와 서비스가 동의 확인, 워터마킹(생성 음성에 식별 신호 삽입), 사용 제한 정책을 강조합니다. 기술을 다룰 때는 능력만큼이나 이런 안전장치와 책임을 함께 고려해야 합니다.

다국어 지원

음성 기술의 중요한 과제가 다국어와 저자원 언어 지원입니다. 세상에는 수천 개의 언어가 있지만, 학습 데이터가 풍부한 언어는 소수에 불과합니다.

Whisper처럼 대규모 다국어 데이터로 학습한 모델은 여러 언어를 하나로 처리하는 이점이 있습니다. 언어 간 지식이 공유되어, 데이터가 적은 언어도 관련 언어의 도움을 받을 수 있습니다. 다만 데이터가 극히 적은 저자원 언어에서는 여전히 성능이 떨어지고, 코드 스위칭(한 문장에 여러 언어 혼용)이나 방언 처리도 어려운 과제로 남아 있습니다.

소리를 특징으로: 멜 스펙트로그램

앞에서 여러 번 등장한 멜 스펙트로그램을 조금 더 살펴보겠습니다. 음성 신호는 초당 수만 개의 표본으로 이루어진 긴 파형입니다. 이를 그대로 신경망에 넣기보다, 사람의 청각 특성에 맞춘 특징으로 바꾸는 전처리가 널리 쓰입니다.

[음성 파형]  시간에 따른 진폭
   |  짧은 구간으로 나눠 푸리에 변환 (STFT)
   v
[스펙트로그램]  시간 x 주파수의 에너지 지도
   |  사람 청각에 맞춘 멜 스케일 적용
   v
[멜 스펙트로그램]  시간 x 멜 주파수

멜 스케일은 사람이 낮은 주파수의 차이에 더 민감하고 높은 주파수의 차이에는 덜 민감한 특성을 반영합니다. 그래서 멜 스펙트로그램은 원본 스펙트로그램보다 청각적으로 더 의미 있는 표현이 됩니다. 인식과 합성 모두 이 표현을 중간 다리로 자주 사용합니다. 다만 최근에는 파형을 직접 다루거나, 앞서 본 뉴럴 코덱 토큰을 쓰는 방향도 함께 발전하고 있습니다.

평가 지표

인식 평가: WER

음성 인식의 성능은 주로 단어 오류율(WER, Word Error Rate)로 측정합니다. 정답 문장과 인식 결과를 비교해, 잘못 바뀐 단어, 빠진 단어, 더해진 단어의 수를 세어 비율로 계산합니다.

WER = (치환 + 삭제 + 삽입) / 정답 단어 수

- 낮을수록 좋음 (0에 가까울수록 정확)
- 한국어/일본어처럼 띄어쓰기 기준이 다른 언어는
  글자 오류율(CER)을 함께 보기도 함

WER는 유용하지만 한계도 있습니다. 의미가 통하는 사소한 오류와 뜻을 바꾸는 치명적 오류를 똑같이 세므로, 실제 사용성과 항상 일치하지는 않습니다. 그래서 용도에 따라 사람 평가나 다운스트림 성능(예: 인식 결과로 명령이 잘 수행되는가)을 함께 봅니다.

합성 평가: MOS

음성 합성의 자연스러움은 주로 평균 의견 점수(MOS, Mean Opinion Score)로 측정합니다. 사람 평가자가 합성 음성을 듣고 1점에서 5점으로 자연스러움을 매긴 뒤 평균을 냅니다. 최근에는 사람 평가를 흉내 내는 자동 지표도 쓰이지만, 합성 음질의 최종 판단은 여전히 사람 청취 평가에 크게 의존합니다.

실무 파이프라인 예시

음성 기술을 실제 서비스에 넣을 때의 전형적 흐름을 정리합니다.

[음성 인식 서비스 흐름]
 1. 오디오 입력 (마이크/파일)
 2. 전처리 (리샘플링, 정규화, 특징 추출)
 3. ASR 모델 추론 (Whisper 등)
 4. 후처리 (문장부호 복원, 숫자 정규화, 필터)
 5. 결과 활용 (자막, 명령 처리, 검색 등)

[음성 합성 서비스 흐름]
 1. 텍스트 입력
 2. 텍스트 정규화 (숫자/약어/기호를 읽는 형태로)
 3. TTS 모델 추론 (Tacotron/코덱 LM 등)
 4. 후처리 (음량 정규화, 무음 정리)
 5. 오디오 출력/스트리밍

특히 전후 처리가 실사용 품질에 큰 영향을 줍니다. 예를 들어 인식에서는 문장부호와 숫자 정규화가 가독성을 좌우하고, 합성에서는 텍스트 정규화가 잘못되면 숫자나 약어를 엉뚱하게 읽습니다. 모델만큼이나 이 주변 처리를 다듬는 것이 중요합니다.

비교: 접근 방식 정리

구분	대표 개념	강점	유의점
ASR HMM/GMM	음향+발음+언어 모델 결합	오랜 검증, 해석 용이	부품 많고 복잡
ASR CTC	빈 토큰 정렬, 통짜 학습	정렬 라벨 불필요	출력 독립 가정
ASR 어텐션	인코더-디코더	유연한 문맥 반영	스트리밍에 조정 필요
ASR Whisper	대규모 약지도 멀티태스크	강건, 다국어	스트리밍/긴 오디오 한계
TTS Tacotron+보코더	텍스트→멜→파형	자연스러운 합성	2단계 파이프라인
TTS 코덱 LM	오디오 토큰 예측	제로샷 복제	윤리 위험 큼

위 표는 개념 비교이며, 각 방식은 계속 발전하고 있어 세부 우열은 상황에 따라 다릅니다.

화자 분리와 부가 작업

실제 오디오에는 여러 사람이 섞여 말하는 경우가 많습니다. 회의록이나 통화 전사에서는 "누가 언제 말했는가"를 구분하는 화자 분리(speaker diarization)가 필요합니다.

[화자 분리 흐름]
 오디오
   |  음성 구간 검출 (VAD, 말/침묵 구분)
   v
 발화 구간들
   |  화자 임베딩 추출 + 군집화
   v
 "화자 A: 0~5초, 화자 B: 5~9초 ..." 라벨

여기서 핵심 도구가 화자 임베딩입니다. 목소리 특성을 벡터로 만들어, 같은 사람의 발화는 비슷한 벡터가 되도록 학습합니다. 이는 앞의 임베딩 글에서 본 것과 같은 대조학습 아이디어가 음성에도 적용되는 예입니다. 화자 분리 외에도 감정 인식, 언어 식별, 음성 활동 검출(VAD) 같은 부가 작업이 실무 파이프라인에 함께 들어갑니다.

음성 대 음성과 통합 모델

전통적으로 음성 비서는 ASR로 소리를 글자로 바꾸고, LLM으로 답을 만들고, TTS로 다시 소리를 내는 세 단계였습니다. 그런데 이 방식은 단계가 많아 지연이 크고, 중간에 감정이나 억양 같은 정보가 손실됩니다.

[단계형 음성 대화]
 소리 → ASR → 글자 → LLM → 글자 → TTS → 소리
        (감정/억양 정보가 중간에 사라질 수 있음)

[통합형 음성 대 음성]
 소리 → [하나의 모델] → 소리
        (억양, 웃음, 감정을 더 자연스럽게 유지 가능)

그래서 최근에는 소리에서 소리로 바로 잇는 음성 대 음성(speech-to-speech) 통합 모델이 연구되고 있습니다. 앞서 본 뉴럴 코덱 토큰이 여기서도 핵심 재료가 됩니다. 오디오를 토큰으로 다룰 수 있으면, 텍스트와 오디오를 같은 방식으로 처리하는 통합 모델을 상상할 수 있기 때문입니다. 다만 이런 통합 모델은 아직 발전 중이며, 지연·품질·제어 가능성에서 해결할 과제가 많습니다.

전체 흐름 다이어그램

음성 인식과 합성을 하나의 그림으로 정리하면 다음과 같습니다.

[음성 입력]
   |  ASR (Whisper 등)
   v
[텍스트]  ←→  [LLM 처리 (선택)]
   |  TTS (Tacotron / 코덱 LM 등)
   v
[음성 출력]

음성 비서: ASR → LLM → TTS 의 연결로 대화 구현

이처럼 ASR와 TTS를 LLM과 연결하면 음성 대화형 인터페이스가 완성됩니다. 최근에는 이 세 단계를 하나의 모델로 통합하려는 음성 대 음성(speech-to-speech) 접근도 연구되고 있습니다.

온디바이스와 경량화

클라우드가 아닌 기기 안에서 직접 음성 처리를 하려는 수요도 큽니다. 지연이 짧고, 인터넷 없이 동작하며, 음성 데이터가 기기를 떠나지 않아 개인정보 보호에 유리하기 때문입니다.

[클라우드 vs 온디바이스]
 클라우드: 큰 모델, 높은 정확도 / 지연·비용·프라이버시 부담
 온디바이스: 작은 모델, 낮은 지연 / 성능 제약, 최적화 필요

온디바이스를 위해서는 모델을 작게 만드는 경량화가 필요합니다. 가중치 정밀도를 낮추는 양자화(quantization), 작은 모델이 큰 모델을 흉내 내는 지식 증류(distillation), 불필요한 연결을 제거하는 가지치기(pruning) 등이 쓰입니다. Whisper 계열도 작은 크기 변형이 공개되어 있어, 정확도와 비용의 균형을 상황에 맞게 고를 수 있습니다.

한계와 주의점

정확성의 한계: ASR는 전문 용어, 고유명사, 강한 억양, 잡음 환경에서 오류가 늘어납니다. 중요한 용도에서는 사람 검수가 필요합니다.
환각과 반복: 대규모 생성 모델은 실제로 없는 말을 만들어 내거나 같은 구절을 반복할 수 있습니다.
실시간성: 정확도가 높은 오프라인 모델은 지연이 커 실시간에 부적합할 수 있습니다.
윤리와 안전: 음성 복제는 사칭·사기 위험이 크므로 동의와 워터마킹 같은 안전장치가 필요합니다.
최신성: 이 분야의 SOTA는 매우 빠르게 바뀝니다. 이 글의 설명은 개념 이해를 위한 것이며, 구체 스펙과 순위는 공식 문서로 확인해야 합니다.
저자원 언어: 데이터가 적은 언어에서는 성능이 크게 떨어질 수 있습니다.

마무리

음성 기술은 HMM 시대의 여러 부품 결합에서, CTC와 어텐션의 통짜 학습을 거쳐, Whisper의 대규모 약지도 학습과 코덱 언어모델의 제로샷 복제까지 놀랍게 발전했습니다.

기억할 핵심은 세 가지입니다. 첫째, 음성 인식의 근본 과제는 연속 소리를 이산 글자로 정렬하는 것이고, CTC와 어텐션이 이를 통짜로 풀었습니다. 둘째, 뉴럴 코덱이 오디오를 토큰으로 바꾸면서 음성 합성을 언어 모델링 문제로 재정의할 수 있게 되었습니다. 셋째, 능력이 커진 만큼 음성 복제의 윤리적 책임도 함께 커졌습니다. AI SOTA는 빠르게 바뀌지만, 이런 원리와 책임 의식은 오래 유효합니다.

참고 자료

Whisper: Robust Speech Recognition via Large-Scale Weak Supervision (arXiv 2212.04356): arxiv.org/abs/2212.04356
Connectionist Temporal Classification, CTC (ICML 2006 논문 페이지): dl.acm.org/doi/10.1145/1143844.1143891
WaveNet: A Generative Model for Raw Audio (arXiv 1609.03499): arxiv.org/abs/1609.03499
Tacotron 2 (arXiv 1712.05884): arxiv.org/abs/1712.05884
SoundStream: An End-to-End Neural Audio Codec (arXiv 2107.03312): arxiv.org/abs/2107.03312
High Fidelity Neural Audio Compression, EnCodec (arXiv 2210.13438): arxiv.org/abs/2210.13438
Whisper 저장소 (GitHub): github.com/openai/whisper
Hugging Face Audio 문서: huggingface.co/docs/transformers/tasks/asr