모방 기계는 발견할 수 없는가 — Rich Sutton의 도발과 RL의 반격

들어가며 — 왜 지금 이 논쟁이 화제인가
Sutton의 주장 요지 — 모방의 천장
Bitter Lesson 복습 — 그리고 자주 오해되는 부분
모방 학습 vs 강화학습 — 본질적 차이
반론 — LLM도 발견할 수 있다는 주장들
과학 발견 AI 사례 검토 — 정확히 무엇을 아는가
'발견'의 정의 문제 — 논쟁이 헛도는 이유
실무 함의 — 에이전트에 탐색과 검증 루프를 설계하라
- 제안-검증-개선 루프의 기본형
- 시뮬레이터의 가치 — 검증기를 살 수 없다면 만들어라
연구 지형 전망 — 수렴하는 두 진영
개발자가 가질 관점 — 도구의 한계 인식과 활용
미니 실습 — 검증 가능한 보상으로 모방을 넘어서기
역사의 평행선 — 이 논쟁은 처음이 아니다
자주 나오는 질문 정리
함정과 비판적 시각 — 양쪽 모두에게
경험의 시대를 위한 인프라 — 지금 만들어 둘 것
- 경험 저장소 스키마
- 검증기 포트폴리오 점검표
연구 지형 한눈에 보기
마치며 — 모방과 발견은 적이 아니다
참고 자료

들어가며 — 왜 지금 이 논쟁이 화제인가

2026년 6월, 강화학습(RL)의 살아있는 전설 Rich Sutton의 트윗 하나가 GeekNews와 Hacker News의 토론란을 점령했습니다. 요지는 도발적입니다.

지도학습으로 인간의 텍스트를 모방하도록 훈련된 생성 AI는 본질적으로 모방 모델이다. 모방은 이미 알려진 것의 재조합이므로, 진정으로 새로운 과학적 발견은 그 메커니즘에서 나오기 어렵다.

타이밍이 절묘했습니다. 2026년은 AI 코딩 에이전트가 보편화되고, 수 시간씩 자율 작업하는 frontier 모델 세대가 등장하고, "LLM이 수학 난제를 풀었다"는 뉴스가 주기적으로 나오는 해입니다. 모두가 "LLM이 곧 과학을 하게 될 것"이라고 말하는 시점에, RL 진영의 원로가 정면으로 "그 방향으로는 안 된다"고 선언한 것입니다.

Sutton은 단순한 비평가가 아닙니다. 2024년 튜링상 수상자이고, RL 교과서의 공저자이며, 무엇보다 AI 역사상 가장 많이 인용되는 에세이 중 하나인 The Bitter Lesson(2019)의 저자입니다. 흥미로운 점은, 많은 사람들이 Bitter Lesson을 "스케일링이 전부다 — 그러니 LLM이 옳다"로 읽어 왔는데, 정작 저자 본인은 현재의 LLM 패러다임에 비판적이라는 사실입니다.

이 글에서는 Sutton의 주장을 정확히 복원하고, Bitter Lesson과의 연결을 정리한 뒤, 모방 학습과 강화학습의 본질적 차이를 짚습니다. 그리고 반론(LLM도 발견할 수 있다)과 실제 과학 발견 AI 사례를 검토하고, 에이전트를 만드는 개발자가 가져갈 실무적 교훈으로 마무리합니다.

Sutton의 주장 요지 — 모방의 천장

Sutton의 논지를 단계별로 재구성하면 다음과 같습니다.

LLM의 학습 목표는 다음 토큰 예측이다. 인간이 쓴 텍스트의 분포를 흉내 내는 것이 목적 함수의 전부입니다.
이것은 정의상 모방(imitation)이다. 모델이 잘하는 일은 훈련 분포 안에서 그럴듯한 연속을 만드는 것입니다.
과학적 발견은 분포 밖에 있다. 새로운 이론은 기존 텍스트의 그럴듯한 연속이 아니라, 기존 합의와 모순되면서도 세계와 일치하는 주장입니다.
세계와의 접점이 없다. 모방 모델은 자신의 출력이 맞는지 세계로부터 직접 피드백을 받지 않습니다. 인간이 쓴 텍스트라는 2차 자료를 통해서만 세계를 봅니다.
따라서 경험(experience)으로부터 배우는 시스템, 즉 목표를 갖고 행동하고 결과를 관찰해 수정하는 RL적 에이전트만이 진짜 발견을 할 수 있다.

Sutton은 이 관점을 몇 년 전부터 "경험의 시대(The Era of Experience)"라는 표현으로 정리해 왔습니다. 인간 데이터의 시대는 천장에 도달했고, 다음 단계는 에이전트가 스스로 만든 경험 데이터에서 배우는 시대라는 것입니다.

핵심 직관을 다이어그램으로 그리면 이렇습니다.

        모방 학습의 세계관                    경험 학습의 세계관

   [인간 텍스트 코퍼스]                  [세계 / 환경 / 시뮬레이터]
          |                                   ^        |
          v                                   | 행동    | 보상/관찰
   [다음 토큰 예측 모델]                       |        v
          |                                [에이전트 정책]
          v                                   |
   "그럴듯한 텍스트"                           v
   (분포 내 보간이 한계)                  "세계가 검증한 행동"
                                        (분포 밖 발견 가능)

Bitter Lesson 복습 — 그리고 자주 오해되는 부분

Bitter Lesson(2019)의 메시지는 두 문장으로 요약됩니다.

70년의 AI 역사에서, 인간의 지식을 손으로 새겨 넣는 접근은 항상 단기적으로 이기고 장기적으로 졌다.
장기적으로 이긴 것은 컴퓨팅 증가를 그대로 흡수하는 범용 방법, 즉 탐색(search)과 학습(learning)이었다.

여기서 자주 오해되는 부분이 있습니다. 많은 사람들이 이 에세이를 "스케일링하면 이긴다"로 축약해 LLM 스케일링의 근거 문서로 인용해 왔습니다. 그러나 원문이 강조하는 범용 방법은 두 가지이고, 그중 하나가 탐색입니다. Sutton의 2026년 발언은 자기모순이 아니라 오히려 원문의 재강조에 가깝습니다. 그의 관점에서 현재의 LLM은 다음과 같이 보입니다.

학습은 스케일했다. (합격)
그러나 그 학습의 원천이 인간 텍스트라는 유한하고 2차적인 자원이다. (인간 지식의 주입이라는 옛 함정의 세련된 변형)
탐색, 즉 세계와 상호작용하며 새 데이터를 만들어내는 축은 아직 빈약하다. (불합격)

즉 Sutton에게 LLM은 Bitter Lesson의 승자가 아니라, "인간 지식을 새겨 넣는 접근"의 가장 거대한 버전일 수 있다는 것입니다. 이 독해가 2026년 6월 논쟁의 진짜 쟁점입니다.

모방 학습 vs 강화학습 — 본질적 차이

비교 테이블

축	모방 학습 (지도/SSL)	강화학습 (RL)
데이터 원천	인간이 만든 고정 코퍼스	에이전트가 만드는 경험
목적 함수	분포 일치 (다음 토큰 예측)	보상 극대화
진리의 기준	인간이 그렇게 썼는가	세계에서 통했는가
분포 밖 행동	회피하도록 훈련됨	탐색 보너스로 장려 가능
데이터 한계	코퍼스 고갈 시 천장	환경이 허락하는 한 무한
실패 모드	그럴듯한 헛소리 (환각)	보상 해킹, 탐색 비용 폭발
대표 성과	GPT 계열, 번역, 요약	AlphaGo, AlphaZero, 로봇 제어

보간과 탐색 — 왜 이 차이가 본질적인가

모방 모델의 일반화는 본질적으로 훈련 분포가 정의하는 다양체(manifold) 위의 보간에 가깝습니다. 놀라운 점은 이 다양체가 생각보다 훨씬 넓어서, 보간만으로도 "한 번도 본 적 없는 조합"을 만들 수 있다는 것입니다. 셰익스피어 풍으로 쓴 쿠버네티스 장애 보고서는 코퍼스에 없지만 LLM은 잘 만듭니다.

문제는 과학적 발견이 요구하는 것이 조합적 신선함이 아니라 분포와의 결별일 때가 있다는 점입니다. 지동설, 상대성이론, 대륙 이동설은 당대 텍스트 분포에서 가능도가 극히 낮은 주장이었습니다. "당대의 모든 텍스트를 완벽히 모방하는 모델"에게 이런 주장은 정의상 비정상 출력입니다.

RL의 다른 점은 진리의 기준이 분포가 아니라 보상이라는 데 있습니다. AlphaGo의 수37(2국)이 상징적입니다. 인간 기보 분포에서 그 수의 확률은 1만분의 1 수준으로 평가됐지만, 자기대국(self-play)이라는 경험 축적은 그 수가 이긴다는 것을 발견했습니다. 인간 분포 기준으로는 실수처럼 보이는 수가, 세계(바둑 규칙) 기준으로는 더 나은 수였던 것입니다.

   인간 기보 분포          수37의 위치
  ----------------       ---------------
   확률 높음  ████
   확률 중간  ██████
   확률 낮음  █  <------- 여기 (인간 모방이라면 선택 불가에 가까움)

   그러나 자기대국 가치 평가:  승률 기여 상위  <-- RL은 이 신호를 따라감

중요한 단서 — 사전학습 없는 AlphaGo는 없었다

공정하게 말하면, 최초의 AlphaGo는 인간 기보로 모방 학습부터 했습니다. 모방으로 합리적인 초기 정책을 만들고, 그 위에서 RL이 탐색했습니다. 순수 self-play의 AlphaZero는 그다음 세대입니다. 즉 역사적 사실은 "모방 vs RL"의 이분법보다 "모방이 깔아준 바닥 위에서 RL이 천장을 뚫었다"에 가깝습니다. 이 점은 뒤의 반론 절에서 다시 중요해집니다.

반론 — LLM도 발견할 수 있다는 주장들

Sutton의 도발에 대한 반론도 만만치 않습니다. 주요 논거를 정리합니다.

반론 1: 조합적 일반화도 발견이다

과학사의 많은 발견은 무에서의 창조가 아니라 기존 개념의 새로운 연결이었습니다. 다윈은 맬서스의 인구론을 생물학에 연결했고, 슈뢰딩거는 파동 방정식을 양자에 연결했습니다. "서로 다른 분야의 개념을 연결하는 능력"이라면 LLM은 인간 개인보다 넓은 독서 범위를 갖습니다. 분포 내 보간이라 해도, 인류 전체 텍스트의 분포 안에는 아직 아무도 명시적으로 연결하지 않은 조합이 천문학적으로 많습니다.

반론 2: 수37을 만든 것도 결국 RL이고, LLM은 이미 RL과 결합했다

2026년의 frontier 모델은 더 이상 순수 모방 모델이 아닙니다. RLHF를 넘어, 검증 가능한 보상에 대한 강화학습(RLVR)이 추론 모델의 표준 레시피가 됐습니다. 수학 정답, 코드 테스트 통과, 형식 증명 검증기 같은 객관적 보상으로 모델을 훈련하면, 모델은 인간 텍스트에 없던 풀이 경로를 스스로 발견합니다. DeepSeek-R1 계열이 보여준 "aha moment"(자발적 자기 수정 행동의 창발)가 대표 사례입니다. 즉 Sutton의 비판은 순수 사전학습 모델에는 유효하지만, 현재 배포되는 시스템은 이미 그의 처방(경험과 보상)을 부분적으로 수용한 하이브리드입니다.

반론 3: 실제 발견 사례가 쌓이고 있다

FunSearch(2023): LLM이 프로그램을 제안하고 평가기가 점수를 매기는 진화 루프로, cap set 문제에서 인간이 알던 것보다 나은 구성을 찾았습니다. 수학에서 LLM이 관여한 신규 결과로 널리 인용됩니다.
AlphaGeometry(2024): 신경 모델과 기호 추론 엔진의 결합으로 국제수학올림피아드 기하 문제에서 금메달리스트 수준에 도달했습니다.
AlphaFold 계열: 단백질 구조 예측이라는 과학적 난제에서 실험 과학의 속도를 바꿨습니다. 노벨 화학상(2024)까지 이어졌습니다.

다만 이 사례들을 자세히 보면 공통 구조가 있습니다. LLM이나 신경망 단독이 아니라, 외부 검증기(evaluator, verifier, 물리적 실험)와 결합된 루프라는 점입니다. 이것은 반론이면서 동시에 Sutton 논지의 부분적 인정이기도 합니다. 발견을 만든 것은 모방 모델 그 자체가 아니라, 모방 모델을 제안자로 쓰고 세계(또는 세계의 대리인인 검증기)가 채점하는 시스템이었습니다.

반론 4: 인간 과학자도 모방으로 시작한다

인간 박사과정의 첫 3년은 사실상 모방 학습입니다. 논문을 읽고(코퍼스 흡수), 기존 기법을 재현하고(미세조정), 지도교수의 스타일을 흉내 냅니다. 발견은 그 모방의 토대 위에서 나옵니다. "모방이므로 발견 불가"라는 논리라면 인간도 발견할 수 없어야 합니다. 모방은 발견의 반대말이 아니라 전제 조건일 수 있습니다.

과학 발견 AI 사례 검토 — 정확히 무엇을 아는가

흥분과 회의가 모두 과장되기 쉬운 영역이므로, 2026년 중반 시점에 비교적 확실하게 말할 수 있는 것만 추려봅니다.

사례	신경망의 역할	검증기의 역할	"발견"으로 인정할 만한가
AlphaFold	구조 예측 (보간에 가까움)	실험 구조 데이터로 학습/평가	도구적 혁명. 새 법칙 발견과는 다름
FunSearch	프로그램 제안	점수 함수가 즉시 채점	좁은 영역의 신규 결과. 진짜 신규
AlphaGeometry	보조선 제안	기호 엔진이 증명 검증	알려진 문제 해결. 새 정리 제시는 아님
추론 모델의 수학	풀이 경로 생성	정답/증명 검사기	경시대회 수준 돌파. 연구 수준 난제는 사례 축적 중
소재/약물 후보 생성	후보 공간 제안	시뮬레이션과 실험실 검증	후보 제안까지. 최종 검증은 물리 세계

패턴이 보입니다. 성과가 실재하는 곳에는 항상 빠르고 정확한 검증기가 있었습니다. 바둑의 승패, 수학의 증명 검사기, 단백질의 실험 데이터. 반대로 검증기가 느리거나(임상시험) 모호한(사회과학 이론) 영역에서는 화려한 데모 대비 확정적 성과가 아직 드뭅니다.

'발견'의 정의 문제 — 논쟁이 헛도는 이유

이 논쟁이 자주 헛도는 이유는 발견이라는 단어가 최소 세 가지 다른 의미로 쓰이기 때문입니다.

수준 1 — 알려진 답의 재발견: 인간이 이미 아는 결과를 모델이 독립적으로 도출. 벤치마크용으로는 유용하나 발견은 아님.
수준 2 — 알려진 문제의 새 답: cap set 같은 미해결이던 구체 문제에서 인간 최선보다 나은 답. FunSearch가 여기에 도달. 단, 문제 정의와 채점 함수는 인간이 줌.
수준 3 — 새로운 문제/개념/이론의 제시: 무엇을 물어야 하는지 자체를 바꾸는 패러다임 제안. 상대성이론급. 어떤 AI도 아직 여기 도달했다는 합의는 없음.

Sutton의 주장을 가장 강하게 읽으면 "모방 모델은 수준 3에 못 간다"이고, 가장 약하게 읽으면 "모방만으로는 수준 2도 어렵다"입니다. 반론 진영의 증거는 대부분 수준 2에 분포합니다. 즉 양측은 종종 서로 다른 수준을 놓고 싸우고 있습니다. 토론할 때 이 구분을 먼저 합의하는 것만으로 논쟁의 절반이 정리됩니다.

실무 함의 — 에이전트에 탐색과 검증 루프를 설계하라

이 논쟁은 철학이 아니라 오늘의 에이전트 설계에 직접 시사점을 줍니다. 2026년의 코딩 에이전트, 리서치 에이전트를 만드는 사람이 가져갈 교훈은 명확합니다. 모델을 제안자(proposer)로 쓰고, 검증기(verifier)를 시스템에 심어라.

제안-검증-개선 루프의 기본형

# propose_verify_loop.py — 에이전트에 경험 학습 구조를 심는 기본 패턴
def discovery_loop(task, llm, verifier, budget):
    best = None
    history = []                      # 에이전트의 "경험"
    for step in range(budget):
        candidates = llm.propose(
            task=task,
            history=summarize(history),   # 과거 시도와 실패 이유를 컨텍스트로
            diversity=temperature_schedule(step),  # 탐색 강도 조절
        )
        for cand in candidates:
            score, feedback = verifier.evaluate(cand)  # 세계의 대리인
            history.append((cand, score, feedback))
            if best is None or score > best.score:
                best = Result(cand, score)
        if verifier.is_solved(best):
            break
    return best, history

이 단순한 루프가 FunSearch, 추론 모델의 test-time search, 코딩 에이전트의 "테스트 통과까지 반복"의 공통 골격입니다. 설계 포인트는 네 가지입니다.

검증기의 품질이 천장을 결정합니다. 코딩 에이전트라면 테스트 스위트, 타입 체커, 린터가 검증기입니다. 검증기가 허술하면(테스트 커버리지 부족) 에이전트는 보상 해킹(테스트만 통과하는 엉터리 코드)을 배웁니다. RL의 오랜 교훈이 에이전트 시대에 그대로 재현되는 것입니다.
실패 이력을 컨텍스트로 되먹이세요. 단순 재시도가 아니라 "왜 실패했는지"를 다음 제안의 입력으로 넣는 순간, 시스템은 모방을 넘어 경험에서 배우기 시작합니다.
다양성 스케줄을 명시적으로 관리하세요. 초반에는 온도를 높여 탐색하고 후반에는 낮춰 수렴시키는, RL의 탐색-활용 균형이 LLM 루프에도 그대로 적용됩니다.
경험을 자산으로 저장하세요. history는 일회용이 아닙니다. 축적된 시도-결과 쌍은 다음 미세조정의 훈련 데이터, 즉 Sutton이 말한 경험 데이터가 됩니다.

시뮬레이터의 가치 — 검증기를 살 수 없다면 만들어라

검증기 스펙트럼 (왼쪽일수록 에이전트 루프가 강해짐)

  즉시/정확                                          느림/모호
  |----------|------------|------------|------------|
  컴파일러     단위 테스트    시뮬레이터     인간 리뷰     실세계 실험
  타입체커     속성 테스트    (물리/경제)    A/B 테스트   (임상 등)

실세계 실험이 비싼 도메인일수록 시뮬레이터가 전략 자산이 됩니다. 단백질(구조 예측기), 회로(SPICE), 유체(CFD), 경제 정책(에이전트 기반 시뮬레이션)처럼, 시뮬레이터가 충분히 정확한 영역부터 발견형 에이전트가 작동하기 시작할 것입니다. 거꾸로 말하면, 여러분의 도메인에서 "AI가 발견을 하게 만들고 싶다"면 첫 투자처는 더 큰 모델이 아니라 더 좋은 검증기와 시뮬레이터일 가능성이 높습니다.

연구 지형 전망 — 수렴하는 두 진영

2026년 중반의 연구 지형은 "모방 진영 vs RL 진영"의 전쟁이라기보다 수렴에 가깝습니다.

LLM 진영은 RL을 흡수 중: RLVR, 프로세스 보상 모델, test-time search가 표준 스택이 됐습니다. 사전학습의 비중은 상대적으로 줄고, 사후학습(post-training)과 추론 시 컴퓨팅의 비중이 커지고 있습니다.
RL 진영은 LLM을 사전 지식으로 흡수 중: 순수 RL의 표본 비효율 문제를 LLM 사전 지식으로 완화하는 연구(LLM을 정책 초기화, 보상 설계, 탐색 가이드로 쓰는 접근)가 활발합니다.
남은 진짜 난제: 검증하기 어려운 보상(좋은 이론이란 무엇인가), 장기 시평(수개월짜리 연구 프로젝트의 보상 희소성), 그리고 안전성(스스로 가설을 세우고 실험하는 시스템의 통제)입니다.

Sutton의 역할은 이 수렴의 방향을 비판으로 가속하는 것입니다. "인간 데이터 천장" 경고는 합성 데이터, 자기대국식 환경, 경험 축적 인프라에 대한 투자를 정당화하는 가장 강력한 서사가 되고 있습니다.

개발자가 가질 관점 — 도구의 한계 인식과 활용

일선 개발자에게 이 논쟁이 주는 실용적 관점을 정리합니다.

LLM에게 "검증된 적 없는 새로움"을 기대하지 마세요. 모델이 자신 있게 내놓는 새로운 아이디어는 분포 내에서 그럴듯한 것이지, 세계가 검증한 것이 아닙니다. 신선해 보이는 제안일수록 검증 비용을 먼저 책정해야 합니다.
반대로 "넓은 모방"의 가치를 과소평가하지 마세요. 문헌 연결, 기존 기법의 이식, 베이스라인 구현 같은 작업에서 LLM은 이미 초인적입니다. 발견의 전 단계 비용을 극적으로 낮춰 줍니다.
여러분의 파이프라인에서 검증기를 일급 시민으로 승격시키세요. 테스트, 시뮬레이터, 평가 함수에 대한 투자는 모델 업그레이드보다 감가상각이 느립니다. 모델은 분기마다 바뀌지만 좋은 검증기는 수년을 갑니다.
에이전트 설계 문서에 탐색 예산을 명시하세요. 몇 개의 후보를, 어떤 다양성으로, 어떤 중단 조건까지 시도할지가 에이전트의 발견 능력을 결정합니다. 루프 엔지니어링이 프롬프트 엔지니어링을 대체한다는 2026년의 격언 그대로입니다.

미니 실습 — 검증 가능한 보상으로 모방을 넘어서기

RLVR의 핵심 아이디어를 장난감 규모로 체험해 볼 수 있는 예제입니다. "정수 수열의 규칙 찾기"라는 작은 발견 과제에서, 순수 샘플링(모방)과 검증기 결합 루프(경험)의 차이를 비교합니다.

# tiny_rlvr_demo.py — 모방 vs 검증 루프의 차이를 보여주는 장난감 실험
import random

def verifier(formula, examples):
    """후보 수식이 모든 예제를 만족하는지 검사하는 '세계의 대리인'"""
    try:
        return all(eval(formula, None, dict(n=n)) == y for n, y in examples)
    except Exception:
        return False

def imitation_only(llm, task, k=20):
    """전략 A: 한 번에 k개를 뽑고 끝 (피드백 없는 모방 샘플링)"""
    candidates = [llm.sample(task) for _ in range(k)]
    return [c for c in candidates if verifier(c, task.examples)]

def experience_loop(llm, task, budget=20):
    """전략 B: 실패 이유를 되먹이며 반복 (경험 루프)"""
    feedback = ""
    for _ in range(budget):
        cand = llm.sample(task, hint=feedback)
        if verifier(cand, task.examples):
            return cand
        # 어떤 예제에서 틀렸는지를 다음 시도의 컨텍스트로 주입
        wrong = first_failing_example(cand, task.examples)
        feedback = f"candidate {cand} failed on input {wrong}"
    return None

같은 모델, 같은 호출 예산이라도 전략 B가 일관되게 더 어려운 규칙을 찾아냅니다. 차이를 만드는 것은 모델이 아니라 루프 구조, 즉 검증기와 피드백 채널의 존재입니다. 이것이 이 논쟁 전체를 코드 다섯 줄로 압축한 그림이라고 생각합니다.

실험을 확장해 보고 싶다면 다음 변형을 권합니다.

검증기를 일부러 허술하게(예제 2개만 검사) 만들어 보세요. 보상 해킹이 즉시 나타납니다. 허술한 검증기 아래에서 루프는 "예제 2개만 맞는 엉터리 규칙"으로 수렴합니다.
feedback을 누적 이력으로 바꿔 보세요. 단발 피드백보다 수렴이 빨라지는 구간과, 컨텍스트가 길어져 오히려 나빠지는 구간을 둘 다 관찰할 수 있습니다. 컨텍스트 엔지니어링이 왜 2026년의 키워드인지 체감하게 됩니다.
온도를 단계적으로 낮추는 스케줄을 넣어 보세요. 탐색-활용 트레이드오프가 작은 규모에서도 분명히 드러납니다.

역사의 평행선 — 이 논쟁은 처음이 아니다

"모방이냐 탐색이냐"는 사실 AI 역사에서 세 번째쯤 반복되는 논쟁입니다.

  1997  체스: 인간 기보 휴리스틱  vs  무차별 탐색(Deep Blue)
        --> 탐색 승. 단, 평가 함수에는 인간 지식 잔존

  2016  바둑: 인간 기보 모방     vs  자기대국 RL(AlphaGo->Zero)
        --> 모방으로 시작, RL로 초월, 최종적으로 모방 제거

  2026  과학: 인간 텍스트 모방   vs  경험/검증 루프(현재 진행형)
        --> ??? (지금 우리가 보고 있는 장면)

앞선 두 번의 결말에는 공통점이 있습니다. 인간 지식(모방)은 부트스트랩으로서 결정적이었지만, 최종 천장은 항상 탐색과 경험이 뚫었다는 것입니다. 그리고 매번, "인간 지식 없이는 불가능하다"는 진영과 "인간 지식이 오히려 편향이다"라는 진영이 격돌했고, 답은 단계적 하이브리드였습니다. 과학 발견에서도 같은 패턴이 반복된다면, 현재의 LLM 회의론과 낙관론 모두 부분적으로만 옳은 셈이 됩니다.

다만 과학이 바둑과 결정적으로 다른 점이 하나 있습니다. 바둑의 검증기(승패 판정)는 공짜였지만, 과학의 검증기(실험)는 비싸고 느립니다. 이 비대칭 때문에 "과학의 AlphaZero 모멘트"는 바둑보다 훨씬 점진적으로, 검증기가 싼 분야(수학, 코드, 시뮬레이션 가능한 물리)부터 순차적으로 올 가능성이 높습니다.

자주 나오는 질문 정리

Q1. Sutton은 LLM이 쓸모없다고 말한 건가요?

아닙니다. 그의 주장은 용도 한계론에 가깝습니다. 모방 모델은 알려진 지식의 재구성에 탁월하지만, 새로운 발견의 엔진으로는 구조적으로 부적합하다는 것입니다. 검색과 학습 중 학습만 비대해진 현 상태에 대한 균형 요구로 읽는 것이 정확합니다.

Q2. RLVR로 훈련된 추론 모델은 Sutton의 비판을 벗어나나요?

부분적으로만 그렇습니다. RLVR은 검증 가능한 보상이 존재하는 영역(수학, 코드)에서 경험 학습을 도입한 것이지만, 그 보상 자체가 인간이 정의한 문제 안에 있습니다. 수준 2(알려진 문제의 새 답)에는 도달해도, 수준 3(새 문제의 제시)은 보상을 정의할 수 없다는 근본 문제가 남습니다.

Q3. 그럼 AGI 논쟁과는 어떤 관계인가요?

직결됩니다. "스케일링만으로 AGI"라는 입장은 모방 학습의 연장선에서 일반 지능이 창발한다는 가설이고, Sutton의 입장은 경험 기반 학습이라는 다른 축이 필수라는 가설입니다. 2026년 frontier 연구소들의 로드맵이 사후학습과 에이전트 경험 수집에 무게를 옮기는 것은, 산업이 사실상 후자 쪽으로 헤징하고 있다는 신호로 볼 수 있습니다.

Q4. 개발자 커리어 관점에서는 무엇을 준비해야 하나요?

검증기를 만드는 능력의 가치가 구조적으로 상승하고 있습니다. 평가 함수 설계, 시뮬레이터 구축, 테스트 인프라, 도메인 특화 벤치마크 제작 같은 기술은 모델이 아무리 좋아져도 수요가 줄지 않습니다. 모델을 쓰는 사람은 많아지지만, 모델을 채점할 수 있는 사람은 여전히 희소합니다.

함정과 비판적 시각 — 양쪽 모두에게

균형을 위해 양 진영의 약점도 짚어둡니다.

Sutton 측 주장의 약점:

"모방으로는 발견 불가"의 강한 버전은 반증 사례(FunSearch류)에 이미 침식되고 있습니다. 모방 모델이 제안자로 참여한 발견을 어디까지 모방의 공로로 볼지의 경계가 불분명합니다.
순수 경험 학습의 표본 비효율은 여전히 심각합니다. 바둑처럼 시뮬레이션이 공짜인 환경 밖에서, RL 단독의 대형 성공 사례는 아직 제한적입니다.
인간 텍스트는 단순한 모방 대상이 아니라 압축된 세계 모델이라는 반론도 있습니다. 텍스트 예측을 잘하려면 세계의 구조를 어느 정도 내재화해야 한다는 것입니다.

LLM 낙관론 측의 약점:

벤치마크 돌파와 연구 수준 발견 사이의 간극이 자주 뭉개집니다. 경시대회 수학과 새 이론 제시는 다른 종류의 일입니다.
발견 사례의 대부분이 외부 검증기 의존적이라는 사실이 마케팅에서 생략되곤 합니다. 검증기를 만든 것은 인간입니다.
합성 데이터와 자기 개선의 복리 효과는 아직 가설 단계의 부분이 많고, 모델 붕괴(model collapse) 같은 역효과 연구도 병행되고 있습니다.

경험의 시대를 위한 인프라 — 지금 만들어 둘 것

Sutton의 처방을 진지하게 받아들인다면, 다음 병목은 모델이 아니라 경험을 수집·저장·재사용하는 인프라입니다. 에이전트 팀이 지금 설계해 둘 만한 최소 구성을 정리합니다.

경험 저장소 스키마

-- experience_store.sql — 에이전트 경험을 학습 자산으로 축적하는 최소 스키마
CREATE TABLE episodes (
    episode_id     UUID PRIMARY KEY,
    task_family    TEXT NOT NULL,        -- 예: code_fix, theorem_search
    task_spec      JSONB NOT NULL,       -- 문제 정의 (재현 가능해야 함)
    agent_version  TEXT NOT NULL,        -- 모델+프롬프트+루프 버전
    started_at     TIMESTAMPTZ NOT NULL,
    ended_at       TIMESTAMPTZ
);

CREATE TABLE steps (
    step_id        BIGSERIAL PRIMARY KEY,
    episode_id     UUID REFERENCES episodes(episode_id),
    action         JSONB NOT NULL,       -- 제안된 후보/도구 호출
    observation    JSONB NOT NULL,       -- 검증기 출력, 오류 메시지
    reward         DOUBLE PRECISION,     -- 검증기 점수 (없으면 NULL)
    created_at     TIMESTAMPTZ DEFAULT now()
);

-- 핵심: 실패도 저장한다. 실패 사례가 다음 모델의 학습 신호다.
CREATE INDEX idx_steps_reward ON steps (reward) WHERE reward IS NOT NULL;

포인트는 세 가지입니다. 첫째, 실패를 버리지 마세요. RLVR류 사후학습에서 오답 경로는 대비 학습의 재료가 됩니다. 둘째, 재현 가능성을 스키마 수준에서 강제하세요. task_spec과 agent_version 없이 쌓인 경험은 학습 데이터로 쓸 수 없습니다. 셋째, 보상 칼럼을 처음부터 두세요. 지금은 휴리스틱 점수라도, 나중에 정교한 검증기로 다시 채점(re-label)할 수 있는 구조가 중요합니다.

검증기 포트폴리오 점검표

[ ] 즉시 검증기: 컴파일/타입체크/린트 — 에이전트 루프의 1차 게이트
[ ] 기능 검증기: 단위/속성/통합 테스트 — 커버리지가 곧 보상 품질
[ ] 시뮬레이션 검증기: 도메인 시뮬레이터 — 실세계 실험의 저렴한 대리
[ ] 통계 검증기: A/B, 오프라인 평가 — 느리지만 최종 판정에 근접
[ ] 인간 검증기: 리뷰/감사 — 가장 비싸므로 위 단계로 최대한 필터링
[ ] 적대 검증기: 보상 해킹 탐지 — 검증기를 속이는 해를 잡는 2차 검증

마지막 항목이 자주 빠집니다. 검증기가 보상이 되는 순간, 검증기의 허점은 곧 에이전트의 목표가 됩니다. 굿하트의 법칙은 RL의 오랜 적이었고, 에이전트 시대의 운영 리스크이기도 합니다.

연구 지형 한눈에 보기

흐름	대표 키워드	모방-경험 스펙트럼 위치	2026년 상태
사전학습 스케일링	데이터 큐레이션, 합성 데이터	모방 쪽 끝	수확 체감 논쟁 진행 중
사후학습 RL	RLVR, 프로세스 보상	중간	추론 모델의 표준 레시피
추론 시 탐색	test-time search, 셀프 컨시스턴시	중간	비용 대비 효과 검증 단계
에이전트 경험 수집	장시간 자율 작업, 루프 엔지니어링	경험 쪽	인프라 구축 경쟁 초기
자율 실험 시스템	자동화 랩, 시뮬레이터 결합	경험 쪽 끝	소재/생물 분야 파일럿

마치며 — 모방과 발견은 적이 아니다

논쟁을 한 문장으로 정리하면 이렇습니다. 모방은 발견의 출발점이 될 수 있지만, 발견의 완성에는 세계의 채점이 필요하다.

AlphaGo의 역사가 이미 답의 형태를 보여줬다고 생각합니다. 인간 기보 모방으로 시작해(모방), 자기대국으로 천장을 뚫고(경험), 마침내 모방 없이도 더 강해졌습니다(AlphaZero). LLM과 과학 발견의 관계도 비슷한 궤적을 그릴 가능성이 높습니다. 지금 우리는 첫 번째와 두 번째 단계 사이 어딘가에 있습니다.

개발자로서의 결론은 실용적입니다. 모델의 모방 능력을 발견의 증거로 착각하지 말 것, 그러나 모방 능력 위에 검증 루프를 얹으면 실제로 새로운 것이 나온다는 사실 또한 무시하지 말 것. Sutton의 도발은 LLM을 버리라는 말이 아니라, 경험과 검증이라는 잃어버린 반쪽을 시스템에 되돌려 놓으라는 요구로 읽는 것이 가장 생산적입니다.

마지막으로 체크리스트 형태로 요약합니다.

[ ] 우리 에이전트의 검증기는 무엇인가? 그 품질을 측정하고 있는가?
[ ] 실패 이력이 다음 시도의 컨텍스트로 되먹임되는가?
[ ] 탐색 예산(후보 수, 다양성, 중단 조건)이 명시되어 있는가?
[ ] 경험(시도-결과 쌍)이 재사용 가능한 형태로 축적되는가?
[ ] 보상 해킹을 잡는 2차 검증이 존재하는가?
[ ] "새로운 제안"에 대한 검증 비용을 의식적으로 책정하는가?

이 여섯 줄에 예라고 답할 수 있다면, 여러분의 시스템은 이미 모방 기계가 아니라 작은 발견 기계 쪽으로 움직이고 있는 것입니다.