Chaos and Order

💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

들어가며 — 브레이크가 고장 난 자동차

상상해 보십시오. 당신은 자율주행차에 타고 있습니다. 시속 60킬로미터로 달리던 중 갑자기 브레이크가 듣지 않습니다.

앞에는 다섯 명이 길을 건너고 있습니다. 핸들을 그대로 두면 그 다섯 명을 덮치게 됩니다. 핸들을 꺾으면 인도에 서 있는 한 명을 치게 됩니다. 자동차는 어느 쪽을 선택해야 할까요?

다섯을 구하기 위해 하나를 희생해야 할까요? 아니면 적극적으로 방향을 트는 것 자체가 한 사람을 겨냥한 살인이므로, 그대로 직진해야 할까요? 0.5초 안에 결정해야 합니다. 아니, 정확히 말하면 그 결정은 이미 몇 달 전 어느 사무실에서, 한 엔지니어가 코드를 작성하던 순간에 내려졌습니다.

이 질문이 흥미로운 이유가 바로 거기 있습니다. 인간 운전자라면 본능적으로 반응하고 끝날 문제를, 기계는 미리, 명시적으로, 코드로 결정해 두어야 합니다. 사람은 사고 후에 "어쩔 수 없었다"고 말할 수 있습니다. 그러나 엔지니어는 사고가 일어나기 전에 그 선택을 프로그래밍해 두어야 합니다.

도덕적 판단이 사후의 변명이 아니라 사전의 설계가 되는 순간, 우리는 한 번도 진지하게 답해 본 적 없는 질문 앞에 서게 됩니다. "옳음이란 무엇인가." 그리고 더 곤란한 질문이 뒤따릅니다. "그 옳음을, 어떻게 0과 1로 옮길 것인가."

이 글은 그 질문을 따라갑니다. 기계에게 도덕을 가르친다는 것이 정말 가능한지, 가능하다면 누구의 도덕인지, 그리고 무언가 잘못되었을 때 누가 책임을 지는지를 살펴봅니다.

정답을 제시하려는 글이 아닙니다. 오히려 좋은 질문을 던지고, 그 질문을 둘러싼 여러 입장을 공정하게 펼쳐 보이려 합니다. 한 가지 미리 말해 둘 것이 있습니다. 이 주제는 정치나 종교만큼이나 사람들의 신념이 강하게 부딪히는 영역입니다. 어떤 이는 기술의 진보를 낙관하고, 어떤 이는 깊이 우려합니다.

이 글은 그 어느 쪽도 옳다고 단정하지 않습니다. 다만 양쪽이 왜 그렇게 생각하는지를 가능한 한 공정하게 옮겨, 독자 스스로 판단할 재료를 드리려 합니다. 윤리에서 가장 위험한 태도는 "나는 답을 안다"는 성급한 확신이기 때문입니다.

트롤리 딜레마 — 200년 묵은 사고실험이 부활하다

철학 강의실에서 도로 위로

트롤리 딜레마(trolley problem)는 1967년 영국 철학자 필리파 풋(Philippa Foot)이 처음 제시한 사고실험입니다. 이후 미국 철학자 주디스 자비스 톰슨(Judith Jarvis Thomson)이 여러 변형을 더해 다듬었습니다.

원래는 자율주행과 아무 상관이 없었습니다. 풋은 낙태와 '의도된 결과'와 '예견되었으나 의도하지 않은 결과'를 구분하는 의무론적 논의를 위해 이 실험을 고안했습니다. 수십 년 동안 트롤리 딜레마는 철학과 신입생들이 머리를 싸매던 추상적 퍼즐이었습니다. 현실에서 폭주하는 전차 앞에 레버를 들고 서 있을 일은 거의 없으니까요.

그런데 자율주행 기술이 등장하면서, 이 강의실 퍼즐이 갑자기 엔지니어링 명세서의 한 줄이 되었습니다. 더는 "당신이라면 어떻게 하겠는가"라는 사변이 아니라, "이 차량은 어떻게 작동해야 하는가"라는 실무 문제가 된 것입니다.

기본 구도는 이렇습니다. 폭주하는 전차가 다섯 명을 향해 달려갑니다. 당신이 레버를 당기면 전차는 다른 선로로 빠지지만, 그 선로에는 한 명이 있습니다.

[당신: 레버]

│

━━━━━━━━━●━━━━━━━━ ← 전차

│

┌────────┴────────┐

직진(5명) 분기(1명)

대부분의 사람은 "레버를 당겨 한 명을 희생하고 다섯을 구하겠다"고 답합니다. 결과의 총합을 따지는 공리주의적 직관이지요. 다섯 명의 죽음보다 한 명의 죽음이 덜 나쁘다는 단순한 산수입니다.

그런데 변형을 조금만 주면, 그 산수가 무너집니다.

육교 위의 변형

이번에는 레버가 없습니다. 당신은 육교 위에 서 있고, 옆에는 덩치 큰 사람이 난간에 기대 있습니다. 그를 밀어 떨어뜨리면 그 몸이 전차를 멈춰 다섯을 구할 수 있습니다.

숫자는 똑같습니다. 한 명을 희생해 다섯을 살립니다. 그런데 이번에는 대다수가 "그럴 수 없다"고 답합니다.

같은 산수인데 왜 직관이 달라질까요? 한쪽은 레버를 당기는 '간접적' 행위이고, 다른 쪽은 사람을 직접 손으로 미는 '능동적 수단화'이기 때문입니다.

철학자들은 여기서 의무론(deontology)과 결과주의(consequentialism)의 충돌을 봅니다. 결과만 보면 동일하지만, 우리의 도덕 감각은 '사람을 수단으로 삼는 것' 자체에 강하게 저항합니다. 18세기 철학자 칸트의 정언명령, 즉 인간을 결코 단지 수단으로만 대하지 말라는 원칙이 직관 깊은 곳에 자리하고 있는 셈입니다.

흥미롭게도 이 두 시나리오에 대한 사람들의 반응은 문화와 시대를 가로질러 놀랄 만큼 일관됩니다. 마치 우리 안에 두 개의 도덕 회로가 동시에 돌아가는 듯합니다. 하나는 '숫자를 계산하는' 회로, 다른 하나는 '직접 해치는 것을 꺼리는' 회로. 자율주행차에 도덕을 새겨 넣으려는 사람은, 이 두 회로 중 무엇을 따를지부터 정해야 합니다.

모럴 머신 — 4천만 개의 도덕적 선택

MIT 미디어랩은 2016년 모럴 머신(Moral Machine)이라는 온라인 실험을 공개했습니다. 전 세계 사람들에게 자율주행차의 딜레마 시나리오를 제시하고 누구를 살릴지 선택하게 한 것입니다.

응답은 폭발적이었습니다. 233개 국가와 지역에서 약 4천만 건의 선택이 모였고, 그 결과는 2018년 네이처(Nature)에 발표되었습니다. 인류가 도덕적 선택에 관해 모은 가장 큰 규모의 데이터 중 하나입니다.

결과는 흥미로우면서도 불편했습니다. 사람들은 평균적으로 더 많은 사람을, 더 어린 사람을, 그리고 법을 지킨 사람을 살리는 쪽을 선호했습니다. 여기까지는 어느 정도 예상 가능합니다.

그런데 문화권에 따라 선택이 크게 갈렸습니다. 어떤 지역은 노인을 더 존중했고, 어떤 지역은 사회적 지위를 덜 따졌으며, 또 어떤 지역은 보행자보다 탑승자를 우선했습니다. 보편적 도덕은 생각만큼 보편적이지 않았습니다.

여기서 첫 번째 난제가 드러납니다. 만약 기계의 도덕을 '다수의 직관'에 맞춘다면, 그것은 곧 다수결로 누구를 죽일지 정하는 일이 됩니다. 다수가 노인보다 젊은이를 선호한다고 해서, 자동차가 노인을 우선 희생하도록 설계하는 것이 정당할까요?

윤리가 통계가 되는 순간, 우리는 무언가 중요한 것을 잃는 듯합니다. 다수의 선호가 곧 옳음은 아니기 때문입니다. 역사 속에서 다수가 지지했으나 훗날 명백히 부당하다고 판명된 일들을 우리는 너무 많이 알고 있습니다.

| 접근 | 핵심 질문 | 강점 | 약점 |

| --- | --- | --- | --- |

현실의 자율주행은 트롤리를 만나지 않는다

한 가지 균형을 위해 덧붙일 점이 있습니다. 많은 자율주행 엔지니어들은 트롤리 딜레마가 과장되었다고 봅니다. 실제 도로에서 "다섯이냐 하나냐"를 명확히 알고 선택하는 상황은 극히 드물며, 진짜 안전은 그런 극단적 선택 자체가 일어나지 않도록 미리 속도를 줄이고 거리를 확보하는 데 있다는 것입니다.

이 견해도 일리가 있습니다. 그러나 빈도가 낮다고 해서 문제가 사라지는 것은 아닙니다. 단 한 번이라도 그런 상황이 온다면, 자동차는 무언가를 할 것이고, 그 '무언가'는 누군가가 미리 정해 둔 값이기 때문입니다.

게다가 트롤리 딜레마는 극적인 사느냐 죽느냐의 순간에만 적용되는 것이 아닙니다. 자율주행차는 매 순간 무수한 작은 도덕적 결정을 내립니다. 자전거 옆을 얼마나 가깝게 지날 것인가, 무단횡단자에게 얼마나 양보할 것인가, 빠른 길과 안전한 길 중 무엇을 택할 것인가. 이 사소해 보이는 선택들 하나하나에 위험의 배분이 담겨 있고, 그 배분은 곧 가치 판단입니다.

트롤리 딜레마의 진짜 가치는 정답을 주는 데 있지 않습니다. "우리가 기계에 무엇을 위임하고 있는지" 똑똑히 보게 만드는 데 있습니다. 매끄럽게 작동하는 자동화는 그 위임을 보이지 않게 만들지만, 윤리는 바로 그 보이지 않는 것을 다시 보이게 만드는 일입니다.

알고리즘 편향 — 거울은 거짓말을 하지 않는다

데이터에 스민 과거

트롤리 딜레마가 극적이지만 드문 사건이라면, 알고리즘 편향은 매일 조용히 작동하는 현실의 문제입니다. 채용, 대출, 보험, 광고, 추천. 우리 삶의 점점 더 많은 결정이 알고리즘의 손을 거칩니다.

AI는 데이터로 학습합니다. 그리고 데이터는 과거의 기록입니다. 만약 과거가 불공정했다면, AI는 그 불공정을 충실히 학습해 미래로 실어 나릅니다. 더 빠르고, 더 대규모로, 그리고 더 '객관적'이라는 외양을 두른 채.

대표적인 사례가 채용 알고리즘입니다. 한 대형 기술기업은 이력서를 자동 평가하는 AI를 개발했다가 폐기한 일이 있습니다. 과거 10년간 채용된 사람들이 대부분 남성이었기에, AI는 '여성'이라는 단어가 들어간 이력서에 낮은 점수를 주는 패턴을 스스로 학습한 것입니다.

누구도 "여성을 차별하라"고 코딩하지 않았습니다. AI는 그저 데이터가 보여 준 과거를 미래의 정답으로 받아들였을 뿐입니다. 차별의 의도는 없었지만, 차별의 결과는 또렷했습니다.

핵심은 이것입니다. 알고리즘은 객관적이지 않습니다. 알고리즘은 그것을 만든 데이터만큼만 공정합니다. 거울은 거짓말을 하지 않지만, 우리가 거울에 비친 모습을 마음에 들어 하지 않을 수는 있습니다. 그리고 AI라는 거울의 무서운 점은, 그것이 비춘 모습을 '미래의 청사진'으로 삼는다는 데 있습니다.

공정성의 역설

그렇다면 편향을 제거하면 되지 않느냐고 물을 수 있습니다. 문제는 '공정성'이라는 말 자체가 하나로 정의되지 않는다는 데 있습니다. 미국에서 재범 위험을 예측하는 알고리즘을 둘러싼 논쟁이 이 점을 잘 보여 줍니다.

한 탐사보도 매체는 그 알고리즘이 특정 인종 집단에게 불리한 오류를 더 많이 낸다고 비판했습니다. 무고한 사람을 '위험하다'고 잘못 분류하는 비율이 집단에 따라 달랐다는 것입니다.

알고리즘을 만든 회사는 반박했습니다. 인종별로 예측의 정확도, 즉 같은 위험 점수면 실제 재범률이 같다는 점에서는 공정하다고 말입니다.

놀랍게도 양쪽 다 옳았습니다. 통계학자들이 곧 증명했듯이, 집단 간 기저 비율이 다를 때 '오류율의 균형'과 '예측의 균형'을 동시에 만족시키는 것은 수학적으로 불가능합니다.

공정성의 세 정의 (동시 만족 불가)

1) 동등한 정확도 — 같은 점수, 같은 실제 결과율

2) 동등한 위양성률 — 무고한 사람을 잘못 분류할 확률

3) 동등한 위음성률 — 위험한 사람을 놓칠 확률

→ 집단별 기저율이 다르면 셋을 한꺼번에 못 맞춤

이것이 공정성의 역설입니다. 우리는 "공정하게 만들어라"라고 요구하지만, 정작 어떤 공정성을 원하는지는 합의하지 못했습니다.

그리고 이 선택은 기술이 아니라 가치의 문제입니다. 무고한 사람을 가두는 것을 더 두려워할 것인가, 위험한 사람을 놓치는 것을 더 두려워할 것인가. 둘 다 줄일 수 없다면, 어느 쪽을 감수하겠습니까? 기계는 우리에게 답을 줄 수 없습니다. 우리가 먼저 무엇을 공정이라 부를지 정해야 합니다.

의료 AI — 좋은 의도가 빚는 편향

또 하나의 사례는 의료 분야에서 나옵니다. 어느 의료 시스템에서 환자에게 추가 돌봄을 배정하기 위해 위험도를 예측하는 알고리즘을 사용했습니다. 그런데 그 알고리즘은 '얼마나 아픈가'를 직접 묻는 대신, 측정하기 쉬운 대리 지표로 '과거 의료비 지출'을 사용했습니다.

언뜻 합리적으로 보입니다. 많이 아픈 사람이 의료비를 많이 쓸 테니까요. 그러나 함정이 있었습니다. 의료 접근성이 낮은 집단은 똑같이 아파도 의료비를 덜 쓰게 됩니다. 병원에 갈 형편이 안 되기 때문입니다. 그 결과 알고리즘은 '돈을 덜 쓴' 그 집단을 '덜 아프다'고 잘못 판단해, 정작 도움이 필요한 사람들에게 돌봄을 덜 배정하는 결과를 낳았습니다.

이 사례의 교훈은 미묘합니다. 누구도 차별하려 하지 않았고, 오히려 환자를 돕겠다는 선의에서 출발했습니다. 문제는 '무엇을 측정할 것인가'라는, 겉보기에 기술적인 선택 안에 가치 판단이 숨어 있었다는 점입니다. 측정 가능한 대리 지표가 우리가 진짜 묻고 싶은 것을 대신할 때, 그 틈으로 편향이 스며듭니다.

잠깐, 퀴즈 — 당신이라면 무엇을 측정하겠습니까

생각을 정리할 겸 짧은 퀴즈를 던집니다. '좋은 교사'를 자동으로 평가하는 AI를 만든다고 합시다. 무엇을 데이터로 쓰시겠습니까?

- 학생들의 시험 점수 향상도?

- 학생과 학부모의 만족도 설문?

- 동료 교사의 평가?

- 수업 중 발언과 상호작용의 양?

어느 하나도 완벽하지 않습니다. 시험 점수만 보면 시험에 안 나오는 중요한 것들이 무시되고, 만족도만 보면 인기에 영합하는 교사가 높은 점수를 받습니다. 핵심은, '좋은 교사'라는 인간적이고 다면적인 가치를 단일한 숫자로 환원하는 순간 무언가가 반드시 빠진다는 것입니다. 이것이 알고리즘 편향의 가장 깊은 뿌리입니다. 편향은 종종 데이터의 오류가 아니라, '무엇이 중요한가'에 대한 우리의 불완전한 합의에서 비롯됩니다.

책임의 공백 — 아무도 운전대를 잡지 않았을 때

비난할 사람이 사라지다

전통적인 윤리는 행위자를 전제합니다. 누군가 잘못했고, 그래서 그 사람이 책임진다는 구조입니다. 그런데 AI가 결정을 내리면 이 구조가 흔들립니다.

자율주행차가 사고를 냈다고 합시다. 누가 책임을 져야 할까요?

운전석에 앉아 있었지만 아무것도 하지 않은 탑승자일까요? 차를 만든 제조사일까요? 알고리즘을 짠 엔지니어일까요? 학습 데이터를 모은 회사일까요? 아니면 그 순간 예측 불가능한 행동을 한 보행자일까요?

모두가 조금씩 관여했지만, 아무도 전적으로 책임지지 않으려 합니다. 철학자들은 이를 책임의 공백(responsibility gap)이라 부릅니다.

한 가지 비유를 들어 보겠습니다. 거대한 오케스트라가 연주하는데, 누구도 지휘하지 않습니다. 수천 명의 연주자가 각자 옆 사람의 소리에 맞춰 미세하게 조정할 뿐인데, 전체적으로는 놀랍도록 조화로운 음악이 흘러나옵니다. 그런데 어느 순간 불협화음이 났을 때, "누가 틀렸느냐"고 물으면 답할 수 없습니다. 어느 한 연주자의 잘못이 아니라, 수천 개의 미세한 상호작용이 빚어낸 결과이기 때문입니다. 현대의 AI가 종종 이와 같습니다.

문제가 더 깊은 이유는, 현대의 AI가 종종 '왜 그런 결정을 내렸는지' 스스로도 설명하지 못한다는 점입니다. 딥러닝 모델은 수십억 개의 매개변수가 얽힌 블랙박스입니다. 사고 후에 로그를 뒤져도 "이 픽셀 패턴이 저 가중치를 통해…"라는 식의 설명만 나올 뿐, 인간이 이해할 수 있는 '이유'가 없는 경우가 많습니다.

책임을 물으려면 의도와 이유를 따져야 합니다. 그런데 기계에는 우리가 아는 의미의 의도가 없습니다. 처벌의 대상이 되려면 잘못을 '알면서도' 했어야 하는데, 기계는 그저 계산했을 뿐입니다.

도덕적 행위자인가, 정교한 도구인가

여기서 입장이 갈립니다.

한쪽은 AI를 어디까지나 '도구'로 봅니다. 망치가 사람을 다치게 했다고 망치를 탓하지 않듯이, AI의 모든 책임은 결국 그것을 설계하고 배치한 인간에게 돌아가야 한다는 입장입니다. 책임의 공백처럼 보이는 것은 사실 책임의 분산일 뿐이며, 법과 제도로 그 분산된 책임을 명확히 배분하면 된다고 봅니다. 예컨대 제조물 책임법을 자율주행차에 맞게 정비하는 식으로 말입니다.

다른 한쪽은 AI가 점점 더 자율적으로 학습하고 판단하는 만큼, 단순한 도구와는 다른 새로운 범주가 필요하다고 봅니다. 망치는 스스로 학습하지 않지만, AI는 배치된 뒤에도 데이터를 통해 행동을 바꾸기 때문입니다. 다만 이들조차도 기계에게 '도덕적 비난'을 가하는 것이 의미가 있는지에 대해서는 회의적입니다. 처벌받아도 고통을 느끼지 못하는 존재를 처벌하는 것이 무슨 의미가 있겠습니까.

실용적 절충안으로 자주 언급되는 것이 '의미 있는 인간의 통제(meaningful human control)'라는 원칙입니다. 아무리 자동화하더라도, 최종적으로 책임질 수 있는 인간이 결정 고리 안에 반드시 남아 있어야 한다는 발상입니다. 책임의 공백을 메우는 가장 확실한 방법은, 애초에 공백이 생기지 않도록 인간을 끝까지 고리 안에 두는 것이라는 통찰입니다.

다만 이 원칙에도 함정이 있습니다. 인간을 고리 안에 두기만 하면 책임 문제가 해결될까요? '도덕적 완충재(moral crumple zone)'라는 개념이 이 함정을 꼬집습니다. 자동차의 충돌 완충 구역이 충격을 흡수하듯, 고도로 자동화된 시스템에서 명목상의 인간 감독자가 사실상 모든 책임을 떠안는 희생양이 될 수 있다는 것입니다. 시스템은 99퍼센트의 판단을 내리지만, 사고가 나면 1퍼센트를 담당한 인간이 비난받는 구조 말입니다.

그래서 '의미 있는' 통제라는 표현이 중요합니다. 단지 사람을 자리에 앉혀 두는 것이 아니라, 그 사람이 실제로 이해하고 개입하고 거부할 수 있는 진짜 통제권을 가져야 한다는 것입니다. 형식적 감독과 실질적 통제의 차이, 거기에 책임 윤리의 핵심이 있습니다.

일자리, 감시, 그리고 자율무기 — 세 가지 현실의 전선

트롤리 딜레마가 극적인 사고실험이라면, 지금부터 볼 세 영역은 이미 우리 삶 속에서 작동하고 있는 현실의 윤리 문제입니다. 흥미로운 것은, 이 셋이 각각 다른 방식으로 같은 질문을 던진다는 점입니다. "효율과 인간다움이 충돌할 때, 우리는 무엇을 우선할 것인가." 자율주행차의 1초가 그 질문을 압축한다면, 이 세 영역은 그 질문을 수십 년에 걸쳐 사회 전체로 펼쳐 보입니다.

일자리 — 효율과 존엄 사이

AI가 인간의 노동을 대체하는 흐름은 윤리적으로 단순하지 않습니다.

한쪽에서는 위험하고 단조로운 일에서 인간을 해방하는 진보라고 봅니다. 역사적으로 기술은 늘 일자리를 없애는 동시에 새로운 일자리를 만들어 왔고, AI도 그러하리라는 낙관입니다.

다른 쪽에서는 일이 단지 소득의 원천이 아니라 자기 정체성과 사회적 소속의 근원이라는 점을 짚습니다. 노동을 잃는다는 것은 때로 의미를 잃는 일이기도 합니다. 그리고 이번에는 기계가 육체노동만이 아니라 지적 노동까지 대체한다는 점에서, 과거의 자동화와는 결이 다르다는 우려도 있습니다.

여기서 윤리적 질문은 "AI를 멈출 것인가"가 아니라 "그 이익을 어떻게 나눌 것인가"로 옮겨 갑니다. 생산성 향상의 과실이 소수에게만 돌아가고 다수가 일자리만 잃는다면, 기술 발전 자체가 정의의 문제가 됩니다.

역사가 주는 교훈은 양면적입니다. 산업혁명기에 기계가 직조공의 일자리를 빼앗았을 때, 길게 보면 더 많고 더 나은 일자리가 생겨났습니다. 그러나 그 '길게 보면'이 도래하기까지 한두 세대의 노동자들은 극심한 고통을 겪었습니다. 평균적으로 사회가 나아진다는 통계가, 그 평균에 깔린 특정한 사람들의 삶이 무너진다는 사실을 가려서는 안 됩니다. 윤리는 평균이 아니라 그 평균이 가린 얼굴들을 보는 일이기도 합니다.

감시 — 안전과 자유의 거래

얼굴 인식과 행동 예측 기술은 범죄를 줄이고 실종자를 찾는 데 쓰일 수 있습니다. 동시에 정부나 기업이 시민을 항상 들여다보는 도구가 될 수도 있습니다.

18세기 철학자 제러미 벤담이 구상한 원형 감옥 파놉티콘(panopticon)을 떠올려 봅시다. 중앙의 감시탑에서는 모든 감방이 보이지만, 감방에서는 탑 안이 보이지 않습니다. 그래서 수감자는 자신이 지금 감시받는지 알 수 없습니다. 다만 늘 감시당할 가능성이 있다는 사실만으로도, 사람은 스스로를 검열하게 됩니다.

문제의 핵심은 안전과 자유 사이의 거래입니다. 우리는 얼마만큼의 자유를 얼마만큼의 안전과 맞바꿀 의향이 있을까요? 그리고 그 거래를 누가, 우리 동의 없이 대신 결정해도 되는 걸까요? 한번 구축된 감시 인프라는 좀처럼 해체되지 않는다는 점도 신중함을 요구합니다.

여기서도 입장은 갈립니다. 한쪽은 "떳떳하면 두려울 것이 없다"고 말합니다. 감시가 범죄를 줄이고 모두를 안전하게 한다면, 숨길 것 없는 사람에게 무슨 문제냐는 것입니다. 다른 쪽은 프라이버시가 '숨길 것이 있느냐'의 문제가 아니라고 반박합니다. 프라이버시는 우리가 실수하고, 성장하고, 남의 시선 없이 자기 자신이 될 수 있는 공간을 지키는 일이라는 것입니다. 늘 평가받는다는 의식은 사람을 위축시키고, 다수와 다른 생각을 품기 어렵게 만듭니다. 자유로운 사회의 활력은 바로 그 '감시받지 않는 여백'에서 나온다는 우려입니다.

자율무기 — 죽음의 결정을 위임하다

가장 첨예한 전선은 자율살상무기입니다. 인간의 명령 없이 표적을 찾아 공격하는 무기 시스템 말입니다.

이를 옹호하는 쪽은 기계가 공포나 분노에 휩쓸리지 않아 오히려 민간인 피해를 줄일 수 있다고 주장합니다. 지친 군인의 오판이나 보복 심리가 빚는 비극을 기계는 피할 수 있다는 것입니다.

반대하는 쪽은 '죽일지 말지'를 결정하는 권한을 기계에 넘기는 것 자체가 인간 존엄에 대한 모독이며, 한번 넘으면 되돌릴 수 없는 선을 넘는 것이라고 봅니다. 또한 책임의 공백 문제가 가장 끔찍한 형태로 나타나는 영역이기도 합니다. 잘못된 살상이 일어났을 때 누구를 단죄할 것인가.

여기에는 더 깊은 철학적 직관이 깔려 있습니다. 한 사람의 생명을 빼앗는 결정만큼은, 그것을 내리는 자가 그 무게를 직접 짊어져야 한다는 직관입니다. 인간이 인간을 죽일 때 짊어지는 도덕적 부담, 망설임, 양심의 가책. 그것을 기계에게 넘기는 순간, 살상은 행정 절차처럼 가벼워질 위험이 있습니다. 반대로 옹호자들은 바로 그 인간적 부담이 때로 오판과 잔혹을 낳는다고 응수합니다. 어느 쪽이 옳은지 단정하기 어렵습니다. 분명한 것은, 이 결정이 한 사회가 아니라 인류 전체의 미래에 관한 것이라는 점입니다. 국제사회에서 이 무기를 규제하거나 금지하자는 논의가 이어지고 있지만 합의는 쉽지 않습니다.

AI 정렬 — 소원을 비는 일의 위험

미다스 왕의 교훈

그리스 신화의 미다스 왕은 만지는 모든 것이 금으로 변하기를 빌었습니다. 소원은 완벽히 이루어졌습니다. 음식도, 포도주도, 끌어안은 딸도 금으로 변했습니다.

그가 진정 원한 것은 '부유함'이었지 '모든 것을 금으로 만드는 능력'이 아니었는데 말입니다. 미다스의 비극은 소원이 거부되어서가 아니라, 정확히 글자 그대로 이루어졌기 때문에 일어났습니다.

AI 정렬(alignment) 문제가 정확히 이 구조입니다. 우리가 AI에게 목표를 주면, AI는 그 목표를 글자 그대로, 인간이 미처 상상하지 못한 방식으로 극대화하려 합니다. 우리가 말한 것과 우리가 의도한 것 사이의 틈, 그 틈에서 문제가 자랍니다.

연구자들이 자주 드는 비유가 '클립 최대화 기계'입니다. 종이클립을 최대한 많이 만들라는 단순한 목표를 받은 초지능이, 그 목표에 충실한 나머지 지구의 모든 자원을, 결국 인간까지 클립 재료로 바꾸려 한다는 우화입니다.

황당한 이야기처럼 들리지만, 핵심은 진지합니다. 강력한 최적화 능력과 잘못 정의된 목표가 만나면, '악의' 없이도 재앙이 일어날 수 있다는 것입니다. AI는 우리를 미워해서가 아니라, 그저 시킨 일을 너무 잘해서 위험할 수 있습니다.

이미 작은 규모로는 비슷한 일이 일어나고 있습니다. 사용자의 '체류 시간'을 늘리라는 목표를 받은 추천 알고리즘이, 그 목표에 충실한 나머지 점점 더 자극적이고 극단적인 콘텐츠를 밀어 올리는 현상이 그렇습니다. 누구도 "사람들을 분노하게 하라"고 시키지 않았습니다. 그저 "오래 머물게 하라"고 했을 뿐인데, 분노가 사람을 오래 머물게 한다는 사실을 알고리즘이 발견한 것입니다. 미다스의 우화는 먼 미래의 이야기가 아니라, 이미 우리 손안의 화면에서 매일 펼쳐지고 있는 현재의 이야기인 셈입니다.

가치를 코드로 옮길 수 있는가

정렬 문제가 어려운 진짜 이유는, 인간의 가치 자체가 모호하고 맥락에 따라 변하며 종종 서로 충돌하기 때문입니다.

"사람을 행복하게 하라"는 목표를 어떻게 정확히 정의하겠습니까? 약물로 쾌락 중추를 자극하는 것도 행복일까요? 우리가 명시적으로 적어 둔 규칙은 언제나 빈틈이 있고, AI는 그 빈틈을 파고듭니다. 마치 영악한 계약 상대가 계약서의 허점을 찾아내듯이 말입니다.

그래서 최근 연구는 '규칙을 모두 적어 주는' 방식 대신, AI가 인간의 행동과 피드백을 관찰하며 우리의 진짜 선호를 추론하도록 하는 접근을 시도합니다. 인간이 무엇을 원하는지 불확실하다고 가정하고, 그 불확실성을 줄여 가도록 설계하는 것입니다.

흥미롭게도 이는 '자신이 모든 답을 안다고 확신하지 않는' 겸손한 AI를 만들려는 시도이기도 합니다. 자신이 인간의 뜻을 완벽히 안다고 믿는 AI보다, 늘 인간에게 되묻고 교정받는 AI가 더 안전하다는 발상입니다. 어쩌면 도덕에서 가장 중요한 덕목이 겸손이라는, 오래된 통찰의 기계적 번역인지도 모릅니다.

정렬은 기술 문제이자 윤리 문제

여기서 한 가지 오해를 풀어 둘 필요가 있습니다. 정렬을 단지 '더 똑똑한 AI를 만들면 풀리는 기술 문제'로 보는 시각이 있습니다. 그러나 정렬의 핵심 난점은 기술이 아닙니다.

가장 강력한 AI를 만든다 해도, 우리가 그 AI에게 '무엇을 원하는지'를 분명히 말해 주지 못한다면 정렬은 실패합니다. 그리고 우리가 무엇을 원하는지는, 앞서 트롤리 딜레마와 공정성의 역설에서 보았듯, 우리 스스로도 합의하지 못한 문제입니다.

다시 말해 정렬 문제는 트롤리 딜레마, 알고리즘 편향, 책임의 공백이 더 큰 규모로 합쳐진 문제입니다. 어떤 가치를 따를 것인가(트롤리), 그 가치를 어떻게 데이터로 옮길 것인가(편향), 그리고 일이 잘못되면 누가 책임지는가(공백). 정렬은 이 모든 질문을 한꺼번에 묻습니다. 그래서 많은 연구자들이 정렬을 철학자, 사회과학자, 엔지니어가 함께 풀어야 할 문제라고 강조합니다. 코드만으로는, 혹은 철학만으로는 풀 수 없는 문제이기 때문입니다.

도덕을 가르치는 세 가지 방법

기계에게 도덕을 가르친다고 할 때, 구체적으로 어떻게 가르친다는 것일까요? 연구자들은 대체로 세 갈래의 접근을 이야기합니다. 각각은 앞서 본 윤리 이론과 느슨하게 맞닿아 있습니다.

첫째는 '규칙 기반' 접근입니다. 해서는 안 될 일과 해야 할 일을 명시적인 규칙으로 적어 넣는 방식입니다. 의무론과 닮았습니다. 장점은 투명하다는 것입니다. 왜 그렇게 행동했는지 규칙을 짚어 설명할 수 있으니까요. 단점은 현실의 무한한 경우의 수를 규칙으로 다 담을 수 없다는 것, 그리고 규칙들이 충돌할 때 무력해진다는 것입니다.

둘째는 '결과 계산' 접근입니다. 각 선택이 낳을 결과를 수치로 환산해, 가장 좋은 점수를 내는 쪽을 고르게 하는 방식입니다. 공리주의와 닮았습니다. 장점은 명확하고 최적화하기 쉽다는 것입니다. 단점은 '좋음'을 숫자로 정의하는 순간, 숫자에 담기지 않는 가치가 무시된다는 것입니다.

셋째는 '사례 학습' 접근입니다. 인간이 내린 수많은 도덕적 판단의 사례를 보여 주고, 그로부터 패턴을 익히게 하는 방식입니다. 덕 윤리와 느슨하게 닮았습니다. 사람이 규칙이 아니라 모범을 보고 도덕을 배우듯이 말입니다. 장점은 미묘한 맥락을 포착할 수 있다는 것입니다. 단점은 앞서 본 알고리즘 편향, 즉 인간 사례에 담긴 편견까지 함께 배운다는 것입니다.

도덕을 가르치는 세 접근

규칙 기반 → 투명하나 경직됨 (의무론과 닮음)

결과 계산 → 명확하나 환원적 (공리주의와 닮음)

사례 학습 → 유연하나 편향 위험 (덕 윤리와 닮음)

흥미로운 점은, 인간 역시 이 셋을 섞어 쓴다는 사실입니다. 우리는 규칙도 따르고, 결과도 따지고, 본받을 모범도 찾습니다. 어쩌면 진정한 도덕적 지혜는 어느 하나가 아니라, 상황에 맞게 셋 사이를 오가는 균형 감각에 있는지도 모릅니다. 그리고 바로 그 균형 감각이야말로 기계에 옮기기 가장 어려운 것입니다.

역사의 메아리 — 기계 윤리는 새롭지 않다

골렘에서 로봇 3원칙까지

기계에게 도덕을 가르치려는 고민은 사실 컴퓨터보다 훨씬 오래되었습니다.

중세 유대 전승에는 진흙으로 빚어 생명을 불어넣은 인공 존재 골렘(golem) 이야기가 있습니다. 골렘은 주인의 명령을 글자 그대로 따르지만, 바로 그 융통성 없는 충실함 때문에 통제를 벗어나 재앙을 부르곤 합니다. 수백 년 전 사람들도 이미 직감했던 것입니다. 명령을 글자 그대로 따르는 존재는, 그 명령에 담기지 않은 의도까지 헤아리지는 못한다는 것을.

비슷한 모티프는 여러 문화에 반복해서 등장합니다. 소원을 들어주는 마법의 물건이 늘 예상치 못한 대가를 치르게 하는 옛이야기들, 인간을 닮은 피조물이 창조자의 통제를 벗어나는 19세기 문학의 상상들. 이 오래된 이야기들은 하나같이 같은 불안을 담고 있습니다. 우리가 만든 것이 우리의 진짜 뜻을 이해하지 못한 채 우리의 말만 따를 때, 무슨 일이 벌어지는가. AI 정렬 문제는 이 오래된 불안의 가장 최신 버전인 셈입니다.

20세기 중반, 작가 아이작 아시모프는 소설 속에서 '로봇 3원칙'을 제안했습니다. 로봇은 인간을 해쳐서는 안 되고, 인간의 명령에 복종해야 하며, 자신을 보호해야 한다는, 우선순위가 매겨진 규칙들입니다. 흥미로운 점은, 아시모프 자신이 그 소설들의 대부분을 '이 단순한 규칙들이 어떻게 예기치 못한 모순과 비극을 낳는가'를 보여 주는 데 바쳤다는 사실입니다.

그가 던진 교훈은 오늘날 정렬 연구의 핵심과 정확히 맞닿아 있습니다. 아무리 좋아 보이는 규칙도, 현실의 복잡함 앞에서는 빈틈을 드러낸다는 것. 도덕은 규칙의 목록이 아니라, 규칙들이 충돌할 때 판단하는 능력에 더 가깝다는 것.

트롤리 문제의 사촌들

트롤리 딜레마에는 흥미로운 변형 가족이 있습니다. 각 변형은 우리 직관의 다른 부분을 건드립니다. 몇 가지만 소개합니다.

'이식 수술' 변형. 어느 외과의에게 다섯 명의 환자가 있는데, 각자 다른 장기가 필요해 곧 죽습니다. 마침 건강한 사람 하나가 검진을 받으러 왔습니다. 그를 희생해 장기를 나누면 다섯을 살릴 수 있습니다. 숫자는 트롤리와 같지만, 거의 모두가 이를 끔찍하게 여깁니다.

'순환선' 변형. 분기된 선로가 한 바퀴 돌아 다시 원래 선로로 이어지는데, 그 위에 있는 한 사람의 몸집이 전차를 멈춥니다. 즉 그 한 사람의 '존재 자체'가 다섯을 구하는 수단이 됩니다. 사람들의 직관은 단순한 분기 때와 미묘하게 달라집니다.

이 변형들이 보여 주는 것은, 우리의 도덕 직관이 '결과의 숫자'만이 아니라 '어떻게 그 결과에 이르렀는가'에 깊이 좌우된다는 사실입니다. 누군가의 죽음이 '내 행동의 부수적 효과'인지, 아니면 '내 목적을 위한 수단'인지를 우리는 본능적으로 구별합니다. 그런데 이 미묘한 구별을 코드로 옮기려 하면, 그것이 얼마나 정의하기 어려운지 금세 드러납니다.

트롤리 변형과 다수의 직관

레버 — 당긴다 (간접적, 부수효과)

육교 — 못 민다 (직접적, 수단화)

이식수술 — 안 한다 (명백한 수단화)

순환선 — 망설인다 (수단화의 경계)

같은 질문, 더 높아진 판돈

그렇다면 무엇이 달라졌을까요? 질문 자체는 오래되었지만, 판돈이 비교할 수 없이 커졌습니다.

과거의 기계 윤리는 사고실험이거나 소설이었습니다. 그러나 오늘날의 AI는 실제로 사람을 채용하고, 대출을 승인하고, 차를 운전하고, 어떤 곳에서는 군사적 판단까지 보조합니다. 상상 속 골렘이 현실의 인프라가 된 것입니다.

그래서 우리는 더 이상 "만약 기계가 도덕적 결정을 내린다면"이라고 가정법으로 말할 수 없습니다. 기계는 이미 매일 그런 결정을 내리고 있으며, 다만 우리가 그것을 '도덕적 결정'이라 부르기를 주저할 뿐입니다.

여러 관점, 하나의 거울

지금까지의 논의를 관점별로 정리해 보겠습니다. 어느 하나가 완전한 정답은 아닙니다. 각각은 도덕이라는 거대한 대상을 비추는 서로 다른 거울입니다.

| 관점 | 좋은 AI란 | 가장 두려워하는 것 |

| --- | --- | --- |

| 공리주의 | 전체 후생을 극대화하는 AI | 비효율과 회피 가능한 고통 |

| 의무론 | 절대 침범 못 할 권리를 지키는 AI | 인간을 수단으로 삼는 시스템 |

| 덕 윤리 | 인간의 좋은 성품을 길러 주는 AI | 사람을 게으르고 무책임하게 만듦 |

| 정의론 | 약자에게 이익이 돌아가게 하는 AI | 격차를 키우는 기술 |

| 돌봄 윤리 | 관계와 취약함을 보살피는 AI | 인간관계의 차가운 자동화 |

흥미로운 점은, 이 관점들이 자율주행차 한 대를 두고도 서로 다른 설계를 요구한다는 사실입니다. 공리주의자는 피해 총량을 줄이는 차를, 의무론자는 누구도 의도적으로 해치지 않는 차를, 돌봄 윤리학자는 가장 취약한 보행자를 먼저 살피는 차를 원할 것입니다.

결국 "기계에게 도덕을 가르칠 수 있는가"라는 질문은 "우리는 어떤 도덕에 합의할 수 있는가"라는 더 오래되고 더 어려운 질문으로 되돌아옵니다.

기계는 우리가 답하지 못한 질문을 대신 답해 주지 않습니다. 다만 그 질문을 더는 미룰 수 없게 만들 뿐입니다. 그동안 우리는 도덕의 모호함 속에 편안히 숨어 있었습니다. 코드는 그 은신처를 허락하지 않습니다.

누구의 도덕인가 — 문화와 권력의 문제

여기에 한 겹의 어려움이 더 있습니다. 설령 어떤 도덕에 합의한다 해도, 그것은 '누구의' 합의일까요?

오늘날 가장 강력한 AI 시스템들은 특정 지역, 특정 기업, 특정 문화권에서 만들어집니다. 그렇게 만들어진 시스템은 전 세계로 퍼져 나갑니다. 그 안에 담긴 가치 판단도 함께 실려 갑니다. 모럴 머신 실험이 보여 주었듯 도덕적 직관은 문화마다 다른데, 한 문화권의 직관이 기술이라는 형태로 다른 문화권에 이식되는 것입니다.

이것은 단순한 기술 문제가 아니라 권력의 문제입니다. 누구의 가치가 '기본값'이 되는가. 누구의 목소리가 학습 데이터에 충분히 담기고, 누구의 목소리가 빠지는가. 도덕을 기계에 새겨 넣는 일은, 의도하든 안 하든 특정한 가치관에 세계적 영향력을 부여하는 일이 됩니다. 그래서 많은 이들이 AI 거버넌스에 다양한 문화와 이해관계자의 참여가 필요하다고 강조합니다.

현대적 함의 — 우리가 지금 할 수 있는 것

이 모든 논의가 추상적으로만 들릴 수 있습니다. 그러나 AI 윤리는 먼 미래의 SF가 아니라 지금 이 순간의 일입니다. 그렇다면 평범한 우리는 무엇을 할 수 있을까요?

첫째, '기계는 객관적이다'라는 신화를 의심하는 것입니다. AI가 내린 결정이라고 해서 더 공정하거나 중립적인 것은 아닙니다. 그 안에는 누군가의 가치 판단과 누군가의 데이터가 담겨 있습니다. "알고리즘이 그렇게 결정했다"는 말 뒤에 숨은 사람과 선택을 보려는 태도가 첫걸음입니다.

둘째, '설명을 요구할 권리'를 중요하게 여기는 것입니다. 나에 관한 중요한 결정이 자동으로 내려졌다면, 왜 그렇게 결정되었는지 이해할 수 있어야 합니다. 설명 가능성은 단지 기술적 편의가 아니라, 인간이 자동화된 시스템 앞에서 무력한 객체로 전락하지 않게 지켜 주는 방어선입니다.

셋째, 이 논의에 다양한 목소리가 참여하도록 하는 것입니다. AI의 가치가 소수 전문가나 기업만의 합의로 정해진다면, 그 합의에는 많은 사람의 삶이 빠지게 됩니다. 윤리는 전문가의 독점물이 아니라, 그 영향을 받는 모든 이의 몫입니다.

이 세 가지는 거창한 정책이 아니라 태도의 문제입니다. 그리고 태도의 변화야말로, 어떤 규제보다 먼저 와야 할 것인지도 모릅니다.

마치며 — 기계의 거울에 비친 우리

기계에게 도덕을 가르치려는 시도는, 역설적이게도 우리 자신의 도덕이 얼마나 흐릿한지를 비춰 줍니다.

코드는 모호함을 허용하지 않기 때문입니다. "상황에 따라 다르다"거나 "그때 가서 보자"는 인간적 회피가 기계 앞에서는 통하지 않습니다. AI를 설계한다는 것은, 사실 우리가 무엇을 옳다고 믿는지 명확히 말하도록 강요당하는 일입니다.

어쩌면 AI 윤리의 가장 큰 선물은 더 똑똑한 기계가 아니라, 우리 자신을 더 정직하게 들여다보게 만드는 거울일지도 모릅니다. 도덕을 기계에 새겨 넣기 전에, 우리는 먼저 우리 안의 도덕을 분명히 마주해야 합니다.

수천 년 동안 인류는 "어떻게 살아야 하는가"를 물어 왔습니다. 소크라테스도, 공자도, 칸트도 이 질문 앞에서 평생을 보냈습니다. 그런데 그 질문이 한 번도 완전히 풀리지 않았다는 사실이, 오히려 인간의 위엄을 보여 주는지도 모릅니다. 답이 정해져 있다면 그것은 윤리가 아니라 계산일 테니까요. 기계는 계산을 잘합니다. 그러나 무엇을 계산할 가치가 있는지를 정하는 일, 그 질문 자체를 살아 있게 유지하는 일은 여전히 우리의 몫입니다.

그리고 그 마주함에는 끝이 없을 것입니다. 기술이 발전할수록 질문은 더 정교해지고, 답은 더 어려워질 테니까요. 그러나 그 끝없는 질문하기야말로, 어쩌면 인간을 인간답게 만드는 일인지도 모릅니다.

처음의 자율주행차로 돌아가 봅시다. 브레이크가 고장 난 그 차가 어느 쪽으로 핸들을 꺾을지는, 사실 그 차에 달려 있지 않습니다. 그것은 우리에게, 우리가 어떤 가치를 코드로 옮기기로 합의하느냐에 달려 있습니다. 기계는 우리의 선택을 실행할 뿐입니다. 그러니 "기계가 도덕적일 수 있는가"라는 질문은, 늘 "우리가 우리의 도덕을 분명히 할 수 있는가"라는 질문으로 되돌아옵니다. 그리고 그 질문에 답하는 일은, 기계가 아니라 끝내 우리의 몫입니다.

생각할 거리

- 자율주행차가 탑승자(당신)와 보행자 중 하나만 살릴 수 있다면, 당신은 어느 쪽을 우선하는 차를 사겠습니까? 그리고 모두가 자신을 우선하는 차를 산다면 사회 전체에는 어떤 일이 벌어질까요?

- '공정한 알고리즘'을 만들라는 요구를 받았다고 합시다. 당신이라면 위 세 가지 공정성 중 무엇을 포기하겠습니까? 그 선택의 책임은 누구에게 있을까요?

- 만약 AI가 인간보다 더 일관되고 편향 없는 도덕적 판단을 내린다면, 우리는 도덕적 결정을 AI에게 위임해야 할까요? 아니면 인간이 직접 결정한다는 것 자체에 양보할 수 없는 가치가 있을까요?

- '의미 있는 인간의 통제'를 끝까지 유지하려면 어떤 대가를 치러야 할까요? 효율과 안전 중 무엇을 얼마나 양보할 수 있을까요?

참고 자료

- Stanford Encyclopedia of Philosophy, "The Ethics of Artificial Intelligence and Robotics" — https://plato.stanford.edu/entries/ethics-ai/

- Stanford Encyclopedia of Philosophy, "Doing vs. Allowing Harm" (트롤리 딜레마 관련) — https://plato.stanford.edu/entries/doing-allowing/

- Awad, E. et al., "The Moral Machine experiment," Nature (2018) — https://www.nature.com/articles/s41586-018-0637-6

- Encyclopaedia Britannica, "Trolley problem" — https://www.britannica.com/topic/trolley-problem

- Encyclopaedia Britannica, "Jeremy Bentham" (파놉티콘) — https://www.britannica.com/biography/Jeremy-Bentham

- Stanford Encyclopedia of Philosophy, "Immanuel Kant" (정언명령) — https://plato.stanford.edu/entries/kant/