Chaos and Order

💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

들어가며

자율주행은 인공지능이 가장 도전적으로 부딪히는 물리 세계 문제 중 하나입니다. 초당 수십 번, 주변 수백 미터의 상황을 파악하고, 다른 차와 보행자의 움직임을 예측하며, 안전한 경로를 계획하고, 실제로 차를 움직여야 합니다. 한 번의 실수가 생명과 직결되므로 정확성과 안전성의 기준이 매우 높습니다.

이 글에서는 자율주행 시스템, 특히 세상을 이해하는 인식(perception) 단계의 최신 아키텍처를 살펴봅니다. BEV(Bird's-Eye-View) 인식, occupancy network, 비전 중심 대 라이다 융합의 논쟁, 엔드투엔드 학습, 월드모델까지 다룹니다. 이 분야는 상용 시스템의 세부가 공개되지 않은 경우가 많고 매우 빠르게 바뀌므로, 특정 회사의 구체 사양을 단정하기보다 아키텍처 원리와 공개된 개념 중심으로 신중히 설명하겠습니다.

자율주행 스택 개요

자율주행 소프트웨어는 보통 여러 단계로 나뉜 파이프라인으로 이해됩니다.

[센서] 카메라 / 라이다 / 레이더 / GPS / IMU

[인식 Perception] 주변 물체 검출, 차선, 3D 구조 파악

[예측 Prediction] 다른 차/보행자의 미래 움직임 예측

[계획 Planning] 안전하고 효율적인 경로/행동 결정

[제어 Control] 조향/가속/제동 명령 생성

[차량 구동]

이 글의 초점은 인식 단계입니다. 인식이 잘못되면 이후의 예측, 계획, 제어가 모두 어긋나므로, 인식은 전체 안전의 토대라 할 수 있습니다. 다만 최근에는 이 단계들을 하나로 통합하는 엔드투엔드 접근도 부상하고 있어, 뒤에서 함께 다룹니다.

참고로 자율주행의 "자율성 수준"은 흔히 여러 단계로 구분됩니다. 운전자가 모든 것을 하는 단계부터, 특정 조건에서 시스템이 운전을 맡되 사람이 대비하는 단계, 그리고 조건 내에서 사람 개입이 거의 필요 없는 단계까지 이어집니다. 수준이 높아질수록 인식과 판단의 정확성 요구가 급격히 올라갑니다. 이 글은 특정 제품의 수준을 단정하기보다, 어느 수준에서든 공통으로 필요한 인식 기술의 원리에 집중합니다.

큰 그림: 인식 표현의 발전

세부로 들어가기 전에, 인식 표현이 어떻게 발전해 왔는지 한눈에 정리합니다.

[인식 표현의 발전 흐름]

2D 검출 (이미지 위 상자)

3D 바운딩 박스 (물체별 3D 상자)

BEV (위에서 본 통합 지도)

Occupancy (높이 포함 3D 점유)

엔드투엔드 (인식-예측-계획 통합 학습)

이 흐름의 큰 방향은 두 가지입니다. 첫째, 표현이 점점 더 3차원적이고 범주에 얽매이지 않는 쪽으로 갔습니다. 둘째, 인식만 따로 최적화하던 방식에서 전체 주행 목표를 함께 최적화하는 쪽으로 갔습니다. 아래에서 각 단계를 차례로 살펴봅니다.

인식의 근본 과제

2D 이미지에서 3D 세계로

카메라가 찍는 것은 3차원 세계를 2차원 평면에 투영한 이미지입니다. 그런데 운전에 필요한 것은 "저 차가 내 앞 20미터, 오른쪽 3미터에 있다" 같은 3차원 공간 정보입니다. 따라서 인식의 핵심 과제 중 하나는 2D 이미지들로부터 3D 공간을 복원하는 것입니다.

[여러 대의 카메라 이미지 (2D)]

앞, 뒤, 좌우 등 여러 방향

| 각각 다른 시점과 왜곡

[통합된 3D 공간 표현]

하나의 일관된 좌표계에서 물체 위치 파악

카메라 여러 대가 서로 다른 방향을 보고 있으므로, 이들을 하나의 일관된 좌표계로 합치는 일이 중요합니다. 이 문제를 우아하게 푸는 방법이 다음에 볼 BEV 표현입니다.

BEV 인식

BEV란 무엇인가

BEV는 Bird's-Eye-View, 즉 새의 눈으로 위에서 내려다본 시점을 뜻합니다. 자율주행에서 BEV 인식은 여러 카메라 이미지를 위에서 내려다본 하나의 평면 지도(top-down)로 변환해 표현하는 방식입니다.

[여러 방향 카메라 이미지] [BEV 표현 (위에서 본 지도)]

전방 카메라 ↑ 북

좌측 → 차 ← 우측 → 서 [자차] 동

후방 카메라 ↓ 남

주변 차량/차선을 격자 지도에 배치

BEV의 장점은 명확합니다. 계획과 제어는 결국 "지도 위에서 어디로 갈지"의 문제이므로, 위에서 내려다본 지도 형태가 그 다음 단계에 자연스럽게 연결됩니다. 또 여러 카메라를 하나의 좌표계로 합치므로 물체를 중복 없이 일관되게 다룰 수 있습니다.

이미지에서 BEV로 변환

핵심 기술은 여러 카메라의 2D 특징을 BEV 격자로 옮기는 것입니다. 대표적인 두 가지 방향이 알려져 있습니다.

[방향 A: 순방향 투영 (Lift-Splat 계열)]

각 픽셀에 깊이 분포를 예측해 3D로 들어올리고(lift)

BEV 격자에 뿌린다(splat)

[방향 B: 역방향 조회 (어텐션/트랜스포머 계열)]

BEV 격자의 각 칸이 "나는 어느 카메라 픽셀을 봐야 하나"를

어텐션으로 조회해 특징을 가져온다

방향 A는 LSS(Lift, Splat, Shoot) 계열로 알려져 있고, 방향 B는 BEVFormer처럼 트랜스포머 어텐션으로 BEV 쿼리가 이미지 특징을 참조하는 방식입니다. 둘 다 여러 카메라를 하나의 BEV로 융합한다는 목표는 같습니다.

시간 정보의 활용

BEV 인식은 한 순간의 여러 카메라뿐 아니라 과거 프레임의 정보도 함께 융합해 성능을 높입니다. 물체의 움직임(속도)이나 잠깐 가려진 물체를 다루려면 시간적 문맥이 중요하기 때문입니다. 여러 시점의 BEV 특징을 정렬해 쌓으면, 정지 물체와 움직이는 물체를 구분하고 속도를 추정하는 데 도움이 됩니다.

Occupancy Network

박스로는 부족하다

전통적 3D 검출은 물체를 3D 바운딩 박스로 표현합니다. "여기 자동차 한 대, 저기 보행자 한 명" 하는 식입니다. 그런데 도로에는 미리 정의된 범주에 들지 않는 물체가 많습니다. 도로에 떨어진 화물, 특이한 형태의 공사 차량, 튀어나온 나뭇가지 등은 "자동차"나 "보행자" 박스로 표현하기 어렵습니다.

[바운딩 박스 방식]

미리 정의한 범주(차, 사람 등)만 네모 상자로 검출

→ 범주 밖 물체나 이상한 형태를 놓칠 수 있음

[Occupancy 방식]

공간을 3D 격자(voxel)로 나누고

각 칸이 "차 있음/비어 있음"을 예측

→ 범주와 무관하게 공간의 점유 여부를 파악

3D 점유 표현

occupancy network는 주변 공간을 작은 3D 격자 셀(voxel)로 나누고, 각 셀이 점유되었는지(무언가 있는지) 아닌지를 예측합니다. 나아가 점유된 셀이 어떤 종류인지(차량, 도로, 건물 등)까지 함께 예측하기도 합니다. 이렇게 하면 미리 정의한 범주에 없는 물체라도 "저기 공간이 막혀 있다"는 것을 알 수 있어, 안전에 유리합니다.

occupancy는 BEV의 확장으로도 볼 수 있습니다. BEV가 위에서 본 2D 평면 지도라면, occupancy는 높이 정보까지 포함한 3D 점유 지도입니다. 최근 인식 연구에서 이 표현이 주목받았고, 상용 시스템에서도 유사한 개념이 활용되는 것으로 알려져 있습니다.

비전 중심 vs 라이다 융합

자율주행 인식의 오랜 논쟁 중 하나가 센서 구성입니다. 크게 두 진영이 있습니다.

라이다 융합 접근

라이다(LiDAR)는 레이저로 거리를 직접 측정해 정밀한 3D 점군(point cloud)을 얻는 센서입니다. 많은 자율주행 회사가 라이다, 카메라, 레이더를 함께 쓰는 다중 센서 융합을 채택합니다.

[라이다 융합 접근]

라이다(정밀 거리) + 카메라(색/텍스트) + 레이더(악천후/속도)

여러 센서의 장점을 합쳐 강건한 인식

- 장점: 거리 정보가 정확, 어두운 환경에 강함

- 단점: 라이다 비용, 센서 정합(calibration) 복잡

비전 중심 접근

반대로 카메라만으로 인식을 수행하려는 비전 중심(vision-only) 접근도 있습니다. 테슬라가 카메라 중심 접근을 공개적으로 추구해 온 것으로 잘 알려져 있습니다. 다만 각 회사의 구체적 센서 구성과 알고리즘 세부는 시점에 따라 바뀌고 공개 범위가 제한적이므로, 여기서는 "비전 중심 접근이 존재한다"는 사실과 그 개념적 장단점만 다룹니다.

[비전 중심 접근]

주로 카메라만으로 3D 인식 수행

- 장점: 센서 비용 절감, 사람처럼 시각 기반

- 단점: 깊이를 직접 재지 못해 추정에 의존

(앞서 본 BEV/occupancy로 3D를 복원)

비전 중심 접근에서는 카메라 이미지에서 깊이와 3D 구조를 신경망으로 추정해야 합니다. 이 때문에 앞서 본 BEV 변환, occupancy 예측 같은 기술이 특히 중요해집니다. 어느 쪽이 우월한지는 단정하기 어렵고, 비용·안전·확장성의 균형에 대한 서로 다른 판단이라고 보는 것이 공정합니다.

센서의 역할 분담

자율주행에 쓰이는 주요 센서는 저마다 잘하는 것과 못하는 것이 다릅니다. 그래서 여러 센서를 함께 쓰면 서로의 약점을 보완할 수 있습니다.

[주요 센서의 특성]

카메라 : 색/텍스트/표지판 인식에 강함, 거리 추정은 간접적

어두움/역광/악천후에 약함

라이다 : 정밀한 3D 거리 측정에 강함

비/눈/안개에 영향, 비용 높음

레이더 : 속도(도플러) 측정과 악천후에 강함

해상도 낮아 형태 파악은 약함

예를 들어 어두운 밤에는 카메라가 약하지만 라이다와 레이더가 보완하고, 눈보라에서는 라이다가 약하지만 레이더가 상대적으로 견딥니다. 비전 중심 접근은 이 중 카메라에 집중하는 대신, 앞서 본 신경망 기반 3D 복원(BEV, occupancy)으로 거리 정보를 메우려 합니다. 어떤 조합이 최선인지는 비용, 안전 목표, 운행 환경에 따라 달라집니다.

엔드투엔드 학습

파이프라인에서 통짜 학습으로

앞서 인식-예측-계획-제어를 나눈 파이프라인을 소개했습니다. 이 방식은 각 단계를 따로 개발하고 검증할 수 있어 이해하기 쉽지만, 단계 사이에서 정보가 손실되고 각 부품의 목표가 최종 운전 품질과 어긋날 수 있다는 한계가 있습니다.

그래서 최근에는 센서 입력에서 주행 행동까지를 하나의 신경망으로 학습하려는 엔드투엔드(end-to-end) 접근이 주목받습니다.

[전통적 모듈형]

센서 → [인식] → [예측] → [계획] → [제어] → 행동

각 모듈을 따로 개발/검증

[엔드투엔드]

센서 → [하나의 큰 신경망] → 행동

중간 표현은 학습으로 형성

(인식/예측/계획을 미분 가능하게 연결)

엔드투엔드의 장단

엔드투엔드의 매력은 전체가 최종 목표(안전하고 편안한 주행)를 향해 함께 최적화된다는 점입니다. 중간 단계의 정보 손실을 줄이고, 사람이 일일이 규칙을 짜지 않아도 데이터에서 행동을 배웁니다. 최근 연구에서는 인식과 예측, 계획을 하나의 미분 가능한 구조로 잇되, 중간에 해석 가능한 표현(예: BEV, occupancy)을 두어 투명성과 성능을 함께 잡으려는 방향이 제시되었습니다.

다만 엔드투엔드는 해석과 검증이 어렵고, 드문 위험 상황에서 왜 그렇게 행동했는지 설명하기 힘들다는 단점이 있습니다. 안전이 최우선인 분야이므로 이 해석 가능성 문제는 매우 중요한 과제입니다.

예를 들어 모듈형에서는 "인식이 보행자를 놓쳐서 사고가 났다"처럼 어느 단계에서 문제가 생겼는지 짚기 쉽습니다. 반면 순수 엔드투엔드에서는 신경망 내부가 왜 그렇게 판단했는지 들여다보기 어렵습니다. 그래서 실무에서는 완전한 통짜보다, 인식과 계획의 중간 표현을 남겨 검증 가능성을 유지하면서도 전체를 함께 학습하는 절충적 설계가 선호되는 경향이 있습니다.

월드모델과 시뮬레이션

왜 시뮬레이션인가

자율주행을 실제 도로에서만 학습·검증하려면 엄청난 주행 거리가 필요하고, 위험한 상황을 일부러 만들 수도 없습니다. 그래서 시뮬레이션이 필수적입니다. 가상 환경에서 다양한 상황(악천후, 갑작스러운 끼어들기, 드문 사고 상황)을 안전하게 반복 생성해 학습하고 검증합니다.

월드모델

여기서 더 나아간 개념이 월드모델(world model)입니다. 월드모델은 "내가 이렇게 행동하면 세상이 어떻게 변할까"를 예측하는 학습된 모델입니다. 즉 미래의 센서 관측이나 장면을 예측하는 생성 모델을 만들어, 그 안에서 계획을 세우거나 데이터를 늘리는 데 씁니다.

[월드모델의 역할]

현재 상태 + 가정한 행동

[월드모델] 미래 장면/관측을 예측

"이 행동을 하면 이런 상황이 벌어진다"를 미리 시뮬레이션

→ 계획 검토, 드문 상황 데이터 생성에 활용

월드모델은 최근 자율주행뿐 아니라 로봇 등 물리 세계 AI 전반에서 뜨거운 주제입니다. 다만 예측이 항상 정확하지는 않으므로, 시뮬레이션과 현실의 차이(sim-to-real gap)를 다루는 것이 여전히 과제로 남아 있습니다.

3D 재구성과 시뮬레이션 기술

시뮬레이션의 현실감을 높이려면 실제 도로를 정밀한 3D로 복원하는 기술이 필요합니다. 최근 이 분야에서 3D 가우시안 스플래팅(3D Gaussian Splatting)이나 신경 방사 필드(NeRF) 같은 3D 재구성 기법이 주목받고 있습니다.

[3D 재구성의 활용]

실제 주행 영상 (여러 시점)

| 3D 재구성 (가우시안 스플래팅/NeRF 계열)

사실적인 3D 장면

| 새로운 시점/조건으로 렌더링

시뮬레이션 데이터 생성 (다른 각도, 다른 날씨 등)

이런 기법으로 실제 장면을 3D로 복원하면, 그 안에서 카메라 위치를 바꾸거나 물체를 추가하는 식으로 새로운 상황을 만들 수 있습니다. 이는 앞서 본 월드모델, 시뮬레이션과 결합해 드문 상황 데이터를 늘리는 데 활용될 수 있습니다. 다만 재구성한 장면이 실제 물리(반사, 그림자, 재질)를 완벽히 담지는 못하므로, 여전히 현실과의 차이를 주의해야 합니다.

안전과 롱테일 문제

자율주행에서 가장 어려운 것은 흔한 상황이 아니라 드문 상황입니다. 이를 롱테일(long-tail) 문제라 부릅니다.

[상황 발생 빈도]

많음 |■■■■■■■■■ 일상적 주행 (직진, 정지, 차선 변경)

|■■■■

|■■

적음 |■ 드문 상황 (도로 위 이상 물체, 급작스러운 사고,

| 특이한 날씨, 예측 못한 보행자 행동)

+---------------------------------------------

흔한 상황 드문 상황(롱테일)

일상적 주행은 데이터가 많아 잘 학습되지만, 드물게 일어나는 위험 상황은 데이터가 적어 학습이 어렵습니다. 그런데 안전은 바로 이 드문 상황에서 결정됩니다. occupancy처럼 범주에 얽매이지 않는 표현, 월드모델을 통한 드문 상황 생성, 대규모 데이터 수집 등이 모두 이 롱테일 문제를 완화하려는 노력입니다.

또한 안전을 위해서는 인식 성능뿐 아니라, 불확실할 때 보수적으로 행동하기, 여러 센서의 상호 검증, 그리고 사람의 개입 여지를 두는 것 등 시스템 차원의 설계가 함께 필요합니다.

센서 정합과 좌표계

여러 센서를 하나의 3D 세계로 합치려면, 각 센서가 서로 어디에 어떻게 붙어 있는지를 정확히 알아야 합니다. 이를 다루는 것이 센서 정합(calibration)과 좌표계입니다.

[좌표계의 계층]

카메라 좌표계 (각 카메라 기준)

| 외부 파라미터 (위치/방향)

차량 좌표계 (자차 기준)

| 자기 위치 추정 (localization)

세계 좌표계 (지도 기준)

각 센서에는 두 종류의 정합 정보가 필요합니다. 내부 파라미터(intrinsic)는 카메라 렌즈의 초점 거리나 왜곡 같은 카메라 자체 특성이고, 외부 파라미터(extrinsic)는 그 센서가 차량의 어디에 어떤 방향으로 달려 있는지입니다. 이 정보가 부정확하면 여러 카메라의 이미지를 BEV로 합칠 때 물체가 어긋나 보입니다. 그래서 정확한 정합은 인식 품질의 숨은 토대입니다.

또한 자차가 지금 지도의 어디에 있는지를 아는 자기 위치 추정(localization)도 중요합니다. GPS만으로는 정밀도가 부족해, 지도와 센서 관측을 대조하거나 여러 센서를 융합해 위치를 정밀하게 추정합니다.

인식 출력이 담는 정보

인식 단계가 다음 단계에 넘겨주는 정보는 단순한 "물체 목록"보다 풍부합니다. 정리하면 다음과 같습니다.

[인식 출력에 담기는 것들]

- 동적 물체: 차, 보행자, 자전거의 위치/크기/방향/속도

- 정적 구조: 차선, 정지선, 횡단보도, 연석

- 신호/표지: 신호등 상태, 속도 제한 표지

- 자유 공간: 갈 수 있는 영역 (occupancy로 표현 가능)

- 불확실성: 각 정보에 대한 신뢰도

특히 마지막의 불확실성이 중요합니다. 인식이 "저기 무언가 있는데 확신은 60퍼센트"라고 정직하게 말해 주면, 계획 단계가 보수적으로 대응할 수 있습니다. 반대로 인식이 근거 없이 과신하면 위험한 판단으로 이어집니다. 그래서 최신 인식 시스템은 결과뿐 아니라 그 결과의 신뢰도를 함께 내놓도록 설계됩니다.

다중 물체 추적

인식은 한 순간의 물체 검출에서 끝나지 않습니다. "저 차가 아까 그 차와 같은 차인가"를 프레임 간에 이어 붙이는 다중 물체 추적(multi-object tracking)이 필요합니다. 추적이 되어야 물체의 속도와 이동 방향을 알 수 있고, 그래야 예측이 가능합니다.

[검출과 추적]

프레임 t : 물체 A, B, C 검출

프레임 t+1 : 물체 A', B', C' 검출

| 같은 물체끼리 연결 (데이터 연관)

궤적: A는 계속 A, 속도/방향 추정 가능

추적의 핵심 과제는 데이터 연관(data association), 즉 이전 프레임의 물체와 현재 프레임의 물체를 올바르게 짝짓는 일입니다. 물체가 잠깐 가려지거나(occlusion), 서로 가까이 지나갈 때 짝짓기가 어려워집니다. 앞서 본 BEV 표현은 여러 시점을 하나의 좌표계로 다루므로 추적에도 유리합니다.

예측과 계획으로 이어지기

인식이 "지금 무엇이 어디에 있는가"라면, 예측은 "그것이 앞으로 어떻게 움직일 것인가"입니다. 다른 차와 보행자의 미래 궤적을 예측하는 일은 매우 어렵습니다. 사람의 의도는 불확실하고, 여러 가능성이 동시에 존재하기 때문입니다.

[예측의 불확실성]

앞 차량이 교차로에 접근

가능성 1: 직진 (확률 높음)

가능성 2: 우회전 (깜빡이 켜짐)

가능성 3: 정지 (신호 대기)

→ 하나로 단정하지 않고 여러 시나리오를 확률로 표현

그래서 최신 예측 모델은 하나의 미래가 아니라 여러 가능한 미래를 확률과 함께 내놓습니다. 계획 단계는 이 여러 가능성을 고려해 안전 여유를 두고 경로를 정합니다. 인식-예측-계획은 이렇게 사슬처럼 이어지며, 앞 단계의 불확실성이 뒤 단계로 전파되므로 각 단계가 자신의 불확실성을 정직하게 표현하는 것이 중요합니다.

데이터셋과 벤치마크

자율주행 인식 연구는 공개 데이터셋과 벤치마크 위에서 발전해 왔습니다. 대표적인 것들이 있습니다.

[대표 공개 데이터셋 (개념)]

- nuScenes : 멀티카메라 + 라이다 + 레이더, 3D 검출/추적

- Waymo Open: 대규모 멀티센서 주행 데이터

- KITTI : 초기의 대표적 자율주행 벤치마크

이런 데이터셋은 여러 센서로 같은 장면을 기록하고, 물체의 3D 위치와 종류를 사람이 라벨링해 제공합니다. 연구자들은 같은 데이터에서 서로의 방법을 공정하게 비교할 수 있습니다. 다만 공개 데이터셋은 특정 지역과 조건에 치우칠 수 있어, 여기서 잘 동작한다고 모든 도로에서 안전한 것은 아닙니다. 앞서 본 롱테일 문제가 여기서도 적용됩니다.

인식 성능을 정량화하는 지표도 있습니다. 3D 물체 검출에서는 예측 상자와 정답 상자가 얼마나 겹치는지를 기준으로 정밀도와 재현율을 계산하고, 이를 종합한 평균 정밀도(mAP, mean Average Precision)를 자주 씁니다.

[3D 검출 평가의 개념]

예측 상자 vs 정답 상자

- 위치/크기/방향이 충분히 맞으면 정답(TP)

- 아니면 오검출(FP) 또는 미검출(FN)

정밀도-재현율 곡선 → 평균 정밀도(mAP)

(거리 오차, 속도 오차 등을 함께 보는 종합 지표도 사용)

이런 지표는 방법 비교에 유용하지만, 벤치마크 점수와 실제 도로 안전이 항상 일치하지는 않습니다. 특히 드문 위험 상황은 데이터셋에 적게 들어 있어 지표에 잘 드러나지 않습니다. 따라서 지표는 참고로 삼되, 안전 검증은 별도의 엄격한 절차로 다뤄야 합니다.

비교: 인식 표현 정리

| 표현 | 형태 | 강점 | 유의점 |

| --- | --- | --- | --- |

위 표는 개념 비교이며, 실제 시스템은 여러 표현을 함께 사용하는 경우가 많습니다.

한계와 주의점

- 정확성과 공개 정보: 상용 자율주행 시스템의 세부 사양은 공개되지 않은 경우가 많습니다. 특정 회사의 구체 구현을 단정하기보다 공개된 개념 중심으로 이해하는 것이 안전합니다.

- 롱테일과 안전: 드문 위험 상황이 안전을 좌우하며, 이는 여전히 미해결 과제입니다.

- sim-to-real 격차: 시뮬레이션과 월드모델은 강력하지만 현실과의 차이를 완전히 없애지 못합니다.

- 해석 가능성: 엔드투엔드는 성능은 좋지만 왜 그렇게 행동했는지 설명하기 어려워, 안전 검증에 도전이 됩니다.

- 최신성: 이 분야의 SOTA와 상용 시스템은 매우 빠르게 바뀝니다. 이 글은 아키텍처 원리 이해를 위한 것이며, 구체 사양은 공식 자료로 확인해야 합니다.

- 사회적 수용: 기술 성능 외에도 규제, 책임 소재, 사회적 신뢰가 실제 도입의 큰 변수입니다.

마무리

자율주행 인식은 2D 카메라 이미지에서 3D 세계를 복원하는 문제를 중심으로 발전해 왔습니다. 여러 카메라를 하나의 위에서 본 지도로 합치는 BEV, 범주에 얽매이지 않고 공간의 점유를 표현하는 occupancy, 그리고 전체를 하나로 최적화하는 엔드투엔드까지 흐름이 이어집니다.

기억할 핵심은 세 가지입니다. 첫째, 인식의 근본 과제는 2D에서 3D를 복원하는 것이고, BEV와 occupancy가 이를 위한 강력한 표현입니다. 둘째, 비전 중심과 라이다 융합은 우열의 문제라기보다 비용·안전·확장성에 대한 서로 다른 판단입니다. 셋째, 자율주행의 진짜 난제는 흔한 상황이 아니라 드문 롱테일 상황이며, 안전은 여기서 결정됩니다. 이 분야의 구체 사양은 빠르게 바뀌지만, 이런 원리와 안전 우선의 태도는 오래 유효합니다.

참고 자료

- Lift, Splat, Shoot, LSS (arXiv 2008.05711): [arxiv.org/abs/2008.05711](https://arxiv.org/abs/2008.05711)

- BEVFormer (arXiv 2203.17270): [arxiv.org/abs/2203.17270](https://arxiv.org/abs/2203.17270)

- nuScenes 자율주행 데이터셋 (arXiv 1903.11027): [arxiv.org/abs/1903.11027](https://arxiv.org/abs/1903.11027)

- Planning-oriented Autonomous Driving, UniAD (arXiv 2212.10156): [arxiv.org/abs/2212.10156](https://arxiv.org/abs/2212.10156)

- PointPillars: 라이다 3D 검출 (arXiv 1812.05784): [arxiv.org/abs/1812.05784](https://arxiv.org/abs/1812.05784)

- CARLA 자율주행 시뮬레이터: [carla.org](https://carla.org)

- nuScenes 공식 사이트: [nuscenes.org](https://www.nuscenes.org)

- Waymo Open Dataset: [waymo.com/open](https://waymo.com/open)