인메모리 컴퓨팅 원리 — 메모리에서 연산하기

들어가며
0. 한 문장으로 잡는 직관
1. 폰노이만 병목 다시 보기
2. 크로스바 어레이 — 물리학으로 행렬곱을 풀다
3. 아날로그 vs 디지털 인메모리
4. 메모리 소자 — SRAM, ReRAM, PCM
5. 정밀도와 노이즈 — 핵심 트레이드오프
6. 에너지 효율 이점 — 왜 매력적인가
6.5. 엣지에서의 의미 — 배터리와 항상 켜짐
7. AI 추론에의 적용
8. 상용화 과제
8.5. 노이즈를 견디는 모델 만들기 — noise-aware training
9. 2026년 연구 동향과 큰 그림
10. GPU·디지털 가속기와의 관계
11. 크로스바를 더 깊이 — 부호와 다중 비트
12. ADC 오버헤드를 직시하기
13. SRAM 기반 디지털 CIM — 가장 현실적인 경로
14. 다른 메모리 월 우회법과 나란히
개발자 시사점
15. 작은 예제로 따라가는 크로스바 MAC
16. 자주 묻는 질문
17. 한눈에 보는 핵심 요약
마치며
참고 자료

들어가며

지금까지 우리가 만든 거의 모든 컴퓨터는 한 가지 구조를 공유합니다. 연산하는 곳(프로세서)과 데이터를 보관하는 곳(메모리)이 분리되어 있고, 데이터는 둘 사이를 끊임없이 오갑니다. 폰노이만 구조입니다.

이 분리가 AI 시대에 큰 비용이 되고 있습니다. 행렬 곱셈 하나를 위해 수많은 가중치를 메모리에서 프로세서로 옮기고, 결과를 다시 메모리로 보냅니다. 연산 자체는 싼데, 이 왕복이 시간과 전력의 대부분을 잡아먹습니다. 이것이 폰노이만 병목이자 메모리 월입니다.

인메모리 컴퓨팅(in-memory computing) 또는 compute-in-memory(CIM)는 이 문제에 도발적인 답을 내놓습니다. "데이터를 연산하는 곳으로 옮기지 말고, 데이터가 있는 메모리 그 자리에서 연산하자." 이 글에서는 그 원리, 특히 메모리 셀의 물리 법칙을 그대로 연산기로 쓰는 발상을 차근차근 풀어봅니다.

이 글은 물리에 깊이 들어가기보다, "왜 이런 발상이 나왔고, 그것이 어떻게 동작하며, 어디에 쓰이고, 무엇이 어려운가"를 직관적으로 잡는 것을 목표로 합니다. 작은 숫자 예제와 ASCII 다이어그램을 통해, 전기 회로를 모르더라도 핵심 원리를 따라올 수 있게 풀어 가겠습니다.

0. 한 문장으로 잡는 직관

본격적으로 들어가기 전에, 이 글 전체를 관통하는 한 문장을 먼저 박아 둡시다.

"메모리에서 데이터를 꺼내 연산기로 옮기는 비용이, 그 데이터로 하는 연산보다 훨씬 비싸다. 그러니 데이터를 옮기지 말고, 데이터가 있는 자리에서 연산하자."

이 한 문장이 인메모리 컴퓨팅의 전부입니다. 나머지는 모두 "그 자리에서 어떻게 연산할 것인가"에 대한 구체적 방법론입니다. 크로스바 어레이, 옴의 법칙, 키르히호프 법칙, ReRAM, ADC 같은 용어가 뒤에 나오지만, 그 모든 것은 위 한 문장을 물리적으로 실현하려는 시도입니다.

왜 지금 이 발상이 중요해졌을까요? 트랜지스터가 작아지며 연산은 계속 싸졌지만, 데이터를 옮기는 비용은 그만큼 떨어지지 않았기 때문입니다. 그 결과 "연산보다 이동이 비싼" 역전이 일어났고, AI처럼 거대한 데이터를 다루는 워크로드에서 이 역전이 결정적 병목이 되었습니다. CIM은 이 역전에 정면으로 답합니다.

1. 폰노이만 병목 다시 보기

전형적인 신경망 추론의 한 레이어를 떠올려 봅시다. 입력 벡터에 가중치 행렬을 곱하는 것이 핵심입니다(이른바 MAC, multiply-accumulate 연산의 묶음).

표준 흐름
-----------------------------------
1. 가중치 행렬을 메모리에서 읽기
2. 입력 벡터를 메모리에서 읽기
3. 프로세서로 옮겨 곱하고 더하기
4. 결과를 메모리로 다시 쓰기
   -> 데이터가 버스를 여러 번 왕복

여기서 비싼 것은 1번과 4번, 즉 데이터 이동입니다. 모델이 커질수록 옮겨야 할 가중치가 많아지고, 버스는 더 바빠집니다. 연산 유닛은 데이터를 기다리며 자주 놀게 됩니다.

CIM의 핵심 통찰은 이렇습니다. 가중치는 메모리에 가만히 저장되어 있습니다. 그렇다면 그 가중치를 굳이 끌어내지 말고, 입력만 흘려보내서 메모리 안에서 곱셈-덧셈을 끝내면 어떨까? 그러면 가중치를 옮기는 비용 전체가 사라집니다.

2. 크로스바 어레이 — 물리학으로 행렬곱을 풀다

CIM의 가장 우아한 형태는 크로스바 어레이(crossbar array)입니다. 가로줄(워드라인)과 세로줄(비트라인)이 격자처럼 교차하고, 각 교차점에 저항성 소자가 하나씩 있습니다.

        col0    col1    col2
        |       |       |
row0 ---+G00----+G01----+G02---
        |       |       |
row1 ---+G10----+G11----+G12---
        |       |       |
       (각 교차점 G는 컨덕턴스 = 저장된 가중치)

여기서 두 가지 물리 법칙만 알면 됩니다.

옴의 법칙: 전압 V를 컨덕턴스 G인 소자에 걸면 전류 I = V x G가 흐릅니다. 곧 곱셈입니다.
키르히호프 전류 법칙: 한 세로줄에 여러 전류가 모이면 그 전류들이 자동으로 더해집니다. 곧 덧셈입니다.

가중치를 각 소자의 컨덕턴스 G로 저장하고, 입력 벡터를 가로줄에 전압 V로 흘리면, 각 세로줄에 흐르는 총 전류가 곧 입력과 가중치의 내적(MAC 결과)이 됩니다. 행렬-벡터 곱이 단 한 번의 전기적 동작으로 끝납니다. 디지털 회로처럼 수많은 곱셈기를 클록에 맞춰 돌리는 게 아니라, 물리 현상이 즉시 답을 내는 것입니다.

입력 전압을 가로줄에 인가
   |
각 교차점에서 I = V x G  (옴의 법칙: 곱셈)
   |
세로줄에서 전류 합산     (키르히호프: 덧셈)
   |
세로줄 전류 = 행렬-벡터 곱 결과

이 한 번의 동작이 CIM이 약속하는 에너지 효율의 원천입니다. 데이터 이동이 없고, 곱셈-덧셈이 물리적으로 동시에 일어납니다.

3. 아날로그 vs 디지털 인메모리

CIM에는 크게 두 갈래가 있습니다.

구분	아날로그 CIM	디지털 CIM
연산 방식	전류/전압으로 곱셈-덧셈	메모리 근처에 디지털 로직
에너지 효율	매우 높음(잠재적)	높음
정밀도	노이즈에 취약	정밀도 유지 쉬움
변환 비용	ADC/DAC 필요	변환 부담 적음
성숙도	연구 단계 비중 큼	상용화에 가까움

아날로그 CIM은 앞서 본 크로스바처럼 전기 물리량으로 직접 연산합니다. 이론적 효율은 가장 높지만, 결과가 아날로그 전류이므로 디지털로 바꾸는 ADC(아날로그-디지털 변환기)가 필요하고, 이 변환이 면적과 전력을 많이 잡아먹습니다. 또 소자 편차와 노이즈에 민감합니다.

디지털 CIM은 메모리 셀 바로 옆(또는 SRAM 비트셀 근처)에 작은 디지털 연산 로직을 두어, 데이터를 멀리 옮기지 않으면서도 디지털의 정밀성을 지킵니다. 효율은 아날로그보다 낮지만 정밀도와 제어가 쉬워 상용화에 더 가깝습니다.

4. 메모리 소자 — SRAM, ReRAM, PCM

CIM을 어떤 메모리 기술 위에 짓느냐도 큰 갈림길입니다.

SRAM 기반: 기존 CMOS 공정과 잘 맞고, 빠르고, 신뢰성이 높습니다. 다만 셀이 커서 밀도가 낮고, 전원이 꺼지면 데이터가 사라집니다(휘발성). 디지털 CIM과 자주 결합됩니다.
ReRAM(저항변화메모리): 소자의 저항 상태로 값을 저장하는 비휘발성 메모리입니다. 작고 밀도가 높아 크로스바 아날로그 CIM에 잘 맞습니다. 다만 소자 간 편차, 쓰기 내구성, 저항 드리프트 같은 과제가 있습니다.
PCM(상변화메모리): 물질의 결정/비결정 상태로 값을 저장합니다. 다단계 값을 표현할 수 있어 아날로그 가중치 저장에 유리하지만, 시간에 따른 저항 변화(드리프트)와 쓰기 에너지가 과제입니다.

비휘발성 소자(ReRAM, PCM)의 매력은 가중치를 한 번 써두면 전원이 꺼져도 유지된다는 점입니다. 추론 시 가중치를 다시 로드할 필요가 없어, "가중치를 메모리에 영구히 새겨두고 입력만 흘린다"는 CIM의 이상에 가장 잘 맞습니다.

5. 정밀도와 노이즈 — 핵심 트레이드오프

아날로그 CIM의 가장 큰 적은 노이즈와 부정확성입니다. 디지털 곱셈은 2와 3을 곱하면 항상 정확히 6이지만, 아날로그 세계에서는 전류가 정확히 떨어지지 않습니다.

문제의 출처를 정리하면 이렇습니다.

소자 편차: 같은 가중치를 의도해도 소자마다 컨덕턴스가 조금씩 다릅니다.
드리프트: 시간이 지나며 저장된 값이 미세하게 변합니다.
변환 노이즈: ADC가 아날로그 전류를 디지털로 바꿀 때 양자화 오차가 생깁니다.
누화/IR 드롭: 배선 저항과 누설로 이상적인 전류값에서 벗어납니다.

흥미로운 점은, 신경망 추론이 이런 부정확성에 어느 정도 관대하다는 것입니다. 추론은 학습보다 낮은 정밀도(양자화)로도 잘 동작하는 경우가 많습니다. 그래서 CIM 연구는 "노이즈가 있어도 모델 정확도가 유지되는 지점"을 찾는 데 집중합니다. 노이즈를 모델링해 학습 단계에서 미리 견디게 만들거나(noise-aware training), 중요한 레이어만 디지털로 처리하는 혼합 방식이 대표적입니다.

정밀도 - 효율의 줄다리기
-----------------------------------
높은 비트 정밀도   -> 정확하지만 효율/면적 손해
낮은 비트 정밀도   -> 효율 좋지만 정확도 위험
CIM 설계의 핵심: 모델이 견디는 최저 정밀도 찾기

6. 에너지 효율 이점 — 왜 매력적인가

CIM이 주목받는 이유는 단순한 속도가 아니라 에너지 효율입니다. 데이터센터 전력이 AI 확장의 실질적 상한이 되어가는 시대에, "같은 연산을 훨씬 적은 전력으로"는 강력한 가치입니다.

이점의 원천을 정리하면 이렇습니다.

데이터 이동 제거: 가중치를 옮기지 않으니 이동 에너지가 사라집니다. 앞서 봤듯 이동은 연산보다 자릿수 비쌉니다.
병렬성: 크로스바는 한 번의 동작으로 전체 행렬-벡터 곱을 끝냅니다. 본질적으로 대규모 병렬입니다.
비휘발성 활용: 가중치를 다시 로드하지 않아 정적 비용이 줄어듭니다.

물론 이 이점은 이상적 조건에서의 잠재력입니다. ADC/DAC 오버헤드, 주변 회로, 정밀도 보정 비용을 빼고 나면 실제 이득은 줄어듭니다. 그래서 CIM의 실용성은 "코어 연산의 효율"이 아니라 "시스템 전체의 효율"로 판단해야 합니다.

6.5. 엣지에서의 의미 — 배터리와 항상 켜짐

CIM의 에너지 효율이 가장 결정적인 차이를 만드는 곳은 데이터센터가 아니라 손 안의 기기입니다. 배터리로 동작하는 엣지 기기에서는 전력 한 줌이 곧 사용 시간이고 제품의 가능성입니다.

구체적인 시나리오를 떠올려 봅시다.

항상 켜진 음성 감지: 스마트 스피커나 이어버드는 "특정 키워드"를 듣기 위해 늘 작은 신경망을 돌립니다. 이 작은 추론이 배터리를 갉아먹으면 제품이 성립하지 않습니다. CIM은 이런 초저전력 상시 추론에 이상적입니다.
웨어러블 건강 센서: 심박·움직임 데이터를 기기 안에서 추론해 이상을 감지합니다. 데이터를 클라우드로 보내지 않으니 프라이버시에도 좋고, 전력이 적으니 오래 갑니다.
센서 노드: 산업 현장의 수많은 센서가 각자 작은 추론을 합니다. 전력 예산이 극도로 빠듯해, 효율이 곧 배치 가능 여부를 가릅니다.

클라우드 추론                    엣지 CIM 추론
-----------------               -----------------
데이터를 서버로 전송             기기 안에서 추론 완결
네트워크/지연/프라이버시 부담    저전력, 저지연, 프라이버시 보호
대형 모델 가능                   작고 효율적인 모델에 최적

엣지에서 "작고 반복적인 추론을 극도로 적은 전력으로"라는 요구는 CIM의 강점과 정확히 겹칩니다. 데이터센터에서 CIM이 보완재라면, 엣지에서는 게임 체인저가 될 잠재력이 있습니다.

7. AI 추론에의 적용

CIM이 가장 잘 맞는 자리는 추론, 특히 엣지 추론입니다.

추론은 가중치가 고정되어 있어, 한 번 새겨두고 반복해서 쓰는 CIM 모델에 자연스럽게 맞습니다.
엣지 기기(센서, 웨어러블, 항상 켜진 음성 감지 등)는 전력 예산이 극도로 빠듯해, CIM의 효율이 결정적 차이를 만듭니다.
항상 켜진(always-on) 키워드 감지처럼 작고 반복적인 추론은 CIM의 강점이 손실을 압도하는 영역입니다.

반면 학습은 가중치를 끊임없이 갱신해야 해서, 쓰기 내구성과 정밀도 요구가 높은 CIM에 덜 맞습니다. 또 모델이 빠르게 바뀌면 비휘발성 소자에 가중치를 새겨두는 이점이 약해집니다.

8. 상용화 과제

CIM이 연구실에서 시장으로 나오기까지 남은 숙제는 분명합니다.

소자 신뢰성: ReRAM/PCM의 편차, 드리프트, 쓰기 내구성을 양산 수준으로 길들여야 합니다.
ADC 오버헤드: 아날로그 결과를 디지털로 바꾸는 비용이 전체 효율을 갉아먹습니다. 이 변환을 줄이는 설계가 관건입니다.
소프트웨어 스택: GPU의 CUDA 같은 성숙한 컴파일러/툴체인이 없으면 개발자가 모델을 올리기 어렵습니다.
정확도 보장: 노이즈가 있어도 모델 정확도를 견고하게 유지하는 보정·학습 기법이 필요합니다.
공정 통합: 기존 반도체 공정과 얼마나 매끄럽게 통합되느냐가 비용을 좌우합니다.

8.5. 노이즈를 견디는 모델 만들기 — noise-aware training

CIM의 정확도 문제를 소프트웨어 쪽에서 푸는 핵심 기법이 "노이즈를 인지한 학습(noise-aware training)"입니다. 발상은 단순합니다. 추론 단계에서 하드웨어가 노이즈를 더할 것이라면, 학습 단계에서 미리 그 노이즈를 흉내 내어 모델을 그것에 견디도록 길들이자는 것입니다.

일반 학습                        노이즈 인지 학습
-----------------               -----------------
깨끗한 연산으로 학습             학습 중 노이즈를 주입
실제 CIM에서 정확도 하락 위험    노이즈에 견고한 가중치 학습
                                실제 CIM에서 정확도 유지

구체적으로는, 학습할 때 가중치나 활성값에 CIM 하드웨어가 만들 법한 분포의 잡음을 일부러 섞습니다. 그러면 모델이 "이 정도 흔들림은 있어도 정답을 맞히도록" 학습됩니다. 일종의 예방 접종입니다. 이렇게 학습한 모델은 실제 아날로그 CIM에 올렸을 때 노이즈로 인한 정확도 하락이 줄어듭니다.

이 기법이 중요한 이유는, 하드웨어의 불완전함을 소프트웨어로 보완하는 협업의 좋은 예이기 때문입니다. CIM의 미래는 하드웨어 혼자가 아니라, 하드웨어와 모델·컴파일러가 함께 노이즈를 다루는 공동 설계(co-design)에 달려 있습니다.

9. 2026년 연구 동향과 큰 그림

2026년 현재, CIM은 학계와 산업 양쪽에서 활발히 연구되며, 일부 디지털 CIM과 SRAM 기반 가속기는 상용 제품에 가까워지고 있습니다. 동시에 메모리 월을 우회하려는 다른 흐름들 (포토닉 인터커넥트와 광 텐서코어 연구, Lightmatter와 DARPA 관련 프로젝트 등) 과 나란히, "데이터를 덜 움직인다"는 같은 목표를 다른 물리학으로 추구합니다.

이를 전체 가속기 지형에 놓으면 그림이 잡힙니다. NVIDIA가 가속기 시장의 약 75~80%를 점유하며 Blackwell과 차세대 Vera Rubin으로 주류를 굳히고, Google TPU와 추론 특화 ASIC, 그리고 Cerebras 같은 웨이퍼스케일 설계가 각자의 답을 내놓는 가운데, CIM은 "가장 근본에서 데이터 이동을 없애는" 한 갈래로 자리합니다. 추론 capex가 학습 capex를 처음 추월하고 전력이 상한이 되는 시대에, 에너지를 극단적으로 아끼는 CIM의 가치는 점점 커질 것입니다.

10. GPU·디지털 가속기와의 관계

CIM은 GPU를 대체하려는 것이 아닙니다. GPU와 디지털 가속기는 범용성, 정밀도, 성숙한 생태계에서 압도적이며, 학습과 다양한 워크로드의 중심으로 남을 것입니다.

CIM의 자리는 보완에 가깝습니다. 특정 추론, 특히 전력이 극도로 제약된 엣지에서 디지털 가속기가 구조적으로 불리한 영역을 메웁니다. 미래의 시스템은 하나의 기술이 모든 것을 하는 대신, 디지털 코어와 CIM 블록, 그리고 다른 특화 가속기가 한 칩 또는 한 보드 위에서 역할을 나누는 이종(heterogeneous) 구성으로 갈 가능성이 큽니다.

11. 크로스바를 더 깊이 — 부호와 다중 비트

앞서 본 크로스바는 양의 컨덕턴스로 양의 가중치를 표현하는 단순화된 그림이었습니다. 실제 신경망 가중치에는 음수도 있는데, 컨덕턴스는 음수가 될 수 없습니다. 어떻게 해결할까요?

흔한 방법은 두 소자를 한 쌍으로 쓰는 것입니다. 가중치를 "양의 컨덕턴스 - 음의 컨덕턴스"의 차이로 표현합니다. 한 소자는 양의 기여를, 다른 소자는 음의 기여를 담당하고, 두 전류의 차이가 부호 있는 가중치가 됩니다.

부호 있는 가중치 표현
-----------------------------------
가중치 w = G_plus - G_minus
   G_plus  : 양의 기여 소자
   G_minus : 음의 기여 소자
두 세로줄의 전류 차이 = 부호 있는 MAC

또 하나의 과제는 다중 비트 정밀도입니다. 소자 하나가 표현할 수 있는 컨덕턴스 단계가 제한적이라, 높은 비트의 가중치를 한 소자에 담기 어렵습니다. 이때는 여러 소자에 비트를 나눠 담거나(비트 슬라이싱), 여러 단계를 표현할 수 있는 소자(PCM의 다단계 저장 등)를 활용합니다. 정밀도를 높일수록 소자나 회로가 더 필요해지므로, 여기서도 정밀도와 면적·효율의 트레이드오프가 작동합니다.

이런 세부를 보면, 크로스바의 "물리학으로 행렬곱을 한 번에"라는 우아함 뒤에, 부호·정밀도·노이즈를 다루는 정교한 엔지니어링이 숨어 있음을 알 수 있습니다.

12. ADC 오버헤드를 직시하기

아날로그 CIM의 가장 현실적인 발목은 ADC(아날로그-디지털 변환기)입니다. 크로스바가 아무리 효율적으로 전류 형태의 MAC 결과를 만들어도, 그 아날로그 전류를 다음 레이어가 쓸 수 있는 디지털 숫자로 바꿔야 합니다. 이 변환을 ADC가 담당하는데, ADC는 면적과 전력을 많이 잡아먹습니다.

크로스바 연산 (싸다)
   |
아날로그 전류 결과
   |
ADC 변환 (비싸다!)  <- 여기서 효율이 새어 나간다
   |
디지털 결과

문제의 심각성은 비율에 있습니다. 핵심 연산(크로스바)이 매우 효율적이어도, ADC가 차지하는 면적·전력이 크면 시스템 전체 효율은 그만큼 깎입니다. 어떤 설계에서는 ADC가 전체 전력의 상당 부분을 차지하기도 합니다.

그래서 CIM 연구의 큰 줄기 하나가 "ADC 부담을 줄이는 것"입니다. 여러 세로줄이 ADC 하나를 공유하게 하거나(시분할), 낮은 해상도 ADC로도 충분하도록 알고리즘을 맞추거나, 변환 자체를 더 효율적으로 하는 회로를 설계합니다. CIM의 약속이 현실이 되려면, 이 변환 비용을 길들이는 것이 관건입니다.

13. SRAM 기반 디지털 CIM — 가장 현실적인 경로

상용화에 가장 가까운 CIM은 의외로 가장 화려하지 않은 형태, 즉 SRAM 기반 디지털 CIM입니다. 새로운 소자(ReRAM, PCM)의 불확실성을 피하고, 검증된 SRAM과 CMOS 공정 위에서 "메모리를 멀리 옮기지 않는다"는 핵심 이점만 취하는 접근입니다.

방식은 이렇습니다. SRAM 비트셀들이 가중치를 저장하고, 그 비트셀 바로 옆(또는 비트라인 근처)에 작은 디지털 곱셈-덧셈 로직을 둡니다. 데이터가 메모리에서 프로세서까지 먼 길을 가는 대신, 메모리 안에서 짧은 거리만 움직여 연산이 끝납니다.

표준 SRAM                        디지털 CIM SRAM
-----------------               -----------------
저장만 담당                      저장 + 근처 연산
데이터를 프로세서로 보냄         메모리 안에서 연산
이동 비용 큼                     이동 비용 작음

이 방식의 매력은 균형입니다. 아날로그의 극단적 효율은 아니지만, 디지털의 정밀성과 신뢰성을 유지하면서도 데이터 이동 비용을 크게 줄입니다. 새로운 소자 기술의 위험 없이 기존 공정에서 만들 수 있어, 양산 관점에서 위험이 낮습니다. 그래서 가장 먼저 시장에 나오는 CIM은 이 형태일 가능성이 큽니다.

14. 다른 메모리 월 우회법과 나란히

CIM은 메모리 월을 우회하려는 여러 시도 중 하나입니다. 같은 문제를 다른 물리학으로 푸는 동료들과 나란히 놓아 봅시다.

접근	핵심 아이디어	노리는 이득
HBM	메모리를 칩 옆에 쌓음	대역폭 증대
웨이퍼스케일	칩을 키워 데이터 가둠	통신/이동 축소
칩렛/CoWoS	다이를 가깝게 패키징	거리 단축
포토닉	빛으로 데이터 전송	이동 에너지 감소
인메모리(CIM)	메모리에서 연산	이동 자체 제거

이 표가 말하는 큰 그림은 분명합니다. 연산 자체보다 데이터 이동이 비싸진 시대에, 모든 길은 "데이터를 덜 움직인다"로 통합니다. HBM과 칩렛은 거리를 줄이고, 포토닉은 이동 에너지를 낮추며, 웨이퍼스케일은 칩 안에 가두고, CIM은 아예 이동을 없앱니다. CIM은 이 스펙트럼의 가장 급진적인 끝에 있습니다. "데이터를 옮기지 말고 그 자리에서 연산하라"는 가장 근본적인 답이기 때문입니다.

개발자 시사점

당장 CIM 칩을 다룰 개발자는 많지 않겠지만, 흐름을 이해하는 것은 의미가 있습니다.

양자화와 견고성: CIM 시대를 준비하려면 낮은 정밀도에서 잘 동작하고 노이즈에 견고한 모델을 만드는 역량이 점점 중요해집니다.
워크로드 인식: 내 추론이 메모리 대역폭에 묶여 있는지, 데이터 이동이 전력의 큰 비중인지를 아는 것이 하드웨어 선택의 출발점입니다.
이종 사고: 미래 시스템은 이종 가속기 조합이 될 가능성이 큽니다. "어떤 연산을 어디서 돌릴까"를 설계하는 감각이 자산이 됩니다.
소프트웨어-하드웨어 공동 설계: CIM은 하드웨어만의 문제가 아닙니다. 노이즈를 견디게 모델을 학습시키고, 양자화를 적극 활용하는 등, 소프트웨어가 하드웨어의 한계를 메우는 협업 감각이 점점 중요해집니다.

15. 작은 예제로 따라가는 크로스바 MAC

추상적인 설명을 작은 숫자 예제로 구체화해 봅시다. 2x2 가중치 행렬과 입력 벡터의 곱을 크로스바가 어떻게 푸는지 개념적으로 따라갑니다. (실제 회로는 부호·정밀도 처리가 더 복잡하지만, 직관을 위해 단순화합니다.)

가중치를 컨덕턴스로, 입력을 전압으로 둔다고 합시다.

가중치 행렬 (컨덕턴스로 저장)
   col0   col1
row0  G=2   G=1
row1  G=3   G=0

입력 벡터 (전압으로 인가)
   row0 -> V=4
   row1 -> V=5

각 교차점 전류 I = V x G
   col0: (4 x 2) + (5 x 3) = 8 + 15 = 23
   col1: (4 x 1) + (5 x 0) = 4 + 0  = 4

세로줄 전류 = 결과 벡터 [23, 4]

여기서 일어난 일을 음미해 봅시다. 곱셈 4번과 덧셈 2번이 디지털 곱셈기 없이, 단지 전압을 인가하는 한 번의 동작으로 끝났습니다. 옴의 법칙이 곱셈을, 키르히호프 법칙이 덧셈을 대신했습니다. 행렬이 크고 입력이 많아질수록 이 "한 번의 동작" 안에서 처리되는 연산량은 폭발적으로 늘어납니다. 이것이 크로스바의 본질적 병렬성이자 효율의 원천입니다.

물론 현실에서는 이 깔끔한 숫자가 노이즈로 흔들리고, 음수 가중치는 소자 쌍으로, 높은 정밀도는 여러 소자로 처리해야 합니다. 하지만 핵심 원리는 이 작은 예제에 다 담겨 있습니다.

16. 자주 묻는 질문

Q. 인메모리 컴퓨팅이 GPU를 대체하나요? 아닙니다. GPU는 범용성, 정밀도, 생태계에서 압도적이라 학습과 다양한 워크로드의 중심으로 남습니다. CIM은 특정 추론, 특히 저전력 엣지에서 빛나는 보완재입니다.

Q. 아날로그 방식이 노이즈에 약하다면 왜 연구하나요? 신경망 추론이 어느 정도의 부정확성에 관대하기 때문입니다. 낮은 정밀도(양자화)로도 잘 동작하는 경우가 많아, 노이즈를 견디게 설계하면 아날로그의 극단적 효율을 활용할 여지가 있습니다.

Q. 비휘발성 소자(ReRAM, PCM)가 핵심인가요? 유리한 점이 많습니다. 가중치를 한 번 새기면 전원이 꺼져도 유지되어 추론에 잘 맞습니다. 다만 편차·드리프트·내구성 같은 과제가 남아 있어, 단기적으로는 SRAM 기반 디지털 CIM이 더 현실적입니다.

Q. 개발자로서 지금 무엇을 준비하면 되나요? 낮은 정밀도에서 견고한 모델을 만드는 역량, 그리고 내 워크로드의 병목이 어디인지(연산인가 데이터 이동인가)를 측정하는 습관입니다. 이종 가속기 시대를 대비하는 가장 실용적인 준비입니다.

17. 한눈에 보는 핵심 요약

폰노이만 구조에서 데이터 이동은 연산보다 자릿수 비쌉니다. 이것이 메모리 월입니다.
CIM은 데이터를 옮기지 않고 메모리 안에서 연산해 이 비용을 근본적으로 줄입니다.
크로스바 어레이는 옴의 법칙(곱셈)과 키르히호프 법칙(덧셈)으로 행렬곱을 한 번에 풉니다.
아날로그는 효율이 높지만 노이즈·ADC 비용이, 디지털은 정밀도가 강점입니다.
CIM은 GPU를 대체하기보다, 저전력 엣지 추론 같은 영역에서 디지털 가속기를 보완합니다.

마치며

인메모리 컴퓨팅은 컴퓨팅의 가장 오래된 가정 하나에 도전합니다. "연산과 저장은 분리되어야 한다"는 가정 말입니다. 메모리 셀의 물리 법칙을 그대로 연산기로 쓴다는 발상은 우아하고, 데이터 이동을 없앤다는 약속은 전력이 상한이 된 시대에 매력적입니다.

이 글을 따라오며 우리는 한 가지 패턴을 반복해서 만났습니다. 모든 핵심 결정 — 크로스바로 행렬곱을 풀든, SRAM 옆에 로직을 두든, 비휘발성 소자에 가중치를 새기든 — 이 결국 "데이터를 덜 움직인다"는 하나의 목표로 수렴한다는 것입니다. 기술의 세부는 복잡하지만, 방향은 놀랍도록 단순합니다.

동시에 이것은 쉬운 길이 아닙니다. 아날로그의 노이즈, 소자의 불완전함, 미성숙한 소프트웨어 생태계라는 장벽이 분명합니다. CIM이 GPU를 대체하는 일은 일어나지 않겠지만, 특정 추론 영역에서 디지털 가속기가 도달하기 어려운 효율을 제공하는 보완재로 자리 잡을 가능성은 충분합니다. 메모리 월을 우회하려는 여러 시도 중에서, CIM은 문제의 가장 근본을 건드리는 우아한 답입니다.

기술의 가치는 종종 "가장 화려한가"가 아니라 "가장 근본적인가"에서 나옵니다. CIM이 던지는 질문 — 연산과 저장을 꼭 분리해야 하는가 — 은 그 자체로 깊고, 답이 어느 방향으로 가든 우리가 컴퓨팅을 생각하는 방식을 넓혀 줍니다.

참고 자료

컴퓨터 아키텍처 연구 검색(arXiv): https://arxiv.org/list/cs.AR/recent
신경망/머신러닝 하드웨어 연구(arXiv): https://arxiv.org/list/cs.ET/recent
NVIDIA Blackwell 플랫폼: https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/
Google Cloud TPU: https://cloud.google.com/tpu
Lightmatter (포토닉 컴퓨팅): https://lightmatter.co
SemiAnalysis (반도체 산업 분석): https://www.semianalysis.com