- Authors

- Name
- Youngju Kim
- @fjvbn20031
はじめに
私たちが毎日使うスマートフォン、ノートパソコン、クラウドサーバーの中では、数十億個のトランジスタが休むことなく0と1を処理しています。しかし、CPU、GPU、RAMが正確にどのように動作するか説明できますか?AI時代になぜGPUが必須になり、ASICやTPUのような専用チップが登場しているのでしょうか?
この記事では、半導体の物理的原理から始めて、CPUパイプライン、RAMセル構造、GPU並列処理、CUDAプログラミング、そして最新のAI半導体トレンドまで一気に深く解説します。
1. 半導体とは何か
導体、絶縁体、半導体
物質の電気伝導性に基づいて3つに分類できます。
| 分類 | 電気伝導性 | 代表物質 | 抵抗率範囲 |
|---|---|---|---|
| 導体 | 非常に高い | 銅、金、アルミニウム | 10^-8以下 |
| 半導体 | 制御可能 | シリコン、ゲルマニウム | 10^-5〜10^6 |
| 絶縁体 | 非常に低い | ガラス、ゴム、セラミック | 10^10以上 |
半導体の核心は伝導性を制御できる点です。純粋なシリコンに不純物を注入(ドーピング)すると、電子が多いN型または正孔が多いP型半導体が作られます。
トランジスタの原理
トランジスタは電子スイッチです。ゲートに電圧を加えるとソースからドレインへ電流が流れ、電圧がないと電流が遮断されます。
この単純なON/OFFスイッチが数十億個集まると、複雑な論理演算が可能になります。
- NOTゲート:トランジスタ1個 -- 入力反転
- NANDゲート:トランジスタ2個 -- すべての論理ゲートの基本ビルディングブロック
- 加算器(Adder):複数ゲートの組み合わせ -- 加算を実行
- ALU:加算器と論理ゲートの組み合わせ -- CPUの中核演算装置
ムーアの法則
ゴードン・ムーアが1965年に予測した法則で、チップ内のトランジスタ数が約2年ごとに2倍に増加するという観察です。
2020年代に入り物理的限界に近づきつつあり、単純な微細化よりも3D積層、チップレット(Chiplet)技術、新材料(GAA構造)など多様な方法で性能向上を追求しています。
2. CPUアーキテクチャ詳細
CPU(Central Processing Unit)はコンピュータの頭脳です。1つの命令を高速に処理することに最適化されています。
CPUの中核構成要素
ALU(Arithmetic Logic Unit):加算、減算、AND、OR、XORなどの実際の演算を実行します。
制御ユニット(Control Unit):命令を解読し、各構成要素に制御信号を送ります。
レジスタ(Registers):CPU内部の最も高速な記憶装置です。汎用レジスタ、プログラムカウンタ(PC)、スタックポインタ(SP)などがあります。
キャッシュメモリ:CPUとメインメモリ間の速度格差を解消します。L1が最も高速で小さく、L3が最も大きく相対的に遅いです。
パイプライン(Pipeline)
CPU命令実行を複数の段階に分けて同時に処理する技法です。工場の組立ラインのように動作します。
パイプラインなしでは1つの命令が完全に終わるまで次の命令を開始できません。5段パイプラインを適用すると理論上スループットが5倍向上します。
パイプラインハザード(Hazard)
パイプラインが停止(stall)する状況があります。
データハザード:前の命令の結果が必要なのにまだ準備されていない場合。解決策:フォワーディング(Forwarding)。
制御ハザード:分岐(branch)命令のため次の実行位置が不明な場合。**分岐予測(Branch Prediction)**で解決します。
現代のCPUは90%以上の分岐予測精度を達成しています。Intel、AMDの最新プロセッサは**TAGE(Tagged Geometric History Length)**などの高度な分岐予測器を使用しています。
アウトオブオーダー実行(Out-of-Order Execution)
命令の順序に関係なく、準備ができた命令から先に実行する技法です。**リオーダーバッファ(ROB、Reorder Buffer)**が実行結果を元の順序でコミットし、プログラムの正確性を保証します。
3. 命令セットアーキテクチャ(ISA)
ISA(Instruction Set Architecture)はハードウェアとソフトウェアの間の契約です。CPUが理解できる命令の規格を定義します。
CISC vs RISC
CISCは複雑で多様な命令、可変長命令、メモリ直接演算が可能。代表はx86。 RISCは単純で固定長命令、Load/Storeアーキテクチャ。代表はARM、RISC-V。
x86 vs ARM vs RISC-V比較
| 項目 | x86-64 | ARM (AArch64) | RISC-V |
|---|---|---|---|
| 設計哲学 | CISC | RISC | RISC |
| 命令長 | 可変(1〜15バイト) | 固定(4バイト) | 可変(2/4バイト) |
| 汎用レジスタ | 16個 | 31個 | 32個 |
| ライセンス | Intel/AMD独占 | ARMライセンス必要 | オープンソース(無料) |
| 電力効率 | 普通 | 高い | 高い |
| 主な用途 | デスクトップ、サーバー | モバイル、Apple Silicon | IoT、学術、新興チップ |
| 代表製品 | Ryzen, Xeon | Apple M4, Snapdragon | SiFive, XUANTIE |
現代x86プロセッサの秘密:外部的にはCISC(x86)命令を受け取りますが、内部的にはこれをmicro-op(マイクロ演算)というRISC形態に分解して実行します。事実上、内部はRISCエンジンです。
RISC-Vの台頭
RISC-VはUC Berkeleyで始まったオープンソースISAです。誰もが無料でRISC-Vベースのチップを設計できます。モジュール式設計が特徴で、基本整数命令セット(I)の上に必要な拡張を選択的に追加します。
4. RAMの動作原理
RAM(Random Access Memory)はCPUが作業中のデータを一時的に格納するメモリです。電源が切れるとデータが失われる揮発性メモリです。
SRAM vs DRAM
| 項目 | SRAM | DRAM |
|---|---|---|
| セル構造 | 6トランジスタ | 1トランジスタ+1キャパシタ |
| 速度 | 非常に高速(1-2ns) | 相対的に遅い(10ns) |
| リフレッシュ | 不要 | 64ms周期で必要 |
| 集積度 | 低い | 高い |
| コスト | 高価 | 安価 |
| 用途 | CPUキャッシュ(L1/L2/L3) | メインメモリ(DDR) |
DRAMリフレッシュ
DRAMのキャパシタは時間が経つと自然に電荷が漏れます。データが消えないよう定期的に読み出して書き直す必要があります。これをリフレッシュと呼びます。
DDR5メモリ
DDR(Double Data Rate)はクロックの立ち上がりと立ち下がりの両エッジでデータを転送する技術です。
DDR5の主な改善点:
- デュアルチャネル:DIMM1本が独立した2つの32ビットチャネルを持つ
- オンダイECC:メモリチップ内部でエラーを自動修正
- より多いバンク数:16〜32バンクで同時アクセス向上
- 電力管理:PMIC(Power Management IC)がDIMMに搭載され電圧供給安定化
5. GPUアーキテクチャ
GPU(Graphics Processing Unit)は元々グラフィックスレンダリング用に設計されましたが、大規模並列処理能力のおかげでAI演算の中核ハードウェアとなりました。
CPU vs GPU設計哲学
CPUは少数の強力なコアで複雑な作業1つを高速に処理します。GPUは数千個の小さなコアで単純な作業を数千個同時に処理します。
なぜGPUがAIに適しているのか
AI学習の核心演算は行列乗算です。ニューラルネットワークの1層は Y = W * X + B の演算を実行します。4096x4096の重み行列の場合、約1,677万回の乗算が必要で、これが数百層で繰り返されます。
CPUは8コアで逐次処理するため遅く、GPUは16,384個のCUDAコアで並列処理するため高速です。Tensor Coreは行列演算専用ハードウェアでさらに高速です。
6. CUDAプログラミング基礎
CUDA(Compute Unified Device Architecture)はNVIDIAが作ったGPUプログラミングプラットフォームです。C/C++コードからGPUの並列処理能力を直接活用できます。
Grid、Block、Thread階層構造
Grid = Blockの集合(1D、2D、3D)、Block = Threadの集合(最大1024スレッド)、Thread = 実行の最小単位、Warp = 32個のThread束(GPUスケジューリングの実際の単位)。
CUDA性能最適化のポイント
1. メモリコアレッシング(Coalescing):隣接するスレッドが隣接するメモリアドレスにアクセスするよう設計します。
2. 共有メモリ活用:頻繁にアクセスするデータをグローバルメモリから共有メモリに持ってきて再利用します。
3. ワープダイバージェンス最小化:同じWarp内のスレッドが異なる分岐を取ると直列実行になります。
7. ASIC vs FPGA
汎用チップ(CPU/GPU)ではなく、特定用途に最適化されたハードウェアもあります。
ASIC(Application-Specific Integrated Circuit)
ASICは特定用途向け集積回路です。特定の機能のみを実行するよう設計されており、その作業ではCPUやGPUよりはるかに高速で電力効率が高いです。ただし一度作ると用途を変えられません。
FPGA(Field-Programmable Gate Array)
FPGAは出荷後も内部回路を再構成できます。ASICの性能と汎用プロセッサの柔軟性の中間に位置します。
Google TPU
GoogleのTPU(Tensor Processing Unit)はAI演算専用ASICです。行列乗算とテンソル演算に最適化されたSystolic Array構造を使用します。
8. 半導体プロセス
ナノメートル(nm)の意味
半導体プロセスにおける「5nm」「3nm」という数字はマーケティング名称に近いです。実質的に重要な指標は**トランジスタ密度(MTr/mm2)**です。
EUVリソグラフィ
リソグラフィはシリコンウェーハ上に回路パターンを描く中核プロセスです。ASMLは世界で唯一EUV装置を生産する企業です。EUV装置1台の価格は約2億ドル以上で、重さは180トンに達します。
Samsung / TSMC / Intel比較(2026年基準)
| 項目 | TSMC | Samsung | Intel |
|---|---|---|---|
| 最先端プロセス | N2(2nm) | SF2(2nm GAA) | Intel 18A |
| トランジスタ構造 | GAA(ナノシート) | GAA(ナノシート) | RibbonFET(GAA) |
| 背面電力供給 | N2Pから適用 | SF2から適用 | PowerVia(18A) |
| 主要顧客 | Apple, NVIDIA, AMD | Qualcomm, 自社 | 自社+ファウンドリ |
| ファウンドリシェア | 約60% | 約12% | 拡大中 |
GAA(Gate-All-Around)トランジスタ
既存のFinFET構造の限界を超えるために登場した次世代トランジスタ構造です。ゲート接触面が1面(Planar)から3面(FinFET)、そして4面(GAA)へと進化し、チャネル制御力が向上、リーク電流が減少、電力効率が向上します。
9. AI半導体トレンド
HBM(High Bandwidth Memory)
AIモデルが巨大化し、メモリ帯域幅が最大のボトルネックとなりました。HBMはDRAMダイを垂直に積層して超高速帯域幅を提供します。
SK HynixがHBM市場をリードし、SamsungとMicronが追撃中です。NVIDIA H100にはHBM3、H200にはHBM3e、B200にはHBM3e 12段が搭載されています。
NPU(Neural Processing Unit)
NPUはモバイル/エッジデバイスに内蔵されるAI専用プロセッサです。スマートフォンの写真補正、音声認識、オンデバイスAIなどに活用されています。
| 製品 | NPU性能 | 主な用途 |
|---|---|---|
| Apple Neural Engine(M4) | 38 TOPS | 画像/動画処理、Siri |
| Qualcomm Hexagon(SD 8 Gen 4) | 75 TOPS | オンデバイスLLM、カメラ |
| Samsung Exynos NPU | 34.7 TOPS | 写真補正、通訳 |
| Intel NPU(Lunar Lake) | 48 TOPS | Windows Copilot+ |
TOPS(Tera Operations Per Second):1秒間に1兆回の演算を実行できる単位です。
10. 総合比較と実務ガイド
AIワークロード別最適ハードウェア
| ワークロード | 推奨ハードウェア | 理由 |
|---|---|---|
| LLM学習(数百億パラメータ) | NVIDIA H100/B200 | HBM + Tensor Core + NVLink |
| LLM推論(サービング) | NVIDIA L40S, TPU | コスト効率、高スループット |
| 画像生成(Diffusion) | RTX 4090/5090 | VRAM 24GB、コストパフォーマンス |
| オンデバイスAI | NPU(Apple, QC) | 低消費電力、常時動作 |
| ビットコインマイニング | 専用ASIC | SHA-256特化、最高効率 |
| ネットワークパケット処理 | FPGA(Xilinx) | 低遅延、再構成可能 |
レジスタのアクセスはHDDアクセスより約3,300万倍高速です。この格差のため、キャッシュメモリとメモリ階層構造がコンピュータ性能に決定的な役割を果たします。
おわりに
半導体は現代テクノロジー文明の基盤です。1つのトランジスタのON/OFFから始まり、CPUパイプラインの精巧な命令処理、RAMキャパシタの充放電、GPU数千コアの並列演算、そしてASICの極限効率まで -- すべてが1つの巨大なシステムとして繋がっています。
AI時代を迎え、半導体の重要性はさらに高まっています。HBMがメモリ帯域幅のボトルネックを解消し、CXLがデバイス間メモリ共有を可能にし、2nm以下のプロセスがトランジスタ密度の限界を押し上げています。
ソフトウェア開発者であれば、ハードウェアの動作原理を理解することが、より良いコードを書くうえで大きな助けとなります。キャッシュ局所性を考慮したデータ構造設計、GPUメモリコアレッシングを考慮したCUDAコード作成、ワークロードに合ったハードウェア選択 -- これらの判断の基礎がまさに半導体への理解です。
参考資料
- Patterson, D. A., Hennessy, J. L. -- Computer Organization and Design (RISC-V Edition)
- NVIDIA CUDA Programming Guide
- IEEE International Solid-State Circuits Conference (ISSCC) Proceedings
- TSMC Technology Symposium 2025
- SK hynix HBM Technical Brief
クイズ:半導体知識チェック
Q1. DRAMセルはどの部品で1ビットを保存しますか?
A: 1つのトランジスタと1つのキャパシタで1ビットを保存します。キャパシタの充電状態が1、放電状態が0を表します。
Q2. SRAMがDRAMより速い理由は?
A: SRAMは6つのトランジスタで構成されたフリップフロップ回路を使用し、リフレッシュなしで安定的にデータを維持します。キャパシタの充放電が不要なため、アクセス速度が1-2nsと非常に高速です。
Q3. CUDAにおけるWarpとは何ですか?
A: GPUスケジューリングの最小単位で、32個のスレッドが1つに束ねられたものです。同じWarp内のすべてのスレッドは同一の命令を同時に実行します(SIMT方式)。
Q4. ASICが特定の作業でGPUより効率的な理由は?
A: ASICは特定の演算のみを実行するよう回路が設計されており、不要な汎用ロジック(分岐予測、キャッシュ管理など)がありません。すべてのトランジスタが目的の演算に投入されるため、同一電力あたりの処理効率がはるかに高くなります。
Q5. Apple Siliconの統合メモリアーキテクチャが提供する最大の利点は?
A: CPU、GPU、NPUが同一の物理メモリに直接アクセスするため、データコピー(CPU RAMからGPU VRAMへ)のプロセスが不要です。これにより消費電力が減り、遅延が減少し、限られたメモリをすべてのプロセッサが柔軟に共有できます。