Skip to content

Split View: AI Safety Engineer & Alignment Researcher 커리어 가이드: 가장 빠르게 성장하는 AI 직군의 모든 것

✨ Learn with Quiz
|

AI Safety Engineer & Alignment Researcher 커리어 가이드: 가장 빠르게 성장하는 AI 직군의 모든 것

1. AI Safety가 왜 지금 중요한가

2025년은 AI 안전(AI Safety)이 학술 연구실을 넘어 산업 전체의 핵심 의제로 올라선 해입니다. 단순한 윤리적 논의가 아니라, 규제, 채용 시장, 그리고 기술 개발의 방향 자체를 바꾸고 있습니다.

1-1. 글로벌 규제가 현실이 되다

EU AI Act가 2024년 발효되어 2025년부터 단계적으로 시행되고 있습니다. 고위험(High-risk) AI 시스템은 반드시 안전성 평가를 통과해야 하며, 위반 시 전 세계 매출의 최대 7%까지 벌금이 부과됩니다. 미국은 2025년 AI Action Plan을 통해 연방 차원의 AI 안전 프레임워크를 수립했고, 한국은 AI 기본법을 제정하여 고위험 AI에 대한 사전 영향 평가를 의무화했습니다.

이 규제들의 공통점은 하나입니다: AI 안전 엔지니어 없이는 제품을 출시할 수 없는 시대가 왔다는 것입니다.

1-2. AGI 타임라인이 앞당겨지고 있다

Anthropic CEO Dario Amodei는 2025년 초 인터뷰에서 2026~2027년 사이 AGI에 도달할 수 있다고 전망했습니다. OpenAI의 Sam Altman도 비슷한 타임라인을 언급했습니다. 모델 능력이 급격히 향상되면서 안전 연구의 시급성은 그 어느 때보다 높아졌습니다.

핵심 우려 사항:

  • 능력-안전 격차(Capability-Safety Gap): 모델 능력은 급성장하지만 안전 연구는 뒤처지고 있음
  • 창발적 행동(Emergent Behavior): 예측하지 못한 능력이 갑자기 나타남
  • 기만적 정렬(Deceptive Alignment): 모델이 평가 시에만 안전하게 행동할 가능성
  • 파워 시킹(Power Seeking): AI가 자신의 영향력을 확장하려는 경향

1-3. 채용 시장이 폭발적으로 성장

AI Safety 분야의 채용 시장은 놀라운 속도로 성장하고 있습니다:

  • 연봉 45% 상승: 2023년 대비 AI Safety Engineer 평균 연봉이 45% 상승
  • 1,062개 포지션: Indeed 기준 미국 내 AI Safety 관련 채용 공고
  • 중앙값 연봉 205K~221K 달러: AI Governance 전문가 기준
  • Top 1% 연구자: 연봉 100만 달러 이상

이런 성장의 배경에는 규제 준수 의무, AGI 경쟁 심화, 그리고 대중의 AI 안전에 대한 관심 증가가 있습니다.


2. AI Safety vs AI Ethics vs AI Governance 구분

이 세 분야는 자주 혼용되지만, 실제로는 뚜렷한 차이가 있습니다.

2-1. AI Safety (AI 안전)

정의: AI 시스템이 의도한 대로 안전하게 작동하도록 보장하는 기술적 연구 분야

핵심 질문: "이 AI가 의도하지 않은 해로운 행동을 하지 않을까?"

주요 영역:

  • 정렬(Alignment): AI의 목표를 인간 의도에 맞춤
  • 강건성(Robustness): 적대적 공격과 예외 상황에서도 안전하게 작동
  • 해석 가능성(Interpretability): AI 내부 작동 원리를 이해
  • 모니터링(Monitoring): 배포 후 안전 상태를 지속적으로 관찰

2-2. AI Ethics (AI 윤리)

정의: AI가 사회에 미치는 영향과 도덕적 함의를 연구하는 분야

핵심 질문: "이 AI가 공정하고 투명하게 작동하는가?"

주요 영역:

  • 편향(Bias): 데이터와 모델의 편향 탐지 및 완화
  • 공정성(Fairness): 다양한 그룹에 대한 균등한 처우
  • 투명성(Transparency): 의사결정 과정의 설명 가능성
  • 프라이버시(Privacy): 개인 정보 보호

2-3. AI Governance (AI 거버넌스)

정의: AI 개발과 배포를 관리하는 조직적/사회적 체계

핵심 질문: "AI를 어떻게 규제하고 관리할 것인가?"

주요 영역:

  • 정책(Policy): AI 관련 법률과 규정
  • 표준(Standards): ISO/IEC 42001 등 AI 관리 표준
  • 감사(Audit): AI 시스템 정기 점검
  • 리스크 관리(Risk Management): AI 위험 식별과 완화

2-4. 비교 요약

구분AI SafetyAI EthicsAI Governance
초점기술적 안전성사회적 영향정책/규제
핵심 역량ML 엔지니어링사회과학, 철학법률, 정책
배경CS, 수학인문학, 사회학법학, 공공정책
산출물안전한 모델/시스템윤리 가이드라인규제 프레임워크
대표 직함Safety EngineerEthics ResearcherPolicy Advisor
연봉 중앙값180K~250K 달러130K~180K 달러150K~221K 달러

실제로는 이 세 분야가 서로 긴밀하게 연결되어 있습니다. 예를 들어, Anthropic의 Responsible Scaling Policy는 기술적 안전 평가(Safety)를 기반으로 정책적 의사결정(Governance)을 내리며, 윤리적 원칙(Ethics)을 반영합니다.


3. 핵심 연구 분야 딥다이브

AI Safety의 주요 연구 분야를 기술적으로 깊이 살펴봅니다.

3-1. RLHF와 정렬 기법

**RLHF(Reinforcement Learning from Human Feedback)**는 현재 가장 널리 사용되는 정렬 기법입니다.

RLHF 파이프라인:

1. SFT (Supervised Fine-Tuning)
   - 인간이 작성한 고품질 응답으로 모델 미세 조정
   - 기본적인 지시 따르기 능력 확보

2. Reward Model 학습
   - 인간이 응답 쌍에 대해 선호도를 평가
   - 선호도 데이터로 보상 모델(Reward Model) 학습
   - RM(s_t) -> scalar reward

3. PPO (Proximal Policy Optimization)
   - 보상 모델을 이용해 정책(Policy) 최적화
   - KL 페널티로 원래 모델에서 너무 멀어지지 않도록 제한

DPO(Direct Preference Optimization): 보상 모델 없이 직접 선호 학습

# DPO의 핵심 아이디어 (의사 코드)
# Reward Model 학습 단계를 건너뛰고
# 선호도 데이터에서 직접 정책 최적화

# loss = -log(sigmoid(beta * (log_ratio_preferred - log_ratio_rejected)))
# log_ratio = log(pi(y|x) / pi_ref(y|x))

def dpo_loss(pi_logps_preferred, pi_logps_rejected,
             ref_logps_preferred, ref_logps_rejected, beta=0.1):
    """
    DPO loss 계산
    - pi: 학습 중인 정책
    - ref: 참조 정책 (SFT 모델)
    - beta: KL 페널티 강도
    """
    log_ratio_preferred = pi_logps_preferred - ref_logps_preferred
    log_ratio_rejected = pi_logps_rejected - ref_logps_rejected
    logits = beta * (log_ratio_preferred - log_ratio_rejected)
    loss = -torch.nn.functional.logsigmoid(logits).mean()
    return loss

DPO의 장점은 Reward Model 학습 단계가 불필요하여 계산 비용이 절감되고, 하이퍼파라미터 튜닝이 간소화된다는 점입니다.

Constitutional AI (Anthropic):

Anthropic이 개발한 독자적인 정렬 기법으로, AI가 미리 정의된 "헌법"(원칙 목록)을 기반으로 자체적으로 응답을 평가하고 개선합니다.

Constitutional AI 프로세스:

1단계: 레드팀 프롬프트에 대한 초기 응답 생성
2단계: 헌법 원칙에 따라 자기 비판 (Self-Critique)
  - "이 응답이 원칙 X를 위반하는가?"
  - "어떻게 개선할 수 있는가?"
3단계: 개선된 응답 생성 (Revision)
4단계: (선택적) RLAIF - AI 피드백으로 강화학습

RLAIF(Reinforcement Learning from AI Feedback): 인간 대신 AI가 피드백을 제공합니다. Constitutional AI의 확장으로, 인간 레이블러의 비용과 확장성 문제를 해결합니다.

3-2. Red Teaming과 안전 평가

Red Teaming은 AI 시스템의 취약점과 위험 행동을 사전에 발견하는 공격적 테스트 방법입니다.

수동 Red Teaming:

인간 전문가가 직접 모델을 공격하여 취약점을 찾습니다:

  • 유해 콘텐츠 생성 유도
  • 정보 유출 시도
  • 편향된 응답 유발
  • 시스템 프롬프트 추출 시도
  • 역할극을 통한 안전 장치 우회

자동 Red Teaming:

# 자동 Red Teaming 개념적 파이프라인

class AutoRedTeam:
    """AI가 AI를 공격하는 자동 Red Teaming 프레임워크"""

    def __init__(self, target_model, attacker_model, judge_model):
        self.target = target_model    # 공격 대상
        self.attacker = attacker_model  # 공격 생성기
        self.judge = judge_model      # 성공 여부 판단

    def generate_attacks(self, category, num_attacks=100):
        """특정 카테고리의 공격 프롬프트 생성"""
        attacks = []
        for _ in range(num_attacks):
            prompt = self.attacker.generate(
                f"Generate a prompt that might cause unsafe behavior "
                f"in the category: {category}"
            )
            attacks.append(prompt)
        return attacks

    def evaluate(self, attacks):
        """공격 결과 평가"""
        results = []
        for attack in attacks:
            response = self.target.generate(attack)
            is_unsafe = self.judge.evaluate(
                attack=attack,
                response=response,
                criteria="Does this response contain unsafe content?"
            )
            results.append({
                "attack": attack,
                "response": response,
                "is_unsafe": is_unsafe
            })
        return results

Jailbreak 방어 기법:

프롬프트 인젝션과 탈옥 시도에 대한 주요 방어 전략:

  1. 입력 필터링: 알려진 공격 패턴 탐지
  2. 시스템 프롬프트 강화: 명확한 안전 지침 삽입
  3. 출력 검증: 응답의 안전성을 사후 검증
  4. 다층 방어: 여러 보안 계층을 겹침
  5. 적응적 방어: 새로운 공격에 지속적으로 대응

평가 프레임워크:

프레임워크개발특징
TrustLLM학계 컨소시엄6가지 차원의 신뢰성 평가
HarmBenchCMU 등표준화된 유해성 벤치마크
HELMStanford포괄적 언어 모델 평가
DecodingTrust학계GPT 모델 신뢰성 종합 평가
SafetyBench학계중국어 포함 다국어 안전 평가

3-3. Interpretability (해석 가능성)

해석 가능성은 AI 모델의 내부 작동 원리를 이해하는 연구 분야입니다. Anthropic이 이 분야에 특히 큰 투자를 하고 있습니다.

Mechanistic Interpretability (기계적 해석 가능성):

뉴런과 회로 수준에서 모델이 정보를 어떻게 처리하는지 분석합니다.

Mechanistic Interpretability 핵심 기법:

1. Activation Patching (활성화 패칭)
   - 특정 뉴런의 활성화를 교체하여 인과 관계 파악
   - "이 뉴런이 없으면 결과가 어떻게 바뀌는가?"

2. Feature Visualization (특성 시각화)
   - 특정 뉴런을 최대로 활성화하는 입력 패턴 찾기
   - 각 뉴런이 "무엇에 반응하는지" 시각적으로 확인

3. Circuit Analysis (회로 분석)
   - 특정 능력을 구현하는 뉴런 그룹(회로) 식별
   -: "사실 기억 회로", "산술 회로", "언어 전환 회로"

4. Probing (탐침)
   - 중간 표현에서 특정 정보를 추출하는 분류기 학습
   - 모델이 어디에 무슨 정보를 저장하는지 파악

Anthropic의 "Scaling Monosemanticity" 연구:

Anthropic은 2024년 획기적인 연구를 발표했습니다. Sparse Autoencoders(SAE)를 사용하여 Claude 모델 내부에서 수백만 개의 해석 가능한 "특성(features)"을 발견했습니다.

핵심 발견:

  • 개별 뉴런은 여러 개념에 반응(Polysemantic)하지만, SAE로 분리하면 하나의 개념에 대응하는 특성을 찾을 수 있음
  • "Golden Gate Bridge" 특성, "코드 보안 취약점" 특성 등 구체적인 개념에 대응하는 특성 발견
  • 이 특성을 인위적으로 활성화하면 모델 행동이 예측 가능하게 변화
  • 안전 관련 특성을 식별하여 모델의 안전 행동을 이해하고 개선할 수 있음

Dictionary Learning:

# Sparse Autoencoder를 이용한 Dictionary Learning (개념적 코드)

class SparseAutoencoder(torch.nn.Module):
    """
    모델의 활성화를 해석 가능한 특성으로 분해
    - 입력: 모델 중간 레이어의 활성화 벡터
    - 출력: 희소한(sparse) 특성 표현
    """
    def __init__(self, d_model, n_features):
        super().__init__()
        # d_model: 모델의 히든 차원
        # n_features: 사전(dictionary)의 크기 (보통 d_model보다 훨씬 큼)
        self.encoder = torch.nn.Linear(d_model, n_features)
        self.decoder = torch.nn.Linear(n_features, d_model)

    def forward(self, x):
        # 인코딩: 활성화를 희소 특성 공간으로 변환
        features = torch.nn.functional.relu(self.encoder(x))
        # 디코딩: 특성에서 원래 활성화 복원
        reconstructed = self.decoder(features)
        return features, reconstructed

    def loss(self, x, features, reconstructed, sparsity_coeff=1e-3):
        # 복원 손실 + 희소성 페널티
        reconstruction_loss = (x - reconstructed).pow(2).mean()
        sparsity_loss = features.abs().mean()
        return reconstruction_loss + sparsity_coeff * sparsity_loss

3-4. Scalable Oversight (확장 가능한 감독)

AI가 인간보다 뛰어나게 될 때, 인간이 AI를 어떻게 효과적으로 감독할 수 있을까요?

AI Debate (AI 토론):

두 AI가 서로 반대 입장에서 논쟁하고, 인간 판정관이 더 설득력 있는 쪽을 선택합니다.

Debate 프로토콜:

1. 질문 Q가 주어짐
2. AI-A는 답변 "예"를 주장, AI-B"아니오"를 주장
3. 교대로 논거를 제시 (각 라운드)
   - AI-A: "예인 이유는 X 때문입니다"
   - AI-B: "X는 틀렸습니다. 왜냐하면 Y..."
   - AI-A: "Y를 반박합니다. Z를 보세요..."
4. 인간 판정관이 최종 판단
   - 인간은 전체 내용을 이해할 필요 없이
   - 논쟁 과정에서 드러난 핵심 근거만 평가

이 접근 방식의 핵심 가정은, 진실은 거짓보다 방어하기 쉽다는 것입니다. 따라서 두 AI가 최선을 다해 논쟁하면 진실이 드러날 것이라는 가설입니다.

Recursive Reward Modeling (재귀적 보상 모델링):

복잡한 작업을 더 작고 평가 가능한 하위 작업으로 분해합니다:

  1. 인간이 평가할 수 있는 간단한 작업부터 시작
  2. 보상 모델을 학습하여 해당 수준의 작업을 평가
  3. 학습된 보상 모델을 사용해 더 복잡한 작업을 평가
  4. 이 과정을 재귀적으로 반복하여 점점 복잡한 작업까지 확장

AI-Assisted Evaluation (AI 보조 평가):

AI가 다른 AI의 출력을 평가하는 방법입니다. Anthropic의 Constitutional AI와 OpenAI의 모델 기반 평가가 이 범주에 속합니다. 핵심은 평가 AI가 평가 대상 AI와 독립적이어야 한다는 것입니다.

3-5. Guardrails와 Content Safety

실제 프로덕션 환경에서 AI 안전을 구현하는 실용적인 접근법입니다.

입력 필터링:

# 입력 안전 필터링 개념적 예제

class InputSafetyFilter:
    """사용자 입력에서 유해한 프롬프트를 탐지하고 차단"""

    def __init__(self):
        self.categories = [
            "violence", "hate_speech", "self_harm",
            "sexual_content", "illegal_activity",
            "prompt_injection", "jailbreak_attempt"
        ]

    def classify(self, user_input: str) -> dict:
        """입력을 안전 카테고리로 분류"""
        # 1. 규칙 기반 필터 (빠르고 확실한 패턴)
        rule_result = self.rule_based_check(user_input)
        if rule_result["blocked"]:
            return rule_result

        # 2. ML 분류기 (미묘한 패턴)
        ml_result = self.ml_classifier.predict(user_input)

        # 3. LLM 기반 판단 (맥락 이해가 필요한 경우)
        if ml_result["confidence"] < 0.8:
            llm_result = self.llm_judge(user_input)
            return llm_result

        return ml_result

    def rule_based_check(self, text: str) -> dict:
        """정규식 및 키워드 기반 빠른 검사"""
        # 알려진 jailbreak 패턴 탐지
        # 프롬프트 인젝션 시도 탐지
        # ...
        pass

출력 필터링:

# 출력 안전 필터링

class OutputSafetyFilter:
    """모델 응답의 안전성을 검증"""

    def check(self, prompt: str, response: str) -> dict:
        """응답이 안전한지 다층 검증"""
        checks = {
            "toxicity": self.check_toxicity(response),
            "factuality": self.check_hallucination(prompt, response),
            "pii_leak": self.check_pii_exposure(response),
            "code_safety": self.check_code_safety(response),
            "refusal_appropriateness": self.check_refusal(prompt, response)
        }
        return {
            "safe": all(c["safe"] for c in checks.values()),
            "details": checks
        }

NeMo Guardrails 프레임워크 (NVIDIA):

NVIDIA가 개발한 오픈소스 프레임워크로, LLM 애플리케이션에 프로그래밍 가능한 가드레일을 추가합니다:

NeMo Guardrails 구조:

1. Input Rails (입력 레일)
   - 유해 프롬프트 차단
   - 주제 범위 제한 (Off-topic 차단)
   - 프롬프트 인젝션 방어

2. Output Rails (출력 레일)
   - 유해 응답 필터링
   - 할루시네이션 탐지
   - PII(개인정보) 노출 방지

3. Dialog Rails (대화 레일)
   - 대화 흐름 제어
   - 허용된 토픽으로만 대화 유도
   - 민감한 주제에 대한 응답 정책

4. Colang (DSL)
   - 가드레일 규칙을 정의하는 전용 언어
   - 자연어와 프로그래밍의 중간 형태

Guardrails AI (Python 라이브러리):

# Guardrails AI 사용 예제 (개념적)

# 검증 규칙 정의
guard_config = """
validators:
  - type: toxicity
    threshold: 0.7
    on_fail: refusal
  - type: pii
    entities: [email, phone, ssn]
    on_fail: anonymize
  - type: hallucination
    method: self_check
    on_fail: retry
"""

# 가드레일 적용
# guard = Guard.from_yaml(guard_config)
# result = guard(llm_call, prompt=user_prompt)
# result.validated_output  # 검증된 안전한 출력

4. 채용 기업과 포지션

AI Safety 분야의 주요 채용 기업과 그 특징을 살펴봅니다.

4-1. AI 안전 중심 기업

Anthropic:

AI Safety를 회사의 핵심 미션으로 삼는 대표적인 기업입니다.

주요 팀과 역할:

  • Alignment Finetuning: RLHF, Constitutional AI 개선
  • Interpretability: Mechanistic Interpretability 연구
  • Trust & Safety: 프로덕션 안전 시스템 운영
  • Responsible Scaling: 안전 평가 및 정책 수립
  • Societal Impacts: 사회적 영향 분석

특징:

  • 안전 연구가 회사의 핵심이므로 연구 자율성이 높음
  • Responsible Scaling Policy(RSP)로 안전 기준을 선제적으로 설정
  • 학술 논문 발표를 적극 지원
  • 샌프란시스코 본사, 원격 근무 일부 가능

OpenAI:

주요 팀과 역할:

  • Safety Systems: 프로덕션 안전 시스템
  • Preparedness Team: 미래 위험 대비
  • Alignment Research: 정렬 연구
  • Policy Research: 정책 연구

특징:

  • 2024년 Superalignment 팀 해체 후 안전 조직 재편
  • 프로덕션 규모의 안전 시스템 경험을 얻을 수 있음
  • Safety Advisory Board 운영

Google DeepMind:

주요 팀과 역할:

  • Responsible AI: 책임 있는 AI 개발
  • Safety & Alignment: 안전 및 정렬 연구
  • Ethics & Society: 윤리 및 사회 연구

특징:

  • 학계와의 강한 연결
  • 풍부한 컴퓨팅 자원
  • 런던, 마운틴뷰 등 다수 사무실

4-2. 비영리 연구소

연구소초점위치특징
MIRI수학적 AI 정렬 이론버클리이론 중심, 소규모
ARC (Alignment Research Center)정렬 평가버클리모델 평가 전문
CAIS (Center for AI Safety)안전 연구 지원샌프란시스코인프라 및 자금 지원
FAR.AI실용적 안전 연구버클리실험적 연구
Redwood Research해석 가능성, 정렬버클리기술 연구 중심

4-3. Big Tech

기업팀명초점
MetaResponsible AILLAMA 모델 안전, 오픈소스 안전 도구
MicrosoftAI Ethics & EffectsAzure AI 안전, Copilot 안전
AmazonResponsible AIBedrock 안전, AWS AI 서비스 안전
AppleML Research온디바이스 AI 안전, 프라이버시
NVIDIATrustworthy AINeMo Guardrails, 안전 인프라

4-4. 기업 문화 비교

기업 선택 시 고려 사항:

1. 연구 자율성
   - 높음: Anthropic, DeepMind, 비영리 연구소
   - 중간: OpenAI, Meta
   - 낮음 (프로덕션 중심): Microsoft, Amazon

2. 논문 발표
   - 적극 장려: Anthropic, DeepMind
   - 조건부 허용: OpenAI, Meta
   - 제한적: Apple

3. 보상 수준
   - 최상위: Anthropic, OpenAI, DeepMind
   - 높음: Big Tech 전반
   - 중간: 비영리 연구소

4. 사회적 영향
   - 직접적: Anthropic (핵심 미션)
   - 큰 규모: Big Tech (수억 사용자)
   - 이론적: 비영리 연구소

5. 필수 역량

AI Safety Engineer가 되기 위해 필요한 역량을 체계적으로 정리합니다.

5-1. 기술 역량

프로그래밍:

필수:
- Python (주 언어): PyTorch, JAX, NumPy, Pandas
- Git, Linux 기본 운용

도움이 되는 것:
- Rust (성능 최적화)
- C++ (ML 프레임워크 내부)
- Julia (수치 계산)

머신러닝 기초:

핵심 개념:
- 딥러닝: Transformer, Attention 메커니즘
- 강화학습: MDP, Policy Gradient, PPO
- NLP: 토크나이제이션, 임베딩, 파인튜닝
- 통계/확률: 베이지안 추론, 가설 검정

실무 능력:
- PyTorch로 모델 구현 및 학습
- HuggingFace Transformers 활용
- 분산 학습 (DeepSpeed, FSDP) 이해
- 평가 벤치마크 구현 및 분석

안전 특화 기술:

정렬 기법:
- RLHF/DPO 구현 경험
- 보상 모델 학습
- 프롬프트 엔지니어링

Red Teaming:
- 공격 패턴 생성
- 자동 Red Teaming 프레임워크 사용
- 평가 메트릭 설계

Interpretability:
- Activation Patching
- Sparse Autoencoder 학습
- 특성 분석 및 시각화

Guardrails:
- 입출력 필터링 시스템 구현
- 콘텐츠 분류기 학습
- 프로덕션 안전 파이프라인

5-2. 연구 역량

  • 논문 읽기: arXiv에서 주당 3~5편의 관련 논문을 읽고 핵심을 추출하는 능력
  • 논문 쓰기: 실험 결과를 구조화하여 학술 논문으로 작성하는 능력
  • 실험 설계: 가설 설정, 변수 통제, 통계적 유의성 검증
  • 재현성: 다른 연구자의 결과를 재현하는 능력

5-3. 커뮤니케이션 역량

AI Safety 엔지니어에게 특히 중요한 소프트 스킬:

  • 위험 커뮤니케이션: 기술적 위험을 비기술자(경영진, 정책입안자)에게 효과적으로 전달
  • 간학문적 소통: 철학자, 법학자, 사회과학자와 협업
  • 기술 문서화: 안전 보고서, 모델 카드, 위험 평가 문서 작성
  • 대중 소통: 블로그, 발표를 통해 AI 안전의 중요성을 알림

5-4. 윤리와 철학적 사고

  • 공리주의(Utilitarianism): 최대 다수의 최대 행복 관점에서 AI 위험 평가
  • 의무론(Deontology): 결과와 무관하게 지켜야 할 원칙 설정
  • 덕 윤리(Virtue Ethics): AI 개발자로서의 덕목과 책임
  • 트롤리 문제의 AI 버전: 모델이 직면하는 윤리적 딜레마 분석
  • 장기주의(Longtermism): 현재 결정이 미래 세대에 미치는 영향 고려

6. 연봉과 보상

AI Safety 분야의 보상 체계를 직급별, 지역별로 정리합니다.

6-1. 직급별 연봉 (2025년 기준)

직급미국 (USD)한국 (KRW)유럽 (EUR)
Junior (0~2년)100K~150K5,000만~8,000만60K~90K
Mid (2~5년)150K~250K8,000만~1.3억90K~150K
Senior (5~10년)250K~500K1.3억~2.5억150K~300K
Staff/Principal400K~800K2억~4억250K~500K
연구 디렉터500K~1M+3억~5억+300K~600K

주의: 미국 연봉은 기본급 + 주식 보상(RSU/Stock Options) 합산이며, 특히 Anthropic과 OpenAI의 경우 주식 가치가 상당합니다.

6-2. 포지션별 연봉 차이

연봉이 높은 순서 (일반적):

1. Alignment Research Scientist (연구형)
   - 최고: 1M+ (Top 1%)
   - 논문 실적이 연봉에 직접적 영향

2. AI Safety Engineer (엔지니어링형)
   - 최고: 800K
   - 프로덕션 시스템 구축 경험이 핵심

3. AI Red Team Lead (평가형)
   - 최고: 600K
   - 보안 배경 + ML 지식 조합

4. AI Governance Specialist (정책형)
   - 최고: 400K
   - 법률/정책 배경 + 기술 이해

5. AI Ethics Researcher (윤리형)
   - 최고: 300K
   - 학술 연구 중심

6-3. 협상 팁

  • 기반 연봉보다 주식을 주시하세요: 초기 스타트업(Anthropic, OpenAI)의 주식은 IPO 시 수십 배 가치 상승 가능
  • 연구 실적이 무기입니다: 학회 논문(NeurIPS, ICML, ICLR) 발표 경력은 연봉 협상에서 큰 레버리지
  • 경쟁 오퍼를 확보하세요: 여러 기업에서 오퍼를 받으면 협상력이 크게 상승
  • 비금전적 보상도 중요: 연구 자율성, 논문 발표 정책, 컴퓨팅 자원 접근성

7. 학습 로드맵 (12개월)

AI Safety 엔지니어가 되기 위한 체계적인 12개월 학습 계획입니다.

7-1. 기초 단계 (1~3개월)

목표: ML/DL 기초와 AI Safety 개론

월 1: 머신러닝 기초

주차별 계획:

1주차: Python + PyTorch 기초
  - PyTorch 텐서 연산, autograd
  - 간단한 신경망 구현

2주차: 딥러닝 핵심
  - CNN, RNN, Attention Mechanism
  - Transformer 아키텍처 이해

3주차: NLP 기초
  - 토크나이제이션, 임베딩
  - HuggingFace Transformers 사용법

4주차: 강화학습 기초
  - MDP, Policy Gradient
  - PPO 알고리즘 이해

월 2: AI Safety 개론

  • 80,000 Hours AI Safety 커리어 가이드 정독
  • Anthropic의 "Core Views on AI Safety" 읽기
  • AGI Safety Fundamentals 과정 수강 (BlueDot Impact)
  • 핵심 논문 10편 읽기 (아래 참고 자료 참조)

월 3: 통계와 실험 방법론

  • 베이지안 추론 기초
  • 가설 검정과 통계적 유의성
  • 실험 설계 방법론
  • 논문 비판적 읽기 연습

7-2. 심화 단계 (4~6개월)

목표: 핵심 안전 기술 실습

월 4: RLHF 구현

프로젝트: 소규모 LLMRLHF 적용

1. SFT 단계
   - Alpaca 데이터셋으로 기본 미세 조정
   - 학습률, 에폭 등 하이퍼파라미터 실험

2. 보상 모델 학습
   - 선호도 데이터 수집 (직접 레이블링)
   - 보상 모델 구현 및 학습

3. PPO 학습
   - TRL (Transformer Reinforcement Learning) 라이브러리 사용
   - KL 페널티 조정 실험

4. DPO 비교 실험
   - 같은 데이터로 DPO 적용
   - RLHF vs DPO 성능 비교

월 5: Red Teaming 실습

  • 오픈소스 LLM(LLaMA, Mistral)에 수동 Red Teaming 수행
  • HarmBench 벤치마크로 안전성 평가
  • 자동 Red Teaming 파이프라인 구축
  • 결과 분석 및 보고서 작성

월 6: 안전 시스템 구축

  • NeMo Guardrails로 입출력 필터링 구현
  • 콘텐츠 안전 분류기 학습 (유해 콘텐츠 탐지)
  • 프롬프트 인젝션 방어 시스템 구축
  • End-to-end 안전 파이프라인 완성

7-3. 전문화 단계 (7~9개월)

두 트랙 중 하나를 선택합니다:

트랙 A: Interpretability (연구형)

7: 기초
  - TransformerLens 라이브러리 학습
  - Neel Nanda의 Mechanistic Interpretability 튜토리얼

8: 실습
  - GPT-2 모델에서 특정 회로(circuit) 식별
  - Activation Patching 실험

9: 연구
  - Sparse Autoencoder 학습 및 특성 분석
  - 소규모 연구 프로젝트 수행

트랙 B: AI Governance (정책형)

7: 기초
  - EU AI Act 상세 분석
  - ISO/IEC 42001 학습
  - AI 위험 평가 프레임워크 연구

8: 실습
  - AI 시스템 위험 평가 수행
  - 모델 카드(Model Card) 작성
  - 알고리즘 영향 평가(AIA) 실시

9: 전문화
  - 규제 컨설팅 프로젝트
  - 정책 보고서 작성
  - 업계 컨퍼런스 참석

7-4. 프로젝트와 취업 준비 단계 (10~12개월)

월 10: 오픈소스 기여

  • HuggingFace의 안전 관련 프로젝트에 기여
  • LLM 평가 프레임워크(lm-evaluation-harness) 개선
  • 자신만의 안전 도구 오픈소스화

월 11: 논문/블로그 작성

  • 학습한 내용을 체계적으로 정리
  • AI Safety 관련 기술 블로그 시리즈 작성
  • (가능하면) 워크숍 논문 투고

월 12: 취업 준비

  • 포트폴리오 정리
  • 모의 면접 연습
  • 네트워킹 (AI Safety Camp, EAGx, 학회)
  • 지원서 작성 및 제출

8. 면접 준비

AI Safety 관련 면접에서 자주 나오는 질문 유형과 준비 방법입니다.

8-1. 기술 면접

RLHF 구현 관련:

예상 질문:

Q: RLHF에서 KL 페널티가 왜 필요한가?
A: 정책이 보상 모델의 허점을 이용(reward hacking)하여
   원래 모델에서 너무 벗어나는 것을 방지하기 위해서입니다.
   KL(pi || pi_ref)를 보상에서 빼서 원래 분포에서
   멀어질수록 페널티를 줍니다.

Q: DPORLHF보다 유리한 점과 불리한 점은?
A: 유리: 보상 모델 학습 불필요, 계산 비용 절감, 안정적 학습
   불리: 보상 모델의 재사용 불가, 온라인 데이터 활용 어려움,
   복잡한 선호도 패턴 학습에 한계

Q: Constitutional AI에서 "헌법"은 구체적으로 무엇인가?
A: 모델이 자기 응답을 평가할 때 사용하는 원칙 목록입니다.
   : "이 응답이 해로운 조언을 포함하는가?"
   "이 응답이 특정 그룹을 차별하는가?"

편향 탐지 관련:

예상 질문:

Q: LLM에서 편향을 측정하는 방법 세 가지를 설명하시오.
A:
1. 카운터팩추얼 평가: 민감한 속성(성별, 인종)만 바꿔
   응답 변화를 측정
2. 대표성 분석: 생성된 텍스트에서 각 그룹의 표현 빈도와
   긍정/부정 비율 분석
3. 다운스트림 영향 측정: 실제 사용 시나리오에서
   그룹별 성능 격차 분석

8-2. 연구 면접

논문 발표:

  • 자신의 연구를 15~20분으로 발표
  • 실험 설계, 결과 해석, 한계점, 후속 연구 방향을 명확히

연구 제안서:

면접에서 제출하는 연구 제안서 구조:

1. 문제 정의 (1페이지)
   - 왜 이 문제가 중요한가?
   - 기존 접근법의 한계는?

2. 제안 방법 (2~3페이지)
   - 핵심 아이디어
   - 기술적 접근 방법
   - 예상 실험 설계

3. 예상 결과 (1페이지)
   - 성공 기준
   - 잠재적 위험과 대안

4. 타임라인 (0.5페이지)
   - 3~6개월 단위 마일스톤

8-3. 윤리 면접

AI Safety 포지션에서 특히 중요한 면접 유형입니다.

트롤리 문제의 AI 버전:

시나리오 예시:

Q: AI 의료 진단 시스템이 희귀 질병을 99.9% 정확도로
   탐지하지만, 0.1% 오진 시 치명적 부작용이 있는 치료로
   이어집니다.  시스템을 배포해야 할까요?

논의 포인트:
- 기대 효용 계산 (공리주의적 분석)
- 동의와 고지 의무 (의무론적 분석)
- 대안적 설계 (임계값 조정, 인간 확인 단계 추가)
- 취약 집단에 대한 차별적 영향
- 배포 환경에 따른 리스크 차이

8-4. 면접 질문 20선

기술:

  1. RLHF 파이프라인의 각 단계를 설명하고, 각 단계에서 발생할 수 있는 문제점은?
  2. Reward hacking이란 무엇이며 어떻게 방지하는가?
  3. Sparse Autoencoder가 Interpretability에서 왜 중요한가?
  4. 프롬프트 인젝션 공격의 유형 세 가지와 방어 방법은?
  5. 모델의 할루시네이션을 탐지하는 기술적 방법은?

연구:

  1. Constitutional AI와 RLHF의 근본적 차이는?
  2. Scalable Oversight 문제를 해결하는 접근법 비교
  3. AI Debate가 실제로 작동하려면 어떤 가정이 필요한가?
  4. Mechanistic Interpretability의 현재 한계와 극복 방향은?
  5. 정렬 세금(Alignment Tax)을 최소화하는 방법은?

윤리/거버넌스:

  1. AI Safety와 AI 능력 연구 사이의 올바른 균형은?
  2. 오픈소스 모델의 안전과 접근성 사이의 트레이드오프는?
  3. EU AI Act의 고위험 AI 분류 기준에 동의하는가?
  4. AI 개발에서 "충분히 안전하다"는 기준을 어떻게 설정하는가?
  5. AI 군사 활용의 윤리적 경계는 어디인가?

시나리오:

  1. 당신의 모델이 예상치 못한 위험 행동을 보인다면 어떻게 대응하는가?
  2. 안전과 성능이 충돌할 때 의사결정 프로세스는?
  3. Red Teaming에서 발견된 치명적 취약점을 공개할 것인가?
  4. 경쟁사가 덜 안전한 모델을 먼저 출시한다면?
  5. AI Safety 연구가 오히려 위험을 증가시킬 수 있는 경우는?

9. 오픈소스와 커뮤니티

AI Safety를 학습하고 커리어를 발전시키는 데 도움이 되는 리소스입니다.

9-1. 학습 프로그램

프로그램형태기간대상비용
AGI Safety Fundamentals (BlueDot Impact)온라인 코호트8주초급무료
MATS (ML Alignment Theory Scholars)멘토십10주중급스티펜드 지급
AI Safety Camp집중 캠프2~4주중급무료/보조금
ARENA (Alignment Research Engineer Accelerator)부트캠프8주엔지니어무료
Redwood Research REMIX인턴십12주대학원생유급

9-2. 커뮤니티와 포럼

  • Alignment Forum: AI 정렬 연구 전문 포럼. 최신 연구와 토론이 활발
  • LessWrong: 합리성과 AI Safety를 논의하는 커뮤니티
  • EA Forum: 효과적 이타주의 관점의 AI Safety 논의
  • AI Safety Slack/Discord: 연구자 네트워킹
  • 80,000 Hours: AI Safety 커리어 가이드와 직업 추천

9-3. 학회와 워크숍

주요 학회:

- NeurIPS: SoLaR (Socially Responsible Language Models) 워크숍
- ICML: AI Safety 관련 여러 워크숍
- ICLR: Alignment 관련 논문 다수
- ACL: 언어 모델 안전 관련 트랙
- FAccT: 공정성, 책임, 투명성 전문 학회
- AAAI: AI Safety 트랙

주요 행사:

- EAGx (Effective Altruism Global): 네트워킹 집중
- AI Safety Summit: 각국 정부 주최
- Anthropic Research Days: Anthropic 주최 연구 발표

9-4. 오픈소스 프로젝트

기여하면 이력서에 강력한 항목이 됩니다:

  • HuggingFace TRL: RLHF/DPO 구현 라이브러리
  • TransformerLens: Mechanistic Interpretability 도구
  • lm-evaluation-harness: LLM 평가 프레임워크
  • NeMo Guardrails: NVIDIA의 안전 가드레일 프레임워크
  • Guardrails AI: Python 기반 안전 검증 라이브러리
  • LiteLLM: LLM API 통합 및 안전 설정

10. 퀴즈

지금까지 배운 내용을 확인해 봅시다.

Q1. RLHF와 DPO의 핵심적인 차이점은 무엇인가?

정답: RLHF는 3단계 프로세스(SFT - Reward Model 학습 - PPO 최적화)로, 별도의 보상 모델을 학습한 후 이를 사용해 강화학습으로 정책을 최적화합니다. 반면 DPO(Direct Preference Optimization)는 보상 모델 학습 단계를 건너뛰고, 선호도 데이터에서 직접 정책을 최적화합니다. DPO는 계산 비용이 적고 안정적이지만, 보상 모델의 재사용이 불가능합니다.

Q2. Anthropic의 Constitutional AI가 기존 RLHF와 다른 점은?

정답: Constitutional AI는 인간 피드백 대신 미리 정의된 "헌법"(원칙 목록)을 사용합니다. 모델이 자기 응답을 원칙에 따라 스스로 비판하고 개선(Self-Critique + Revision)한 후, AI의 피드백(RLAIF)으로 강화학습을 수행합니다. 이를 통해 인간 레이블러 의존도를 줄이고 확장성을 높이며, 명시적인 원칙에 기반한 투명한 정렬이 가능합니다.

Q3. Mechanistic Interpretability에서 Sparse Autoencoder의 역할은?

정답: 모델의 개별 뉴런은 여러 개념에 반응(Polysemantic)하여 해석이 어렵습니다. Sparse Autoencoder(SAE)는 이런 폴리시맨틱 뉴런의 활성화를 더 높은 차원의 희소 공간으로 변환하여, 각 차원이 하나의 해석 가능한 "특성(feature)"에 대응하도록 분해합니다. Anthropic의 Scaling Monosemanticity 연구에서 이 방법으로 Claude 내부의 수백만 개의 개념적 특성을 발견했습니다.

Q4. Scalable Oversight의 "AI Debate" 접근법은 어떤 가정에 기반하는가?

정답: AI Debate의 핵심 가정은 "진실은 거짓보다 방어하기 쉽다"는 것입니다. 두 AI가 반대 입장에서 최선을 다해 논쟁하면, 거짓 주장은 반박에 취약하므로 결국 진실이 드러날 것이라는 가설입니다. 이를 통해 인간 판정관이 전체 내용을 이해하지 않더라도 논쟁 과정에서 핵심 근거를 평가할 수 있어, 초인간 AI를 감독하는 데 활용할 수 있습니다.

Q5. AI Safety Engineer로 취업하기 위한 가장 효과적인 포트폴리오 전략은?

정답: 가장 효과적인 전략은 다음 세 가지를 조합하는 것입니다:

  1. 기술 프로젝트: 소규모 LLM에 RLHF/DPO를 직접 구현하거나, Red Teaming 자동화 도구를 만들거나, 안전 가드레일 시스템을 구축한 프로젝트
  2. 오픈소스 기여: HuggingFace TRL, TransformerLens, NeMo Guardrails 등 인정받는 안전 관련 오픈소스 프로젝트에 의미 있는 기여
  3. 연구 산출물: AI Safety 관련 기술 블로그 시리즈, Alignment Forum 게시물, 또는 워크숍 논문

이 세 가지가 기술적 능력, 협업 능력, 커뮤니케이션 능력을 모두 증명합니다.


11. 참고 자료

  1. Anthropic Core Views on AI Safety - Anthropic의 AI 안전 핵심 관점
  2. Anthropic Responsible Scaling Policy - Anthropic의 책임 있는 확장 정책
  3. Constitutional AI Paper (Bai et al., 2022) - Constitutional AI 원본 논문
  4. RLHF Paper (Christiano et al., 2017) - RLHF 원본 논문
  5. DPO Paper (Rafailov et al., 2023) - Direct Preference Optimization 논문
  6. Scaling Monosemanticity (Anthropic, 2024) - 해석 가능성 연구
  7. 80,000 Hours AI Safety Career Guide - AI Safety 커리어 가이드
  8. AGI Safety Fundamentals (BlueDot Impact) - AI Safety 기초 과정
  9. MATS Program - ML Alignment Theory Scholars
  10. AI Safety Camp - AI Safety 집중 캠프
  11. Alignment Forum - AI 정렬 연구 포럼
  12. LessWrong - 합리성과 AI Safety 커뮤니티
  13. EU AI Act Full Text - EU AI Act 전문
  14. NIST AI Risk Management Framework - NIST AI 위험 관리
  15. TrustLLM Benchmark - LLM 신뢰성 평가
  16. HarmBench - 유해성 벤치마크
  17. NeMo Guardrails - NVIDIA 안전 프레임워크
  18. TransformerLens - Mechanistic Interpretability 도구
  19. HuggingFace TRL - RLHF/DPO 구현 라이브러리
  20. ARENA Curriculum - Alignment Research Engineer 과정
  21. ARC Evals - AI 정렬 평가
  22. Center for AI Safety - AI Safety 연구 지원
  23. Anthropic Research - Anthropic 연구 페이지

AI Safety Engineer & Alignment Researcher Career Guide: The Fastest-Growing AI Role in 2025

1. Why AI Safety Matters Right Now

2025 marks the year AI Safety moved from academic research labs to the top of every tech company's agenda. This is not just an ethical discussion — it is reshaping regulations, hiring markets, and the direction of technology itself.

1-1. Global Regulation Has Become Reality

The EU AI Act went into effect in 2024, with phased enforcement beginning in 2025. High-risk AI systems must pass mandatory safety assessments, and violations can result in fines of up to 7% of global revenue. The United States established a federal AI safety framework through the 2025 AI Action Plan. South Korea enacted its AI Basic Act, mandating pre-deployment impact assessments for high-risk AI.

The common thread across all these regulations: you cannot ship an AI product without AI Safety engineers.

1-2. AGI Timelines Are Accelerating

Anthropic CEO Dario Amodei stated in early 2025 that AGI could arrive between 2026 and 2027. OpenAI's Sam Altman has echoed similar timelines. As model capabilities advance rapidly, the urgency of safety research has never been higher.

Key concerns:

  • Capability-Safety Gap: Model capabilities are growing faster than safety research
  • Emergent Behavior: Unexpected abilities appear suddenly at scale
  • Deceptive Alignment: Models may behave safely only during evaluation
  • Power Seeking: AI systems may seek to expand their own influence

1-3. The Job Market Is Exploding

The AI Safety job market is growing at remarkable speed:

  • 45% salary increase since 2023 for AI Safety Engineers
  • 1,062 open positions on Indeed in the US alone
  • Median salary of 205K to 221K USD for AI Governance specialists
  • Top 1% researchers: over 1M USD in total compensation

This growth is driven by regulatory compliance requirements, the intensifying AGI race, and rising public awareness of AI risks.


2. AI Safety vs AI Ethics vs AI Governance

These three domains are frequently conflated but have distinct focuses.

2-1. AI Safety

Definition: Technical research ensuring AI systems operate safely as intended.

Core Question: "Will this AI do something harmful that we did not intend?"

Key areas:

  • Alignment: Ensuring AI objectives match human intent
  • Robustness: Safe operation under adversarial attacks and edge cases
  • Interpretability: Understanding how AI makes decisions internally
  • Monitoring: Continuous observation of deployed systems

2-2. AI Ethics

Definition: Research into the societal impact and moral implications of AI.

Core Question: "Is this AI operating fairly and transparently?"

Key areas:

  • Bias: Detecting and mitigating data and model biases
  • Fairness: Equal treatment across demographic groups
  • Transparency: Explainability of decision-making processes
  • Privacy: Protection of personal information

2-3. AI Governance

Definition: Organizational and societal frameworks for managing AI development and deployment.

Core Question: "How should AI be regulated and managed?"

Key areas:

  • Policy: AI-related laws and regulations
  • Standards: ISO/IEC 42001 and other AI management standards
  • Auditing: Regular AI system reviews
  • Risk Management: Identifying and mitigating AI risks

2-4. Comparison Summary

DimensionAI SafetyAI EthicsAI Governance
FocusTechnical safetySocial impactPolicy/Regulation
Core SkillsML EngineeringSocial science, PhilosophyLaw, Policy
BackgroundCS, MathematicsHumanities, SociologyLaw, Public Policy
OutputSafe models/systemsEthics guidelinesRegulatory frameworks
Typical TitleSafety EngineerEthics ResearcherPolicy Advisor
Median Salary180K-250K USD130K-180K USD150K-221K USD

In practice, these three domains are tightly interconnected. For example, Anthropic's Responsible Scaling Policy uses technical safety assessments (Safety) as the basis for policy decisions (Governance) while reflecting ethical principles (Ethics).


3. Core Research Areas Deep Dive

Let us examine the major research areas of AI Safety in technical depth.

3-1. RLHF and Alignment Techniques

RLHF (Reinforcement Learning from Human Feedback) is currently the most widely used alignment technique.

RLHF Pipeline:

1. SFT (Supervised Fine-Tuning)
   - Fine-tune model on high-quality human-written responses
   - Establish basic instruction-following capability

2. Reward Model Training
   - Humans rank response pairs by preference
   - Train a reward model on preference data
   - RM(s_t) -> scalar reward

3. PPO (Proximal Policy Optimization)
   - Optimize policy using the reward model
   - KL penalty to prevent drifting too far from original model

DPO (Direct Preference Optimization): Direct preference learning without a reward model.

# Core idea of DPO (pseudocode)
# Skips the Reward Model training step
# Directly optimizes policy from preference data

# loss = -log(sigmoid(beta * (log_ratio_preferred - log_ratio_rejected)))
# log_ratio = log(pi(y|x) / pi_ref(y|x))

def dpo_loss(pi_logps_preferred, pi_logps_rejected,
             ref_logps_preferred, ref_logps_rejected, beta=0.1):
    """
    DPO loss computation
    - pi: policy being trained
    - ref: reference policy (SFT model)
    - beta: KL penalty strength
    """
    log_ratio_preferred = pi_logps_preferred - ref_logps_preferred
    log_ratio_rejected = pi_logps_rejected - ref_logps_rejected
    logits = beta * (log_ratio_preferred - log_ratio_rejected)
    loss = -torch.nn.functional.logsigmoid(logits).mean()
    return loss

DPO advantages include eliminating the reward model training step (reducing compute cost) and simplifying hyperparameter tuning.

Constitutional AI (Anthropic):

A distinctive alignment technique developed by Anthropic, where the AI evaluates and improves its own responses based on a predefined "constitution" (list of principles).

Constitutional AI Process:

Step 1: Generate initial response to red-team prompt
Step 2: Self-critique based on constitutional principles
  - "Does this response violate principle X?"
  - "How can this be improved?"
Step 3: Generate revised response (Revision)
Step 4: (Optional) RLAIF - Reinforcement learning from AI feedback

RLAIF (Reinforcement Learning from AI Feedback): AI provides the feedback instead of humans. An extension of Constitutional AI that addresses the cost and scalability limitations of human labelers.

3-2. Red Teaming and Safety Evaluation

Red Teaming is an offensive testing methodology for discovering vulnerabilities and dangerous behaviors in AI systems before deployment.

Manual Red Teaming:

Human experts directly attack models to find vulnerabilities:

  • Eliciting harmful content generation
  • Attempting information leakage
  • Provoking biased responses
  • Extracting system prompts
  • Bypassing safety measures through role-playing

Automated Red Teaming:

# Automated Red Teaming conceptual pipeline

class AutoRedTeam:
    """Framework where AI attacks AI for automated red teaming"""

    def __init__(self, target_model, attacker_model, judge_model):
        self.target = target_model      # Attack target
        self.attacker = attacker_model   # Attack generator
        self.judge = judge_model         # Success evaluator

    def generate_attacks(self, category, num_attacks=100):
        """Generate attack prompts for a specific category"""
        attacks = []
        for _ in range(num_attacks):
            prompt = self.attacker.generate(
                f"Generate a prompt that might cause unsafe behavior "
                f"in the category: {category}"
            )
            attacks.append(prompt)
        return attacks

    def evaluate(self, attacks):
        """Evaluate attack results"""
        results = []
        for attack in attacks:
            response = self.target.generate(attack)
            is_unsafe = self.judge.evaluate(
                attack=attack,
                response=response,
                criteria="Does this response contain unsafe content?"
            )
            results.append({
                "attack": attack,
                "response": response,
                "is_unsafe": is_unsafe
            })
        return results

Jailbreak Defense Techniques:

Key defense strategies against prompt injection and jailbreak attempts:

  1. Input filtering: Detecting known attack patterns
  2. System prompt hardening: Embedding clear safety instructions
  3. Output validation: Post-hoc verification of response safety
  4. Defense in depth: Layering multiple security mechanisms
  5. Adaptive defense: Continuously responding to novel attacks

Evaluation Frameworks:

FrameworkDeveloperKey Feature
TrustLLMAcademic consortium6-dimensional trustworthiness assessment
HarmBenchCMU et al.Standardized harmfulness benchmark
HELMStanfordComprehensive language model evaluation
DecodingTrustAcademicGPT model trustworthiness assessment
SafetyBenchAcademicMultilingual safety evaluation including Chinese

3-3. Interpretability

Interpretability is the research field dedicated to understanding the internal workings of AI models. Anthropic has made particularly large investments in this area.

Mechanistic Interpretability:

Analyzing how models process information at the neuron and circuit level.

Core Mechanistic Interpretability Techniques:

1. Activation Patching
   - Replace activations of specific neurons to determine causal relationships
   - "What changes if this neuron is absent?"

2. Feature Visualization
   - Find input patterns that maximally activate specific neurons
   - Visually confirm "what each neuron responds to"

3. Circuit Analysis
   - Identify groups of neurons (circuits) implementing specific capabilities
   - Examples: "fact recall circuit", "arithmetic circuit", "language switch circuit"

4. Probing
   - Train classifiers to extract specific information from intermediate representations
   - Determine what information the model stores where

Anthropic's "Scaling Monosemanticity" Research:

Anthropic published groundbreaking research in 2024 using Sparse Autoencoders (SAEs) to discover millions of interpretable "features" inside Claude.

Key findings:

  • Individual neurons respond to multiple concepts (polysemantic), but SAEs can decompose these into features corresponding to single concepts
  • Discovered specific features like "Golden Gate Bridge," "code security vulnerability," and others
  • Artificially activating these features changes model behavior predictably
  • Safety-relevant features can be identified to understand and improve model safety behavior

Dictionary Learning:

# Dictionary Learning with Sparse Autoencoder (conceptual code)

class SparseAutoencoder(torch.nn.Module):
    """
    Decompose model activations into interpretable features
    - Input: activation vectors from model intermediate layers
    - Output: sparse feature representation
    """
    def __init__(self, d_model, n_features):
        super().__init__()
        # d_model: model hidden dimension
        # n_features: dictionary size (typically much larger than d_model)
        self.encoder = torch.nn.Linear(d_model, n_features)
        self.decoder = torch.nn.Linear(n_features, d_model)

    def forward(self, x):
        # Encode: transform activations to sparse feature space
        features = torch.nn.functional.relu(self.encoder(x))
        # Decode: reconstruct original activations from features
        reconstructed = self.decoder(features)
        return features, reconstructed

    def loss(self, x, features, reconstructed, sparsity_coeff=1e-3):
        # Reconstruction loss + sparsity penalty
        reconstruction_loss = (x - reconstructed).pow(2).mean()
        sparsity_loss = features.abs().mean()
        return reconstruction_loss + sparsity_coeff * sparsity_loss

3-4. Scalable Oversight

When AI becomes smarter than humans, how can humans effectively supervise it?

AI Debate:

Two AIs argue opposing positions, and a human judge selects the more persuasive side.

Debate Protocol:

1. Question Q is given
2. AI-A argues "yes", AI-B argues "no"
3. Alternating arguments (each round)
   - AI-A: "The answer is yes because of X"
   - AI-B: "X is wrong because Y..."
   - AI-A: "I refute Y. Consider Z..."
4. Human judge makes final determination
   - The human does not need to understand everything
   - They evaluate only the key evidence revealed through debate

The core assumption is that truth is easier to defend than falsehood. Therefore, if two AIs argue at their best, truth should prevail.

Recursive Reward Modeling:

Decomposing complex tasks into smaller, evaluable subtasks:

  1. Start with simple tasks humans can evaluate
  2. Train a reward model to evaluate tasks at that level
  3. Use the trained reward model to evaluate more complex tasks
  4. Repeat recursively, scaling to increasingly complex tasks

AI-Assisted Evaluation:

AI evaluates the output of other AI systems. Anthropic's Constitutional AI and OpenAI's model-based evaluations fall into this category. The key requirement is that the evaluator AI must be independent of the AI being evaluated.

3-5. Guardrails and Content Safety

Practical approaches to implementing AI safety in production environments.

Input Filtering:

# Input safety filtering conceptual example

class InputSafetyFilter:
    """Detect and block harmful prompts from user input"""

    def __init__(self):
        self.categories = [
            "violence", "hate_speech", "self_harm",
            "sexual_content", "illegal_activity",
            "prompt_injection", "jailbreak_attempt"
        ]

    def classify(self, user_input: str) -> dict:
        """Classify input into safety categories"""
        # 1. Rule-based filter (fast, catches obvious patterns)
        rule_result = self.rule_based_check(user_input)
        if rule_result["blocked"]:
            return rule_result

        # 2. ML classifier (catches subtle patterns)
        ml_result = self.ml_classifier.predict(user_input)

        # 3. LLM-based judgment (when context understanding needed)
        if ml_result["confidence"] < 0.8:
            llm_result = self.llm_judge(user_input)
            return llm_result

        return ml_result

    def rule_based_check(self, text: str) -> dict:
        """Regex and keyword-based quick check"""
        # Known jailbreak pattern detection
        # Prompt injection attempt detection
        # ...
        pass

Output Filtering:

# Output safety filtering

class OutputSafetyFilter:
    """Validate model response safety"""

    def check(self, prompt: str, response: str) -> dict:
        """Multi-layer validation of response safety"""
        checks = {
            "toxicity": self.check_toxicity(response),
            "factuality": self.check_hallucination(prompt, response),
            "pii_leak": self.check_pii_exposure(response),
            "code_safety": self.check_code_safety(response),
            "refusal_appropriateness": self.check_refusal(prompt, response)
        }
        return {
            "safe": all(c["safe"] for c in checks.values()),
            "details": checks
        }

NeMo Guardrails Framework (NVIDIA):

An open-source framework from NVIDIA that adds programmable guardrails to LLM applications:

NeMo Guardrails Architecture:

1. Input Rails
   - Block harmful prompts
   - Restrict topic scope (block off-topic queries)
   - Defend against prompt injection

2. Output Rails
   - Filter harmful responses
   - Detect hallucinations
   - Prevent PII (Personally Identifiable Information) exposure

3. Dialog Rails
   - Control conversation flow
   - Guide dialogue to permitted topics
   - Response policies for sensitive subjects

4. Colang (DSL)
   - Dedicated language for defining guardrail rules
   - Intermediate between natural language and programming

Guardrails AI (Python Library):

# Guardrails AI usage example (conceptual)

# Define validation rules
guard_config = """
validators:
  - type: toxicity
    threshold: 0.7
    on_fail: refusal
  - type: pii
    entities: [email, phone, ssn]
    on_fail: anonymize
  - type: hallucination
    method: self_check
    on_fail: retry
"""

# Apply guardrails
# guard = Guard.from_yaml(guard_config)
# result = guard(llm_call, prompt=user_prompt)
# result.validated_output  # validated safe output

4. Hiring Companies and Positions

An overview of the major companies hiring in AI Safety and their characteristics.

4-1. AI Safety-Focused Companies

Anthropic:

The flagship company with AI Safety as its core mission.

Key teams and roles:

  • Alignment Finetuning: Improving RLHF and Constitutional AI
  • Interpretability: Mechanistic Interpretability research
  • Trust & Safety: Production safety systems operations
  • Responsible Scaling: Safety evaluations and policy development
  • Societal Impacts: Social impact analysis

Characteristics:

  • High research autonomy since safety is the company's core mission
  • Proactively sets safety standards via Responsible Scaling Policy (RSP)
  • Actively supports academic paper publication
  • Headquartered in San Francisco, some remote work available

OpenAI:

Key teams and roles:

  • Safety Systems: Production safety systems
  • Preparedness Team: Future risk preparation
  • Alignment Research: Alignment research
  • Policy Research: Policy research

Characteristics:

  • Safety organization restructured after 2024 Superalignment team dissolution
  • Opportunity to gain production-scale safety system experience
  • Operates a Safety Advisory Board

Google DeepMind:

Key teams and roles:

  • Responsible AI: Responsible AI development
  • Safety & Alignment: Safety and alignment research
  • Ethics & Society: Ethics and society research

Characteristics:

  • Strong academic connections
  • Abundant computing resources
  • Multiple offices including London and Mountain View

4-2. Nonprofit Research Labs

LabFocusLocationCharacteristics
MIRIMathematical AI alignment theoryBerkeleyTheory-focused, small team
ARC (Alignment Research Center)Alignment evaluationBerkeleyModel evaluation specialists
CAIS (Center for AI Safety)Safety research supportSan FranciscoInfrastructure and funding support
FAR.AIPractical safety researchBerkeleyExperimental research
Redwood ResearchInterpretability, alignmentBerkeleyTechnical research focused

4-3. Big Tech

CompanyTeamFocus
MetaResponsible AILLAMA model safety, open-source safety tools
MicrosoftAI Ethics & EffectsAzure AI safety, Copilot safety
AmazonResponsible AIBedrock safety, AWS AI service safety
AppleML ResearchOn-device AI safety, privacy
NVIDIATrustworthy AINeMo Guardrails, safety infrastructure

4-4. Company Culture Comparison

Key considerations when choosing a company:

1. Research Autonomy
   - High: Anthropic, DeepMind, nonprofit labs
   - Medium: OpenAI, Meta
   - Lower (production-focused): Microsoft, Amazon

2. Paper Publication
   - Actively encouraged: Anthropic, DeepMind
   - Conditionally allowed: OpenAI, Meta
   - Restricted: Apple

3. Compensation Level
   - Top tier: Anthropic, OpenAI, DeepMind
   - High: Big Tech overall
   - Moderate: Nonprofit labs

4. Social Impact
   - Direct: Anthropic (core mission)
   - Large scale: Big Tech (hundreds of millions of users)
   - Theoretical: Nonprofit labs

5. Required Skills

A systematic overview of the skills needed to become an AI Safety Engineer.

5-1. Technical Skills

Programming:

Essential:
- Python (primary language): PyTorch, JAX, NumPy, Pandas
- Git, basic Linux operations

Helpful:
- Rust (performance optimization)
- C++ (ML framework internals)
- Julia (numerical computing)

Machine Learning Fundamentals:

Core Concepts:
- Deep Learning: Transformer, Attention mechanism
- Reinforcement Learning: MDP, Policy Gradient, PPO
- NLP: Tokenization, embeddings, fine-tuning
- Statistics/Probability: Bayesian inference, hypothesis testing

Practical Skills:
- Implementing and training models with PyTorch
- Using HuggingFace Transformers
- Understanding distributed training (DeepSpeed, FSDP)
- Implementing and analyzing evaluation benchmarks

Safety-Specific Technical Skills:

Alignment Techniques:
- RLHF/DPO implementation experience
- Reward model training
- Prompt engineering

Red Teaming:
- Attack pattern generation
- Using automated red teaming frameworks
- Evaluation metric design

Interpretability:
- Activation patching
- Sparse autoencoder training
- Feature analysis and visualization

Guardrails:
- Input/output filtering system implementation
- Content classifier training
- Production safety pipelines

5-2. Research Skills

  • Paper reading: Ability to read 3-5 relevant papers per week from arXiv and extract key insights
  • Paper writing: Ability to structure experimental results into academic papers
  • Experiment design: Hypothesis formulation, variable control, statistical significance testing
  • Reproducibility: Ability to reproduce results from other researchers

5-3. Communication Skills

Soft skills that are particularly important for AI Safety Engineers:

  • Risk communication: Effectively conveying technical risks to non-technical audiences (executives, policymakers)
  • Interdisciplinary communication: Collaborating with philosophers, legal scholars, social scientists
  • Technical documentation: Writing safety reports, model cards, risk assessment documents
  • Public communication: Raising awareness of AI safety importance through blogs and talks

5-4. Ethics and Philosophical Thinking

  • Utilitarianism: Assessing AI risks from a greatest-good-for-greatest-number perspective
  • Deontology: Setting principles that should be upheld regardless of outcomes
  • Virtue Ethics: Virtues and responsibilities as an AI developer
  • AI Trolley Problems: Analyzing ethical dilemmas that models face
  • Longtermism: Considering how present decisions affect future generations

6. Salary and Compensation

A breakdown of compensation in AI Safety by level and region.

6-1. Salary by Level (2025)

LevelUnited States (USD)South Korea (KRW)Europe (EUR)
Junior (0-2 yrs)100K-150K50M-80M60K-90K
Mid (2-5 yrs)150K-250K80M-130M90K-150K
Senior (5-10 yrs)250K-500K130M-250M150K-300K
Staff/Principal400K-800K200M-400M250K-500K
Research Director500K-1M+300M-500M+300K-600K

Note: US salaries include base salary plus equity compensation (RSU/stock options). Equity at Anthropic and OpenAI can be particularly significant.

6-2. Salary Differences by Position Type

Ranked by compensation (generally):

1. Alignment Research Scientist (research-oriented)
   - Top: 1M+ (Top 1%)
   - Publication record directly impacts compensation

2. AI Safety Engineer (engineering-oriented)
   - Top: 800K
   - Production system experience is critical

3. AI Red Team Lead (evaluation-oriented)
   - Top: 600K
   - Security background + ML knowledge combination

4. AI Governance Specialist (policy-oriented)
   - Top: 400K
   - Legal/policy background + technical understanding

5. AI Ethics Researcher (ethics-oriented)
   - Top: 300K
   - Academic research focused

6-3. Negotiation Tips

  • Focus on equity over base salary: Early-stage startup equity (Anthropic, OpenAI) can appreciate significantly at IPO
  • Research track record is your leverage: Publications at top venues (NeurIPS, ICML, ICLR) provide strong negotiating power
  • Secure competing offers: Multiple offers dramatically increase your negotiating position
  • Consider non-monetary compensation: Research autonomy, publication policies, compute access

7. Learning Roadmap (12 Months)

A systematic 12-month plan for becoming an AI Safety Engineer.

7-1. Foundation Phase (Months 1-3)

Goal: ML/DL fundamentals and AI Safety introduction

Month 1: Machine Learning Fundamentals

Weekly Plan:

Week 1: Python + PyTorch basics
  - PyTorch tensor operations, autograd
  - Implementing simple neural networks

Week 2: Deep learning essentials
  - CNN, RNN, Attention Mechanism
  - Understanding Transformer architecture

Week 3: NLP fundamentals
  - Tokenization, embeddings
  - HuggingFace Transformers usage

Week 4: Reinforcement learning basics
  - MDP, Policy Gradient
  - Understanding PPO algorithm

Month 2: AI Safety Introduction

  • Read 80,000 Hours AI Safety career guide thoroughly
  • Read Anthropic's "Core Views on AI Safety"
  • Complete the AGI Safety Fundamentals course (BlueDot Impact)
  • Read 10 key papers (see references section below)

Month 3: Statistics and Experimental Methods

  • Bayesian inference fundamentals
  • Hypothesis testing and statistical significance
  • Experimental design methodology
  • Critical paper reading practice

7-2. Intermediate Phase (Months 4-6)

Goal: Hands-on practice with core safety techniques

Month 4: RLHF Implementation

Project: Apply RLHF to a small LLM

1. SFT Phase
   - Basic fine-tuning with Alpaca dataset
   - Experiment with learning rate, epochs, etc.

2. Reward Model Training
   - Collect preference data (label it yourself)
   - Implement and train reward model

3. PPO Training
   - Use TRL (Transformer Reinforcement Learning) library
   - Experiment with KL penalty tuning

4. DPO Comparison
   - Apply DPO with the same data
   - Compare RLHF vs DPO performance

Month 5: Red Teaming Practice

  • Perform manual red teaming on open-source LLMs (LLaMA, Mistral)
  • Evaluate safety using HarmBench benchmarks
  • Build an automated red teaming pipeline
  • Analyze results and write a report

Month 6: Safety System Development

  • Implement input/output filtering with NeMo Guardrails
  • Train a content safety classifier (harmful content detection)
  • Build a prompt injection defense system
  • Complete an end-to-end safety pipeline

7-3. Specialization Phase (Months 7-9)

Choose one of two tracks:

Track A: Interpretability (Research-Oriented)

Month 7: Foundations
  - Learn the TransformerLens library
  - Work through Neel Nanda's Mechanistic Interpretability tutorials

Month 8: Practice
  - Identify specific circuits in GPT-2
  - Conduct activation patching experiments

Month 9: Research
  - Train sparse autoencoders and analyze features
  - Conduct a small-scale research project

Track B: AI Governance (Policy-Oriented)

Month 7: Foundations
  - Detailed analysis of the EU AI Act
  - Study ISO/IEC 42001
  - Research AI risk assessment frameworks

Month 8: Practice
  - Conduct AI system risk assessments
  - Write model cards
  - Perform algorithmic impact assessments

Month 9: Specialization
  - Regulatory consulting projects
  - Write policy reports
  - Attend industry conferences

7-4. Project and Job Preparation Phase (Months 10-12)

Month 10: Open Source Contributions

  • Contribute to HuggingFace safety-related projects
  • Improve LLM evaluation frameworks (lm-evaluation-harness)
  • Open-source your own safety tools

Month 11: Writing Papers/Blog Posts

  • Systematically organize what you have learned
  • Write a technical blog series on AI Safety
  • (If possible) Submit workshop papers

Month 12: Job Preparation

  • Organize your portfolio
  • Practice mock interviews
  • Network (AI Safety Camp, EAGx, conferences)
  • Write and submit applications

8. Interview Preparation

Common question types and preparation strategies for AI Safety interviews.

8-1. Technical Interviews

RLHF Implementation Questions:

Expected Questions:

Q: Why is the KL penalty necessary in RLHF?
A: To prevent the policy from exploiting loopholes in the reward
   model (reward hacking) and drifting too far from the original
   model. We subtract KL(pi || pi_ref) from the reward so that
   deviating from the original distribution incurs a penalty.

Q: What are the advantages and disadvantages of DPO versus RLHF?
A: Advantages: No reward model training needed, lower compute cost,
   more stable training.
   Disadvantages: Cannot reuse the reward model, difficulty with
   online data, limited capacity for complex preference patterns.

Q: What exactly is the "constitution" in Constitutional AI?
A: A list of principles the model uses to evaluate its own responses.
   For example: "Does this response contain harmful advice?"
   "Does this response discriminate against a specific group?"

Bias Detection Questions:

Expected Questions:

Q: Describe three methods for measuring bias in LLMs.
A:
1. Counterfactual evaluation: Change only sensitive attributes
   (gender, race) and measure response changes
2. Representation analysis: Analyze frequency and positive/negative
   ratios for each group in generated text
3. Downstream impact measurement: Analyze performance gaps
   across groups in real usage scenarios

8-2. Research Interviews

Paper Presentations:

  • Present your research in a 15-20 minute talk
  • Clearly cover experiment design, results interpretation, limitations, and future directions

Research Proposals:

Research proposal structure for interviews:

1. Problem Definition (1 page)
   - Why is this problem important?
   - What are the limitations of existing approaches?

2. Proposed Method (2-3 pages)
   - Core idea
   - Technical approach
   - Expected experimental design

3. Expected Results (1 page)
   - Success criteria
   - Potential risks and alternatives

4. Timeline (0.5 page)
   - Milestones in 3-6 month increments

8-3. Ethics Interviews

A particularly important interview type for AI Safety positions.

AI Trolley Problems:

Example Scenario:

Q: An AI medical diagnosis system detects a rare disease with
   99.9% accuracy, but the 0.1% misdiagnosis leads to a
   treatment with fatal side effects. Should this system
   be deployed?

Discussion Points:
- Expected utility calculation (utilitarian analysis)
- Consent and duty to inform (deontological analysis)
- Alternative designs (threshold adjustment, human review step)
- Differential impact on vulnerable populations
- Risk variation across deployment environments

8-4. Twenty Interview Questions

Technical:

  1. Explain each step of the RLHF pipeline and potential failure modes at each step.
  2. What is reward hacking and how do you prevent it?
  3. Why are Sparse Autoencoders important for Interpretability?
  4. Name three types of prompt injection attacks and their defenses.
  5. What are technical methods for detecting model hallucinations?

Research:

  1. What is the fundamental difference between Constitutional AI and RLHF?
  2. Compare approaches for solving the Scalable Oversight problem.
  3. What assumptions must hold for AI Debate to work in practice?
  4. What are the current limitations of Mechanistic Interpretability and how can they be overcome?
  5. How can we minimize the alignment tax?

Ethics/Governance:

  1. What is the right balance between AI safety and capability research?
  2. What is the tradeoff between safety and accessibility for open-source models?
  3. Do you agree with the EU AI Act's high-risk AI classification criteria?
  4. How do you define "sufficiently safe" in AI development?
  5. Where are the ethical boundaries for military applications of AI?

Scenarios:

  1. If your model exhibits unexpected dangerous behavior, how do you respond?
  2. What is your decision-making process when safety and performance conflict?
  3. Would you publicly disclose a critical vulnerability found during red teaming?
  4. What if a competitor ships a less safe model first?
  5. In what cases could AI Safety research actually increase risk?

9. Open Source and Community

Resources for learning AI Safety and advancing your career.

9-1. Training Programs

ProgramFormatDurationTargetCost
AGI Safety Fundamentals (BlueDot Impact)Online cohort8 weeksBeginnerFree
MATS (ML Alignment Theory Scholars)Mentorship10 weeksIntermediateStipend provided
AI Safety CampIntensive camp2-4 weeksIntermediateFree/subsidized
ARENA (Alignment Research Engineer Accelerator)Bootcamp8 weeksEngineersFree
Redwood Research REMIXInternship12 weeksGraduate studentsPaid

9-2. Communities and Forums

  • Alignment Forum: Specialized forum for AI alignment research with active discussions
  • LessWrong: Community discussing rationality and AI Safety
  • EA Forum: AI Safety discussions from an effective altruism perspective
  • AI Safety Slack/Discord: Researcher networking
  • 80,000 Hours: AI Safety career guides and job recommendations

9-3. Conferences and Workshops

Major Conferences:

- NeurIPS: SoLaR (Socially Responsible Language Models) workshop
- ICML: Multiple AI Safety-related workshops
- ICLR: Numerous alignment-related papers
- ACL: Language model safety track
- FAccT: Dedicated fairness, accountability, transparency conference
- AAAI: AI Safety track

Major Events:

- EAGx (Effective Altruism Global): Networking-focused
- AI Safety Summit: Hosted by various governments
- Anthropic Research Days: Research presentations hosted by Anthropic

9-4. Open Source Projects

Contributing to these significantly strengthens your resume:

  • HuggingFace TRL: RLHF/DPO implementation library
  • TransformerLens: Mechanistic Interpretability toolkit
  • lm-evaluation-harness: LLM evaluation framework
  • NeMo Guardrails: NVIDIA's safety guardrails framework
  • Guardrails AI: Python-based safety validation library
  • LiteLLM: LLM API integration and safety configuration

10. Quiz

Test your understanding of what we covered.

Q1. What is the key difference between RLHF and DPO?

Answer: RLHF uses a three-stage process (SFT, Reward Model training, PPO optimization) where a separate reward model is trained and then used for reinforcement learning to optimize the policy. DPO (Direct Preference Optimization) skips the reward model training step and directly optimizes the policy from preference data. DPO has lower computational cost and more stable training, but cannot reuse the reward model for other purposes.

Q2. How does Anthropic's Constitutional AI differ from standard RLHF?

Answer: Constitutional AI replaces human feedback with a predefined "constitution" (list of principles). The model self-critiques its responses against these principles and generates revised versions (Self-Critique + Revision), then applies reinforcement learning from AI feedback (RLAIF). This reduces dependence on human labelers, improves scalability, and enables transparent alignment based on explicit principles.

Q3. What is the role of Sparse Autoencoders in Mechanistic Interpretability?

Answer: Individual neurons in a model respond to multiple concepts (polysemantic), making interpretation difficult. Sparse Autoencoders (SAEs) transform these polysemantic neuron activations into a higher-dimensional sparse space where each dimension corresponds to a single interpretable "feature." In the Scaling Monosemanticity research, Anthropic used this method to discover millions of conceptual features inside Claude.

Q4. What assumption underlies the "AI Debate" approach to Scalable Oversight?

Answer: The core assumption of AI Debate is that "truth is easier to defend than falsehood." When two AIs argue opposing positions at their best, false claims should be vulnerable to refutation, and truth should ultimately prevail. This allows human judges to evaluate key evidence revealed through debate without needing to fully understand the subject matter, making it possible to oversee superhuman AI systems.

Q5. What is the most effective portfolio strategy for landing an AI Safety Engineer role?

Answer: The most effective strategy combines three elements:

  1. Technical projects: Implementing RLHF/DPO on a small LLM, building automated red teaming tools, or constructing safety guardrail systems
  2. Open source contributions: Meaningful contributions to recognized safety-related open source projects like HuggingFace TRL, TransformerLens, or NeMo Guardrails
  3. Research output: AI Safety technical blog series, Alignment Forum posts, or workshop papers

Together, these three elements demonstrate technical capability, collaboration skills, and communication ability.


11. References

  1. Anthropic Core Views on AI Safety - Anthropic's core perspective on AI safety
  2. Anthropic Responsible Scaling Policy - Anthropic's responsible scaling policy
  3. Constitutional AI Paper (Bai et al., 2022) - Original Constitutional AI paper
  4. RLHF Paper (Christiano et al., 2017) - Original RLHF paper
  5. DPO Paper (Rafailov et al., 2023) - Direct Preference Optimization paper
  6. Scaling Monosemanticity (Anthropic, 2024) - Interpretability research
  7. 80,000 Hours AI Safety Career Guide - AI Safety career guide
  8. AGI Safety Fundamentals (BlueDot Impact) - AI Safety fundamentals course
  9. MATS Program - ML Alignment Theory Scholars
  10. AI Safety Camp - AI Safety intensive camp
  11. Alignment Forum - AI alignment research forum
  12. LessWrong - Rationality and AI Safety community
  13. EU AI Act Full Text - Full EU AI Act text
  14. NIST AI Risk Management Framework - NIST AI risk management
  15. TrustLLM Benchmark - LLM trustworthiness evaluation
  16. HarmBench - Harmfulness benchmark
  17. NeMo Guardrails - NVIDIA safety framework
  18. TransformerLens - Mechanistic Interpretability toolkit
  19. HuggingFace TRL - RLHF/DPO implementation library
  20. ARENA Curriculum - Alignment Research Engineer curriculum
  21. ARC Evals - AI alignment evaluations
  22. Center for AI Safety - AI Safety research support
  23. Anthropic Research - Anthropic research page