필사 모드: AI 과학 연구 & 문헌 도구 2026 완벽 가이드 - Elicit · Scite · Consensus · SciSpace · Semantic Scholar · Undermind · Perplexity · OpenAI Deep Research 심층 분석
한국어프롤로그 — 매일 11,000편의 논문이 쏟아진다
연간 학술 논문 생산량은 2020년 이미 400만 편을 넘었고, 2026년에는 더 가속됐다. 하루 평균 약 11,000편. 한 분야 전체를 읽는다는 건 이미 오래전에 불가능해졌다.
박사 과정생은 문헌 검토에 1년을 쓴다. 박사후과정은 자기 분야가 매년 30% 확장되는 걸 본다. 학제간 연구를 시도하는 순간 이중·삼중의 짐을 진다. 인용 그래프는 너무 커서 사람의 머리로는 들고 다닐 수 없다.
이 글은 그 위기에 응답한 도구 지형을 본다. 검색·발견·합성·인용·관리·작문·검증까지 — 2026년 시점에서 실제로 쓰이는 AI 도구를 카테고리별로 분해하고, 강점·약점·가격·위험을 짚는다. 그리고 가장 중요한 질문: **AI는 어디서 도와주고, 어디서 망치는가**.
1장 · 왜 지금 AI 연구 도구인가 — 세 가지 압력
2026년 연구자가 마주한 세 가지 압력이 AI 도구 채택을 강제했다.
┌──────────────────────────────────────────────────────────────┐
│ │
│ 압력 1 — 폭발 │
│ 연간 400만+ 논문, 일 11,000편 │
│ 분야가 매년 20~30% 확장 │
│ 인간 독해 속도 = 정체 │
│ │
├──────────────────────────────────────────────────────────────┤
│ │
│ 압력 2 — 시간 │
│ PI 평균 주당 60~80시간 │
│ 문헌 검토에 박사 1년차 약 600시간 투입 │
│ 1편당 깊이있게 30분, 메타분석은 200~500편 │
│ │
├──────────────────────────────────────────────────────────────┤
│ │
│ 압력 3 — 학제간 │
│ AI/생물/의학 융합 → 다중 분야 추적 │
│ 각 분야마다 용어·기준이 다름 │
│ 사람의 두뇌가 따라가지 못함 │
│ │
└──────────────────────────────────────────────────────────────┘
세 압력 모두 사람이 더 빨리 읽는다고 풀리지 않는다. 도구가 **합성·요약·인용 그래프 추적·증거 평가**를 일부 떠맡아야 한다. 그게 2026년의 현실이다.
2장 · 검색 + 발견 — Semantic Scholar, Google Scholar, OpenAlex, CORE
문헌 작업의 시작은 항상 검색이다. 2026년 시점의 검색 인프라는 다음과 같다.
| 도구 | 운영 | 규모 | 강점 | 약점 |
| --- | --- | --- | --- | --- |
| **Semantic Scholar** | Allen Institute(AI2) | 2억 편+ | TLDR 요약, 추천, 무료 API | UI는 평범 |
| **Google Scholar** | Google | 사실상 전체 | 도달성, 인용 카운트, PDF 링크 | API 없음, 데이터 폐쇄 |
| **OpenAlex** | OurResearch / CWTS | 2.5억+ | 완전 오픈, 인용 그래프 무료 | 데이터 노이즈 일부 |
| **CORE** | The Open University | 3억+ (OA 위주) | 오픈 액세스 집합, 풀텍스트 검색 | UI 무거움 |
| **Microsoft Academic** | Microsoft | (2021 종료) | (역사적) | 폐쇄, OpenAlex로 이전 |
| **PubMed / MEDLINE** | NIH/NLM | 3,800만+ | 생의학 표준, MeSH 색인 | 분야 한정 |
| **BASE** | Bielefeld | 3억+ | 다국어 OA | 인터페이스 학술적 |
가장 큰 변화는 **Microsoft Academic의 종료(2021)** 이후 그 자리를 **OpenAlex**가 채운 것이다. CWTS의 OurResearch가 운영하며, 모든 데이터가 CC0다. 학술 인용 그래프 분석을 시도하는 거의 모든 새 도구가 OpenAlex나 Semantic Scholar를 기반으로 한다.
**Semantic Scholar**는 단순 검색 이상이다. AI2가 만든 TLDR 요약, 추천 시스템, S2ORC 코퍼스 공개까지 — 사실상 학술 AI의 "허브"가 됐다.
**Google Scholar**는 도달성이 압도적이지만 API가 없고, 인용 데이터가 외부로 흘러나오지 않는다. 2026년에도 학자 개인의 첫 검색은 여기서 시작되지만, 다운스트림 도구는 OpenAlex/Semantic Scholar 위에 올라간다.
3장 · Elicit — 증거 합성 어시스턴트
Elicit은 Ought에서 시작해 2024년 독립 회사가 됐다. "AI 연구 어시스턴트" 카테고리의 대표 주자다.
**무엇을 하는가**
- 자연어 질문 → 관련 논문 검색
- 각 논문에서 자동 추출: 결과, 방법, 표본 크기, 한계
- 결과를 **표 형태**로 합성 (Systematic Review 워크플로우)
- 인용 트래킹, PDF 업로드 가능
**가격(2026 시점)**
- Free: 월 5,000 크레딧
- Plus: 월 $12, 워크플로우 추가
- Pro: 월 $42, 무제한 추출
- Team / Enterprise
**언제 쓰는가**
- 메타분석, 체계적 문헌고찰 초기 단계
- "이 가설을 지지하는 증거가 얼마나 있나" 질문
- 50~300편 빠른 스캔 후 깊이 읽을 5~10편 선택
**약점**
- 추출이 항상 맞진 않다 — 표본 크기, 효과량을 가끔 헛본다
- 비영어 논문 약함
- 출력은 출발점이지 끝점이 아니다 — 원문 검증 필수
Elicit의 진짜 가치는 "초기 스크리닝의 50배 가속"이다. 200편을 30분 안에 표로 정리한다. 다만 그 표를 보고 **내가 어떻게 결론짓는지**는 여전히 사람의 몫이다.
4장 · Scite.ai — 스마트 인용 (지지 vs 반박)
Scite는 인용 분석에 한정해 가장 깊이있는 도구다. **인용이 본문에서 어떤 맥락으로 쓰였는지** 분류한다.
**Smart Citation 분류**
- **Supporting** — 인용된 주장을 지지
- **Mentioning** — 단순 언급
- **Contrasting** — 주장과 반대
**왜 중요한가**
논문 X가 1,000번 인용됐다고 X가 옳은 건 아니다. 그 중 50번은 X가 틀렸다고 주장하는 인용일 수 있다. 일반 인용 카운트는 이걸 못 본다.
**가격(2026)**
- Personal: $20/월
- Team: $25/월/사용자
- 학생 할인 50%
**워크플로우 통합**
- Zotero 플러그인 — 라이브러리에서 직접 Smart Citation 확인
- Word 플러그인 — 작성 중 인용 확인
- 브라우저 확장 — PubMed/Google Scholar에 오버레이
Scite의 한계: 인용 분류 정확도는 90% 정도지만, 미묘한 비판(예: "한정된 표본에서만 유효")을 항상 잡진 못한다.
5장 · Consensus — 합의 검색
Consensus는 더 가벼운 컨슈머 친화 도구다. "이 주제에 대한 학계 합의는?"이라는 질문에 답한다.
**핵심 기능**
- 자연어 질문 입력 ("커피는 심혈관 건강에 좋은가?")
- 가장 관련성 높은 논문 8~20편 추출
- 각 논문의 결론을 **YES / NO / POSSIBLY** 한 줄 요약
- "Consensus Meter" — 합의 분포 시각화
**가격(2026)**
- Free: 제한된 검색
- Premium: $10/월
**잘 맞는 케이스**
- 환자가 의사에게 묻기 전 자체 검토
- 강연·블로그용 빠른 합의 확인
- 학부생의 초기 리서치
**한계**
- 의학·건강 질문에 강하지만 다른 분야는 평이함
- "Consensus Meter"는 단순화의 위험 — n=20에서의 합의가 분야 전체의 합의는 아니다
6장 · SciSpace (Typeset) — Copilot for Papers
SciSpace는 인도 출신 스타트업이며, "논문 한 편을 깊이 이해하기"에 집중한다.
**기능**
- PDF 업로드 → 챗 인터페이스로 질문
- 수식 설명, 그림 해석, 표 풀이
- 다국어(한·일·중·아랍어 등)
- 인용 검색, 관련 논문 추천
- "Literature Review Assistant" — 표 형태 비교
**가격(2026)**
- Free: 제한된 채팅
- Premium: $20/월
- Team plans
**Elicit과 비교**
- Elicit은 **수십~수백 편 합성**에 강하다
- SciSpace는 **한 편을 깊이 이해**하는 데 강하다
- 같이 쓰면 보완적
**약점**
- 깊은 수학(증명 검증)에 약함
- 최신 논문(arXiv 즉시 반영) 지연
7장 · Undermind — 에이전트 기반 딥 서치
Undermind는 2024년 MIT 출신들이 만든 "AI 연구 에이전트"다. 다른 도구가 키워드 일치를 빠르게 한다면, Undermind는 **5~10분간 자율적으로 탐색**한다.
**작동 방식**
1. 사용자가 자연어 질문 입력
2. 에이전트가 1차 검색 → 결과를 읽음 → 새 키워드 발견
3. 2차/3차 검색을 자동으로 반복
4. 결과를 클러스터링해 **연구 보고서 형태**로 출력
**가격(2026)**
- Free: 월 몇 회
- Plus / Pro
**언제 쓰는가**
- "내가 모르는 분야"에 처음 진입할 때
- 키워드를 모르는 영역의 문헌 매핑
- 시간이 있다면 한 시간을 들여 깊이 탐색
**약점**
- 5~10분 대기 — 빠른 답엔 부적합
- 출처 검증은 여전히 사람 몫
- 분야가 매우 특수하면 표면적
Undermind는 Elicit의 사촌이지만 더 "자율적"이다. 결과의 깊이는 더 좋지만, 결정론성은 떨어진다.
8장 · Perplexity Pro Research — 추론 모델 + 웹
Perplexity Pro는 일반 AI 검색이지만, "Research" 모드를 따로 갖고 있다.
**Research 모드 특징**
- Sonar Pro / GPT-5 / Claude 4.6 등 추론 모델 사용
- 다단계 검색 → 50~100개 출처 통합
- 학술 출처 가중치 옵션
- PDF 출력 가능
**가격(2026)**
- Pro: $20/월
**Elicit/Undermind 대비**
- Perplexity는 **웹 전체**가 대상, 학술은 일부
- 학술 깊이는 Elicit/Undermind보다 얕음
- 대신 **실세계 맥락**(뉴스, 블로그, 코드)을 함께 본다는 강점
학술 단독 검토에는 부족할 수 있지만, **시장·기술·정책 맥락이 섞인 질문**에는 Perplexity가 더 낫다.
9장 · OpenAI Deep Research — 자율 연구 에이전트
OpenAI가 2025년 2월 출시한 Deep Research는 **o3** 기반의 자율 에이전트다. 2026년에는 GPT-5 Research로 진화했다.
**특징**
- 사용자 질문 → 5~30분 자율 조사
- 수백 개 웹페이지/논문을 읽고, 추론하고, 보고서 작성
- 인용을 표 형태로 첨부
- 그림·차트 생성 가능
**가격**
- Pro 플랜($200/월)의 핵심 기능
- Plus 플랜($20/월)에서도 월 10회 제공
**학술 활용**
- 시장조사·경쟁분석에 매우 강함
- 학술만 본다면 Elicit/Undermind보다 얕을 수 있음
- 다만 **다분야 통합 보고서**는 최강
**위험**
- 환각된 인용이 발견됨 (특히 가짜 arXiv ID)
- 반드시 원문 클릭해 검증
- 자세는 "초안 자동화"지 "최종 보고서"가 아니다
10장 · Google Gemini Deep Research — 긴 컨텍스트 다중 소스
Google의 Gemini 2 Deep Research는 OpenAI 버전과 경쟁한다. 차이는 컨텍스트 길이다.
**강점**
- Gemini의 2M 토큰 컨텍스트 활용
- 한 번에 수백 페이지 논문 PDF를 통째로 읽음
- Workspace 통합 (Drive, Docs로 출력)
**약점**
- 학술 인용 정확도가 OpenAI/Anthropic보다 살짝 낮다 (벤치마크별 차이)
- 깊은 수학·증명에 약함
**가격**
- Gemini Advanced: $20/월
- Workspace Enterprise
11장 · Anthropic Claude with Web Search — 도구 사용 기반 연구
Anthropic은 별도 "Deep Research" 제품을 마케팅하지 않는다. 대신 **Claude의 tool use + web search**로 동등하거나 더 좋은 결과를 낸다.
**워크플로우**
- Claude.ai에 질문 입력
- Claude가 web search 도구를 호출
- 결과를 읽고, 추가 검색을 결정
- 보고서를 Markdown으로 출력 (Artifacts)
**강점**
- 인용 정확도가 가장 높다는 평가 (2026 벤치마크 일부 기준)
- 추론 체인이 투명 (extended thinking)
- API로 자체 에이전트 구축 가능
**가격**
- Claude Pro: $20/월
- Claude Max: $100~200/월 (사용량별)
- API 별도
12장 · 문헌 관리 — Zotero 7, EndNote, Mendeley, Paperpile, JabRef
검색·합성 도구가 진화해도 **참고문헌 관리**는 여전히 따로다.
| 도구 | 운영 | 가격 | 강점 | 약점 |
| --- | --- | --- | --- | --- |
| **Zotero 7** | 비영리 (CHNM) | 무료(저장 유료) | 오픈소스, 플러그인 풍부, ZotFile/Better BibTeX | UI가 옛스러움 |
| **EndNote 21** | Clarivate | $300 일회 | 학계 기관 표준, Word 통합 | 폐쇄, 비쌈 |
| **Mendeley Reference Manager** | Elsevier | 무료 | Elsevier DB 통합 | 데스크톱 앱 종료, 웹만 |
| **Paperpile** | Paperpile LLC | $36/년 | Google Docs/Drive 통합 | 비영어권 약함 |
| **JabRef** | JabRef Devs | 무료 | BibTeX 표준, LaTeX 친화 | UI 무거움 |
| **ReadCube Papers** | ReadCube | $5~10/월 | 깔끔한 UI | 가격 |
| **Citavi** | QSR Intl | $179 | 독일권 표준, 지식 정리 강함 | 단종 위협 |
2026년 추천은 **Zotero 7 + Better BibTeX + Zotero Connector**. 여기에 **ZotFile**로 PDF 정리, **Scite 플러그인**으로 인용 검증을 더하면 거의 모든 케이스를 커버한다.
**Mendeley는 2026년 사실상 사양길**. 데스크톱 앱이 죽었고, Elsevier가 자사 통합에만 집중한다. 학생/연구자는 Zotero로 이주가 정답이다.
13장 · 학술 작문 보조 — Trinka, Paperpal, Grammarly, DeepL Write
논문 작성 자체를 돕는 도구는 별도 카테고리다.
**학술 특화**
- **Trinka** — 학술 영어 특화, 의학/공학 용어 강함
- **Paperpal** — Cactus Communications, 표절 + AI 작문 보조
- **Writefull** — Overleaf 통합, 학술 영어 패턴
- **Jenni AI** — 학생용, 인용 자동 삽입
**일반(학술 보조 사용)**
- **Grammarly** — 가장 흔함, 영어 기본
- **Wordtune** — 패러프레이즈, 톤 조정
- **DeepL Write** — 독일/유럽 강세, 비영어권 자연스러움
**가격(2026)**
- Trinka Premium: $20/월
- Paperpal Prime: $19/월
- Grammarly Premium: $30/월
- DeepL Pro: $9/월
**Tip**: 영어가 모국어가 아닌 연구자에게 가장 큰 ROI는 **DeepL Write + Trinka 조합**이다. DeepL이 자연스러운 영어를, Trinka가 학술 컨벤션을 잡아준다.
14장 · 표절 + AI 탐지 — iThenticate, Turnitin, GPTZero, Originality.ai
학술 출판의 양 끝 — **표절 검출**과 **AI 작성 탐지** — 모두 산업 표준이 있다.
**표절 검출**
- **iThenticate** — Crossref Similarity Check의 백엔드, 학술 출판사 표준
- **Turnitin** — 교육기관 표준 (학부/대학원)
- **PlagScan**, **Copyleaks**, **Plagium** — 보조
**AI 탐지(2026 시점 신뢰도)**
- **Turnitin AI Detection** — 학교 표준
- **GPTZero** — 인기 컨슈머 도구
- **Originality.ai** — SEO/콘텐츠 시장 강세
- **Copyleaks AI Detector** — 다국어
- **Pangram** — 새로운 진입자
**중요한 진실**: 2026년에도 AI 탐지의 **false positive(인간을 AI로 오판)** 비율이 학술 글쓰기에서 5~15%다. 비영어권 학생이 더 많이 잘못 걸린다. AI 탐지 결과를 단독 증거로 처벌하면 안 된다는 게 출판윤리위원회(COPE) 입장이다.
15장 · 그림 + 도표 — Matplotlib, Seaborn, Plotly, Vega-Altair
논문 그림은 여전히 코드로 만든다. 2026년 표준은 다음과 같다.
| 라이브러리 | 언어 | 강점 | 약점 |
| --- | --- | --- | --- |
| **Matplotlib** | Python | 학술 표준, 거의 모든 유형 | 기본 디자인이 못생김 |
| **Seaborn** | Python | 통계 그림 특화, 깔끔한 기본값 | Matplotlib 위라 한계 상속 |
| **Plotly** | Python/R/JS | 인터랙티브, 발표용 좋음 | 출판 PDF로 어색 |
| **Vega-Altair** | Python | 선언적 문법, 재현 가능 | 커뮤니티 작음 |
| **ggplot2** | R | 통계 그림 황금 표준 | R 사용자 한정 |
| **D3.js** | JavaScript | 완전 커스텀 | 가파른 학습곡선 |
학술 PDF 출판이 목표라면 **Matplotlib + Seaborn**이 여전히 무난하다. 데이터 탐색용 인터랙티브는 **Plotly**, 통계 차트는 **ggplot2**가 압도적이다.
**AI 도움**: Claude/ChatGPT가 Matplotlib 코드 작성을 매우 잘 한다. "이 데이터를 boxplot으로 그려줘" 한 줄이면 80% 코드가 나온다.
16장 · 재현 가능성 — Jupyter, Quarto, Marimo
논문 부록의 코드는 점차 표준화되고 있다.
- **Jupyter** — 사실상 표준, 학술 데이터 분석의 공용어
- **Quarto** — RStudio가 만든 멀티언어 문서 시스템, 논문 통째로 작성 가능
- **Marimo** — 차세대 Python 노트북, 반응형, 재현성 강조
- **R Markdown** — R 생태계 표준
- **Pluto.jl** — Julia 노트북
**Quarto**의 등장이 가장 큰 변화다. R/Python/Julia를 한 문서에서 섞고, PDF·HTML·docx·revealjs 슬라이드까지 모두 출력한다. JoSS(Journal of Open Source Software) 같은 저널이 Quarto 기반 제출을 허용한다.
**ResearchHub**, **Stencila**, **Curvenote** 같은 "실행 가능한 논문" 플랫폼도 자라고 있지만 아직 주류는 아니다.
17장 · arXiv 생태계 — alphaXiv, HuggingFace Papers, arxiv-sanity
arXiv는 1991년부터 운영된 프리프린트 서버다. 2026년 시점 월 20만 편 신규 업로드.
**arXiv 자체**
- 코넬대 운영, Simons Foundation 지원
- 수학·물리·CS·생물 등 거의 모든 분야
- 라이선스 모델 명확 (CC BY 등)
**arXiv 보조 도구**
- **arxiv-sanity-lite** (Karpathy) — 개인화 추천, RSS 스타일
- **arxiv-vanity** — 2023년 사실상 중단
- **alphaXiv** — 논문에 대한 토론/주석 레이어
- **HuggingFace Papers** — daily papers 큐레이션, 커뮤니티 토론
- **Papers with Code** — Meta 운영, 2025년 점진 축소
- **PaperSwap** — 신규 진입, 추천 알고리즘 차별화
**alphaXiv**가 2024~2025년 가장 빠르게 성장한 도구다. arXiv URL의 "arxiv.org"를 "alphaxiv.org"로 바꾸면 같은 논문의 토론 페이지가 뜬다.
**HuggingFace Papers**는 일일 큐레이션이 핵심이다. 매일 5~15편의 "오늘의 논문"을 커뮤니티 보팅으로 선정한다. AI 분야에 한정되지만 압축률이 매우 높다.
18장 · 분야별 프리프린트 서버 — bioRxiv, medRxiv, ChemRxiv, SocArXiv
arXiv 모델이 분야별로 확장됐다.
| 서버 | 분야 | 운영 | 비고 |
| --- | --- | --- | --- |
| **bioRxiv** | 생명과학 | CSHL | 2013 출범, COVID 이후 대중화 |
| **medRxiv** | 의학 | CSHL/Yale/BMJ | 2019, COVID 핵심 채널 |
| **ChemRxiv** | 화학 | ACS/RSC | 2017 |
| **SocArXiv** | 사회과학 | OSF/COS | 2016 |
| **PsyArXiv** | 심리학 | OSF | 2016 |
| **EarthArXiv** | 지구과학 | 커뮤니티 | 2017 |
| **EngrXiv** | 공학 | OSF | 2016 |
| **arXiv** | 수학·물리·CS·일부 생물 | Cornell | 1991 |
**PubMed**(NLM)는 동료심사 후 색인이지만, 프리프린트도 LitCovid처럼 일부 통합한다. **MEDLINE**은 의학 색인의 황금 표준.
19장 · 한국 — KCI, DBpia, RISS, Naver Academic
한국 학술 인프라는 영문 글로벌 시스템과 별개로 운영된다.
- **KCI (Korea Citation Index)** — 한국연구재단(NRF) 운영, 한국 학술지 색인
- **DBpia** — Nuri미디어 운영, 유료 풀텍스트
- **RISS** — KERIS 운영, 학위논문·간행물·해외학술 통합
- **Naver Academic** — Naver가 만든 검색, 한국·해외 통합
- **Kiss(한국학술정보)** — 보조
**Scinapse**는 한국 스타트업 Pluto Network가 만든 글로벌 학술 검색이었지만 2023년 종료됐다.
한국 연구자에게 2026년 권고는 다음과 같다:
- 글로벌: Semantic Scholar + Elicit + Zotero
- 국내: RISS + DBpia, KCI 색인 확인
- 한글 논문 AI 도구는 아직 빈약 — Upstage Solar, NAVER HyperCLOVA X로 자체 구축이 시도되는 중
20장 · 일본 — J-STAGE, CiNii, NDL, JST
일본 학술 인프라는 정부 주도가 강하다.
- **J-STAGE** — JST 운영, 일본 학술지 무료 풀텍스트(상당수 OA)
- **CiNii** — NII(국립정보학연구소) 운영, 학술·도서·박사논문 통합
- **NDL Search** — 국립국회도서관, 도서·논문·기사
- **JST** — Japan Science and Technology Agency, J-GLOBAL 운영
J-STAGE는 세계적으로도 흔치 않은 "정부가 운영하는 거대 OA 저널 호스트"다. 4,000여 학술지 풀텍스트가 무료로 공개돼 있다.
**Sakana AI**, **Preferred Networks**가 일본어 학술 LLM을 만들고 있지만 학술 검색 서비스로는 아직 미진하다.
21장 · AI 환각 인용 — 가장 위험한 함정
2026년 시점에서 AI 연구 도구의 가장 큰 함정은 **환각된 인용**이다.
**환각 유형**
1. **존재하지 않는 논문** — 그럴듯한 제목·저자·DOI를 만들어냄
2. **존재하는 논문, 잘못된 주장 귀속** — 실제 저자가 말한 적 없는 내용을 인용
3. **존재하는 논문, 잘못된 페이지/연도**
4. **요약은 맞지만 강도(strength)를 부풀림** — "강한 증거"라고 했지만 원문은 "잠정적"
**왜 일어나나**
- LLM은 통계적 패턴이지 사실 데이터베이스가 아니다
- 인용 형식("Smith et al., 2019")이 학습 데이터에서 흔하므로 그럴듯하게 생성됨
- DOI 형식도 학습됐기 때문에 "10.xxxx/yyyy" 패턴을 만들어낼 수 있음
**대응**
- **모든 인용은 클릭해서 검증**
- DOI는 doi.org에서 실제 해소되는지 확인
- 본문에 인용된 주장이 실제 원문에 있는지 확인
- AI는 "초안"이지 "최종"이 아니다 — 인용 검증 책임은 연구자
**최근 사례**
- 2023년 미국 변호사가 ChatGPT가 만든 가짜 판례를 법정에 제출 → 징계
- 2024년 일부 학술 논문이 환각된 인용으로 철회
- 2025년 OpenAI Deep Research가 가짜 arXiv ID를 인용한 사례 보고됨
22장 · 재현성 위기 — AI는 해결하나, 악화시키나
심리학·생의학 분야의 **재현성 위기**는 10년 넘게 학계의 화두다. AI는 양면이다.
**AI가 돕는 면**
- 메타분석을 빠르게 → 약한 효과를 더 잘 탐지
- 통계 검정의 잘못된 사용을 패턴 매칭으로 찾음
- 코드/데이터 공유를 자동 점검 (예: ResearchHub의 reproducibility badge)
- 사전등록(preregistration) 작성 보조
**AI가 망치는 면**
- 가짜 데이터 생성이 쉬워짐 → p-hacking 자동화 위험
- AI가 만든 논문 초안이 학술지 풀로 흘러들어 옴
- 환각 인용이 연쇄적으로 다른 논문에 전파
- "AI가 검토했으니 옳다"는 잘못된 신뢰
학계의 합의는 점점 강해진다 — **AI는 보조이며, 책임은 인간 저자**다. ICMJE(국제의학편집인협의회), COPE, 주요 출판사가 모두 이 입장이다.
23장 · 누가 무엇을 쓰면 되나 — 시나리오별 권고
학부생 / 석사 초기
- 검색: Google Scholar + Semantic Scholar
- 합성: Consensus(쉬움), Elicit Free
- 관리: Zotero 7 무료
- 작문: Grammarly + DeepL Write
- 비용: 거의 무료
박사과정 / 박사후
- 검색: Semantic Scholar + Elicit Plus
- 메타분석: Elicit Plus 또는 Pro
- 인용 분석: Scite ($20/월)
- 관리: Zotero + Better BibTeX + Scite 플러그인
- 작문: Trinka 또는 Paperpal
- 비용: 월 $50~70
PI / 시니어 연구자
- 검색: Elicit Pro + Undermind + Perplexity Pro
- 자율 조사: OpenAI Deep Research, Gemini Deep Research
- 인용 분석: Scite Team
- 관리: Zotero + 팀 라이브러리, 또는 EndNote(전통 기관)
- 작문: Trinka + Grammarly Premium
- 비용: 월 $200~300
학제간 연구자
- 광범위 검색: Undermind + Perplexity Pro Research
- 분야별 심화: Elicit + 분야별 DB(PubMed, IEEE Xplore)
- 인용 그래프: OpenAlex API + Litmaps
- 비용: 월 $50~100
의학 임상 연구자
- 검색: PubMed + Consensus + Elicit
- 인용 분석: Scite
- 작문: Trinka(의학 특화) 또는 Paperpal
- 관리: EndNote(기관 표준이면) 또는 Zotero
- 비용: 월 $50~150
비영어권 연구자
- 작문 핵심: **DeepL Write + Trinka 조합**
- 검색: Semantic Scholar(API 기반 자체 도구 제작 가능)
- 한국: + RISS, DBpia / 일본: + J-STAGE, CiNii
- AI 탐지 누명에 주의 — false positive 5~15%
24장 · 통합 워크플로우 — 2026년의 한 연구자의 하루
오전 9시
└─ HuggingFace Papers / alphaXiv 새 논문 큐레이션 확인
(5분, 그날 분야 톱 5편 메모)
오전 10시
└─ Elicit에서 어제 시작한 메타분석 표 검토
(50편 추출 결과를 30분간 검증, 10편을 깊이 읽을 후보로 표시)
오전 11시
└─ SciSpace로 핵심 논문 1편 깊이 읽기
(수식 설명을 SciSpace 채팅으로, 메모를 Obsidian에)
오후 1시
└─ Zotero에 PDF 저장, Scite 플러그인으로 인용 맥락 확인
(지지/반박 비율이 의외이면 더 깊이 들어감)
오후 3시
└─ 본인 글쓰기 — Quarto 또는 Overleaf
(Trinka로 영어 다듬기, DeepL Write로 자연스러움)
오후 5시
└─ Claude/ChatGPT로 결론 단락 초안 받기
(절대 인용 자동 생성은 안 받음 — 환각 위험)
저녁
└─ Undermind에 "내일 탐색할 질문" 던지기
(5~10분 자율 탐색, 결과는 내일 검토)
이 워크플로우는 도구가 사람의 **시간**을 절약하지만 **판단**은 절대 대체하지 않는다는 원칙 위에서 돌아간다. 200편을 표로 정리하는 30분, 깊이 읽을 10편을 고르는 10분, 깊이 읽기 3시간 — 비율이 중요하다.
에필로그 — AI는 도구이고, 책임은 사람이다
연구 자체의 본질은 안 바뀐다. **새로운 질문을 던지고, 증거를 모으고, 신중하게 추론하고, 동료에게 검증받는다**. AI는 그 중 **모으기**와 **요약**을 가속할 뿐이다.
기억할 세 가지.
1. **모든 AI 인용은 검증**. 환각은 통계적으로 일어난다.
2. **AI는 초안, 사람이 최종**. 출판된 논문의 책임은 100% 저자.
3. **도구 스택은 진화한다**. 2024년의 정답은 2026년의 차선이다. 매년 카테고리를 재평가하라.
> "Standing on the shoulders of giants" — Newton의 말이지만, 2026년에는 그 위에 AI라는 사다리가 하나 더 얹혔다. 사다리는 빠르게 올려주지만, 무너지면 더 크게 떨어진다.
좋은 연구는 도구와 회의주의가 함께 가야 한다. AI 시대에는 후자가 더 중요해진다.
참고 / References
- [Semantic Scholar](https://www.semanticscholar.org/)
- [Allen Institute for AI (AI2)](https://allenai.org/)
- [OpenAlex](https://openalex.org/)
- [CORE](https://core.ac.uk/)
- [Elicit](https://elicit.com/)
- [Scite.ai](https://scite.ai/)
- [Consensus](https://consensus.app/)
- [SciSpace](https://typeset.io/)
- [Undermind](https://www.undermind.ai/)
- [Perplexity](https://www.perplexity.ai/)
- [OpenAI Deep Research announcement](https://openai.com/index/introducing-deep-research/)
- [Gemini Deep Research](https://gemini.google/overview/deep-research/)
- [Zotero](https://www.zotero.org/)
- [JabRef](https://www.jabref.org/)
- [Paperpile](https://paperpile.com/)
- [EndNote](https://endnote.com/)
- [Trinka](https://www.trinka.ai/)
- [Paperpal](https://paperpal.com/)
- [DeepL Write](https://www.deepl.com/write)
- [iThenticate](https://www.ithenticate.com/)
- [Turnitin](https://www.turnitin.com/)
- [GPTZero](https://gptzero.me/)
- [Originality.ai](https://originality.ai/)
- [arXiv](https://arxiv.org/)
- [alphaXiv](https://www.alphaxiv.org/)
- [HuggingFace Papers](https://huggingface.co/papers)
- [arxiv-sanity-lite — GitHub karpathy/arxiv-sanity-lite](https://github.com/karpathy/arxiv-sanity-lite)
- [Papers with Code](https://paperswithcode.com/)
- [bioRxiv](https://www.biorxiv.org/)
- [medRxiv](https://www.medrxiv.org/)
- [ChemRxiv](https://chemrxiv.org/)
- [PubMed](https://pubmed.ncbi.nlm.nih.gov/)
- [J-STAGE](https://www.jstage.jst.go.jp/)
- [CiNii Research](https://cir.nii.ac.jp/)
- [KCI Korea Citation Index](https://www.kci.go.kr/)
- [DBpia](https://www.dbpia.co.kr/)
- [RISS](http://www.riss.kr/)
- [Quarto](https://quarto.org/)
- [Marimo](https://marimo.io/)
- [COPE — Committee on Publication Ethics](https://publicationethics.org/)
- [ICMJE — International Committee of Medical Journal Editors](https://www.icmje.org/)
현재 단락 (1/416)
연간 학술 논문 생산량은 2020년 이미 400만 편을 넘었고, 2026년에는 더 가속됐다. 하루 평균 약 11,000편. 한 분야 전체를 읽는다는 건 이미 오래전에 불가능해졌다.