Skip to content

필사 모드: AI 과학 연구 & 문헌 도구 2026 완벽 가이드 - Elicit · Scite · Consensus · SciSpace · Semantic Scholar · Undermind · Perplexity · OpenAI Deep Research 심층 분석

한국어
0%
정확도 0%
💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.
원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

프롤로그 — 매일 11,000편의 논문이 쏟아진다

연간 학술 논문 생산량은 2020년 이미 400만 편을 넘었고, 2026년에는 더 가속됐다. 하루 평균 약 11,000편. 한 분야 전체를 읽는다는 건 이미 오래전에 불가능해졌다.

박사 과정생은 문헌 검토에 1년을 쓴다. 박사후과정은 자기 분야가 매년 30% 확장되는 걸 본다. 학제간 연구를 시도하는 순간 이중·삼중의 짐을 진다. 인용 그래프는 너무 커서 사람의 머리로는 들고 다닐 수 없다.

이 글은 그 위기에 응답한 도구 지형을 본다. 검색·발견·합성·인용·관리·작문·검증까지 — 2026년 시점에서 실제로 쓰이는 AI 도구를 카테고리별로 분해하고, 강점·약점·가격·위험을 짚는다. 그리고 가장 중요한 질문: **AI는 어디서 도와주고, 어디서 망치는가**.

1장 · 왜 지금 AI 연구 도구인가 — 세 가지 압력

2026년 연구자가 마주한 세 가지 압력이 AI 도구 채택을 강제했다.

┌──────────────────────────────────────────────────────────────┐

│ │

│ 압력 1 — 폭발 │

│ 연간 400만+ 논문, 일 11,000편 │

│ 분야가 매년 20~30% 확장 │

│ 인간 독해 속도 = 정체 │

│ │

├──────────────────────────────────────────────────────────────┤

│ │

│ 압력 2 — 시간 │

│ PI 평균 주당 60~80시간 │

│ 문헌 검토에 박사 1년차 약 600시간 투입 │

│ 1편당 깊이있게 30분, 메타분석은 200~500편 │

│ │

├──────────────────────────────────────────────────────────────┤

│ │

│ 압력 3 — 학제간 │

│ AI/생물/의학 융합 → 다중 분야 추적 │

│ 각 분야마다 용어·기준이 다름 │

│ 사람의 두뇌가 따라가지 못함 │

│ │

└──────────────────────────────────────────────────────────────┘

세 압력 모두 사람이 더 빨리 읽는다고 풀리지 않는다. 도구가 **합성·요약·인용 그래프 추적·증거 평가**를 일부 떠맡아야 한다. 그게 2026년의 현실이다.

2장 · 검색 + 발견 — Semantic Scholar, Google Scholar, OpenAlex, CORE

문헌 작업의 시작은 항상 검색이다. 2026년 시점의 검색 인프라는 다음과 같다.

| 도구 | 운영 | 규모 | 강점 | 약점 |

| --- | --- | --- | --- | --- |

| **Semantic Scholar** | Allen Institute(AI2) | 2억 편+ | TLDR 요약, 추천, 무료 API | UI는 평범 |

| **Google Scholar** | Google | 사실상 전체 | 도달성, 인용 카운트, PDF 링크 | API 없음, 데이터 폐쇄 |

| **OpenAlex** | OurResearch / CWTS | 2.5억+ | 완전 오픈, 인용 그래프 무료 | 데이터 노이즈 일부 |

| **CORE** | The Open University | 3억+ (OA 위주) | 오픈 액세스 집합, 풀텍스트 검색 | UI 무거움 |

| **Microsoft Academic** | Microsoft | (2021 종료) | (역사적) | 폐쇄, OpenAlex로 이전 |

| **PubMed / MEDLINE** | NIH/NLM | 3,800만+ | 생의학 표준, MeSH 색인 | 분야 한정 |

| **BASE** | Bielefeld | 3억+ | 다국어 OA | 인터페이스 학술적 |

가장 큰 변화는 **Microsoft Academic의 종료(2021)** 이후 그 자리를 **OpenAlex**가 채운 것이다. CWTS의 OurResearch가 운영하며, 모든 데이터가 CC0다. 학술 인용 그래프 분석을 시도하는 거의 모든 새 도구가 OpenAlex나 Semantic Scholar를 기반으로 한다.

**Semantic Scholar**는 단순 검색 이상이다. AI2가 만든 TLDR 요약, 추천 시스템, S2ORC 코퍼스 공개까지 — 사실상 학술 AI의 "허브"가 됐다.

**Google Scholar**는 도달성이 압도적이지만 API가 없고, 인용 데이터가 외부로 흘러나오지 않는다. 2026년에도 학자 개인의 첫 검색은 여기서 시작되지만, 다운스트림 도구는 OpenAlex/Semantic Scholar 위에 올라간다.

3장 · Elicit — 증거 합성 어시스턴트

Elicit은 Ought에서 시작해 2024년 독립 회사가 됐다. "AI 연구 어시스턴트" 카테고리의 대표 주자다.

**무엇을 하는가**

- 자연어 질문 → 관련 논문 검색

- 각 논문에서 자동 추출: 결과, 방법, 표본 크기, 한계

- 결과를 **표 형태**로 합성 (Systematic Review 워크플로우)

- 인용 트래킹, PDF 업로드 가능

**가격(2026 시점)**

- Free: 월 5,000 크레딧

- Plus: 월 $12, 워크플로우 추가

- Pro: 월 $42, 무제한 추출

- Team / Enterprise

**언제 쓰는가**

- 메타분석, 체계적 문헌고찰 초기 단계

- "이 가설을 지지하는 증거가 얼마나 있나" 질문

- 50~300편 빠른 스캔 후 깊이 읽을 5~10편 선택

**약점**

- 추출이 항상 맞진 않다 — 표본 크기, 효과량을 가끔 헛본다

- 비영어 논문 약함

- 출력은 출발점이지 끝점이 아니다 — 원문 검증 필수

Elicit의 진짜 가치는 "초기 스크리닝의 50배 가속"이다. 200편을 30분 안에 표로 정리한다. 다만 그 표를 보고 **내가 어떻게 결론짓는지**는 여전히 사람의 몫이다.

4장 · Scite.ai — 스마트 인용 (지지 vs 반박)

Scite는 인용 분석에 한정해 가장 깊이있는 도구다. **인용이 본문에서 어떤 맥락으로 쓰였는지** 분류한다.

**Smart Citation 분류**

- **Supporting** — 인용된 주장을 지지

- **Mentioning** — 단순 언급

- **Contrasting** — 주장과 반대

**왜 중요한가**

논문 X가 1,000번 인용됐다고 X가 옳은 건 아니다. 그 중 50번은 X가 틀렸다고 주장하는 인용일 수 있다. 일반 인용 카운트는 이걸 못 본다.

**가격(2026)**

- Personal: $20/월

- Team: $25/월/사용자

- 학생 할인 50%

**워크플로우 통합**

- Zotero 플러그인 — 라이브러리에서 직접 Smart Citation 확인

- Word 플러그인 — 작성 중 인용 확인

- 브라우저 확장 — PubMed/Google Scholar에 오버레이

Scite의 한계: 인용 분류 정확도는 90% 정도지만, 미묘한 비판(예: "한정된 표본에서만 유효")을 항상 잡진 못한다.

5장 · Consensus — 합의 검색

Consensus는 더 가벼운 컨슈머 친화 도구다. "이 주제에 대한 학계 합의는?"이라는 질문에 답한다.

**핵심 기능**

- 자연어 질문 입력 ("커피는 심혈관 건강에 좋은가?")

- 가장 관련성 높은 논문 8~20편 추출

- 각 논문의 결론을 **YES / NO / POSSIBLY** 한 줄 요약

- "Consensus Meter" — 합의 분포 시각화

**가격(2026)**

- Free: 제한된 검색

- Premium: $10/월

**잘 맞는 케이스**

- 환자가 의사에게 묻기 전 자체 검토

- 강연·블로그용 빠른 합의 확인

- 학부생의 초기 리서치

**한계**

- 의학·건강 질문에 강하지만 다른 분야는 평이함

- "Consensus Meter"는 단순화의 위험 — n=20에서의 합의가 분야 전체의 합의는 아니다

6장 · SciSpace (Typeset) — Copilot for Papers

SciSpace는 인도 출신 스타트업이며, "논문 한 편을 깊이 이해하기"에 집중한다.

**기능**

- PDF 업로드 → 챗 인터페이스로 질문

- 수식 설명, 그림 해석, 표 풀이

- 다국어(한·일·중·아랍어 등)

- 인용 검색, 관련 논문 추천

- "Literature Review Assistant" — 표 형태 비교

**가격(2026)**

- Free: 제한된 채팅

- Premium: $20/월

- Team plans

**Elicit과 비교**

- Elicit은 **수십~수백 편 합성**에 강하다

- SciSpace는 **한 편을 깊이 이해**하는 데 강하다

- 같이 쓰면 보완적

**약점**

- 깊은 수학(증명 검증)에 약함

- 최신 논문(arXiv 즉시 반영) 지연

7장 · Undermind — 에이전트 기반 딥 서치

Undermind는 2024년 MIT 출신들이 만든 "AI 연구 에이전트"다. 다른 도구가 키워드 일치를 빠르게 한다면, Undermind는 **5~10분간 자율적으로 탐색**한다.

**작동 방식**

1. 사용자가 자연어 질문 입력

2. 에이전트가 1차 검색 → 결과를 읽음 → 새 키워드 발견

3. 2차/3차 검색을 자동으로 반복

4. 결과를 클러스터링해 **연구 보고서 형태**로 출력

**가격(2026)**

- Free: 월 몇 회

- Plus / Pro

**언제 쓰는가**

- "내가 모르는 분야"에 처음 진입할 때

- 키워드를 모르는 영역의 문헌 매핑

- 시간이 있다면 한 시간을 들여 깊이 탐색

**약점**

- 5~10분 대기 — 빠른 답엔 부적합

- 출처 검증은 여전히 사람 몫

- 분야가 매우 특수하면 표면적

Undermind는 Elicit의 사촌이지만 더 "자율적"이다. 결과의 깊이는 더 좋지만, 결정론성은 떨어진다.

8장 · Perplexity Pro Research — 추론 모델 + 웹

Perplexity Pro는 일반 AI 검색이지만, "Research" 모드를 따로 갖고 있다.

**Research 모드 특징**

- Sonar Pro / GPT-5 / Claude 4.6 등 추론 모델 사용

- 다단계 검색 → 50~100개 출처 통합

- 학술 출처 가중치 옵션

- PDF 출력 가능

**가격(2026)**

- Pro: $20/월

**Elicit/Undermind 대비**

- Perplexity는 **웹 전체**가 대상, 학술은 일부

- 학술 깊이는 Elicit/Undermind보다 얕음

- 대신 **실세계 맥락**(뉴스, 블로그, 코드)을 함께 본다는 강점

학술 단독 검토에는 부족할 수 있지만, **시장·기술·정책 맥락이 섞인 질문**에는 Perplexity가 더 낫다.

9장 · OpenAI Deep Research — 자율 연구 에이전트

OpenAI가 2025년 2월 출시한 Deep Research는 **o3** 기반의 자율 에이전트다. 2026년에는 GPT-5 Research로 진화했다.

**특징**

- 사용자 질문 → 5~30분 자율 조사

- 수백 개 웹페이지/논문을 읽고, 추론하고, 보고서 작성

- 인용을 표 형태로 첨부

- 그림·차트 생성 가능

**가격**

- Pro 플랜($200/월)의 핵심 기능

- Plus 플랜($20/월)에서도 월 10회 제공

**학술 활용**

- 시장조사·경쟁분석에 매우 강함

- 학술만 본다면 Elicit/Undermind보다 얕을 수 있음

- 다만 **다분야 통합 보고서**는 최강

**위험**

- 환각된 인용이 발견됨 (특히 가짜 arXiv ID)

- 반드시 원문 클릭해 검증

- 자세는 "초안 자동화"지 "최종 보고서"가 아니다

10장 · Google Gemini Deep Research — 긴 컨텍스트 다중 소스

Google의 Gemini 2 Deep Research는 OpenAI 버전과 경쟁한다. 차이는 컨텍스트 길이다.

**강점**

- Gemini의 2M 토큰 컨텍스트 활용

- 한 번에 수백 페이지 논문 PDF를 통째로 읽음

- Workspace 통합 (Drive, Docs로 출력)

**약점**

- 학술 인용 정확도가 OpenAI/Anthropic보다 살짝 낮다 (벤치마크별 차이)

- 깊은 수학·증명에 약함

**가격**

- Gemini Advanced: $20/월

- Workspace Enterprise

11장 · Anthropic Claude with Web Search — 도구 사용 기반 연구

Anthropic은 별도 "Deep Research" 제품을 마케팅하지 않는다. 대신 **Claude의 tool use + web search**로 동등하거나 더 좋은 결과를 낸다.

**워크플로우**

- Claude.ai에 질문 입력

- Claude가 web search 도구를 호출

- 결과를 읽고, 추가 검색을 결정

- 보고서를 Markdown으로 출력 (Artifacts)

**강점**

- 인용 정확도가 가장 높다는 평가 (2026 벤치마크 일부 기준)

- 추론 체인이 투명 (extended thinking)

- API로 자체 에이전트 구축 가능

**가격**

- Claude Pro: $20/월

- Claude Max: $100~200/월 (사용량별)

- API 별도

12장 · 문헌 관리 — Zotero 7, EndNote, Mendeley, Paperpile, JabRef

검색·합성 도구가 진화해도 **참고문헌 관리**는 여전히 따로다.

| 도구 | 운영 | 가격 | 강점 | 약점 |

| --- | --- | --- | --- | --- |

| **Zotero 7** | 비영리 (CHNM) | 무료(저장 유료) | 오픈소스, 플러그인 풍부, ZotFile/Better BibTeX | UI가 옛스러움 |

| **EndNote 21** | Clarivate | $300 일회 | 학계 기관 표준, Word 통합 | 폐쇄, 비쌈 |

| **Mendeley Reference Manager** | Elsevier | 무료 | Elsevier DB 통합 | 데스크톱 앱 종료, 웹만 |

| **Paperpile** | Paperpile LLC | $36/년 | Google Docs/Drive 통합 | 비영어권 약함 |

| **JabRef** | JabRef Devs | 무료 | BibTeX 표준, LaTeX 친화 | UI 무거움 |

| **ReadCube Papers** | ReadCube | $5~10/월 | 깔끔한 UI | 가격 |

| **Citavi** | QSR Intl | $179 | 독일권 표준, 지식 정리 강함 | 단종 위협 |

2026년 추천은 **Zotero 7 + Better BibTeX + Zotero Connector**. 여기에 **ZotFile**로 PDF 정리, **Scite 플러그인**으로 인용 검증을 더하면 거의 모든 케이스를 커버한다.

**Mendeley는 2026년 사실상 사양길**. 데스크톱 앱이 죽었고, Elsevier가 자사 통합에만 집중한다. 학생/연구자는 Zotero로 이주가 정답이다.

13장 · 학술 작문 보조 — Trinka, Paperpal, Grammarly, DeepL Write

논문 작성 자체를 돕는 도구는 별도 카테고리다.

**학술 특화**

- **Trinka** — 학술 영어 특화, 의학/공학 용어 강함

- **Paperpal** — Cactus Communications, 표절 + AI 작문 보조

- **Writefull** — Overleaf 통합, 학술 영어 패턴

- **Jenni AI** — 학생용, 인용 자동 삽입

**일반(학술 보조 사용)**

- **Grammarly** — 가장 흔함, 영어 기본

- **Wordtune** — 패러프레이즈, 톤 조정

- **DeepL Write** — 독일/유럽 강세, 비영어권 자연스러움

**가격(2026)**

- Trinka Premium: $20/월

- Paperpal Prime: $19/월

- Grammarly Premium: $30/월

- DeepL Pro: $9/월

**Tip**: 영어가 모국어가 아닌 연구자에게 가장 큰 ROI는 **DeepL Write + Trinka 조합**이다. DeepL이 자연스러운 영어를, Trinka가 학술 컨벤션을 잡아준다.

14장 · 표절 + AI 탐지 — iThenticate, Turnitin, GPTZero, Originality.ai

학술 출판의 양 끝 — **표절 검출**과 **AI 작성 탐지** — 모두 산업 표준이 있다.

**표절 검출**

- **iThenticate** — Crossref Similarity Check의 백엔드, 학술 출판사 표준

- **Turnitin** — 교육기관 표준 (학부/대학원)

- **PlagScan**, **Copyleaks**, **Plagium** — 보조

**AI 탐지(2026 시점 신뢰도)**

- **Turnitin AI Detection** — 학교 표준

- **GPTZero** — 인기 컨슈머 도구

- **Originality.ai** — SEO/콘텐츠 시장 강세

- **Copyleaks AI Detector** — 다국어

- **Pangram** — 새로운 진입자

**중요한 진실**: 2026년에도 AI 탐지의 **false positive(인간을 AI로 오판)** 비율이 학술 글쓰기에서 5~15%다. 비영어권 학생이 더 많이 잘못 걸린다. AI 탐지 결과를 단독 증거로 처벌하면 안 된다는 게 출판윤리위원회(COPE) 입장이다.

15장 · 그림 + 도표 — Matplotlib, Seaborn, Plotly, Vega-Altair

논문 그림은 여전히 코드로 만든다. 2026년 표준은 다음과 같다.

| 라이브러리 | 언어 | 강점 | 약점 |

| --- | --- | --- | --- |

| **Matplotlib** | Python | 학술 표준, 거의 모든 유형 | 기본 디자인이 못생김 |

| **Seaborn** | Python | 통계 그림 특화, 깔끔한 기본값 | Matplotlib 위라 한계 상속 |

| **Plotly** | Python/R/JS | 인터랙티브, 발표용 좋음 | 출판 PDF로 어색 |

| **Vega-Altair** | Python | 선언적 문법, 재현 가능 | 커뮤니티 작음 |

| **ggplot2** | R | 통계 그림 황금 표준 | R 사용자 한정 |

| **D3.js** | JavaScript | 완전 커스텀 | 가파른 학습곡선 |

학술 PDF 출판이 목표라면 **Matplotlib + Seaborn**이 여전히 무난하다. 데이터 탐색용 인터랙티브는 **Plotly**, 통계 차트는 **ggplot2**가 압도적이다.

**AI 도움**: Claude/ChatGPT가 Matplotlib 코드 작성을 매우 잘 한다. "이 데이터를 boxplot으로 그려줘" 한 줄이면 80% 코드가 나온다.

16장 · 재현 가능성 — Jupyter, Quarto, Marimo

논문 부록의 코드는 점차 표준화되고 있다.

- **Jupyter** — 사실상 표준, 학술 데이터 분석의 공용어

- **Quarto** — RStudio가 만든 멀티언어 문서 시스템, 논문 통째로 작성 가능

- **Marimo** — 차세대 Python 노트북, 반응형, 재현성 강조

- **R Markdown** — R 생태계 표준

- **Pluto.jl** — Julia 노트북

**Quarto**의 등장이 가장 큰 변화다. R/Python/Julia를 한 문서에서 섞고, PDF·HTML·docx·revealjs 슬라이드까지 모두 출력한다. JoSS(Journal of Open Source Software) 같은 저널이 Quarto 기반 제출을 허용한다.

**ResearchHub**, **Stencila**, **Curvenote** 같은 "실행 가능한 논문" 플랫폼도 자라고 있지만 아직 주류는 아니다.

17장 · arXiv 생태계 — alphaXiv, HuggingFace Papers, arxiv-sanity

arXiv는 1991년부터 운영된 프리프린트 서버다. 2026년 시점 월 20만 편 신규 업로드.

**arXiv 자체**

- 코넬대 운영, Simons Foundation 지원

- 수학·물리·CS·생물 등 거의 모든 분야

- 라이선스 모델 명확 (CC BY 등)

**arXiv 보조 도구**

- **arxiv-sanity-lite** (Karpathy) — 개인화 추천, RSS 스타일

- **arxiv-vanity** — 2023년 사실상 중단

- **alphaXiv** — 논문에 대한 토론/주석 레이어

- **HuggingFace Papers** — daily papers 큐레이션, 커뮤니티 토론

- **Papers with Code** — Meta 운영, 2025년 점진 축소

- **PaperSwap** — 신규 진입, 추천 알고리즘 차별화

**alphaXiv**가 2024~2025년 가장 빠르게 성장한 도구다. arXiv URL의 "arxiv.org"를 "alphaxiv.org"로 바꾸면 같은 논문의 토론 페이지가 뜬다.

**HuggingFace Papers**는 일일 큐레이션이 핵심이다. 매일 5~15편의 "오늘의 논문"을 커뮤니티 보팅으로 선정한다. AI 분야에 한정되지만 압축률이 매우 높다.

18장 · 분야별 프리프린트 서버 — bioRxiv, medRxiv, ChemRxiv, SocArXiv

arXiv 모델이 분야별로 확장됐다.

| 서버 | 분야 | 운영 | 비고 |

| --- | --- | --- | --- |

| **bioRxiv** | 생명과학 | CSHL | 2013 출범, COVID 이후 대중화 |

| **medRxiv** | 의학 | CSHL/Yale/BMJ | 2019, COVID 핵심 채널 |

| **ChemRxiv** | 화학 | ACS/RSC | 2017 |

| **SocArXiv** | 사회과학 | OSF/COS | 2016 |

| **PsyArXiv** | 심리학 | OSF | 2016 |

| **EarthArXiv** | 지구과학 | 커뮤니티 | 2017 |

| **EngrXiv** | 공학 | OSF | 2016 |

| **arXiv** | 수학·물리·CS·일부 생물 | Cornell | 1991 |

**PubMed**(NLM)는 동료심사 후 색인이지만, 프리프린트도 LitCovid처럼 일부 통합한다. **MEDLINE**은 의학 색인의 황금 표준.

19장 · 한국 — KCI, DBpia, RISS, Naver Academic

한국 학술 인프라는 영문 글로벌 시스템과 별개로 운영된다.

- **KCI (Korea Citation Index)** — 한국연구재단(NRF) 운영, 한국 학술지 색인

- **DBpia** — Nuri미디어 운영, 유료 풀텍스트

- **RISS** — KERIS 운영, 학위논문·간행물·해외학술 통합

- **Naver Academic** — Naver가 만든 검색, 한국·해외 통합

- **Kiss(한국학술정보)** — 보조

**Scinapse**는 한국 스타트업 Pluto Network가 만든 글로벌 학술 검색이었지만 2023년 종료됐다.

한국 연구자에게 2026년 권고는 다음과 같다:

- 글로벌: Semantic Scholar + Elicit + Zotero

- 국내: RISS + DBpia, KCI 색인 확인

- 한글 논문 AI 도구는 아직 빈약 — Upstage Solar, NAVER HyperCLOVA X로 자체 구축이 시도되는 중

20장 · 일본 — J-STAGE, CiNii, NDL, JST

일본 학술 인프라는 정부 주도가 강하다.

- **J-STAGE** — JST 운영, 일본 학술지 무료 풀텍스트(상당수 OA)

- **CiNii** — NII(국립정보학연구소) 운영, 학술·도서·박사논문 통합

- **NDL Search** — 국립국회도서관, 도서·논문·기사

- **JST** — Japan Science and Technology Agency, J-GLOBAL 운영

J-STAGE는 세계적으로도 흔치 않은 "정부가 운영하는 거대 OA 저널 호스트"다. 4,000여 학술지 풀텍스트가 무료로 공개돼 있다.

**Sakana AI**, **Preferred Networks**가 일본어 학술 LLM을 만들고 있지만 학술 검색 서비스로는 아직 미진하다.

21장 · AI 환각 인용 — 가장 위험한 함정

2026년 시점에서 AI 연구 도구의 가장 큰 함정은 **환각된 인용**이다.

**환각 유형**

1. **존재하지 않는 논문** — 그럴듯한 제목·저자·DOI를 만들어냄

2. **존재하는 논문, 잘못된 주장 귀속** — 실제 저자가 말한 적 없는 내용을 인용

3. **존재하는 논문, 잘못된 페이지/연도**

4. **요약은 맞지만 강도(strength)를 부풀림** — "강한 증거"라고 했지만 원문은 "잠정적"

**왜 일어나나**

- LLM은 통계적 패턴이지 사실 데이터베이스가 아니다

- 인용 형식("Smith et al., 2019")이 학습 데이터에서 흔하므로 그럴듯하게 생성됨

- DOI 형식도 학습됐기 때문에 "10.xxxx/yyyy" 패턴을 만들어낼 수 있음

**대응**

- **모든 인용은 클릭해서 검증**

- DOI는 doi.org에서 실제 해소되는지 확인

- 본문에 인용된 주장이 실제 원문에 있는지 확인

- AI는 "초안"이지 "최종"이 아니다 — 인용 검증 책임은 연구자

**최근 사례**

- 2023년 미국 변호사가 ChatGPT가 만든 가짜 판례를 법정에 제출 → 징계

- 2024년 일부 학술 논문이 환각된 인용으로 철회

- 2025년 OpenAI Deep Research가 가짜 arXiv ID를 인용한 사례 보고됨

22장 · 재현성 위기 — AI는 해결하나, 악화시키나

심리학·생의학 분야의 **재현성 위기**는 10년 넘게 학계의 화두다. AI는 양면이다.

**AI가 돕는 면**

- 메타분석을 빠르게 → 약한 효과를 더 잘 탐지

- 통계 검정의 잘못된 사용을 패턴 매칭으로 찾음

- 코드/데이터 공유를 자동 점검 (예: ResearchHub의 reproducibility badge)

- 사전등록(preregistration) 작성 보조

**AI가 망치는 면**

- 가짜 데이터 생성이 쉬워짐 → p-hacking 자동화 위험

- AI가 만든 논문 초안이 학술지 풀로 흘러들어 옴

- 환각 인용이 연쇄적으로 다른 논문에 전파

- "AI가 검토했으니 옳다"는 잘못된 신뢰

학계의 합의는 점점 강해진다 — **AI는 보조이며, 책임은 인간 저자**다. ICMJE(국제의학편집인협의회), COPE, 주요 출판사가 모두 이 입장이다.

23장 · 누가 무엇을 쓰면 되나 — 시나리오별 권고

학부생 / 석사 초기

- 검색: Google Scholar + Semantic Scholar

- 합성: Consensus(쉬움), Elicit Free

- 관리: Zotero 7 무료

- 작문: Grammarly + DeepL Write

- 비용: 거의 무료

박사과정 / 박사후

- 검색: Semantic Scholar + Elicit Plus

- 메타분석: Elicit Plus 또는 Pro

- 인용 분석: Scite ($20/월)

- 관리: Zotero + Better BibTeX + Scite 플러그인

- 작문: Trinka 또는 Paperpal

- 비용: 월 $50~70

PI / 시니어 연구자

- 검색: Elicit Pro + Undermind + Perplexity Pro

- 자율 조사: OpenAI Deep Research, Gemini Deep Research

- 인용 분석: Scite Team

- 관리: Zotero + 팀 라이브러리, 또는 EndNote(전통 기관)

- 작문: Trinka + Grammarly Premium

- 비용: 월 $200~300

학제간 연구자

- 광범위 검색: Undermind + Perplexity Pro Research

- 분야별 심화: Elicit + 분야별 DB(PubMed, IEEE Xplore)

- 인용 그래프: OpenAlex API + Litmaps

- 비용: 월 $50~100

의학 임상 연구자

- 검색: PubMed + Consensus + Elicit

- 인용 분석: Scite

- 작문: Trinka(의학 특화) 또는 Paperpal

- 관리: EndNote(기관 표준이면) 또는 Zotero

- 비용: 월 $50~150

비영어권 연구자

- 작문 핵심: **DeepL Write + Trinka 조합**

- 검색: Semantic Scholar(API 기반 자체 도구 제작 가능)

- 한국: + RISS, DBpia / 일본: + J-STAGE, CiNii

- AI 탐지 누명에 주의 — false positive 5~15%

24장 · 통합 워크플로우 — 2026년의 한 연구자의 하루

오전 9시

└─ HuggingFace Papers / alphaXiv 새 논문 큐레이션 확인

(5분, 그날 분야 톱 5편 메모)

오전 10시

└─ Elicit에서 어제 시작한 메타분석 표 검토

(50편 추출 결과를 30분간 검증, 10편을 깊이 읽을 후보로 표시)

오전 11시

└─ SciSpace로 핵심 논문 1편 깊이 읽기

(수식 설명을 SciSpace 채팅으로, 메모를 Obsidian에)

오후 1시

└─ Zotero에 PDF 저장, Scite 플러그인으로 인용 맥락 확인

(지지/반박 비율이 의외이면 더 깊이 들어감)

오후 3시

└─ 본인 글쓰기 — Quarto 또는 Overleaf

(Trinka로 영어 다듬기, DeepL Write로 자연스러움)

오후 5시

└─ Claude/ChatGPT로 결론 단락 초안 받기

(절대 인용 자동 생성은 안 받음 — 환각 위험)

저녁

└─ Undermind에 "내일 탐색할 질문" 던지기

(5~10분 자율 탐색, 결과는 내일 검토)

이 워크플로우는 도구가 사람의 **시간**을 절약하지만 **판단**은 절대 대체하지 않는다는 원칙 위에서 돌아간다. 200편을 표로 정리하는 30분, 깊이 읽을 10편을 고르는 10분, 깊이 읽기 3시간 — 비율이 중요하다.

에필로그 — AI는 도구이고, 책임은 사람이다

연구 자체의 본질은 안 바뀐다. **새로운 질문을 던지고, 증거를 모으고, 신중하게 추론하고, 동료에게 검증받는다**. AI는 그 중 **모으기**와 **요약**을 가속할 뿐이다.

기억할 세 가지.

1. **모든 AI 인용은 검증**. 환각은 통계적으로 일어난다.

2. **AI는 초안, 사람이 최종**. 출판된 논문의 책임은 100% 저자.

3. **도구 스택은 진화한다**. 2024년의 정답은 2026년의 차선이다. 매년 카테고리를 재평가하라.

> "Standing on the shoulders of giants" — Newton의 말이지만, 2026년에는 그 위에 AI라는 사다리가 하나 더 얹혔다. 사다리는 빠르게 올려주지만, 무너지면 더 크게 떨어진다.

좋은 연구는 도구와 회의주의가 함께 가야 한다. AI 시대에는 후자가 더 중요해진다.

참고 / References

- [Semantic Scholar](https://www.semanticscholar.org/)

- [Allen Institute for AI (AI2)](https://allenai.org/)

- [OpenAlex](https://openalex.org/)

- [CORE](https://core.ac.uk/)

- [Elicit](https://elicit.com/)

- [Scite.ai](https://scite.ai/)

- [Consensus](https://consensus.app/)

- [SciSpace](https://typeset.io/)

- [Undermind](https://www.undermind.ai/)

- [Perplexity](https://www.perplexity.ai/)

- [OpenAI Deep Research announcement](https://openai.com/index/introducing-deep-research/)

- [Gemini Deep Research](https://gemini.google/overview/deep-research/)

- [Zotero](https://www.zotero.org/)

- [JabRef](https://www.jabref.org/)

- [Paperpile](https://paperpile.com/)

- [EndNote](https://endnote.com/)

- [Trinka](https://www.trinka.ai/)

- [Paperpal](https://paperpal.com/)

- [DeepL Write](https://www.deepl.com/write)

- [iThenticate](https://www.ithenticate.com/)

- [Turnitin](https://www.turnitin.com/)

- [GPTZero](https://gptzero.me/)

- [Originality.ai](https://originality.ai/)

- [arXiv](https://arxiv.org/)

- [alphaXiv](https://www.alphaxiv.org/)

- [HuggingFace Papers](https://huggingface.co/papers)

- [arxiv-sanity-lite — GitHub karpathy/arxiv-sanity-lite](https://github.com/karpathy/arxiv-sanity-lite)

- [Papers with Code](https://paperswithcode.com/)

- [bioRxiv](https://www.biorxiv.org/)

- [medRxiv](https://www.medrxiv.org/)

- [ChemRxiv](https://chemrxiv.org/)

- [PubMed](https://pubmed.ncbi.nlm.nih.gov/)

- [J-STAGE](https://www.jstage.jst.go.jp/)

- [CiNii Research](https://cir.nii.ac.jp/)

- [KCI Korea Citation Index](https://www.kci.go.kr/)

- [DBpia](https://www.dbpia.co.kr/)

- [RISS](http://www.riss.kr/)

- [Quarto](https://quarto.org/)

- [Marimo](https://marimo.io/)

- [COPE — Committee on Publication Ethics](https://publicationethics.org/)

- [ICMJE — International Committee of Medical Journal Editors](https://www.icmje.org/)

현재 단락 (1/416)

연간 학술 논문 생산량은 2020년 이미 400만 편을 넘었고, 2026년에는 더 가속됐다. 하루 평균 약 11,000편. 한 분야 전체를 읽는다는 건 이미 오래전에 불가능해졌다.

작성 글자: 0원문 글자: 13,671작성 단락: 0/416