- Published on
AI 과학 연구 & 문헌 도구 2026 완벽 가이드 - Elicit · Scite · Consensus · SciSpace · Semantic Scholar · Undermind · Perplexity · OpenAI Deep Research 심층 분석
- Authors

- Name
- Youngju Kim
- @fjvbn20031
프롤로그 — 매일 11,000편의 논문이 쏟아진다
연간 학술 논문 생산량은 2020년 이미 400만 편을 넘었고, 2026년에는 더 가속됐다. 하루 평균 약 11,000편. 한 분야 전체를 읽는다는 건 이미 오래전에 불가능해졌다.
박사 과정생은 문헌 검토에 1년을 쓴다. 박사후과정은 자기 분야가 매년 30% 확장되는 걸 본다. 학제간 연구를 시도하는 순간 이중·삼중의 짐을 진다. 인용 그래프는 너무 커서 사람의 머리로는 들고 다닐 수 없다.
이 글은 그 위기에 응답한 도구 지형을 본다. 검색·발견·합성·인용·관리·작문·검증까지 — 2026년 시점에서 실제로 쓰이는 AI 도구를 카테고리별로 분해하고, 강점·약점·가격·위험을 짚는다. 그리고 가장 중요한 질문: AI는 어디서 도와주고, 어디서 망치는가.
1장 · 왜 지금 AI 연구 도구인가 — 세 가지 압력
2026년 연구자가 마주한 세 가지 압력이 AI 도구 채택을 강제했다.
┌──────────────────────────────────────────────────────────────┐
│ │
│ 압력 1 — 폭발 │
│ 연간 400만+ 논문, 일 11,000편 │
│ 분야가 매년 20~30% 확장 │
│ 인간 독해 속도 = 정체 │
│ │
├──────────────────────────────────────────────────────────────┤
│ │
│ 압력 2 — 시간 │
│ PI 평균 주당 60~80시간 │
│ 문헌 검토에 박사 1년차 약 600시간 투입 │
│ 1편당 깊이있게 30분, 메타분석은 200~500편 │
│ │
├──────────────────────────────────────────────────────────────┤
│ │
│ 압력 3 — 학제간 │
│ AI/생물/의학 융합 → 다중 분야 추적 │
│ 각 분야마다 용어·기준이 다름 │
│ 사람의 두뇌가 따라가지 못함 │
│ │
└──────────────────────────────────────────────────────────────┘
세 압력 모두 사람이 더 빨리 읽는다고 풀리지 않는다. 도구가 합성·요약·인용 그래프 추적·증거 평가를 일부 떠맡아야 한다. 그게 2026년의 현실이다.
2장 · 검색 + 발견 — Semantic Scholar, Google Scholar, OpenAlex, CORE
문헌 작업의 시작은 항상 검색이다. 2026년 시점의 검색 인프라는 다음과 같다.
| 도구 | 운영 | 규모 | 강점 | 약점 |
|---|---|---|---|---|
| Semantic Scholar | Allen Institute(AI2) | 2억 편+ | TLDR 요약, 추천, 무료 API | UI는 평범 |
| Google Scholar | 사실상 전체 | 도달성, 인용 카운트, PDF 링크 | API 없음, 데이터 폐쇄 | |
| OpenAlex | OurResearch / CWTS | 2.5억+ | 완전 오픈, 인용 그래프 무료 | 데이터 노이즈 일부 |
| CORE | The Open University | 3억+ (OA 위주) | 오픈 액세스 집합, 풀텍스트 검색 | UI 무거움 |
| Microsoft Academic | Microsoft | (2021 종료) | (역사적) | 폐쇄, OpenAlex로 이전 |
| PubMed / MEDLINE | NIH/NLM | 3,800만+ | 생의학 표준, MeSH 색인 | 분야 한정 |
| BASE | Bielefeld | 3억+ | 다국어 OA | 인터페이스 학술적 |
가장 큰 변화는 Microsoft Academic의 종료(2021) 이후 그 자리를 OpenAlex가 채운 것이다. CWTS의 OurResearch가 운영하며, 모든 데이터가 CC0다. 학술 인용 그래프 분석을 시도하는 거의 모든 새 도구가 OpenAlex나 Semantic Scholar를 기반으로 한다.
Semantic Scholar는 단순 검색 이상이다. AI2가 만든 TLDR 요약, 추천 시스템, S2ORC 코퍼스 공개까지 — 사실상 학술 AI의 "허브"가 됐다.
Google Scholar는 도달성이 압도적이지만 API가 없고, 인용 데이터가 외부로 흘러나오지 않는다. 2026년에도 학자 개인의 첫 검색은 여기서 시작되지만, 다운스트림 도구는 OpenAlex/Semantic Scholar 위에 올라간다.
3장 · Elicit — 증거 합성 어시스턴트
Elicit은 Ought에서 시작해 2024년 독립 회사가 됐다. "AI 연구 어시스턴트" 카테고리의 대표 주자다.
무엇을 하는가
- 자연어 질문 → 관련 논문 검색
- 각 논문에서 자동 추출: 결과, 방법, 표본 크기, 한계
- 결과를 표 형태로 합성 (Systematic Review 워크플로우)
- 인용 트래킹, PDF 업로드 가능
가격(2026 시점)
- Free: 월 5,000 크레딧
- Plus: 월 $12, 워크플로우 추가
- Pro: 월 $42, 무제한 추출
- Team / Enterprise
언제 쓰는가
- 메타분석, 체계적 문헌고찰 초기 단계
- "이 가설을 지지하는 증거가 얼마나 있나" 질문
- 50
300편 빠른 스캔 후 깊이 읽을 510편 선택
약점
- 추출이 항상 맞진 않다 — 표본 크기, 효과량을 가끔 헛본다
- 비영어 논문 약함
- 출력은 출발점이지 끝점이 아니다 — 원문 검증 필수
Elicit의 진짜 가치는 "초기 스크리닝의 50배 가속"이다. 200편을 30분 안에 표로 정리한다. 다만 그 표를 보고 내가 어떻게 결론짓는지는 여전히 사람의 몫이다.
4장 · Scite.ai — 스마트 인용 (지지 vs 반박)
Scite는 인용 분석에 한정해 가장 깊이있는 도구다. 인용이 본문에서 어떤 맥락으로 쓰였는지 분류한다.
Smart Citation 분류
- Supporting — 인용된 주장을 지지
- Mentioning — 단순 언급
- Contrasting — 주장과 반대
왜 중요한가
논문 X가 1,000번 인용됐다고 X가 옳은 건 아니다. 그 중 50번은 X가 틀렸다고 주장하는 인용일 수 있다. 일반 인용 카운트는 이걸 못 본다.
가격(2026)
- Personal: $20/월
- Team: $25/월/사용자
- 학생 할인 50%
워크플로우 통합
- Zotero 플러그인 — 라이브러리에서 직접 Smart Citation 확인
- Word 플러그인 — 작성 중 인용 확인
- 브라우저 확장 — PubMed/Google Scholar에 오버레이
Scite의 한계: 인용 분류 정확도는 90% 정도지만, 미묘한 비판(예: "한정된 표본에서만 유효")을 항상 잡진 못한다.
5장 · Consensus — 합의 검색
Consensus는 더 가벼운 컨슈머 친화 도구다. "이 주제에 대한 학계 합의는?"이라는 질문에 답한다.
핵심 기능
- 자연어 질문 입력 ("커피는 심혈관 건강에 좋은가?")
- 가장 관련성 높은 논문 8~20편 추출
- 각 논문의 결론을 YES / NO / POSSIBLY 한 줄 요약
- "Consensus Meter" — 합의 분포 시각화
가격(2026)
- Free: 제한된 검색
- Premium: $10/월
잘 맞는 케이스
- 환자가 의사에게 묻기 전 자체 검토
- 강연·블로그용 빠른 합의 확인
- 학부생의 초기 리서치
한계
- 의학·건강 질문에 강하지만 다른 분야는 평이함
- "Consensus Meter"는 단순화의 위험 — n=20에서의 합의가 분야 전체의 합의는 아니다
6장 · SciSpace (Typeset) — Copilot for Papers
SciSpace는 인도 출신 스타트업이며, "논문 한 편을 깊이 이해하기"에 집중한다.
기능
- PDF 업로드 → 챗 인터페이스로 질문
- 수식 설명, 그림 해석, 표 풀이
- 다국어(한·일·중·아랍어 등)
- 인용 검색, 관련 논문 추천
- "Literature Review Assistant" — 표 형태 비교
가격(2026)
- Free: 제한된 채팅
- Premium: $20/월
- Team plans
Elicit과 비교
- Elicit은 수십~수백 편 합성에 강하다
- SciSpace는 한 편을 깊이 이해하는 데 강하다
- 같이 쓰면 보완적
약점
- 깊은 수학(증명 검증)에 약함
- 최신 논문(arXiv 즉시 반영) 지연
7장 · Undermind — 에이전트 기반 딥 서치
Undermind는 2024년 MIT 출신들이 만든 "AI 연구 에이전트"다. 다른 도구가 키워드 일치를 빠르게 한다면, Undermind는 5~10분간 자율적으로 탐색한다.
작동 방식
- 사용자가 자연어 질문 입력
- 에이전트가 1차 검색 → 결과를 읽음 → 새 키워드 발견
- 2차/3차 검색을 자동으로 반복
- 결과를 클러스터링해 연구 보고서 형태로 출력
가격(2026)
- Free: 월 몇 회
- Plus / Pro
언제 쓰는가
- "내가 모르는 분야"에 처음 진입할 때
- 키워드를 모르는 영역의 문헌 매핑
- 시간이 있다면 한 시간을 들여 깊이 탐색
약점
- 5~10분 대기 — 빠른 답엔 부적합
- 출처 검증은 여전히 사람 몫
- 분야가 매우 특수하면 표면적
Undermind는 Elicit의 사촌이지만 더 "자율적"이다. 결과의 깊이는 더 좋지만, 결정론성은 떨어진다.
8장 · Perplexity Pro Research — 추론 모델 + 웹
Perplexity Pro는 일반 AI 검색이지만, "Research" 모드를 따로 갖고 있다.
Research 모드 특징
- Sonar Pro / GPT-5 / Claude 4.6 등 추론 모델 사용
- 다단계 검색 → 50~100개 출처 통합
- 학술 출처 가중치 옵션
- PDF 출력 가능
가격(2026)
- Pro: $20/월
Elicit/Undermind 대비
- Perplexity는 웹 전체가 대상, 학술은 일부
- 학술 깊이는 Elicit/Undermind보다 얕음
- 대신 실세계 맥락(뉴스, 블로그, 코드)을 함께 본다는 강점
학술 단독 검토에는 부족할 수 있지만, 시장·기술·정책 맥락이 섞인 질문에는 Perplexity가 더 낫다.
9장 · OpenAI Deep Research — 자율 연구 에이전트
OpenAI가 2025년 2월 출시한 Deep Research는 o3 기반의 자율 에이전트다. 2026년에는 GPT-5 Research로 진화했다.
특징
- 사용자 질문 → 5~30분 자율 조사
- 수백 개 웹페이지/논문을 읽고, 추론하고, 보고서 작성
- 인용을 표 형태로 첨부
- 그림·차트 생성 가능
가격
- Pro 플랜($200/월)의 핵심 기능
- Plus 플랜($20/월)에서도 월 10회 제공
학술 활용
- 시장조사·경쟁분석에 매우 강함
- 학술만 본다면 Elicit/Undermind보다 얕을 수 있음
- 다만 다분야 통합 보고서는 최강
위험
- 환각된 인용이 발견됨 (특히 가짜 arXiv ID)
- 반드시 원문 클릭해 검증
- 자세는 "초안 자동화"지 "최종 보고서"가 아니다
10장 · Google Gemini Deep Research — 긴 컨텍스트 다중 소스
Google의 Gemini 2 Deep Research는 OpenAI 버전과 경쟁한다. 차이는 컨텍스트 길이다.
강점
- Gemini의 2M 토큰 컨텍스트 활용
- 한 번에 수백 페이지 논문 PDF를 통째로 읽음
- Workspace 통합 (Drive, Docs로 출력)
약점
- 학술 인용 정확도가 OpenAI/Anthropic보다 살짝 낮다 (벤치마크별 차이)
- 깊은 수학·증명에 약함
가격
- Gemini Advanced: $20/월
- Workspace Enterprise
11장 · Anthropic Claude with Web Search — 도구 사용 기반 연구
Anthropic은 별도 "Deep Research" 제품을 마케팅하지 않는다. 대신 Claude의 tool use + web search로 동등하거나 더 좋은 결과를 낸다.
워크플로우
- Claude.ai에 질문 입력
- Claude가 web search 도구를 호출
- 결과를 읽고, 추가 검색을 결정
- 보고서를 Markdown으로 출력 (Artifacts)
강점
- 인용 정확도가 가장 높다는 평가 (2026 벤치마크 일부 기준)
- 추론 체인이 투명 (extended thinking)
- API로 자체 에이전트 구축 가능
가격
- Claude Pro: $20/월
- Claude Max: $100~200/월 (사용량별)
- API 별도
12장 · 문헌 관리 — Zotero 7, EndNote, Mendeley, Paperpile, JabRef
검색·합성 도구가 진화해도 참고문헌 관리는 여전히 따로다.
| 도구 | 운영 | 가격 | 강점 | 약점 |
|---|---|---|---|---|
| Zotero 7 | 비영리 (CHNM) | 무료(저장 유료) | 오픈소스, 플러그인 풍부, ZotFile/Better BibTeX | UI가 옛스러움 |
| EndNote 21 | Clarivate | $300 일회 | 학계 기관 표준, Word 통합 | 폐쇄, 비쌈 |
| Mendeley Reference Manager | Elsevier | 무료 | Elsevier DB 통합 | 데스크톱 앱 종료, 웹만 |
| Paperpile | Paperpile LLC | $36/년 | Google Docs/Drive 통합 | 비영어권 약함 |
| JabRef | JabRef Devs | 무료 | BibTeX 표준, LaTeX 친화 | UI 무거움 |
| ReadCube Papers | ReadCube | $5~10/월 | 깔끔한 UI | 가격 |
| Citavi | QSR Intl | $179 | 독일권 표준, 지식 정리 강함 | 단종 위협 |
2026년 추천은 Zotero 7 + Better BibTeX + Zotero Connector. 여기에 ZotFile로 PDF 정리, Scite 플러그인으로 인용 검증을 더하면 거의 모든 케이스를 커버한다.
Mendeley는 2026년 사실상 사양길. 데스크톱 앱이 죽었고, Elsevier가 자사 통합에만 집중한다. 학생/연구자는 Zotero로 이주가 정답이다.
13장 · 학술 작문 보조 — Trinka, Paperpal, Grammarly, DeepL Write
논문 작성 자체를 돕는 도구는 별도 카테고리다.
학술 특화
- Trinka — 학술 영어 특화, 의학/공학 용어 강함
- Paperpal — Cactus Communications, 표절 + AI 작문 보조
- Writefull — Overleaf 통합, 학술 영어 패턴
- Jenni AI — 학생용, 인용 자동 삽입
일반(학술 보조 사용)
- Grammarly — 가장 흔함, 영어 기본
- Wordtune — 패러프레이즈, 톤 조정
- DeepL Write — 독일/유럽 강세, 비영어권 자연스러움
가격(2026)
- Trinka Premium: $20/월
- Paperpal Prime: $19/월
- Grammarly Premium: $30/월
- DeepL Pro: $9/월
Tip: 영어가 모국어가 아닌 연구자에게 가장 큰 ROI는 DeepL Write + Trinka 조합이다. DeepL이 자연스러운 영어를, Trinka가 학술 컨벤션을 잡아준다.
14장 · 표절 + AI 탐지 — iThenticate, Turnitin, GPTZero, Originality.ai
학술 출판의 양 끝 — 표절 검출과 AI 작성 탐지 — 모두 산업 표준이 있다.
표절 검출
- iThenticate — Crossref Similarity Check의 백엔드, 학술 출판사 표준
- Turnitin — 교육기관 표준 (학부/대학원)
- PlagScan, Copyleaks, Plagium — 보조
AI 탐지(2026 시점 신뢰도)
- Turnitin AI Detection — 학교 표준
- GPTZero — 인기 컨슈머 도구
- Originality.ai — SEO/콘텐츠 시장 강세
- Copyleaks AI Detector — 다국어
- Pangram — 새로운 진입자
중요한 진실: 2026년에도 AI 탐지의 false positive(인간을 AI로 오판) 비율이 학술 글쓰기에서 5~15%다. 비영어권 학생이 더 많이 잘못 걸린다. AI 탐지 결과를 단독 증거로 처벌하면 안 된다는 게 출판윤리위원회(COPE) 입장이다.
15장 · 그림 + 도표 — Matplotlib, Seaborn, Plotly, Vega-Altair
논문 그림은 여전히 코드로 만든다. 2026년 표준은 다음과 같다.
| 라이브러리 | 언어 | 강점 | 약점 |
|---|---|---|---|
| Matplotlib | Python | 학술 표준, 거의 모든 유형 | 기본 디자인이 못생김 |
| Seaborn | Python | 통계 그림 특화, 깔끔한 기본값 | Matplotlib 위라 한계 상속 |
| Plotly | Python/R/JS | 인터랙티브, 발표용 좋음 | 출판 PDF로 어색 |
| Vega-Altair | Python | 선언적 문법, 재현 가능 | 커뮤니티 작음 |
| ggplot2 | R | 통계 그림 황금 표준 | R 사용자 한정 |
| D3.js | JavaScript | 완전 커스텀 | 가파른 학습곡선 |
학술 PDF 출판이 목표라면 Matplotlib + Seaborn이 여전히 무난하다. 데이터 탐색용 인터랙티브는 Plotly, 통계 차트는 ggplot2가 압도적이다.
AI 도움: Claude/ChatGPT가 Matplotlib 코드 작성을 매우 잘 한다. "이 데이터를 boxplot으로 그려줘" 한 줄이면 80% 코드가 나온다.
16장 · 재현 가능성 — Jupyter, Quarto, Marimo
논문 부록의 코드는 점차 표준화되고 있다.
- Jupyter — 사실상 표준, 학술 데이터 분석의 공용어
- Quarto — RStudio가 만든 멀티언어 문서 시스템, 논문 통째로 작성 가능
- Marimo — 차세대 Python 노트북, 반응형, 재현성 강조
- R Markdown — R 생태계 표준
- Pluto.jl — Julia 노트북
Quarto의 등장이 가장 큰 변화다. R/Python/Julia를 한 문서에서 섞고, PDF·HTML·docx·revealjs 슬라이드까지 모두 출력한다. JoSS(Journal of Open Source Software) 같은 저널이 Quarto 기반 제출을 허용한다.
ResearchHub, Stencila, Curvenote 같은 "실행 가능한 논문" 플랫폼도 자라고 있지만 아직 주류는 아니다.
17장 · arXiv 생태계 — alphaXiv, HuggingFace Papers, arxiv-sanity
arXiv는 1991년부터 운영된 프리프린트 서버다. 2026년 시점 월 20만 편 신규 업로드.
arXiv 자체
- 코넬대 운영, Simons Foundation 지원
- 수학·물리·CS·생물 등 거의 모든 분야
- 라이선스 모델 명확 (CC BY 등)
arXiv 보조 도구
- arxiv-sanity-lite (Karpathy) — 개인화 추천, RSS 스타일
- arxiv-vanity — 2023년 사실상 중단
- alphaXiv — 논문에 대한 토론/주석 레이어
- HuggingFace Papers — daily papers 큐레이션, 커뮤니티 토론
- Papers with Code — Meta 운영, 2025년 점진 축소
- PaperSwap — 신규 진입, 추천 알고리즘 차별화
alphaXiv가 2024~2025년 가장 빠르게 성장한 도구다. arXiv URL의 "arxiv.org"를 "alphaxiv.org"로 바꾸면 같은 논문의 토론 페이지가 뜬다.
HuggingFace Papers는 일일 큐레이션이 핵심이다. 매일 5~15편의 "오늘의 논문"을 커뮤니티 보팅으로 선정한다. AI 분야에 한정되지만 압축률이 매우 높다.
18장 · 분야별 프리프린트 서버 — bioRxiv, medRxiv, ChemRxiv, SocArXiv
arXiv 모델이 분야별로 확장됐다.
| 서버 | 분야 | 운영 | 비고 |
|---|---|---|---|
| bioRxiv | 생명과학 | CSHL | 2013 출범, COVID 이후 대중화 |
| medRxiv | 의학 | CSHL/Yale/BMJ | 2019, COVID 핵심 채널 |
| ChemRxiv | 화학 | ACS/RSC | 2017 |
| SocArXiv | 사회과학 | OSF/COS | 2016 |
| PsyArXiv | 심리학 | OSF | 2016 |
| EarthArXiv | 지구과학 | 커뮤니티 | 2017 |
| EngrXiv | 공학 | OSF | 2016 |
| arXiv | 수학·물리·CS·일부 생물 | Cornell | 1991 |
PubMed(NLM)는 동료심사 후 색인이지만, 프리프린트도 LitCovid처럼 일부 통합한다. MEDLINE은 의학 색인의 황금 표준.
19장 · 한국 — KCI, DBpia, RISS, Naver Academic
한국 학술 인프라는 영문 글로벌 시스템과 별개로 운영된다.
- KCI (Korea Citation Index) — 한국연구재단(NRF) 운영, 한국 학술지 색인
- DBpia — Nuri미디어 운영, 유료 풀텍스트
- RISS — KERIS 운영, 학위논문·간행물·해외학술 통합
- Naver Academic — Naver가 만든 검색, 한국·해외 통합
- Kiss(한국학술정보) — 보조
Scinapse는 한국 스타트업 Pluto Network가 만든 글로벌 학술 검색이었지만 2023년 종료됐다.
한국 연구자에게 2026년 권고는 다음과 같다:
- 글로벌: Semantic Scholar + Elicit + Zotero
- 국내: RISS + DBpia, KCI 색인 확인
- 한글 논문 AI 도구는 아직 빈약 — Upstage Solar, NAVER HyperCLOVA X로 자체 구축이 시도되는 중
20장 · 일본 — J-STAGE, CiNii, NDL, JST
일본 학술 인프라는 정부 주도가 강하다.
- J-STAGE — JST 운영, 일본 학술지 무료 풀텍스트(상당수 OA)
- CiNii — NII(국립정보학연구소) 운영, 학술·도서·박사논문 통합
- NDL Search — 국립국회도서관, 도서·논문·기사
- JST — Japan Science and Technology Agency, J-GLOBAL 운영
J-STAGE는 세계적으로도 흔치 않은 "정부가 운영하는 거대 OA 저널 호스트"다. 4,000여 학술지 풀텍스트가 무료로 공개돼 있다.
Sakana AI, Preferred Networks가 일본어 학술 LLM을 만들고 있지만 학술 검색 서비스로는 아직 미진하다.
21장 · AI 환각 인용 — 가장 위험한 함정
2026년 시점에서 AI 연구 도구의 가장 큰 함정은 환각된 인용이다.
환각 유형
- 존재하지 않는 논문 — 그럴듯한 제목·저자·DOI를 만들어냄
- 존재하는 논문, 잘못된 주장 귀속 — 실제 저자가 말한 적 없는 내용을 인용
- 존재하는 논문, 잘못된 페이지/연도
- 요약은 맞지만 강도(strength)를 부풀림 — "강한 증거"라고 했지만 원문은 "잠정적"
왜 일어나나
- LLM은 통계적 패턴이지 사실 데이터베이스가 아니다
- 인용 형식("Smith et al., 2019")이 학습 데이터에서 흔하므로 그럴듯하게 생성됨
- DOI 형식도 학습됐기 때문에 "10.xxxx/yyyy" 패턴을 만들어낼 수 있음
대응
- 모든 인용은 클릭해서 검증
- DOI는 doi.org에서 실제 해소되는지 확인
- 본문에 인용된 주장이 실제 원문에 있는지 확인
- AI는 "초안"이지 "최종"이 아니다 — 인용 검증 책임은 연구자
최근 사례
- 2023년 미국 변호사가 ChatGPT가 만든 가짜 판례를 법정에 제출 → 징계
- 2024년 일부 학술 논문이 환각된 인용으로 철회
- 2025년 OpenAI Deep Research가 가짜 arXiv ID를 인용한 사례 보고됨
22장 · 재현성 위기 — AI는 해결하나, 악화시키나
심리학·생의학 분야의 재현성 위기는 10년 넘게 학계의 화두다. AI는 양면이다.
AI가 돕는 면
- 메타분석을 빠르게 → 약한 효과를 더 잘 탐지
- 통계 검정의 잘못된 사용을 패턴 매칭으로 찾음
- 코드/데이터 공유를 자동 점검 (예: ResearchHub의 reproducibility badge)
- 사전등록(preregistration) 작성 보조
AI가 망치는 면
- 가짜 데이터 생성이 쉬워짐 → p-hacking 자동화 위험
- AI가 만든 논문 초안이 학술지 풀로 흘러들어 옴
- 환각 인용이 연쇄적으로 다른 논문에 전파
- "AI가 검토했으니 옳다"는 잘못된 신뢰
학계의 합의는 점점 강해진다 — AI는 보조이며, 책임은 인간 저자다. ICMJE(국제의학편집인협의회), COPE, 주요 출판사가 모두 이 입장이다.
23장 · 누가 무엇을 쓰면 되나 — 시나리오별 권고
학부생 / 석사 초기
- 검색: Google Scholar + Semantic Scholar
- 합성: Consensus(쉬움), Elicit Free
- 관리: Zotero 7 무료
- 작문: Grammarly + DeepL Write
- 비용: 거의 무료
박사과정 / 박사후
- 검색: Semantic Scholar + Elicit Plus
- 메타분석: Elicit Plus 또는 Pro
- 인용 분석: Scite ($20/월)
- 관리: Zotero + Better BibTeX + Scite 플러그인
- 작문: Trinka 또는 Paperpal
- 비용: 월 $50~70
PI / 시니어 연구자
- 검색: Elicit Pro + Undermind + Perplexity Pro
- 자율 조사: OpenAI Deep Research, Gemini Deep Research
- 인용 분석: Scite Team
- 관리: Zotero + 팀 라이브러리, 또는 EndNote(전통 기관)
- 작문: Trinka + Grammarly Premium
- 비용: 월 $200~300
학제간 연구자
- 광범위 검색: Undermind + Perplexity Pro Research
- 분야별 심화: Elicit + 분야별 DB(PubMed, IEEE Xplore)
- 인용 그래프: OpenAlex API + Litmaps
- 비용: 월 $50~100
의학 임상 연구자
- 검색: PubMed + Consensus + Elicit
- 인용 분석: Scite
- 작문: Trinka(의학 특화) 또는 Paperpal
- 관리: EndNote(기관 표준이면) 또는 Zotero
- 비용: 월 $50~150
비영어권 연구자
- 작문 핵심: DeepL Write + Trinka 조합
- 검색: Semantic Scholar(API 기반 자체 도구 제작 가능)
- 한국: + RISS, DBpia / 일본: + J-STAGE, CiNii
- AI 탐지 누명에 주의 — false positive 5~15%
24장 · 통합 워크플로우 — 2026년의 한 연구자의 하루
오전 9시
└─ HuggingFace Papers / alphaXiv 새 논문 큐레이션 확인
(5분, 그날 분야 톱 5편 메모)
오전 10시
└─ Elicit에서 어제 시작한 메타분석 표 검토
(50편 추출 결과를 30분간 검증, 10편을 깊이 읽을 후보로 표시)
오전 11시
└─ SciSpace로 핵심 논문 1편 깊이 읽기
(수식 설명을 SciSpace 채팅으로, 메모를 Obsidian에)
오후 1시
└─ Zotero에 PDF 저장, Scite 플러그인으로 인용 맥락 확인
(지지/반박 비율이 의외이면 더 깊이 들어감)
오후 3시
└─ 본인 글쓰기 — Quarto 또는 Overleaf
(Trinka로 영어 다듬기, DeepL Write로 자연스러움)
오후 5시
└─ Claude/ChatGPT로 결론 단락 초안 받기
(절대 인용 자동 생성은 안 받음 — 환각 위험)
저녁
└─ Undermind에 "내일 탐색할 질문" 던지기
(5~10분 자율 탐색, 결과는 내일 검토)
이 워크플로우는 도구가 사람의 시간을 절약하지만 판단은 절대 대체하지 않는다는 원칙 위에서 돌아간다. 200편을 표로 정리하는 30분, 깊이 읽을 10편을 고르는 10분, 깊이 읽기 3시간 — 비율이 중요하다.
에필로그 — AI는 도구이고, 책임은 사람이다
연구 자체의 본질은 안 바뀐다. 새로운 질문을 던지고, 증거를 모으고, 신중하게 추론하고, 동료에게 검증받는다. AI는 그 중 모으기와 요약을 가속할 뿐이다.
기억할 세 가지.
- 모든 AI 인용은 검증. 환각은 통계적으로 일어난다.
- AI는 초안, 사람이 최종. 출판된 논문의 책임은 100% 저자.
- 도구 스택은 진화한다. 2024년의 정답은 2026년의 차선이다. 매년 카테고리를 재평가하라.
"Standing on the shoulders of giants" — Newton의 말이지만, 2026년에는 그 위에 AI라는 사다리가 하나 더 얹혔다. 사다리는 빠르게 올려주지만, 무너지면 더 크게 떨어진다.
좋은 연구는 도구와 회의주의가 함께 가야 한다. AI 시대에는 후자가 더 중요해진다.
참고 / References
- Semantic Scholar
- Allen Institute for AI (AI2)
- OpenAlex
- CORE
- Elicit
- Scite.ai
- Consensus
- SciSpace
- Undermind
- Perplexity
- OpenAI Deep Research announcement
- Gemini Deep Research
- Zotero
- JabRef
- Paperpile
- EndNote
- Trinka
- Paperpal
- DeepL Write
- iThenticate
- Turnitin
- GPTZero
- Originality.ai
- arXiv
- alphaXiv
- HuggingFace Papers
- arxiv-sanity-lite — GitHub karpathy/arxiv-sanity-lite
- Papers with Code
- bioRxiv
- medRxiv
- ChemRxiv
- PubMed
- J-STAGE
- CiNii Research
- KCI Korea Citation Index
- DBpia
- RISS
- Quarto
- Marimo
- COPE — Committee on Publication Ethics
- ICMJE — International Committee of Medical Journal Editors