
인공지능 연구 분야에 종사하는 과학자들은 더 이상 외면할 수 없는 신뢰성 문제에 직면하고 있습니다.
인공지능 연구에 초점을 맞춘 주요 학술대회들은 수준 낮은 논문들이 심사 시스템에 쌓여 업무가 마비되자 대응에 나섰습니다.
주최측은 사람의 노력 없이 작성된 논문과 동료 평가 자료가 급증하는 것을 목격했습니다. 문제는 형식이 아니라 정확성입니다. 예전에는 정확성이 중요했던 부분에 오류가 스며들고 있습니다.
연구자들은 자동화된 글쓰기 도구의 무분별한 사용이 해당 분야에 해를 끼칠 수 있다고 일찍부터 경고했습니다. 캘리포니아 대학교 버클리 캠퍼스의 인공지능 연구원인 이니올루와 데보라 라지는 상황이 순식간에 혼란스러워졌다고 말했습니다.
"인공지능이 다른 분야를 변화시킬 것이라는 데에 그토록 열광하는 것은 아이러니한 일입니다. 왜냐하면 현실적으로 우리 분야는 인공지능의 광범위한 사용으로 인해 혼란스러운 경험을 겪었기 때문입니다."라고 그녀는 말했다.
객관적인 데이터는 이 문제가 얼마나 만연했는지 보여줍니다. 8월에 발표된 스탠퍼드 대학교 연구에 따르면 컴퓨터 과학 논문의 최대 22%에서 대규모 언어 모델 사용이 나타났습니다.
텍스트 분석 스타트업인 팡그램(Pangram)은 2025년 국제 학습 표현 학회(International Conference on Learning Representations)에 제출된 논문과 동료 평가를 분석했습니다. 그 결과, 전체 평가의 21%가 AI에 의해 완전히 생성되었고, 절반 이상은 편집과 같은 작업에 AI가 활용된 것으로 추정했습니다. 또한, 제출된 논문의 9%는 내용의 절반 이상이 AI를 통해 생성된 것으로 나타났습니다
이 문제는 11월에 중대한 전환점을 맞았습니다. ICLR(국제뇌졸중학회) 심사위원들은 인공지능이 생성한 것으로 의심되는 논문을 지적했는데, 해당 논문은 심사위원 점수 기준으로 여전히 상위 17%에 랭크되어 있었습니다. 1월에는 인공지능 오류 탐지 업체인 GPTZero가 신경과학 분야 최고 학술대회로 널리 알려진 NeurIPS에서 발표된 50편의 논문에서 100건 이상의 자동화 오류를 발견했다고 보고했습니다.
우려가 커지면서 ICLR은 학회 개최 전에 사용 규칙을 업데이트했습니다. 언어 모델 이제 반려될 수 있습니다. 자동화 도구를 사용하여 품질이 낮은 평가를 제출하는 심사자는 자신의 논문 반려를 포함한 불이익을 받을 수 있습니다.
캘리포니아 대학교 버클리 캠퍼스의 컴퓨터 과학 교수인 하니 파리드는 "만약 여러분이 질이 매우 낮고 완전히 틀린 논문을 발표한다면, 사회가 어떻게 우리를 과학자로서 신뢰할 수 있겠습니까?"라고 말했습니다
보고서에 따르면 NeurIPS는 2025년에 21,575편의 논문을 접수했는데, 이는 2024년의 17,491편, 2020년의 9,467편보다 증가한 수치입니다. 한 저자는 한 해에 100편이 넘는 논문을 제출했는데, 이는 한 연구자가 일반적으로 제출하는 논문 수를 훨씬 뛰어넘는 것입니다.
오리건 주립대학교 명예교수이자 arXiv 컴퓨터 과학 부문 회장인 토마스 G. 디터리히는 공개 저장소에 대한 업로드량도 급격히 증가했다고 말했습니다.
하지만 연구자들은 그 원인이 단순하지 않다고 말합니다. 일부는 해당 분야에 진입하는 사람이 늘어난 것이 원인이라고 주장하고, 다른 일부는 AI 도구의 과도한 사용이 주요 원인이라고 말합니다. 자동화된 텍스트를dent공통 표준이 없기 때문에 탐지는 여전히 어렵습니다. 디터리히는 흔히 나타나는 경고 신호로 허위 참고 문헌과 잘못된 수치를 꼽았습니다. 이러한 행위를 한 저자는 arXiv에서 일시적으로 이용이 금지될 수 있습니다.
상업적 압력 또한 배경에 깔려 있습니다. 유명 인사와의 시연, 치솟는 연봉, 그리고 치열한 경쟁으로 인해 업계 일부는 양적인 측면에만 집중하게 되었습니다. 라지는trac분위기가 빠른 결과를 원하는 외부인들을 끌어들이는 경우가 있다고 말했습니다.
동시에 연구자들은 일부 사용 사례는 합법적이라고 말합니다. 디터리히는 언어 도구가 영어를 더 명확하게 다시 쓰는 데 도움을 주기 때문에 중국 논문의 글쓰기 질이 향상되었을 가능성이 높다고 지적했습니다.
이제 문제는 출판을 넘어 더 넓은 범위로 확대되고 있습니다. 구글, 앤트로픽 , 오픈AI와 같은 기업들은 생명과학과 같은 분야에서 발견 속도를 높일 수 있는 연구 파트너로서 자사의 모델을 홍보하고 있습니다. 이러한 시스템은 학술 텍스트를 기반으로 학습됩니다.
파리드는 훈련 데이터에 합성 자료가 너무 많으면 모델 성능이 저하될 수 있다고 경고했습니다. 과거 연구에 따르면 대규모 언어 모델은 검증되지 않은 자동화 데이터를 입력받으면 무의미한 결과로 이어질 수 있습니다.
파리드는 연구 자료를 무단으로 추출하는 기업들이 어떤 논문이 사람이 쓴 것인지 알아내려는tron동기를 갖고 있다고 말했다. 오픈AI의 과학 책임자인 케빈 웨일은 도구가 사용되더라도 여전히 사람의 검증이 필요하다고 강조했다. 그는 "엄청난 가속기가 될 수 있지만, 검증은 필수적입니다. 엄격한 기준을 무시해서는 안 됩니다."라고 말했다
이 글을 읽고 계시다면 이미 앞서 나가고 계신 겁니다. 뉴스레터를 통해 계속 읽어보세요 .