인간과 AI의 능력을 분야별로 비교하고, AI가 인간의 한계를 어디까지 넘어섰는지 확인하세요.
1997년 딥블루가 카스파로프를 이긴 이후 AI가 인간을 압도. 현재 Stockfish 16은 인간 최고 레이팅을 700점 이상 상회하며, 인간 체스 챔피언도 AI 앞에서는 상대가 되지 않는다.
Deep Blue → Stockfish
2016년 알파고가 이세돌을 4-1로 꺾으며 AI 시대 개막. 바둑은 경우의 수가 우주 원자 수보다 많아 AI가 정복하기 어렵다고 여겨졌으나, 딥러닝의 등장으로 인간을 압도하게 되었다. 현재 KataGo는 인간 최고수보다 1,000점 이상 높은 레이팅을 보유한다.
AlphaGo → KataGo
SuperGLUE 벤치마크에서 2020년 AI가 인간 기준선을 초과. 독해, 논리 추론, 상식 등 8개 과제에서 인간 수준을 넘어섰다. GPT-4는 96.3점으로 인간(89.8)보다 7점 이상 높다.
BERT → GPT-4
알파폴드2가 CASP14에서 실험과 거의 동등한 정확도를 달성하며 50년간의 생물학 난제를 해결. 2억 개 이상의 단백질 구조를 예측하여 무료 공개했으며, 신약 개발과 질병 연구에 혁명적 영향을 미치고 있다.
AlphaFold2
2024년 AlphaProof가 IMO에서 은메달 수준(28/42) 달성. 6문제 중 4문제를 풀었으나, 가장 창의적인 사고를 요구하는 문제들은 여전히 풀지 못했다. 수학 올림피아드는 AI에게 남은 최후의 인지적 도전 중 하나이다.
AlphaProof
복잡한 알고리즘 문제에서 AI가 상위 수준에 근접하고 있다. AlphaCode2는 Codeforces 대회에서 상위 15% 수준에 도달했으며, Claude와 GPT-4는 일반적인 프로그래밍 작업에서 숙련 개발자를 보조하는 수준에 이르렀다. 하지만 대규모 시스템 설계와 창의적 문제 해결은 여전히 인간의 영역이다.
AlphaCode2
스탠포드 SQuAD 2.0 벤치마크에서 2019년 AI가 인간 기준선을 최초 초과. GPT-4는 F1 98.5로 인간(89.5)을 크게 상회한다.
BERT → GPT-4
2017년 CheXNet이 흉부 X-ray에서 방사선과 전문의를 능가. 2023년 Med-PaLM M이 의료 영상 14개 분야에서 전문의급 정확도 달성.
CheXNet → Med-PaLM
일상 텍스트 번역에서는 AI가 인간을 능가하지만, 문학·법률·의료 등 전문 분야에서는 여전히 인간 번역가가 뉘앙스를 더 잘 잡는다.
DeepL → GPT-4
GPT-4가 미국 변호사 시험(Uniform Bar Exam)에서 상위 10% 수준으로 통과. GPT-3.5는 하위 10%에 불과했다.
GPT-4
MATH 벤치마크에서 대학 수준 수학 문제를 풀 때 최신 LLM들이 인간 평균을 넘어섰다. 단, 미해결 난제는 여전히 인간 수학자의 영역.
Minerva → Claude / GPT-4o
GPQA Diamond는 박사급 과학 질문으로 구성. 전공 박사도 65% 수준이며, 최신 AI는 60%대로 박사 비전공자는 넘지만 전공자에는 약간 못 미친다.
GPT-4o / Claude
2023년 DeepMind의 GraphCast가 유럽 기상청(ECMWF)의 수치 예보 모델을 1,380개 변수 중 90%에서 능가. 계산 시간은 1분 vs 수 시간.
GraphCast (DeepMind)
AI가 후보 물질 탐색을 수개월로 단축하지만, 임상시험과 안전성 검증은 여전히 인간 연구자 필수. 2024년 AI 발굴 약물 다수가 임상 2상 진입.
AlphaFold2 / Isomorphic Labs
실제 GitHub 오픈소스 저장소(Django, sympy, scikit-learn 등)에서 추출한 500개 이슈를 코드 변경(PR)으로 해결하는 벤치마크. 2024년 초 Devin 13.86%로 시작해 2025~26년 Claude 4.7과 GPT-5가 78~82% 수준에 도달. 단순 패치는 능숙하지만 대규모 리팩터링·아키텍처 결정·테스트 작성은 여전히 시니어 엔지니어 영역. 에이전트 시대를 상징하는 가장 중요한 코딩 벤치마크.
Claude 4 / GPT-5 / Gemini 3
Meta AI와 HuggingFace가 만든 466개 실세계 멀티스텝 과제: 이미지 분석 + 웹 검색 + 코드 실행 + 파일 처리를 결합. 인간은 2.6분 만에 92%를 풀지만, 최상위 에이전트(GPT-5 + 도구)는 약 75% 수준. Level 3 난이도에서는 차이가 더 크다. "AI가 얼마나 비서다운가"를 측정하는 핵심 지표.
GPT-5 / Claude 4.7 Agent
Ubuntu·Windows·macOS 환경에서 실제 GUI를 마우스·키보드로 조작해 369개 과제(스프레드시트 편집, 코드 작성, 웹 결제 등)를 수행하는 벤치마크. 인간은 72%를 넘기지만 AI는 아직 40%대 초반. Anthropic의 Computer Use API와 OpenAI Operator가 본격 경쟁 중인 영역으로, 향후 1~2년 내 가장 빠르게 좁혀질 격차로 평가.
Claude Computer Use / GPT-5
실제 웹사이트 복제본(쇼핑몰, GitLab, Reddit, 지도)에서 자연어 지시를 받아 멀티스텝 작업을 자율 수행. "OOO 상품 주문 후 영수증 PDF 다운로드" 같은 복합 과제. 인간은 78%지만 최상위 에이전트도 50% 안팎. 브라우저 에이전트 시대의 표준 벤치마크.
GPT-5 / Claude 4.7
Stanford/Anthropic이 발표한 셸 환경 작업 벤치마크. 80개 과제: 빌드 깨진 프로젝트 복구, 로그 분석, Docker 디버깅, sed/awk 파이프라인 작성 등. 시니어 개발자 80%대 vs 현재 AI 45% 수준. CLI 자동화 능력의 표준 지표로 부상 중.
Claude 4.7 / GPT-5
François Chollet가 만든 "AI가 가장 못 푸는 시각 추론 퍼즐". ARC-AGI-1은 o3가 87.5%로 풀어내며 화제가 됐지만, 2025년 발표된 ARC-AGI-2에서는 최상위 AI도 5% 이하. 평균 인간이 학습 후 60%를 푸는 영역에서 AI는 여전히 한 자리 수. 진정한 "일반 지능"의 마지막 보루로 평가받는 벤치마크.
GPT-5 / o3 변형
Epoch AI가 Fields Medal 수상자들과 협업해 만든 미공개 수학 문제집. 단일 문제 풀이에 박사 수학자 수 시간~수일 소요. o1 출시 시점 0%였던 점수가 2025년 o3·Gemini 3에서 30%대 돌파. AI 수학 능력이 빠르게 박사급에 근접 중이나, 미해결 추측은 여전히 인간 영역.
o3 / Gemini 3 Deep Think
CAIS·Scale AI가 1,000명 이상의 분야 전문가에게서 수집한 3,000개 "AI가 못 푸는 마지막 문제". 수학·물리·생물·공학·인문 전 분야에서 한 분야의 박사도 자기 전공만 풀 수 있는 난도. 출시 직후 GPT-4o 3%에서 시작해 2025년 말 최상위 AI 30%대 돌파. 향후 1~2년 안에 50%를 넘을지가 핵심 관전 포인트.
GPT-5 / Claude 4.7 / Gemini 3
TIGER-Lab이 기존 MMLU(포화 상태)를 어렵게 재설계한 12,000+ 문항. 14개 학문 분야에서 추론 단계가 더 깊고 답안 선택지가 10개로 늘었다. 2024년 GPT-4o 72%에서 2026년 GPT-5/Claude 4.7이 88%까지 달성, 도메인 전문가 평균(80%)을 명확히 상회.
GPT-4o → GPT-5
미국 수학 경시 AIME (American Invitational Mathematics Examination)는 IMO 선발 관문. o1 출시 전 GPT-4 13%였던 점수가 o1에서 83%, 2025년 o3에서 96.7%로 급상승. 이제 최상위 추론 모델이 미국 수학영재 평균을 압도하는 분야가 되었다.
o1 → o3 → Gemini 3
인간이 한 번에 정확히 회상할 수 있는 텍스트는 ~5,000~10,000 단어 수준. 2024년 Gemini 1.5가 1M 토큰(약 75만 단어, 책 8권 분량)에서 정확한 검색을 시연한 이후, 2026년에는 Claude 4.7과 Gemini 3가 1M~2M 토큰 컨텍스트를 표준화. RAG 없이 통째로 읽고 추론하는 능력은 인간 한계를 압도.
Gemini 1.5 → Gemini 3 / Claude 4.7
2019년 CMU와 Meta의 Pluribus가 6인 노리미트 텍사스 홀덤에서 세계 최상위 프로 5명 + AI vs AI 12일 동안 플레이로 인간 압도. 헤즈업(1대1) 포커는 2017년 Libratus가 이미 정복. 불완전 정보 게임의 정점으로 여겨지던 분야가 무너진 사건.
Libratus → Pluribus
Meta AI의 CICERO가 2022년 온라인 디플로머시(7인 협상 + 전략 게임)에서 익명으로 40판을 두며 인간 상위 10%에 진입. 자연어 협상·동맹 형성·배신 타이밍 같은 사회적 추론을 LLM이 수행한 첫 사례. 정치·경영·외교 시뮬레이션의 미래를 시사.
CICERO
"샐리-앤 과제"처럼 타인의 잘못된 믿음·숨은 의도·아이러니를 추론하는 능력. 5세 아동은 약 85% 통과, GPT-3.5 시절은 거의 0%였다. 2024년 Nature Human Behaviour 연구에서 GPT-4가 일부 과제에서 인간 평균에 근접, 2026년 GPT-5/Claude 4.7은 75% 도달. 그러나 다중 인물의 중첩 의도는 여전히 인간 우세.
GPT-5 / Claude 4.7
메타 분석에 따르면 AI 챗봇은 경증 불안·우울에서 단기 효과는 인간 상담사의 60~70% 수준. 그러나 자살 위기 개입, 트라우마 처리, 비언어적 신호(목소리 떨림·시선) 해석에서는 압도적 차이. 2024년 미국심리학회는 AI 단독 상담을 권고하지 않으며, "보조 도구"로만 인정.
Woebot / Wysa
2009년 USAir 1549 기장 설런버거가 양 엔진 새 충돌 후 35초 만에 허드슨강 착륙을 결정해 155명 전원 생존. 자동 시스템은 라과디아 회항을 권고했지만 그는 직관으로 "불가능"을 판단. 비정형 위기에서 수십 년 누적 경험·맥락·동물적 감각을 통합하는 능력은 AI가 가장 못 따라가는 인간 영역.
자율 비행 시스템 (한정)
인간의 폭발적 스프린트 능력은 아직 로봇이 따라오지 못하는 영역이다. 볼트의 최고 속도는 시속 44.72km에 달하며, 현재 가장 빠른 이족 보행 로봇도 시속 20km를 넘기기 어렵다.
N/A
42.195km 장거리 지구력은 현재 어떤 로봇도 따라올 수 없는 인간 고유의 능력이다. 인간은 체온 조절과 효율적인 에너지 대사 덕분에 장거리 지구력에서 지구상 모든 동물 중 최상위에 위치한다.
N/A
인간의 수영 능력은 현재 어떤 로봇도 비교 불가하다. 수중에서의 유체 역학적 효율성, 순간적인 방향 전환, 턴 기술 등은 인간 신체의 놀라운 적응력을 보여준다. 판잔러는 2024 파리 올림픽에서 46.40초라는 경이적 기록을 세웠다.
N/A
인간의 근력 극한은 501kg 데드리프트. 현재 휴머노이드 로봇은 자기 체중의 물체도 안정적으로 들기 어렵다.
N/A
인간 프리다이빙 한계는 214m이지만, 무인 잠수정은 마리아나 해구 11,000m까지 도달. 단, 자율 판단이 아닌 원격 조종.
Nereus / Limiting Factor
인간은 24시간 동안 303.5km를 달릴 수 있다. 현재 어떤 이족 보행 로봇도 24시간 연속 주행이 불가능.
N/A
Waymo가 2024년 발표한 안전 보고서에 따르면 4천만 마일 자율주행 데이터 기준, 인간 운전자 대비 부상 동반 사고 -85%, 에어백 작동 사고 -78%. 단, 비·눈·복잡 도시 환경 외 잘 정비된 운영 구역(피닉스, SF)에 한정. 도로 일반화는 여전히 인간 우세.
Waymo / Cruise / Tesla FSD
2025~26년 Tesla Optimus, Figure 02, Boston Dynamics 신형 Atlas가 공장 환경에서 부분 자율 보행과 단순 작업을 시연. 평지 보행은 인간에 근접했으나, 갑작스런 외란·울퉁불퉁한 지형·계단 동시 사용은 여전히 인간 우세. 가장 빠르게 따라잡히고 있는 영역 중 하나.
Atlas (BD) / Optimus / Figure 02
신발끈 묶기, 옷 단추 채우기, 비닐봉지 열기 같은 일상 손재주는 5세 아동도 쉽게 하지만, 최상위 로봇 손도 분 단위가 걸리고 실패율이 높다. 부드러운 물체 조작·정밀 그립 조절·시각-촉각 통합은 인간 진화의 정점이며 AI 로봇이 가장 따라잡기 어려운 영역.
Tesla Bot / Dexterous Hand 시도
발레는 신체의 모든 근육·관절·호흡을 수년 단련해 음악·감정·서사를 한 동작에 압축. 보스턴 다이내믹스 Atlas의 군무 영상이 화제가 됐지만, 사전 안무된 정확한 모션의 반복일 뿐 즉흥 표현·관객 반응에 따른 변용은 불가능. 무용은 인간 신체의 가장 인간적인 표현 형식.
Atlas Dance / Optimus 시연
AI 작곡은 기술적으로 크게 발전하여 몇 초 만에 완성된 곡을 생성할 수 있지만, 인간 청취자가 느끼는 깊은 감정적 공명과 예술적 의도를 담기에는 아직 부족하다. 상업 음악 보조 도구로는 활발히 사용되고 있다.
Suno AI
2022년 AI 생성 작품 "Théâtre D'opéra Spatial"이 콜로라도 주립 미술 대회에서 1위를 차지하며 큰 논란을 일으켰다. AI는 기술적 완성도에서 뛰어나지만, 개인적 경험에서 우러나오는 진정한 독창성은 여전히 인간의 영역이라는 논쟁이 계속되고 있다.
Midjourney v5
AI는 짧은 글과 스타일 모방에 능하지만, 장편 소설의 일관된 캐릭터 아크와 깊은 주제 의식은 여전히 인간 작가의 영역.
Claude / GPT-4
2024년 Sora가 1분 이내 고품질 비디오 생성을 시연. 하지만 물리 법칙 오류, 시간적 일관성 문제는 아직 해결 중.
Sora / Runway / Veo 2
2019년 AlphaStar가 스타크래프트 II에서 그랜드마스터 등급 달성. 불완전 정보 + 실시간 전략에서 AI가 인간 최상위 수준 도달.
AlphaStar (DeepMind)
AI는 수만 가지 재료 조합을 분석하여 새 레시피를 생성할 수 있지만, 실제 맛·향·식감을 판단하지 못해 최종 검증은 인간 셰프 필수.
Chef Robotics / Sony AI
2024년 University of Pittsburgh 연구에서 일반 독자가 AI 시와 인간 시인 시를 구분 못 하고, AI 시를 더 선호하기까지 했다. 그러나 평론가들은 진정한 시는 시인의 삶과 신체적 경험에서 나오는 압축된 진실이라며, AI는 형식 모방에 그친다고 본다. 단편적 운율은 능숙, 시집 단위 일관성은 인간 우세.
Claude 4.7 / GPT-5
재즈 즉흥 연주는 동료 연주자의 미세한 신호(눈빛·호흡·터치)를 실시간으로 받아 다음 음을 결정하는 다자간 사회적 활동. AI는 사전 학습된 스타일 안에서는 그럴듯한 솔로를 만들지만, 라이브 콜앤리스폰스의 즉응성과 인간적 엇박은 아직 재현 불가.
MusicLM / Suno / Udio
AI는 펀치라인 구조를 학습해 그럴듯한 농담을 만든다. 그러나 스탠드업의 본질은 관객의 호흡을 읽고 한 박자를 늦추거나 당기는 라이브 타이밍, 자기 모순적 솔직함, 사회적 금기 위에서의 줄타기. UCLA 2024 연구에서 청중은 AI 농담을 "기술적으로는 맞지만 웃기지 않다"고 평가.
GPT-5 / Claude
ImageNet 대회에서 2015년 ResNet이 인간 오류율(5.1%)을 처음 하회. 현재 Vision Transformer 기반 모델들은 오류율 1.5% 수준으로, 수천 개 카테고리 분류에서 인간을 크게 능가한다.
ResNet → Vision Transformers
OpenAI Whisper v3가 영어 음성 인식에서 인간 전사자(5.1%)보다 낮은 오류율 달성. 100개 이상 언어 지원.
DeepSpeech → Whisper v3
범용 물체 감지에서 AI는 빠르지만 복잡한 장면에서 인간보다 부정확. 특정 도메인(자율주행, 제조 불량)에서는 AI가 인간을 초월.
YOLO → RT-DETR
표정 기반 감정 인식은 인간이 우위. 문화권별 표현 차이와 미세 표정 해석에서 AI는 아직 한계.
Affectiva / Hume AI
인간 후각은 약 1조 가지 냄새를 구분할 수 있다고 추정. Master Sommelier 시험은 100명 중 1명만 합격하며, 한 모금으로 산지·연도·포도 품종을 맞춘다. AI 전자코는 단일 화합물 검출은 정확하지만, 와인처럼 수백 화합물이 어우러진 복합 향의 종합 판단은 여전히 인간 우세.
Aryballe / Roboscientist
인간 혀에는 약 10,000개의 미뢰가 있어 단·짠·신·쓴·감칠맛에 더해 식감·온도·냄새가 결합된 풍미를 통합 인지한다. IBM Hypertaste 등 AI 미각 센서는 화학 성분 패턴을 식별하지만, 셰프가 추구하는 "맛의 균형" 같은 주관적·문화적 평가는 인간 영역.
IBM Hypertaste