인간 vs AI 벤치마크

인간 vs AI

인간과 AI의 능력을 분야별로 비교하고, AI가 인간의 한계를 어디까지 넘어섰는지 확인하세요.

55총 벤치마크

33인간 우위

22AI 초월

40%AI 초월률

인지

30개

AI 53% 앞섬

체스

인지

AI 초월 (1997)

1997년 딥블루가 카스파로프를 이긴 이후 AI가 인간을 압도. 현재 Stockfish 16은 인간 최고 레이팅을 700점 이상 상회하며, 인간 체스 챔피언도 AI 앞에서는 상대가 되지 않는다.

인간AI

Magnus Carlsen (Elo 2882)Stockfish 16 (Elo 3600+)

Deep Blue → Stockfish

출처

바둑

인지

AI 초월 (2016)

2016년 알파고가 이세돌을 4-1로 꺾으며 AI 시대 개막. 바둑은 경우의 수가 우주 원자 수보다 많아 AI가 정복하기 어렵다고 여겨졌으나, 딥러닝의 등장으로 인간을 압도하게 되었다. 현재 KataGo는 인간 최고수보다 1,000점 이상 높은 레이팅을 보유한다.

인간AI

Shin Jinseo (Elo 3820)AlphaGo/KataGo (Elo 5000+)

AlphaGo → KataGo

출처

자연어 이해

인지

AI 초월 (2020)

SuperGLUE 벤치마크에서 2020년 AI가 인간 기준선을 초과. 독해, 논리 추론, 상식 등 8개 과제에서 인간 수준을 넘어섰다. GPT-4는 96.3점으로 인간(89.8)보다 7점 이상 높다.

인간AI

SuperGLUE 인간 기준 89.8GPT-4 96.3

BERT → GPT-4

출처

단백질 구조 예측

인지

AI 초월 (2020)

알파폴드2가 CASP14에서 실험과 거의 동등한 정확도를 달성하며 50년간의 생물학 난제를 해결. 2억 개 이상의 단백질 구조를 예측하여 무료 공개했으며, 신약 개발과 질병 연구에 혁명적 영향을 미치고 있다.

인간AI

X-ray 결정학 (수년 소요)AlphaFold2 (수 시간)

AlphaFold2

출처

수학 올림피아드

인지

2024년 AlphaProof가 IMO에서 은메달 수준(28/42) 달성. 6문제 중 4문제를 풀었으나, 가장 창의적인 사고를 요구하는 문제들은 여전히 풀지 못했다. 수학 올림피아드는 AI에게 남은 최후의 인지적 도전 중 하나이다.

인간AI

IMO 금메달리스트 42점 만점AlphaProof/Gemini: 28/42

AlphaProof

출처

코딩 (프로그래밍)

인지

복잡한 알고리즘 문제에서 AI가 상위 수준에 근접하고 있다. AlphaCode2는 Codeforces 대회에서 상위 15% 수준에 도달했으며, Claude와 GPT-4는 일반적인 프로그래밍 작업에서 숙련 개발자를 보조하는 수준에 이르렀다. 하지만 대규모 시스템 설계와 창의적 문제 해결은 여전히 인간의 영역이다.

인간AI

IOI 금메달리스트AlphaCode2 / Claude

AlphaCode2

출처

독해력

인지

AI 초월 (2019)

스탠포드 SQuAD 2.0 벤치마크에서 2019년 AI가 인간 기준선을 최초 초과. GPT-4는 F1 98.5로 인간(89.5)을 크게 상회한다.

인간AI

SQuAD 2.0 인간 기준 89.5 F1GPT-4 98.5 F1

BERT → GPT-4

출처

의료 진단 (영상)

인지

AI 초월 (2017)

2017년 CheXNet이 흉부 X-ray에서 방사선과 전문의를 능가. 2023년 Med-PaLM M이 의료 영상 14개 분야에서 전문의급 정확도 달성.

인간AI

피부과 전문의 정확도 ~86%AI 진단 정확도 ~95%

CheXNet → Med-PaLM

출처

번역

인지

AI 초월 (2023)

일상 텍스트 번역에서는 AI가 인간을 능가하지만, 문학·법률·의료 등 전문 분야에서는 여전히 인간 번역가가 뉘앙스를 더 잘 잡는다.

인간AI

전문 번역가 (BLEU ~33)GPT-4 / DeepL (BLEU ~40+)

DeepL → GPT-4

출처

법률 시험

인지

AI 초월 (2023)

GPT-4가 미국 변호사 시험(Uniform Bar Exam)에서 상위 10% 수준으로 통과. GPT-3.5는 하위 10%에 불과했다.

인간AI

인간 합격률 ~68%GPT-4 상위 10% 통과

GPT-4

출처

수학 (대학 수준)

인지

AI 초월 (2024)

MATH 벤치마크에서 대학 수준 수학 문제를 풀 때 최신 LLM들이 인간 평균을 넘어섰다. 단, 미해결 난제는 여전히 인간 수학자의 영역.

인간AI

MIT 학생 평균 ~70%Claude 3.5 Sonnet ~78%

Minerva → Claude / GPT-4o

출처

과학 지식 (GPQA)

인지

GPQA Diamond는 박사급 과학 질문으로 구성. 전공 박사도 65% 수준이며, 최신 AI는 60%대로 박사 비전공자는 넘지만 전공자에는 약간 못 미친다.

인간AI

비전공자 34% / 전공 박사 65%Claude 3.5 Opus 60%+

GPT-4o / Claude

출처

날씨 예측

인지

AI 초월 (2023)

2023년 DeepMind의 GraphCast가 유럽 기상청(ECMWF)의 수치 예보 모델을 1,380개 변수 중 90%에서 능가. 계산 시간은 1분 vs 수 시간.

인간AI

ECMWF 수치 모델 (40년 표준)GraphCast (10일 예측)

GraphCast (DeepMind)

출처

신약 개발

인지

AI가 후보 물질 탐색을 수개월로 단축하지만, 임상시험과 안전성 검증은 여전히 인간 연구자 필수. 2024년 AI 발굴 약물 다수가 임상 2상 진입.

인간AI

평균 10~15년, $26억 비용AlphaFold + AI: 기간 단축 가능

AlphaFold2 / Isomorphic Labs

출처

SWE-bench Verified

인지

실제 GitHub 오픈소스 저장소(Django, sympy, scikit-learn 등)에서 추출한 500개 이슈를 코드 변경(PR)으로 해결하는 벤치마크. 2024년 초 Devin 13.86%로 시작해 2025~26년 Claude 4.7과 GPT-5가 78~82% 수준에 도달. 단순 패치는 능숙하지만 대규모 리팩터링·아키텍처 결정·테스트 작성은 여전히 시니어 엔지니어 영역. 에이전트 시대를 상징하는 가장 중요한 코딩 벤치마크.

인간AI

숙련 SWE 엔지니어 (참고치 ~85%)Claude 4.7 Sonnet ~80%+

Claude 4 / GPT-5 / Gemini 3

출처

GAIA (범용 AI 어시스턴트)

인지

Meta AI와 HuggingFace가 만든 466개 실세계 멀티스텝 과제: 이미지 분석 + 웹 검색 + 코드 실행 + 파일 처리를 결합. 인간은 2.6분 만에 92%를 풀지만, 최상위 에이전트(GPT-5 + 도구)는 약 75% 수준. Level 3 난이도에서는 차이가 더 크다. "AI가 얼마나 비서다운가"를 측정하는 핵심 지표.

인간AI

인간 평가자 92%최상위 에이전트 ~75%

GPT-5 / Claude 4.7 Agent

출처

OSWorld (컴퓨터 사용)

인지

Ubuntu·Windows·macOS 환경에서 실제 GUI를 마우스·키보드로 조작해 369개 과제(스프레드시트 편집, 코드 작성, 웹 결제 등)를 수행하는 벤치마크. 인간은 72%를 넘기지만 AI는 아직 40%대 초반. Anthropic의 Computer Use API와 OpenAI Operator가 본격 경쟁 중인 영역으로, 향후 1~2년 내 가장 빠르게 좁혀질 격차로 평가.

인간AI

인간 사용자 72.4%Claude 4.7 Computer Use ~42%

Claude Computer Use / GPT-5

출처

WebArena (자율 웹 에이전트)

인지

실제 웹사이트 복제본(쇼핑몰, GitLab, Reddit, 지도)에서 자연어 지시를 받아 멀티스텝 작업을 자율 수행. "OOO 상품 주문 후 영수증 PDF 다운로드" 같은 복합 과제. 인간은 78%지만 최상위 에이전트도 50% 안팎. 브라우저 에이전트 시대의 표준 벤치마크.

인간AI

인간 78.2%최상위 LLM 에이전트 ~50%

GPT-5 / Claude 4.7

출처

Terminal-Bench

인지

Stanford/Anthropic이 발표한 셸 환경 작업 벤치마크. 80개 과제: 빌드 깨진 프로젝트 복구, 로그 분석, Docker 디버깅, sed/awk 파이프라인 작성 등. 시니어 개발자 80%대 vs 현재 AI 45% 수준. CLI 자동화 능력의 표준 지표로 부상 중.

인간AI

시니어 개발자 ~80%Claude 4.7 ~45%

Claude 4.7 / GPT-5

출처

ARC-AGI-2 (추상 추론)

인지

François Chollet가 만든 "AI가 가장 못 푸는 시각 추론 퍼즐". ARC-AGI-1은 o3가 87.5%로 풀어내며 화제가 됐지만, 2025년 발표된 ARC-AGI-2에서는 최상위 AI도 5% 이하. 평균 인간이 학습 후 60%를 푸는 영역에서 AI는 여전히 한 자리 수. 진정한 "일반 지능"의 마지막 보루로 평가받는 벤치마크.

인간AI

평균 인간 ~60% (연습 시)최상위 AI 약 5%

GPT-5 / o3 변형

출처

FrontierMath (연구 수준 수학)

인지

AI 초월 (2025)

Epoch AI가 Fields Medal 수상자들과 협업해 만든 미공개 수학 문제집. 단일 문제 풀이에 박사 수학자 수 시간~수일 소요. o1 출시 시점 0%였던 점수가 2025년 o3·Gemini 3에서 30%대 돌파. AI 수학 능력이 빠르게 박사급에 근접 중이나, 미해결 추측은 여전히 인간 영역.

인간AI

박사급 수학자 ~25% (수 시간)o3 / Gemini 3 ~32%

o3 / Gemini 3 Deep Think

출처

Humanity's Last Exam (HLE)

인지

CAIS·Scale AI가 1,000명 이상의 분야 전문가에게서 수집한 3,000개 "AI가 못 푸는 마지막 문제". 수학·물리·생물·공학·인문 전 분야에서 한 분야의 박사도 자기 전공만 풀 수 있는 난도. 출시 직후 GPT-4o 3%에서 시작해 2025년 말 최상위 AI 30%대 돌파. 향후 1~2년 안에 50%를 넘을지가 핵심 관전 포인트.

인간AI

도메인 전문가 90%+최상위 AI ~30%

GPT-5 / Claude 4.7 / Gemini 3

출처

MMLU-Pro (전문 지식)

인지

AI 초월 (2024)

TIGER-Lab이 기존 MMLU(포화 상태)를 어렵게 재설계한 12,000+ 문항. 14개 학문 분야에서 추론 단계가 더 깊고 답안 선택지가 10개로 늘었다. 2024년 GPT-4o 72%에서 2026년 GPT-5/Claude 4.7이 88%까지 달성, 도메인 전문가 평균(80%)을 명확히 상회.

인간AI

도메인 전문가 평균 ~80%GPT-5 / Claude 4.7 ~88%

GPT-4o → GPT-5

출처

AIME 2025 (수학 경시)

인지

AI 초월 (2024)

미국 수학 경시 AIME (American Invitational Mathematics Examination)는 IMO 선발 관문. o1 출시 전 GPT-4 13%였던 점수가 o1에서 83%, 2025년 o3에서 96.7%로 급상승. 이제 최상위 추론 모델이 미국 수학영재 평균을 압도하는 분야가 되었다.

인간AI

IMO 진출자 ~80%o3-mini ~87% / Gemini 3 ~95%

o1 → o3 → Gemini 3

출처

장문 회상 (1M 토큰)

인지

AI 초월 (2024)

인간이 한 번에 정확히 회상할 수 있는 텍스트는 ~5,000~10,000 단어 수준. 2024년 Gemini 1.5가 1M 토큰(약 75만 단어, 책 8권 분량)에서 정확한 검색을 시연한 이후, 2026년에는 Claude 4.7과 Gemini 3가 1M~2M 토큰 컨텍스트를 표준화. RAG 없이 통째로 읽고 추론하는 능력은 인간 한계를 압도.

인간AI

인간 ~5만 단어 단기 한계Gemini 3 / Claude 4.7: 1M+

Gemini 1.5 → Gemini 3 / Claude 4.7

출처

포커 (텍사스 홀덤)

인지

AI 초월 (2019)

2019년 CMU와 Meta의 Pluribus가 6인 노리미트 텍사스 홀덤에서 세계 최상위 프로 5명 + AI vs AI 12일 동안 플레이로 인간 압도. 헤즈업(1대1) 포커는 2017년 Libratus가 이미 정복. 불완전 정보 게임의 정점으로 여겨지던 분야가 무너진 사건.

인간AI

세계 챔피언 다니엘 네그리누Pluribus (CMU + Meta)

Libratus → Pluribus

출처

디플로머시 (외교 게임)

인지

AI 초월 (2022)

Meta AI의 CICERO가 2022년 온라인 디플로머시(7인 협상 + 전략 게임)에서 익명으로 40판을 두며 인간 상위 10%에 진입. 자연어 협상·동맹 형성·배신 타이밍 같은 사회적 추론을 LLM이 수행한 첫 사례. 정치·경영·외교 시뮬레이션의 미래를 시사.

인간AI

인간 평균 (협상 + 전략)CICERO (Meta AI 2022)

CICERO

출처

마음이론 (Theory of Mind)

인지

"샐리-앤 과제"처럼 타인의 잘못된 믿음·숨은 의도·아이러니를 추론하는 능력. 5세 아동은 약 85% 통과, GPT-3.5 시절은 거의 0%였다. 2024년 Nature Human Behaviour 연구에서 GPT-4가 일부 과제에서 인간 평균에 근접, 2026년 GPT-5/Claude 4.7은 75% 도달. 그러나 다중 인물의 중첩 의도는 여전히 인간 우세.

인간AI

5세 이상 아동 ~85% 통과GPT-5 / Claude 4.7 ~75%

GPT-5 / Claude 4.7

출처

심리 상담 / 공감

인지

메타 분석에 따르면 AI 챗봇은 경증 불안·우울에서 단기 효과는 인간 상담사의 60~70% 수준. 그러나 자살 위기 개입, 트라우마 처리, 비언어적 신호(목소리 떨림·시선) 해석에서는 압도적 차이. 2024년 미국심리학회는 AI 단독 상담을 권고하지 않으며, "보조 도구"로만 인정.

인간AI

임상 심리상담사 (자격증 평균 7년 수련)Woebot / Wysa / Character.AI

Woebot / Wysa

출처

위기 직관 (Crisis Intuition)

인지

2009년 USAir 1549 기장 설런버거가 양 엔진 새 충돌 후 35초 만에 허드슨강 착륙을 결정해 155명 전원 생존. 자동 시스템은 라과디아 회항을 권고했지만 그는 직관으로 "불가능"을 판단. 비정형 위기에서 수십 년 누적 경험·맥락·동물적 감각을 통합하는 능력은 AI가 가장 못 따라가는 인간 영역.

인간AI

체슬리 설런버거 (허드슨 강 착륙)AI 비행 시스템: 정상 운영 중심

자율 비행 시스템 (한정)

출처

신체

10개

AI 20% 앞섬

100m 달리기

신체

인간의 폭발적 스프린트 능력은 아직 로봇이 따라오지 못하는 영역이다. 볼트의 최고 속도는 시속 44.72km에 달하며, 현재 가장 빠른 이족 보행 로봇도 시속 20km를 넘기기 어렵다.

인간AI

Usain Bolt 9.58초AI 로봇 아직 미달

N/A

출처

마라톤

신체

42.195km 장거리 지구력은 현재 어떤 로봇도 따라올 수 없는 인간 고유의 능력이다. 인간은 체온 조절과 효율적인 에너지 대사 덕분에 장거리 지구력에서 지구상 모든 동물 중 최상위에 위치한다.

인간AI

Kelvin Kiptum 2:00:35Boston Dynamics Spot: 불가

N/A

출처

수영 (자유영 100m)

신체

인간의 수영 능력은 현재 어떤 로봇도 비교 불가하다. 수중에서의 유체 역학적 효율성, 순간적인 방향 전환, 턴 기술 등은 인간 신체의 놀라운 적응력을 보여준다. 판잔러는 2024 파리 올림픽에서 46.40초라는 경이적 기록을 세웠다.

인간AI

Pan Zhanle 46.40초수중 로봇 : 해당 없음

N/A

출처

역도 (데드리프트)

신체

인간의 근력 극한은 501kg 데드리프트. 현재 휴머노이드 로봇은 자기 체중의 물체도 안정적으로 들기 어렵다.

인간AI

Hafthor Björnsson 501kgBoston Dynamics Atlas: 해당 없음

N/A

출처

프리다이빙

신체

AI 초월 (2012)

인간 프리다이빙 한계는 214m이지만, 무인 잠수정은 마리아나 해구 11,000m까지 도달. 단, 자율 판단이 아닌 원격 조종.

인간AI

Herbert Nitsch 214m (No-Limit)수중 로봇: 11,000m+ 가능

Nereus / Limiting Factor

출처

지구력 (울트라마라톤)

신체

인간은 24시간 동안 303.5km를 달릴 수 있다. 현재 어떤 이족 보행 로봇도 24시간 연속 주행이 불가능.

인간AI

Yiannis Kouros 24시간 303.5km로봇: 24시간 연속 주행 불가

N/A

출처

자율주행 (안전성)

신체

AI 초월 (2024)

Waymo가 2024년 발표한 안전 보고서에 따르면 4천만 마일 자율주행 데이터 기준, 인간 운전자 대비 부상 동반 사고 -85%, 에어백 작동 사고 -78%. 단, 비·눈·복잡 도시 환경 외 잘 정비된 운영 구역(피닉스, SF)에 한정. 도로 일반화는 여전히 인간 우세.

인간AI

인간 운전자 평균 사고율Waymo: 사고율 -85% (운영 구역)

Waymo / Cruise / Tesla FSD

출처

휴머노이드 보행

신체

2025~26년 Tesla Optimus, Figure 02, Boston Dynamics 신형 Atlas가 공장 환경에서 부분 자율 보행과 단순 작업을 시연. 평지 보행은 인간에 근접했으나, 갑작스런 외란·울퉁불퉁한 지형·계단 동시 사용은 여전히 인간 우세. 가장 빠르게 따라잡히고 있는 영역 중 하나.

인간AI

인간 자연 보행 (균형 + 적응)Atlas / Optimus / Figure 02

Atlas (BD) / Optimus / Figure 02

출처

로봇 손재주 (매듭/신발끈)

신체

신발끈 묶기, 옷 단추 채우기, 비닐봉지 열기 같은 일상 손재주는 5세 아동도 쉽게 하지만, 최상위 로봇 손도 분 단위가 걸리고 실패율이 높다. 부드러운 물체 조작·정밀 그립 조절·시각-촉각 통합은 인간 진화의 정점이며 AI 로봇이 가장 따라잡기 어려운 영역.

인간AI

5세 아동도 ~10초 만에 가능최상위 로봇: 분 단위, 실패율 높음

Tesla Bot / Dexterous Hand 시도

출처

발레 / 현대무용

신체

발레는 신체의 모든 근육·관절·호흡을 수년 단련해 음악·감정·서사를 한 동작에 압축. 보스턴 다이내믹스 Atlas의 군무 영상이 화제가 됐지만, 사전 안무된 정확한 모션의 반복일 뿐 즉흥 표현·관객 반응에 따른 변용은 불가능. 무용은 인간 신체의 가장 인간적인 표현 형식.

인간AI

Misty Copeland / Sylvie Guillem휴머노이드 로봇: 단순 동작 한정

Atlas Dance / Optimus 시연

출처

창작

9개

AI 22% 앞섬

음악 작곡

창작

AI 작곡은 기술적으로 크게 발전하여 몇 초 만에 완성된 곡을 생성할 수 있지만, 인간 청취자가 느끼는 깊은 감정적 공명과 예술적 의도를 담기에는 아직 부족하다. 상업 음악 보조 도구로는 활발히 사용되고 있다.

인간AI

인간 작곡가의 감정 표현Suno AI / Udio

Suno AI

출처

시각 예술 (그림)

창작

AI 초월 (2022)

2022년 AI 생성 작품 "Théâtre D'opéra Spatial"이 콜로라도 주립 미술 대회에서 1위를 차지하며 큰 논란을 일으켰다. AI는 기술적 완성도에서 뛰어나지만, 개인적 경험에서 우러나오는 진정한 독창성은 여전히 인간의 영역이라는 논쟁이 계속되고 있다.

인간AI

인간 화가의 독창성Midjourney / DALL-E 3

Midjourney v5

출처

소설 집필

창작

AI는 짧은 글과 스타일 모방에 능하지만, 장편 소설의 일관된 캐릭터 아크와 깊은 주제 의식은 여전히 인간 작가의 영역.

인간AI

인간 작가의 서사·감정 깊이Claude / GPT-4: 단편 가능, 장편 한계

Claude / GPT-4

출처

영상 생성

창작

2024년 Sora가 1분 이내 고품질 비디오 생성을 시연. 하지만 물리 법칙 오류, 시간적 일관성 문제는 아직 해결 중.

인간AI

헐리우드 VFX (수개월 작업)Sora / Veo 2: 분 단위 생성

Sora / Runway / Veo 2

출처

게임 전략 (스타크래프트)

창작

AI 초월 (2019)

2019년 AlphaStar가 스타크래프트 II에서 그랜드마스터 등급 달성. 불완전 정보 + 실시간 전략에서 AI가 인간 최상위 수준 도달.

인간AI

그랜드마스터 Top 0.2%AlphaStar: 그랜드마스터 도달

AlphaStar (DeepMind)

출처

요리 레시피 창작

창작

AI는 수만 가지 재료 조합을 분석하여 새 레시피를 생성할 수 있지만, 실제 맛·향·식감을 판단하지 못해 최종 검증은 인간 셰프 필수.

인간AI

미슐랭 셰프의 창의성AI: 조합 가능, 미각 판단 불가

Chef Robotics / Sony AI

출처

시 작성 (현대시)

창작

2024년 University of Pittsburgh 연구에서 일반 독자가 AI 시와 인간 시인 시를 구분 못 하고, AI 시를 더 선호하기까지 했다. 그러나 평론가들은 진정한 시는 시인의 삶과 신체적 경험에서 나오는 압축된 진실이라며, AI는 형식 모방에 그친다고 본다. 단편적 운율은 능숙, 시집 단위 일관성은 인간 우세.

인간AI

노벨 문학상 수상자급Claude / GPT-5: 일부 평가 통과

Claude 4.7 / GPT-5

출처

즉흥 연주 (재즈)

창작

재즈 즉흥 연주는 동료 연주자의 미세한 신호(눈빛·호흡·터치)를 실시간으로 받아 다음 음을 결정하는 다자간 사회적 활동. AI는 사전 학습된 스타일 안에서는 그럴듯한 솔로를 만들지만, 라이브 콜앤리스폰스의 즉응성과 인간적 엇박은 아직 재현 불가.

인간AI

Charlie Parker / Herbie HancockMusicLM / Suno: 작곡 가능, 실시간 한계

MusicLM / Suno / Udio

출처

농담 / 스탠드업 코미디

창작

AI는 펀치라인 구조를 학습해 그럴듯한 농담을 만든다. 그러나 스탠드업의 본질은 관객의 호흡을 읽고 한 박자를 늦추거나 당기는 라이브 타이밍, 자기 모순적 솔직함, 사회적 금기 위에서의 줄타기. UCLA 2024 연구에서 청중은 AI 농담을 "기술적으로는 맞지만 웃기지 않다"고 평가.

인간AI

데이브 샤펠 / 빌 버 / 박나래AI: 형식 모방 가능, 타이밍 한계

GPT-5 / Claude

출처

지각

6개

AI 33% 앞섬

이미지 인식

지각

AI 초월 (2015)

ImageNet 대회에서 2015년 ResNet이 인간 오류율(5.1%)을 처음 하회. 현재 Vision Transformer 기반 모델들은 오류율 1.5% 수준으로, 수천 개 카테고리 분류에서 인간을 크게 능가한다.

인간AI

인간 오류율 ~5%AI 오류율 ~1.5%

ResNet → Vision Transformers

출처

음성 인식

지각

AI 초월 (2023)

OpenAI Whisper v3가 영어 음성 인식에서 인간 전사자(5.1%)보다 낮은 오류율 달성. 100개 이상 언어 지원.

인간AI

인간 오류율 ~5.1% (Switchboard)Whisper v3 오류율 ~2.5%

DeepSpeech → Whisper v3

출처

물체 감지

지각

범용 물체 감지에서 AI는 빠르지만 복잡한 장면에서 인간보다 부정확. 특정 도메인(자율주행, 제조 불량)에서는 AI가 인간을 초월.

인간AI

인간 평균 mAP ~75%YOLOv9 mAP 55.6% (COCO)

YOLO → RT-DETR

출처

감정 인식

지각

표정 기반 감정 인식은 인간이 우위. 문화권별 표현 차이와 미세 표정 해석에서 AI는 아직 한계.

인간AI

인간 정확도 ~72% (표정)AI 정확도 ~65% (표정)

Affectiva / Hume AI

출처

후각 (와인 소믈리에)

지각

인간 후각은 약 1조 가지 냄새를 구분할 수 있다고 추정. Master Sommelier 시험은 100명 중 1명만 합격하며, 한 모금으로 산지·연도·포도 품종을 맞춘다. AI 전자코는 단일 화합물 검출은 정확하지만, 와인처럼 수백 화합물이 어우러진 복합 향의 종합 판단은 여전히 인간 우세.

인간AI

Master Sommelier 약 270명 (전 세계)e-Nose 센서: 단일 화합물 한정

Aryballe / Roboscientist

출처

미각 (Gustation)

지각

인간 혀에는 약 10,000개의 미뢰가 있어 단·짠·신·쓴·감칠맛에 더해 식감·온도·냄새가 결합된 풍미를 통합 인지한다. IBM Hypertaste 등 AI 미각 센서는 화학 성분 패턴을 식별하지만, 셰프가 추구하는 "맛의 균형" 같은 주관적·문화적 평가는 인간 영역.

인간AI

인간 미뢰 ~10,000개AI 센서: 5가지 기본 맛 한정

IBM Hypertaste

출처