경제일보 - 아시아 경제시장의 맥을 짚다
패밀리 사이트
아주일보
베트남
회원서비스
로그인
회원가입
지면보기
네이버블로그
금융
산업
생활경제
IT
건설
정치
피플
국제
사회
문화
딥인사이트
검색
2026.04.13 월요일
맑음
서울 6˚C
맑음
부산 14˚C
맑음
대구 10˚C
맑음
인천 7˚C
흐림
광주 11˚C
흐림
대전 11˚C
흐림
울산 13˚C
흐림
강릉 14˚C
흐림
제주 15˚C
검색
검색 버튼
검색
'HLE벤치마크'
검색결과
기간검색
1주일
1개월
6개월
직접입력
시작 날짜
~
마지막 날짜
검색영역
제목
내용
제목+내용
키워드
기자명
전체
검색어
검색
검색
검색결과 총
1
건
오픈AI, GPT-5.2 전격 출시… 구글 추격에 '한 달 만의 승부수'
[이코노믹데일리] 오픈AI(CEO 샘 올트먼)가 구글의 거센 추격을 따돌리기 위해 이전 모델 출시 한 달 만에 성능을 대폭 강화한 ‘GPT-5.2’를 전격 공개하며 초거대 AI 패권 경쟁에 다시 불을 붙였다. 오픈AI는 11일(현지시간) 전문 지식 업무 수행 능력을 극대화한 GPT-5.2 시리즈를 출시한다고 밝혔다. 이번 신모델은 기존의 즉답(Instant) 및 사고(Thinking) 모드에 더해 복잡한 장기 연산에 최적화된 ‘프로(Pro)’ 모드를 추가하며 총 3가지 라인업으로 구성됐다. 오픈AI가 이례적으로 한 달 만에 새 버전을 내놓은 것은 경쟁사인 구글의 ‘제미나이3 프로’가 벤치마크 성능에서 앞서나가며 점유율을 위협했기 때문이다. 실제 샘 올트먼 CEO는 제미나이3 프로 출시 직후 사내에 최고 비상 단계인 ‘코드레드(Code Red)’를 발령하고 챗GPT 성능 개선에 총력을 기울일 것을 주문한 바 있다. GPT-5.2는 이러한 위기감 속에 탄생한 만큼 압도적인 성능 지표를 제시했다. 전문 산업 현장의 44개 직종 업무 능력을 평가하는 GDPval 테스트에서 GPT-5.2 프로 모드는 74.1%를 기록해 인간 전문가 수준에 도달했다. 이는 전작인 GPT-5(38.8%) 대비 비약적인 성장이다. 소프트웨어 엔지니어링 능력을 평가하는 SWE 벤치마크에서는 80%를 기록해 제미나이3 프로(76.2%)를 따돌렸고 코딩 특화 모델인 앤트로픽의 클로드 오퍼스4.5(80.9%)와 대등한 수준에 올랐다. 또한 ‘인간의 마지막 시험’으로 불리는 박사급 추론 능력 평가(HLE)에서도 검색 도구 활용 시 50%의 정답률을 보여 제미나이3 프로(45.8%)를 앞섰다. 고질적인 문제였던 환각(Hallucination) 현상도 개선됐다. 내부 테스트 결과 사고 모드의 오류율은 6.2%로 전작 대비 약 30% 감소해 신뢰도를 높였다. 오픈AI는 이 밖에도 연령 예측 모델을 적용해 미성년자 보호 기능을 강화하고 디즈니와의 라이선스 계약을 통해 소라(Sora) 앱에서 디즈니 IP를 활용한 영상 제작을 지원하는 등 콘텐츠 확장에도 나섰다. 한편 샘 올트먼 CEO는 회사 창립 10주년을 맞아 “향후 10년 안에 초지능(AGI) 구축이 거의 확실시된다”며 “2035년에는 상상하기 어려운 일을 해낼 것”이라는 비전을 제시했다.
2025-12-12 16:39:47
처음
이전
1
다음
끝
많이 본 뉴스
1
"에스패스 특허 논란 정면돌파"…삼천당제약, 계약서 공개로 의혹 전면 반박
2
[르포] AI가 고른 봄, 여의도에 몰린 세계의 발걸음
3
금융위, "정책자금 지원 26조8000억원으로 확대"…석화·정유업계 지원 나서
4
[르포] 봄비 속 여의도, 꽃길 위 사람들
5
한은, 중동 전쟁에 환율·물가·경기 모두 불안
6
짜인 각본…박상용 "국조가 날 위증으로 몬 뒤 특검으로 李 공소 취소"
7
휴전에도 중동 리스크 여진 남아…건설현장 공사비 갈등 확산
8
도시정비 '2조 클럽' 선착한 대우건설…성수4지구에 기세 달렸다
영상
Youtube 바로가기
오피니언
[편집인 칼럼] '채무 60% 시대'의 경고, 얄팍한 '예산 만능주의'를 경계한다