테크크런치 오픈AI 사내 벤치마크서 나온 환각 > 공지사항

테크크런치 오픈AI 사내 벤치마크서 나온 환각

oreo

3시간 5분전 1 0

본문

테크크런치 오픈AI 사내 벤치마크서 나온 환각율 보도챗GPT o3, 환각률 33%챗GPT o4미니는 48% 환각률 보여오픈AI " 더 많은 연구가 필요하다" [보스턴=AP/뉴시스] 챗GPT 개발사인 오픈AI 로고. /사진=뉴시스[파이낸셜뉴스] 오픈AI가 최근 공개한 추론형 AI 모델 ‘o3’와 ‘o4 미니’가 이전 세대보다 강력해진 성능을 갖췄지만, 환각(hallucination) 현상은 오히려 더 심해졌다는 평가가 나왔다. 환각은 생성형 AI가 실제 존재하지 않는 정보를 사실처럼 만들어내는 현상을 말한다. 챗GPT o4 미니, 환각률 48% 20일 테크크런치는 오픈AI의 사내 벤치마크인 ‘퍼슨(Person) QA’ 평가 결과를 인용해, o3 모델이 33%의 질문에 대해 환각을 일으켰다고 보도했다. 이는 o1(16%)과 o3 미니(14.8%)보다 두 배 이상 높은 수치다. 더 심각한 것은 o4 미니다. 이 모델은 무려 48%의 환각률을 기록하며 GPT-4o를 포함한 기존 모델들보다도 더 불안정한 모습을 보였다. 오픈AI는 지난 16일, 이들 모델을 “이미지를 사고 과정에 통합할 수 있는 최초의 모델”이라고 소개하며 출시했다. 단순히 이미지를 인식하는 것을 넘어, 시각 정보 자체를 추론 과정에 활용할 수 있다는 설명이다. 실제로 o3와 o4 미니는 사용자가 올린 화이트보드 그림, 도표, 그래프 등을 분석하고, 흐릿하거나 회전된 이미지도 처리할 수 있는 능력을 갖췄다. 성능 측면에서도 코딩 관련 벤치마크인 SWE 테스트에서 o3는 69.1%, o4 미니는 68.1%를 기록해, 이전 모델인 o3 미니(49.3%)는 물론, 경쟁 모델인 클로드 3.7 소넷(62.3%)보다도 높은 수치를 보였다. 하지만 이러한 기술적 진보에도 불구하고, 환각률은 오히려 이전보다 증가했다. 그동안 새로운 모델이 출시될 때마다 환각 문제는 점진적으로 개선되어 왔다는 점에서, 이번 결과는 이례적이라는 지적이 나온다. 오픈AI, "더 많은 연구 필요" 오픈AI는 이 현상의 원인에 대해 아직 명확한 설명을 내놓지 못하고 있다. 기술 보고서에서는 “모델이 이전보다 더 많은 사용자 요청에 응답하게 되면서, 정확한 결과 뿐 아니라 잘못된 결과를 내는 것도 함께 증가한 것으로 보인다”고 분석하면서, 환각 증가의 정확한 원인을 규명하기 위해 “더 많은 연구가 필요하다”고 밝혔다. AI 업계는 이번 사례가 추론형 모델에 대한 신뢰성에 의문을 제기할 수 있다고 본다. 특히 법률, 회계, 세테크크런치 오픈AI 사내 벤치마크서 나온 환각율 보도챗GPT o3, 환각률 33%챗GPT o4미니는 48% 환각률 보여오픈AI " 더 많은 연구가 필요하다" [보스턴=AP/뉴시스] 챗GPT 개발사인 오픈AI 로고. /사진=뉴시스[파이낸셜뉴스] 오픈AI가 최근 공개한 추론형 AI 모델 ‘o3’와 ‘o4 미니’가 이전 세대보다 강력해진 성능을 갖췄지만, 환각(hallucination) 현상은 오히려 더 심해졌다는 평가가 나왔다. 환각은 생성형 AI가 실제 존재하지 않는 정보를 사실처럼 만들어내는 현상을 말한다. 챗GPT o4 미니, 환각률 48% 20일 테크크런치는 오픈AI의 사내 벤치마크인 ‘퍼슨(Person) QA’ 평가 결과를 인용해, o3 모델이 33%의 질문에 대해 환각을 일으켰다고 보도했다. 이는 o1(16%)과 o3 미니(14.8%)보다 두 배 이상 높은 수치다. 더 심각한 것은 o4 미니다. 이 모델은 무려 48%의 환각률을 기록하며 GPT-4o를 포함한 기존 모델들보다도 더 불안정한 모습을 보였다. 오픈AI는 지난 16일, 이들 모델을 “이미지를 사고 과정에 통합할 수 있는 최초의 모델”이라고 소개하며 출시했다. 단순히 이미지를 인식하는 것을 넘어, 시각 정보 자체를 추론 과정에 활용할 수 있다는 설명이다. 실제로 o3와 o4 미니는 사용자가 올린 화이트보드 그림, 도표, 그래프 등을 분석하고, 흐릿하거나 회전된 이미지도 처리할 수 있는 능력을 갖췄다. 성능 측면에서도 코딩 관련 벤치마크인 SWE 테스트에서 o3는 69.1%, o4 미니는 68.1%를 기록해, 이전 모델인 o3 미니(49.3%)는 물론, 경쟁 모델인 클로드 3.7 소넷(62.3%)보다도 높은 수치를 보였다. 하지만 이러한 기술적 진보에도 불구하고, 환각률은 오히려 이전보다 증가했다. 그동안 새로운 모델이 출시될 때마다 환각 문제는 점진적으로 개선되어 왔다는 점에서, 이번 결과는 이례적이라는 지적이 나온다. 오픈AI, "더 많은 연구 필요" 오픈AI는 이 현상의 원인에 대해 아직 명확한 설명을 내놓지 못하고 있다. 기술

네이버상위작업업체 SEO전문가 디시인사이드자동댓글 사이트상위노출 개포동부동산 웹SEO 네이버자동글쓰기 부산 헌옷방문수거 마케팅프로그램 네이버자동글쓰기 쿠팡배송기사 구글상단노출 다산동부동산 홈페이지상위노출 웹사이트상위노출 쿠팡배송기사 웹SEO 네이버상단작업 네이버상위노출 구글상단노출 상위노출 네이버상단작업 네이버플레이스순위상승 개포동부동산 네이버마케팅프로그램 부산 헌옷방문수거 디시인사이드자동댓글 사이트상위노출 네이버플레이스순위상승 구글상단작업 네이버상위노출 다산동부동산 상위노출 마케팅프로그램 네이버상위작업업체 구글상단작업 네이버마케팅프로그램 SEO전문가 웹사이트상위노출 홈페이지상위노출

댓글목록0

등록된 댓글이 없습니다.

댓글쓰기

이름 필수

비밀번호 필수

비밀글 사용

첨부파일 동영상

이모티콘

적용하기

* 지원 동영상 서비스 목록 보기

서비스명	URL 주소
유튜브	https://www.youtube.com
비메오	https://vimeo.com
네이버 TV	http://tv.naver.com
카카오 TV	https://tv.kakao.com
테드	https://www.ted.com
판도라	http://www.pandora.tv
데일리모션	https://www.dailymotion.com
슬라이더쉐어	https://www.slideshare.net
유쿠	http://www.youku.com
iQiyi	http://www.iqiyi.com

Note: 댓글은 자신을 나타내는 얼굴입니다. 무분별한 댓글, 욕설, 비방 등을 삼가하여 주세요.

자동등록방지

자동등록방지 숫자를 순서대로 입력하세요.

테크크런치 오픈AI 사내 벤치마크서 나온 환각 > 공지사항

크리스탈 반려동물 골드 사리함- 최대 50% OFF 바로가기

환경을 지키자!!! - 머그컵 모음전! 바로가기

위시리스트

장바구니

공지사항