OpenAI 알고 있었다... o1보다 헛소리(환각) 2-3배 o3, o4-mini 아직 원인 파악 못해 | Reasoning 추론 모델의 한계

안될공학 - IT 테크 신기술

チャンネル登録者数 37.3万人

4.4万回視聴・ 839いいね・ 2025/04/21

OpenAI 알고 있었다... o1보다 헛소리(환각) 2-3배 o3, o4-mini 아직 원인 파악 못해 | Reasoning 추론 모델의 한계

지난 주 출시한 OpenAI o3, o4-mini는 기존보다 월등히 높은 벤치마크 점수로 크게 주목을 받았는데요. 벤치마크 점수와는 별개로 실제 사용했을 때 엉뚱한 소리를 하면서 사용성에 문제가 있다는 이슈가 나오고 있습니다. OpenAI가 별도로 안전 및 AI 평가 테스트 내용을 담은 System Card 공식 문서에도 사실 이 내용은 담겨 있는데요. 정확도가 높아진 것은 맞지만 이와는 별개로 할루시네이션 환각 현상율이 o1 대비 최대 3배까지도 나타나고 있다고 합니다. 실제 개발자들 사이에서는 o3-mini에 대한 혹평이 이어지면서, Reasoning 모델이 LLM이 대답한 내용을 여러번 반복해서 되새김질하다가 이전 모델의 기억까지도 까먹는 게 아니냐는 말이 나오고 있는데요. 단순히 벤치 점수만 높다고 제일 좋은 성능이 아니라는 게 점차 확산되는 분위기에서 해당 이슈를 점검해보며 어떤 LLM을 사용해야할지를 정리해보았습니다.
#OpenAI #챗GPT #할루시네이션

Written by Error
Edited by 이진이

unrealtech2021@gmail.com

コメント

コメントを取得中...

コントロール

設定

画質選択:

サーバー選択: