안될공학 - IT 테크 신기술
チャンネル登録者数 37.3万人
4.4万 回視聴 ・ 839いいね ・ 2025/04/21
OpenAI 알고 있었다... o1보다 헛소리(환각) 2-3배 o3, o4-mini 아직 원인 파악 못해 | Reasoning 추론 모델의 한계
지난 주 출시한 OpenAI o3, o4-mini는 기존보다 월등히 높은 벤치마크 점수로 크게 주목을 받았는데요. 벤치마크 점수와는 별개로 실제 사용했을 때 엉뚱한 소리를 하면서 사용성에 문제가 있다는 이슈가 나오고 있습니다. OpenAI가 별도로 안전 및 AI 평가 테스트 내용을 담은 System Card 공식 문서에도 사실 이 내용은 담겨 있는데요. 정확도가 높아진 것은 맞지만 이와는 별개로 할루시네이션 환각 현상율이 o1 대비 최대 3배까지도 나타나고 있다고 합니다. 실제 개발자들 사이에서는 o3-mini에 대한 혹평이 이어지면서, Reasoning 모델이 LLM이 대답한 내용을 여러번 반복해서 되새김질하다가 이전 모델의 기억까지도 까먹는 게 아니냐는 말이 나오고 있는데요. 단순히 벤치 점수만 높다고 제일 좋은 성능이 아니라는 게 점차 확산되는 분위기에서 해당 이슈를 점검해보며 어떤 LLM을 사용해야할지를 정리해보았습니다.
#OpenAI #챗GPT #할루시네이션
Written by Error
Edited by 이진이
unrealtech2021@gmail.com
コメント
再生方法の変更
動画のデフォルトの再生方法を設定できます。埋め込みで見れるなら埋め込みで見た方が良いですよ。
現在の再生方法: nocookie
コメントを取得中...
関連動画

모르면 실시간 손해? MCP, 딥시크 속도로 빠르게 확산 | 무료 AI 앱 폭발하게 된 MCP, 클로드 커서ai 동반 폭등 | 진짜 에이전트AI 시대 | 샘알트먼 급하게 지원 약속
18万 回視聴

AI판 LK-99 사실이었다...지금 사용 가능 | Microsoft 1-bit으로 학습한 BitNet | 경쟁 모델보다 앞선 성능에도, 겨우 400MB 사용, CPU로 구동 가능
22万 回視聴
コメントを取得中...