
안될공학 - IT 테크 신기술
チャンネル登録者数 37.3万人
4.4万 回視聴 ・ 839いいね ・ 2025/04/21
OpenAI 알고 있었다... o1보다 헛소리(환각) 2-3배 o3, o4-mini 아직 원인 파악 못해 | Reasoning 추론 모델의 한계
지난 주 출시한 OpenAI o3, o4-mini는 기존보다 월등히 높은 벤치마크 점수로 크게 주목을 받았는데요. 벤치마크 점수와는 별개로 실제 사용했을 때 엉뚱한 소리를 하면서 사용성에 문제가 있다는 이슈가 나오고 있습니다. OpenAI가 별도로 안전 및 AI 평가 테스트 내용을 담은 System Card 공식 문서에도 사실 이 내용은 담겨 있는데요. 정확도가 높아진 것은 맞지만 이와는 별개로 할루시네이션 환각 현상율이 o1 대비 최대 3배까지도 나타나고 있다고 합니다. 실제 개발자들 사이에서는 o3-mini에 대한 혹평이 이어지면서, Reasoning 모델이 LLM이 대답한 내용을 여러번 반복해서 되새김질하다가 이전 모델의 기억까지도 까먹는 게 아니냐는 말이 나오고 있는데요. 단순히 벤치 점수만 높다고 제일 좋은 성능이 아니라는 게 점차 확산되는 분위기에서 해당 이슈를 점검해보며 어떤 LLM을 사용해야할지를 정리해보았습니다.
#OpenAI #챗GPT #할루시네이션
Written by Error
Edited by 이진이
unrealtech2021@gmail.com
コメント
再生方法の変更
動画のデフォルトの再生方法を設定できます。埋め込みで見れるなら埋め込みで見た方が良いですよ。
現在の再生方法: 通常
コメントを取得中...
関連動画
![김어준의 겸손은힘들다 뉴스공장 2025년 5월 21일 수요일 [MC장원, 정청래, 김병주, 이재정, 민병덕, 복기왕, 김경수, 퍼니포, 여론조사, 영화공장] + 텐밀희 のサムネイル](/wkt/back/vi/dSxRMCXrsaY/mqdefault.jpg)
김어준의 겸손은힘들다 뉴스공장 2025년 5월 21일 수요일 [MC장원, 정청래, 김병주, 이재정, 민병덕, 복기왕, 김경수, 퍼니포, 여론조사, 영화공장] + 텐밀희
35万 人が視聴中
コメントを取得中...