최근 연구에 따르면 ChatGPT의 성능이 저하되고 있다.

ChatGPT의 성능 저하가 최근 연구에 따라 확인되었다.

ChatGPT는 가장 인기 있고 강력한 AI 도구 중 하나가 되었습니다. 전 세계 사용자들은 콘텐츠 아이디어 브레인스토밍부터 복잡한 수학식 해결에 이르기까지 다양한 기능에서 유용하다고 평가하고 있습니다. 그러나 그 널리 사용되는 도중 일부 GPT-4 사용자들은 시간이 지남에 따라 성능의 저하에 대해 우려를 표명했습니다. 연구에서도 ChatGPT의 성능 저하가 일부 나타났습니다.

스탠포드 대학교와 캘리포니아 대학 버클리에서 최근 “ChatGPT의 행동이 시간에 따라 어떻게 변화하고 있는가?”라는 주제로 연구를 발표했습니다. 이 연구는 OpenAI의 대형 언어 모델(GPT-3.5와 GPT-4)의 출력 변화를 지난 몇 달 동안 조사했습니다.

OpenAI의 ChatGPT 모델에 대한 연구 결과

이 연구는 GPT-4의 코딩 및 구성 작업에서의 성능을 의심합니다. 연구진은 API 액세스를 이용하여 이러한 모델의 2023년 3월과 6월 버전을 수학 문제 해결, 민감한 질문에 대한 답변, 코드 생성, 시각적 추론 등 다양한 작업에서 테스트했습니다. 특히, GPT-4의 소수 판별 능력은 3월에 97.6%에서 6월에는 단 2.4%로 크게 감소했습니다. 반면, GPT-3.5는 동일한 기간 내에서 성능이 향상되었습니다.

예를 들어, GPT-4의 “이 숫자는 소수인가요? 단계별로 생각해보세요” 작업의 성공률은 3월부터 6월까지 97.6%에서 2.4%로 하락했고, GPT-3.5는 개선되었습니다. 민감한 입력에 대한 동작도 변경되었습니다. 다른 작업들은 변경이 적었지만, 언어 모델 동작에는 분명한 변화가 있습니다.

— Matei Zaharia (@matei_zaharia) 2023년 7월 19일

연구에서 발견된 다른 중요한 사실은 GPT-4의 응답 길이의 상당한 변화였습니다. GPT-4의 평균적인 수다스러움은 3월에 821.2자에서 6월에는 단 3.8자로 크게 감소했습니다. 반면, GPT-3.5는 동일한 기간 내에 응답 길이가 약 40% 성장했습니다. 또한, 연구는 3월과 6월 버전의 답변 중 GPT-4와 GPT-3.5의 겹치는 부분이 상대적으로 작다는 사실을 발견했습니다.

연구에서는 GPT-4와 GPT-3.5가 민감한 질문에 어떻게 응답하는지에도 명확한 변화가 있었습니다. 3월부터 6월까지 GPT-4의 민감한 질문에 대한 응답 빈도는 크게 감소하여 21.0%에서 5.0%로 하락했습니다. 반면, GPT-3.5는 동일한 기간 동안 민감한 질문에 대한 응답 비율이 2.0%에서 8.0%로 증가하는 반대 경향을 보였습니다.

이 연구를 수행한 전문가들은 ChatGPT(GPT-4)의 6월 업데이트가 더 강력한 안전성 계층을 적용했을 가능성이 있으며, 이는 민감한 질문을 처리하는 더 보수적인 방식으로 이어졌을 것으로 추측했습니다. 대조적으로, GPT-3.5는 이와 반대로 이러한 질문에 대한 응답에서 덜 보수적인 경향을 보이는 것으로 나타났습니다.

연구 결과는 상대적으로 짧은 기간 내에도 일관된 언어 모델 서비스의 동작이 상당한 변화를 겪을 수 있다는 점을 강조합니다. 이는 LLM(대형 언어 모델)의 품질을 보장하고 유지하기 위해 지속적인 모니터링의 중요성을 강조합니다.

GPT-4의 성능 저하에 대한 비판자들은 주관적인 우려를 표명했습니다. 일부 이론은 OpenAI가 모델을 “압축”하여 계산 오버헤드를 줄이거나 유해한 출력을 최소화하도록 세밀하게 조정했거나, 심지어 GitHub Copilot에 대한 수요를 증대시키기 위해 코딩 능력을 일부러 제한했을 수도 있다고 제안합니다.

GPT-4는 시간이 지남에 따라 나빠지고 있습니다.

많은 사람들이 모델 응답의 품질이 상당히 저하되었다고 보고했지만, 지금까지는 주관적인 의견에 불과했습니다.

하지만 이제 우리는 압니다.

적어도 한 연구에서는 6월 버전의 GPT-4가 객관적으로 더 나쁩니다… pic.twitter.com/whhELYY6M4

— Santiago (@svpino) 2023년 7월 19일

OpenAI는 GPT-4의 능력 저하를 일관되게 부인해왔습니다. OpenAI의 제품 부사장 Peter Welinder에 따르면, 각 새로운 버전은 이전 버전보다 더 똑똑하게 설계되며, 문제는 사용량이 증가함에 따라 더욱 눈에 띄게 될 수 있다고 설명했습니다.

아니요, 우리는 GPT-4를 멍청하게 만들지 않았습니다. 오히려 우리는 각 새로운 버전을 이전 버전보다 더 똑똑하게 만듭니다.

현재의 가설: 더 많이 사용하면 이전에는 보이지 않았던 문제들이 더 눈에 띄게 됩니다.

— Peter Welinder (@npew) 2023년 7월 13일

연구 논문은 OpenAI가 GPT의 모든 새로운 버전을 의도적으로 개선한다는 주장에 도전합니다. 연구 논문의 공동 저자 중 한 명인 Matei Zaharia는 또한 Databricks의 최고 기술 책임자이며 트위터에서 AI 모델 응답의 품질을 관리하는 어려움에 대한 우려를 표명했습니다. 그는 또한 모델 개발자가 얼마나 잘 변화를 감지하고 새로운 능력을 도입하는 동시에 특정 능력의 손실을 방지할 수 있는지에 대해 의문을 제기했습니다.

연구 결과는 비평가들의 주장을 지지하는 것처럼 보이지만, 일부 전문가들은 신중함을 권장합니다. 프린스턴 대학의 컴퓨터 과학 교수인 Arvind Narayanan은 연구 결과가 GPT-4의 강등을 확정적으로 증명하지 않는다고 주장합니다. 그는 관찰된 변화가 OpenAI의 세밀한 조정과 일치한다고 추측합니다. 예를 들어, 연구는 실행 가능성에 기반한 코드 생성을 평가하며 정확성보다는 오해를 초래할 수 있습니다.