[AI News #04] OpenAI, 획기적인 멀티모달 AI 모델 'ChatGPT 4o' 출시! 음성, 영상, 텍스트 실시간 추론 가능

🗞️ AI News

[AI News #04] OpenAI, 획기적인 멀티모달 AI 모델 'ChatGPT 4o' 출시! 음성, 영상, 텍스트 실시간 추론 가능

Prometheus_ai 2024. 5. 20. 14:00

지난 13일, OpenAI는 음성, 영상, 텍스트를 실시간으로 추론할 수 있는 새로운 플래그쉽 모델인 ChatGPT-4o(옴, omni)를 발표했습니다. "Omni"는 "모든", "어디에나", "어디서나"라는 의미를 담고 있으며, GPT-4o는 다양한 입력과 출력을 지원하는 멀티모달 기능을 도입했습니다. 출시 이벤트에서는 GPT-4o의 실시간 비디오 모드를 시연하며 수학 문제 해결, 코드 및 그래프 해석, 발표자의 감정 감지 지원 등 다양한 활용 사례를 소개하였습니다. 이전의 음성 모델은 3단계 파이프라인으로 구성되어 있었으나, ChatGPT-4o는 단일 end-to-end 멀티모달 모델로, 이를 통해 음정, 억양 등 다수의 음성 특징 정보를 보존하며 감정을 인지하고 표현할 수 있게 되었습니다. 또한, 이전보다 실시간 응답 속도가 3.2초로 감소하여 인간의 응답 시간과 비슷한 수준에 도달하였습니다. ChatGPT-4o는 새로운 Tokenizer 기법을 적용하여 영어와 코드는 GPT-4 Turbo와 유사한 성능을 보이며, 다국어 번역 성능이 크게 향상되었습니다. 이번 ChatGPT-4o는 무료로 제공되며, API는 GPT-4 Turbo보다 절반 가격, 2배 빠른 속도, 최대 API 호출 수 5배로 증가하여 향후 몇 주에 걸쳐 단계적으로 출시될 예정입니다.

지난 13일(현지 시각), OpenAI는 음성, 영상, 텍스트를 실시간으로 추론할 수 있는 새로운 플래그쉽 모델인 ChatGPT-4o(옴, omni)을 발표했다. “Omni”라는 이름은“모든”, 어디에나”, ”어디서나”라는 의미를 담고 있으며, GPT-4o는 텍스트, 음성, 이미지 및 영상의 모든 조합을 입력과 출력으로 다양하게 사용할 수 있는 멀티모달(Multimodal) 기능을 도입했다*.* GPT-4o의 API는 GPT-4 Turbo에 비해 2배 빠른 속도를 자랑하며, 가격은 절반으로 낮추었고, 최대 API 호출 수는 5배로 증가했다.

출시 이벤트에서 OpenAI는 GPT-4o의 실시간 시,청각 기능을 시연하며, 수학 문제 해결, 코드 및 그래프 해석, 발표자의 감정 감지 지원 등 다양한 활용 사례를 소개했다. 이 새로운 모델은 무료로 제공되며(api 사용은 유료) 향후 몇 주에 걸쳐 단계적으로 출시될 예정이다.

Introducing GPT-4o

ChatGPT-4o 주요 특징

ChatGPT-4o는 이전 모델들과 비교해 혁신적인 기능을 제공하며, 사용자의 다양한 요구를 만족시킬 수 있는 여러 개선 사항을 포함하고 있다. 이번 업데이트의 주요 특징은 다음과 같다.

단일 모델 & 감정 대화
이전의 음성 모델은 '음성을 텍스트로 변환(A2T)', '텍스트 기반 응답 생성(GPT-3.5/4)', '텍스트를 음성으로 변환(TTS)'의 3단계 파이프라인으로 구성되어 있었다. 이러한 과정에서 다수의 음성 특징 정보가 소실되면서 감정 표현 및 노래 출력이 불가능했다. 반면 ChatGPT-4o는 텍스트, 음성, 비디오를 지원하는 단일 end-to-end Multimodal 모델로 새롭게 재교육되었다. 이는 모든 입력과 출력을 동일한 신경망이 처리함으로써, 감정을 인지하고 표현할 수 있으며, 음정과 억양 등의 음성 구성 요소를 변형할 수 있게 한다.
실시간 반응 속도 향상
ChatGPT-4o는 이전 모델들보다 실시간 응답 속도가 크게 개선되었다. 기존의 GPT-3.5와 GPT-4는 각각 평균 2.8초와 5.4초의 지연 시간을 보였으나, ChatGPT-4o는 이를 3.2초로 줄여 인간의 응답 시간과 비슷한 수준까지 도달했다. 이로 인해 사용자들은 더욱 자연스럽고 원활한 대화 경험을 누릴 수 있게 되었다.

Meeting AI with GPT-4o

향상된 시,청각 상황 인지 능력과 통합 능력
ChatGPT-4o는 Multimodal 모델로 오디오 및 시각적 데이터와는 별도로 텍스트를 처리하는 GPT-4와 달리, 여러 형태의 데이터를 동시에 통합하고 해석하는 능력이 향상되었다. 이를 통해 보다 일관되고 상황에 맞는 응답을 제공할 수 있으며, 복잡한 대화를 처리하고 다양한 시각 및 청각 정보를 해석하는 능력이 크게 강화되었다. 감정 감지 기능 또한 지원하여 사용자와의 상호작용을 더욱 풍부하게 만든다.

Live demo of GPT-4o coding assistance and desktop app

Rock, Paper, Scissors with GPT-4o

Be My Eyes Accessibility with GPT-4o

향상된 다국어 번역 능력

Audio translation performance - GPT-4o sets a new state-of-the-art on speech translation and outperforms Whisper-v3 on the MLS benchmark.

ChatGPT-4o는 새로운 Tokenizer 기법을 적용하여 영어와 코드는 GPT-4 Turbo와 유사한 성능을 보이며, 다른 언어에서도 상당한 개선을 이루었다. 이번 업데이트로 지원하는 언어의 수가 증가했을 뿐만 아니라, 각 언어에 대한 이해와 답변의 질도 원어민 수준에 가까워졌다. 이를 통해 사용자들은 다양한 언어로 원활한 대화를 나눌 수 있게 되었다.

Realtime Translation with GPT-4o

결론

ChatGPT-4o는 무료로 제공되며 업데이트된 기술과 기능은 이후 단계적으로 출시될 예정이다. OpenAI는 1억 명이 넘는 사용자가 ChatGPT를 이용하고 있다고 밝혔다. 여전히 모델 구조 및 크기 등에 관련된 정보들은 풀리지 않았지만. 이번 ChatGPT-4o는 응답성, 감정 표현, 다중 모달 처리, 다국어 번역 등에서 큰 진전을 이루며, 교육 도구, 고객 서비스, 개인 비서 등 다양한 분야에서 혁신적인 변화를 예고한다. 사용자 친화적인 AI로서 인간과 AI의 상호작용에 중요한 도약을 나타내는 ChatGPT-4o는 앞으로 더욱 효과적이고 편리한 AI 경험을 제공할 것이다.

Reference

- OpenAI- hello-gpt-4o

- OpenAI-gpt-4o-and-more-tools-to-chatgpt-free

- blog.samaltman.com/gpt-4o

대학생 인공지능 연합 동아리 Prometheus

2024년 5월 16일

Editor : 김홍주