Prometheus의 기술 블로그

gpt-4o(1)

[AI News #04] OpenAI, 획기적인 멀티모달 AI 모델 'ChatGPT 4o' 출시! 음성, 영상, 텍스트 실시간 추론 가능
지난 13일, OpenAI는 음성, 영상, 텍스트를 실시간으로 추론할 수 있는 새로운 플래그쉽 모델인 ChatGPT-4o(옴, omni)를 발표했습니다. "Omni"는 "모든", "어디에나", "어디서나"라는 의미를 담고 있으며, GPT-4o는 다양한 입력과 출력을 지원하는 멀티모달 기능을 도입했습니다. 출시 이벤트에서는 GPT-4o의 실시간 비디오 모드를 시연하며 수학 문제 해결, 코드 및 그래프 해석, 발표자의 감정 감지 지원 등 다양한 활용 사례를 소개하였습니다. 이전의 음성 모델은 3단계 파이프라인으로 구성되어 있었으나, ChatGPT-4o는 단일 end-to-end 멀티모달 모델로, 이를 통해 음정, 억양 등 다수의 음성 특징 정보를 보존하며 감정을 인지하고 표현할 수 있게 되었습니다. 또한, ..
2024.05.20

1

티스토리툴바