[AI News #05] 구글, 제작자를 위한 생성 모델 ‘Veo’, ‘Imagen 3’등 공개

[AI News #05] 구글, 제작자를 위한 생성 모델 ‘Veo’, ‘Imagen 3’등 공개

2024. 5. 31. 14:08ㆍ🗞️ AI News

지난 14일 Google I/O에서 새로운 인공지능 미디어 모델 두 가지가 공개되었다. ‘Veo’는 텍스트 입력 만으로 1080p의 고화질 영상을 제작할 수 있는 영상 모델이고, ‘Imagen 3’는 최신 텍스트를 이미지로 변환하는 프레임워크이다. 이 두 가지 모델 뿐만 아니라 새로운 실험적인 음악을 만들 수 있는 서비스까지 소개되어 주목을 받고 있다.

Veo: 구글의 고품질 비디오 생성 모델

‘Veo(비오)’는 현재까지 가장 뛰어난 성능을 자랑하는 구글의 동영상 생성 모델입니다. 다양한 시네마틱 비주얼 스타일로

1분 이상의 고화질 1080p 해상도 동영상을 생성할 수 있다.

프롬프트: 외로운 카우보이가 말을 타고 아름다운 일몰, 부드러운 빛, 따뜻한 색상을 배경으로 광활한 평원을 가로지릅니다.

Veo’는 자연어와 시각적 의미에 대한 이해도가 높으며, 긴 프롬프트의 세부 사항을 정확하게 랜더링하고 톤을 캡처하는 등 사용자의 창의적인 비전을 밀접하게 표현하는 비디오를 생성할 수 있다.

또한 이 모델은 '타임랩스(timelapse)' 또는 '풍경의 항공 촬영(aerial shots of a landscape)’과 같은 영화 용어를 이해하며 사람, 동물, 사물이 샷 전체에서 사실적으로 움직이는 등 일관성 있는 영상을 제작할 수 있다.

주요 특징 및 영화 제작 제어 기능

프롬프트: 화창한 날, 하와이 정글 해안선을 따라 드론으로 촬영한 내용 화창한 날, 하와이 정글 해안선을 따라 드론이 촬영되었습니다. 물 속에서 카약

입력 비디오와 편집 명령: veo는 프롬프트 명령을 초기 비디오에 적용하고 추가로 편집 명령이 주어졌을 때 이를 새롭게 편집된 비디오로 생성할 수 있다.
마스크 영역 추가: 마스크 편집을 지원하여 비디오 및 텍스트 프롬프트에 마스크 영역을 추가할 때 비디오의 특정 영역을 변경할 수 있다.
참조 이미지와 텍스트 프롬프트: 참조 이미지를 제공하여 해당 이미지의 스타일을 따르면서 프롬프트의 명령에 따른 비디오를 생성할 수 있다.
클립 생성 및 확장: 비디오 클립을 만들고 이를 60초 이상으로 확장할 수 있다.
비디오 프레임 전반의 일관성: 비디오 생성 모델에서 가장 어려운 부분 중 하나가 시각적으로 일관성을 유지하는 것이다. ‘Veo’는 깜박이거나 점프하는 등 변형되는 불일치를 최대한 줄인다

‘Veo’ 기술적 세부 사항

‘Veo’는 Imagen-Video, GQN(Generative Query Network), Transformer 아키텍처 및 Gemini를 포함하여 여러 생성 비디오 모델 작업을 기반으로 구축되었다. 이전에 OpenAI의 ‘Sora’는 Transformer 아키텍쳐를 사용하여 공간 및 시각적으로 데이터를 압축하여 고해상도의 이미지를 생성한 뒤, 이를 영상으로 변환했다면, ‘Veo’는 ‘Latent Diffusion Transfomer 아키텍처’를 사용하여 영상 내 프레임들간의 일관성을 유지하면서 고품질의 영상을 생성하였다.

또한, 프롬프트를 보다 정확하게 이해하고 따를 수 있도록 교육 데이터의 각 비디오 캡션에 더 많은 세부사항을 추가하여 모델이 다양한 상황과 프롬프트를 더 잘 이해하게 하여, 사용자 요구에 맞는 비디오를 생성할 수 있게 한다.

‘Veo’는 일부 크리에이터에 한해 videoFX내에서 사용할 수 있으며, 향후 유튜브 쇼츠 및 기타 제품에도 ‘Veo’의 일부 기능을 제공할 예정이다.

‘Imagen 3: 텍스트-이미지 변환 모

프롬프트: 테이블 위의 오래된 파란색 유리 꽃병에 크고 화려한 꽃다발이 있습니다. 앞에는 장미, 백합, 데이지, 난초, 과일, 열매, 녹색 잎과 같은 다양한 꽃으로 둘러싸인 아름다운 모란 꽃이 있습니다. 배경은 어두운 회색입니다. 네덜란드 황금시대 스타일의 유화입니다.

‘Imagen 3’는 프롬프트 이해 기능이 크게 향상된 텍스트-이미지 변환 모델로 다양한 시각적 스타일을 생성하고 긴 프롬프트에서도 작은 세부 정보를 파악할 수 있다. 또한 뜨개질로 엮은 코끼리 인형처럼 복잡한 질감까지 정확하게 렌더링 할 수 있다.

또한, 이미지 생성 모델에서 가장 어려웠던 과제인 텍스트 렌더링 기능도 크게 향상된 결과를 보여주었다. 이는 개인 맞춤형 생일 메시지, 프레젠테이션 제목 슬라이드 등을 생성하는데 있어서도 새로운 가능성을 열어 주었다.

Music AI Sandbox, 음악 커뮤니티와의 협력까지

https://youtu.be/-dPqc7l2zu8

추가로 구글은 짧은 시간 동안 음악 및 비트 제작을 도와주는 ‘뮤직 AI 샌드박스’도 공개했다. 아직 초기 단계이지만 사용자는 간단히 텍스트 프롬프트를 입력하여 전문가 수준의 음악 루프를 생성할 수 있다. 또한 해당 프롬프트의 단어를 조금씩 바꿔가며 음악을 미세하게 편집할 수 있다.

그래미상을 수상한 음악가 Wyclef Jean, 그래미상 후보에 오른 작곡가 Justin Tranter, 일렉트로닉 음악가 Marc Rebillet과 함께 음악에 대한 실험을 계속하고 있다. 이들은 YouTube 채널에서 음악 AI 도구의 도움을 받아 제작된 새로운 데모 녹음들을 공개하고 있다.

새로운 데모 녹음 듣기: https://yt.be/musicaidemos

위 3가지 모델을 체험해보고 싶다면? ↓↓

https://aitestkitchen.withgoogle.com/ko/tools/video-fx

AI Test Kitchen

이렇게 동영상을 만들기 시작하려면 로그인하세요 A crochet elephant in vibrant colors walking on the savanna

aitestkitchen.withgoogle.com

마무리

현대 사회에서 미디어는 단순한 정보 전달 수단을 넘어, 문화와 기술이 융합되는 중심지로 자리잡고 있다. 특히 소셜 미디어의 등장과 함께 정보의 속도와 전파 범위가 급격히 확대되었으며 개인 뿐만 아니라 기업, 정부 등 모든 사회 구성원들이 미디어를 활용해야 할 필요성이 증가하고 있다. 인공지능 기술이 미디어 콘텐츠의 제작과 배포 과정을 혁신함으로써, 더욱 다양하고 창의적인 방식으로 정보를 공유하고 표현할 수 있는 길이 열리고 있다.

이렇게 미디어가 중요해짐으로써, 미디어 생성형 AI의 기술 및 창의적 발전도 무한히 발전할 예정이다. 전 세계 사람들이 새로운 모델과 도구를 사용하여 아이디어를 어떻게 실현할지 많은 사람들이 기대를 모으고 있다. 그러나 이 기술들이 진정한 예술 작품을 창작할 수 있을지에 대해서는 의문을 품고 있어 앞으로 기술의 행보를 주목할 필요가 있어 보인다.

Reference

대학생 인공지능 연합 동아리 Prometheus

2024년 5월 23일

Editor : 김예지

'🗞️ AI News' 카테고리의 다른 글

[AI News #07] 앤트로픽, Claude 3.5 Sonnet 출시 (0)	2024.07.02
[AI News #06] AI Seoul Summit (0)	2024.06.07
[AI News #04] OpenAI, 획기적인 멀티모달 AI 모델 'ChatGPT 4o' 출시! 음성, 영상, 텍스트 실시간 추론 가능 (0)	2024.05.20
[AI News #03] AI 개발자에게 꼭 필요한 AI 반도체 지식 (0)	2024.05.13
[AI News #02] AI21 Labs, 세계 최초의 Mamba 기반 상용 수준 모델 ‘Jamba’ 출시 (0)	2024.04.14

Prometheus의 기술 블로그