2024. 7. 22. 08:00ㆍ🗞️ AI News
생성형 AI에 대한 관심이 급증함에 따라, 대형언어모델(LLM, Large Language Model) 시장의 규모는 올해부터 2030년까지 연평균 성장률(CAGR) 35.9%로 빠르게 확대될 것으로 전망된다. 이러한 성장은 기술의 발전, 데이터 접근성 증가, 그리고 산업별 맞춤형 솔루션에 대한 수요 증가에 기인한다. Meta의 Llama3 모델은 이러한 동향을 이끄는 핵심 기술 중 하나로, 고도로 최적화된 처리능력과 개방성을 바탕으로 오픈 소스 LLM에 대한 열풍을 더욱 가속화하고 있다. 이 모델은 범용적 사용뿐만 아니라, 개별 사용자나 기업이 자체 데이터로 학습을 진행할 수 있도록 설계되었다는 점에서 기존 모델과 차별화된다.
최근에는 텍스트 뿐만 아니라 이미지와 비디오를 포함하는 멀티모달 모델(LMM, Large Multimodal Model)이 주목받고 있다. 이러한 LMM은 여러 형태의 데이터를 통합해 처리할 수 있으며, GPT-4V와 같은 모델이 이 분야를 선도하고 있다. 해외뿐 아니라 국내에서도 다양한 오픈소스 LLM 모델과 LMM모델이 잇따라 출시되고 있으며, 법률, 의료, 제조, 헬스 등 다양한 분야에서 그 활용도가 높아지고 있다.
*LLM(Large Language Model) : 방대한 양의 텍스트 데이터를 학습하여 인간 수준의 텍스트를 생성하고, 언어를 번역하고, 다양한 종류의 창작 콘텐츠를 작성할 수 있는 인공지능 모델
*LMM(Large Multimodal Model):
텍스트 데이터 외에도 이미지, 오디오 등 여러 가지 유형의 데이터를 통합하여 처리할 수 있는 능력을 갖춘 인공지능 모델
KAIST, GPT-4V 뛰어넘는 LLM 모델 ‘콜라보(CoLLaVO)’, ‘모아이(MoAI)’ 오픈소스 공개
지난 달 , KAIST 연구진은 오픈AI의 GPT-4V와 구글 Gemini-Pro를 뛰어넘는 멀티모달 대형언어모델을 개발해 출시했다.
- 콜라보(CoLLaVO)
‘콜라보(CoLLaVO)’는 이미지 이해 능력을 개선한 모델로 현존하는 멀티모달 대형언어모델이 물체 수준에 대한 이미지 이해 능력이 현저하게 떨어지는 점을 효율적으로 향상 하기 위해 연구팀은 이미지 내의 정보를 배경과 물체 단위로 분할하고 각 배경 및 물체에 대한 정보를 LMM에 입력으로 직접 넣어주는 새로운 방법인 ‘크레용 프롬프트(Crayon Prompt)’라는 시각적 프롬프트를 새롭게 제안했다.
추가로, 연구팀은 시각적 지시 조정 단계에서 크레용 프롬프트로 학습한 정보를 잃어버리지 않기 위해 ‘듀얼 큐로라(Dual QLoRA)’라는 학습 전략을 사용해 물체 수준 이미지 이해 능력과 시각-언어 태스크 처리 능력을 서로 다른 파라미터로 학습해 서로 간의 정보를 잃지 않게 만드는 획기적인 학습 전략을 제안했다. 이를 통해, 콜라보(CoLLaVO) 는 이미지 내에서 배경 및 물체를 구분하는 능력이 뛰어나 일차원적인 시각 구분 능력이 크게 향상됐다고 밝혔다.
오픈소스 Github:
https://github.com/ByungKwanLee/CoLLaVO?tab=readme-ov-file
GitHub - ByungKwanLee/CoLLaVO: Official PyTorch Implementation code for realizing the technical part of CoLLaVO: Crayon Large La
Official PyTorch Implementation code for realizing the technical part of CoLLaVO: Crayon Large Language and Vision mOdel to significantly improve zero-shot vision language performances (ACL 2024 Fi...
github.com
- 모아이(MoAI)
두 번째 멀티모달 대형언어모델인 ‘모아이(MoAI)’는 인간이 사물을 판단할 때 물체의 존재, 상태, 물체 간의 상호작용, 배경에 대한 이해, 텍스트에 대한 이해 등으로부터 상황을 판단하는 인지 과학적인 요소에 영감을 받아서 만들어졌다고 밝혔다.
이는 기존 모델은 텍스트에 의미적으로 정렬된 시각 인코더(vision encoder)만을 사용하기 때문에, 이미지 픽셀 수준에서의 상세하고 종합적인 이해가 부족하다는 점을 지적했다. 이를 해결하기 위해 ‘화면 분할’ ‘물체 검출기’ ‘상황 그래프 생성’ ' 글자 인식’ 등 모델 네 가지를 종합적으로 사용하여 네 모델의 결과를 모두 언어로 변환한 후 이를 모델에 직접 입력하여 학습했다.
오픈소스 Github:
https://github.com/ByungKwanLee/MoAI
GitHub - ByungKwanLee/MoAI: Official PyTorch implementation code for realizing the technical part of Mixture of All Intelligence
Official PyTorch implementation code for realizing the technical part of Mixture of All Intelligence (MoAI) to improve performance of numerous zero-shot vision language tasks. (Under Review) - Byun...
github.com
국내 LLM 기반 추천 기술, 기존 상품 추천에서 42% 성능 향상
LLM기술이 떠오르며 다양한 분야에서 많이 활용되고 있는데, 그 중에서도 상품의 제목 및 설명과 같은 텍스트를 주입하여 상품 추천을 제공하는 LLM기술이 각광을 받고 있다. KAIST와 네이버는 공동연구를 통해 협업 필터링(Collaborative filtering) 기반 추천 모델이 학습한 사용자의 선호에 대한 정보를 추출하고 이를 상품의 텍스트와 함께 LLM에 주입해 상품 추천의 높은 정확도를 달성할 수 있는 새로운 LLM 기반 추천시스템 기술을 개발했다.
*협업필터링: 제품 및 사용자 간의 유사성을 검토하고 이를 바탕으로 사용자 취향에 맞는 제품을 추천해주는 AI 기반 접근 방식
학습 속도에서 253% 향상, 추론 속도에서 171% 향상, 상품 추천에서 평균 12%의 성능 향상을 이뤄냈다. 특히, 사용자의 소비 이력이 제한된 퓨샷(Few-shot) 상품 (소비 이력이 풍부하지 않은 상품) 추천에서 평균 20%의 성능 향상을 보였고 타 도메인에서 학습된 모델을 활용하여 추가 학습없이 현재 도메인에서 추천을 수행하는 다중-도메인(Cross-domain) 상품 추천에서 42%의 성능 향상을 이뤄냈다.
기존 LLM을 활용한 추천 기술들은 사용자가 소비한 상품 이름들을 단순히 텍스트 형태로 나열해 대형언어모델에 주입하는 방식으로 추천을 진행했다. 예를 들어 "사용자가 영화 극한직업, 범죄도시1, 범죄도시2를 보았을 때 다음으로 시청할 영화는 무엇인가?" 라고 LLM에 질문하는 방식이었다.
이에 반해, 국내 연구팀이 착안한 점은 상품 제목 및 설명과 같은 텍스트뿐 아니라 협업 필터링 지식, 즉, 사용자와 비슷한 상품을 소비한 다른 사용자들에 대한 정보가 정확한 상품 추천에 중요한 역할을 한다는 점이었다. 하지만, 이러한 정보를 단순히 텍스트화하기에는 한계가 존재한다. 이에 따라, 연구팀은 미리 학습된 협업 필터링 기반 추천 모델로부터 사용자의 선호에 대한 정보를 추출하고 이를 LLM이 이해할 수 있도록 변환하였다.
이제는 LLM에서 값싸고 빠른 sLLM으로..!
LLM의 기술이 많이 활용되면서 함께 관심이 쏠리고 있는 분야가 경량화 언어모델(sLLM, smaller Large Language Model)이다. sLLM은 방대한 양의 데이터를 학습해 자연어(NLP)처리 작업을 수행할 수 있는 인공지능(AI) 모델 중 하나다. 일반적으로 알려진 LLM보다 작은 매개변수(파라미터) 크기로 운영이 가능하다. 통상적으로 매개변수가 1000억개 이하인 모델이 sLLM으로 분류된다.
- LLM 모델과 sLLM 모델의 차이점
성능 면에서는 LLM이 훨씬 월등하지만 문제는 비용이다. 미국 스탠퍼드대의 AI 인덱스 리포트에 따르면 구글이 투입하는 제미나이 울트라의 학습 비용은 1억9140만달러(약 2645억원), 오픈AI의 GPT-4는 7835만달러(약 1080억원)에 달하는 것으로 추정됐다. 이 같은 문제 때문에 국내 AI 기업은 sLLM으로 시장을 공략하고 있다. 매개변수의 수를 줄이면서도 특정 분야에선 범용 모델 못지않은 성능을 발휘하는 방향으로 연구를 진행 중이다. 네이버는 지난 4월 하이퍼클로바X의 경량 모델인 ‘HCX-대시’를 출시했다. 문장 생성이나 요약과 같은 단순 업무부터 보고서를 작성하거나 맞춤형 챗봇을 구현하는 데 적합하다. 기존 하이퍼클로바(HCX-003) 대비 5분의 1 가격으로 이용할 수 있다.
미국 시장조사업체 밸류에이츠 리포트가 발간한 보고서에 따르면 sLLM 시장 규모는 2022년 51억8000만달러에서 오는 2029년 171억8000만달러로 성장할 전망으로 주목할 필요가 있다.
LLM에서 시작하여 LMM을 거쳐, 최근에는 언어 인식을 넘어 세부적인 상황 인식까지 가능한LAM(Large Action Model)의 출현을 목도하고 있다. 이러한 모델들은 단순히 텍스트를 처리하는 것을 넘어서 이미지, 비디오, 실시간 상호작용 등 다양한 데이터를 종합적으로 이해하며, 인간과 기계 간의 커뮤니케이션을 한 차원 높은 수준으로 끌어올리고 있다.
국내에서는 이러한 글로벌 트렌드에 발맞추어, AI 기술의 선도적 연구와 상용화가 활발히 이루어지고 있다. 앞으로 이러한 기술들이 더욱 발전하면서, 인공지능이 인간의 언어뿐 아니라 행동과 상황까지도 이해할 수 있는 시대로 접어들 것이다.
Reference
- LLM vs LMM: 미래의 언어모델은? - Blog- datamaker
- [인공지능 신문] '토종 멀티모달 LLM, 오픈 AI GPT-4V 뛰어넘었다!"...KAIST 노용만 교수팀, 멀티모달 대형언어...
- [인공지능 신문] "LLM 기반 추천 기술, 기존 한계 극복했다!"... KAIST-네이버, '학습 속도 253%, 추론 속도...
- [전자 신문] [ICT시사용어] 경량화 언어모델 (sLLM)
- [한국 경제] 비싼 LLM 대신 싸고 빠른 sLLM 뜬다.. 구글.MS 속속 선보여
대학생 인공지능 연합 동아리 Prometheus
2024년 7월 18일
Editor : 김예지
'🗞️ AI News' 카테고리의 다른 글
[AI News #12] SearchGPT 출시 - 기존 검색 엔진의 위기? (0) | 2024.08.05 |
---|---|
[AI News #11] 최초의 프론티어 레벨의 오픈소스 LLM: Llama 3.1 (0) | 2024.07.29 |
[AI News #09] Meta 3D Gen 등장: 1분 안에 텍스트로 3D 모델 생성하기 (0) | 2024.07.15 |
[AI News #08] 인공지능의 발전, 그 이면에 숨겨진 윤리적 문제들 (1) | 2024.07.08 |
[AI News #07] 앤트로픽, Claude 3.5 Sonnet 출시 (0) | 2024.07.02 |