• 최종편집 2024-08-23(금)
 

한국전자통신연구원(ETRI)이 생성형 인공지능과 시각지능 기술을 결합해 문장으로부터 단 2초 만에 이미지를 생성할 수 있는 '코알라 3' 모델 등 5개 모델을 지난26일 공개했다. 국내연구진이 만든 이번 기술은 초고속 생성 시각지능 연구에 새로운 동력을 제공할 것으로 기대된다.

코알라700비교.jpg

  (사진제공 ETRI)

이번에 공개된 KOALA 모델은 오픈소스 모델에 지식 증류 기법을 적용해 파라미터 수를 25.6억 개에서 7억 개로 획기적으로 줄였다. 또한, ETRI는 이미지나 영상에 대해 질문하고 답변을 받을 수 있는 대화형 시각 언어 모델 Ko-LLaVA도 개발했다.

 

ETRI의 코알라 700M 모델은 실제로 연구진이 "화성에서 책을 읽는 우주비행사"라는 문장을 입력하자 단 1.6초 만에 이미지로 생성해 카카오의 칼로, 오픈AI의 달-E 2, -E 3 모델보다 훨씬 빠른 속도를 보였다. ETRI는 자사 모델을 다른 4개 모델과 직접 비교하고 사용자가 직접 체험할 수 있는 웹사이트를 만들었다.

 

ETRI는 모델 크기를 줄임으로써 모델 사용에 따른 전산 및 운영비용을 낮춰 중소기업이 보다 쉽게 접근할 수 있도록 하는 것이 목표라고 밝혔다.

 

한편,ETRI는 향후 다양한 시도를 통해 작지만 고성능의 새로운 모델을 공개할 계획이며 또한 이미지 제작 서비스, 창의 교육 서비스, 콘텐츠 제작, 비즈니스 등 다양한 분야에서 이 기술을 활용할 수 있도록 할 계획이다.

태그

전체댓글 0

  • 31529
비밀번호 :
메일보내기닫기
기사제목
국내연구진, 문장 입력하면 2초만에 뚝딱 이미지 생성!
보내는 분 이메일
받는 분 이메일