창조하신 대로 사는 생활 지식/창조주 하나님의 사회: 이런 일이?

훌쩍 다가온 멀티모달 LLM 시대

heojohn 2023. 10. 29. 23:59
  • 기자명 AI타임스 
  •  입력 2023.10.29 10:25
  •  수정 2023.10.29 10:28
10월 5주

https://youtu.be/3-qvOoguVMg

 

오픈AI의 'GPT-4V'를 시작으로 텍스트는 물론 이미지까지 읽어내고 출력하는 '멀티모달' 대형언어모델(LLM)이 대세로 떠오른다는 소식을 얼마 전 전해드렸습니다. 이에 따라 LLM이라는 용어 대신 LMM, 즉 대형멀티모달모델이라는 용어까지 등장했습니다. 며칠 전에는 '멀티모달 대형언어모델(MLLM)'이라고도 부르는 곳도 나타났습니다.

LMM이든 MLLM이든 멀티모달이 대세인 것은 확실합니다. 최근 발표된 인공지능(AI) 모델 관련 논문 중 눈길을 끄는 것은 대부분 멀티모달에 관한 것입니다. 

얼마 전에는 LMM의 탈옥을 유도하기 위해 사진에 명령어나 코드 등을 심어 입력하는 '프롬프트 주입(prompt injection)'이라는 공격법이 문제로 떠올랐고, LMM 환각을 해결하기 위한 '딱따구리'라는 AI 모델이 등장했다는 소식도 나왔습니다. 또 저작권자의 동의없이 이미지를 학습하면 AI 모델을 오염시켜 망가뜨릴 수 있는 방어법까지 등장했습니다. 이미지는 아니지만 음성과 음악을 동시에 이해하고 답하는 '새몬'이라는 LMM도 최근 등장했습니다.

텍스트를 입력하고 텍스트로 답하는 LLM보다, 이미지까지 입력하고 답하는 LMM의 활용 폭이 훨씬 넓은 것은 당연합니다. 실제로 언어모델 등장 이전에는 이미지를 읽어내는 '이미지넷'이나 '알렉스넷'이 AI 모델의 원조였으며, 이를 활용한 비전 AI는 이전부터 산업용 AI의 핵심이었습니다.

게다가 구글이 'GPT-4'를 따라잡겠다며 내년에 내놓을 차세대 모델 '제미니'도 핵심은 멀티모달 기능입니다. 이는 단순히 사진을 읽어주는 것뿐 아니라 각종 이미지 데이터를 처리할 수 있기 때문에, 산업적으로도 활용 폭이 크게 넓어질 수 있습니다. 이제까지는 이런 문제를 해결하기 위해서는 OCR(광학문자인식)이라는 별도의 기술을 사용했습니다.

또 모든 AI 챗봇의 최종 목표인 '개인비서'를 실현하기 위해서는 단순히 말로 명령하는 것이 아니라 사물을 보고 이해하는 능력이 필수입니다. 이런 면에서 멀티모달은 향후 LLM 발전의 중요한 요소로 자리 잡을 것으로 보입니다. 

이어 국내외 주요 뉴스입니다.

(사진=셔터스톡)

■ MS·구글, 매출은 나란히 증가했지만 클라우드·AI서 희비 엇갈려 

마이크로소프트(MS)와 구글이 지난 분기 실적 발표로 입장이 크게 엇갈렸습니다. MS는 AI를 본격적으로 사업에 도입하며 클라우드 실적이 크게 늘어났지만, 구글은 눈치만 보고 AI 도입을 미루는 바람에 성장세가 꺾였다는 분석입니다. 이 때문에 구글은 주가도 10% 가까이 폭락했습니다. 

■ AI 챗봇 '시리' 이르면 내년 출시...애플, 생성 AI에 '올인

애플이 뒤늦게 자체 LLM인 '애플GPT'를 활용해 전 제품군에 생성 AI 기술을 투입한다는 소식입니다. 가장 먼저 AI를 적용하는 대상은 '시리'입니다. 이제는 AI가 없으면 제품 판매에도 문제가 생길 수 있다는 이유 때문입니다.

(사진=MS)

■ 생성 AI로 윈도우 12 혁신 예고...“코파일럿 AI가 시작 버튼 대신할 것”

MS가 내년 출시할 윈도우 12에 생성 AI인 '코파일럿'을 도입, 사용자 경험을 혁신하겠다고 밝혔습니다. 즉 코파일럿이 사용자와 대화하며 알아서 작업을 처리하기 때문에, 이제는 앱을 직접 찾아서 실행하거나 웹 페이지를 일일이 클릭할 필요가 없어진다는 말입니다. 'UI의 혁명'이 일어날지도 모르겠습니다.

■ 국내도 '미국식 AI 규제안' 채택...다음달 자율규제 가이드라인 마련

과기정통부가 국내 대표 AI 기업들과 간담회를 통해 다음 달 자율규제안 가이드라인을 내놓겠다고 밝혔습니다. 이는 지난 7월 백악관이 오픈AI나 구글 등을 모아 놓고 발표한 '미국식 자율 선언'과 똑같은 형식입니다. 여기에는 산업 보호를 우선하겠다는 의도도 있습니다.

(사진=셔터스톡)

■ 엘루서 AI, 수학 특화 LLM '레마' 출시..."수학 넘어 LLM 발전에 도움될 것"

비영리 단체인 엘루서 AI가 '수학 특화 LLM'을 내놓았습니다. LLM은 수학 추론이 가장 약한 편인데, 엘루서 AI도 이번 모델이 수학을 완벽하게 처리하는 것보다 양적 추론 등 전반적인 LLM 연구에 도움이 될 것이라고 밝혔습니다.

■ 인텔, 온디바이스 AI 생태계 구축 나서...'엔비디아식 전략' 채택

인텔이 ‘AI PC 가속 프로그램’을 발표했습니다. 이는 고성능 칩 하나만 내놓는 것을 넘어 관련 소프트웨어 업체까지 개발에 끌어들이는 것으로, GPU와 소프트웨어 '쿠다'를 중심으로 한 엔비디아의 전략과 흡사합니다.

(사진=엔비디아)

■ 엔비디아, ARM 기반 PC용 CPU 제작 시동...인텔과 정면 승부

엔비디아가 그동안 인텔이 군림했던 PC용 칩 시장에도 뛰어들었습니다. MS의 윈도우를 구동하기 위해 ARM 기반의 CPU를 2025년 내놓는다는 겁니다. GPU에 이어 데이터센터, PC까지 엔비디아의 확장이 계속되고 있습니다.

■ 퀄컴 "130억 매개변수 모델 처리하는 PC 칩 출시"...LLM 규모가 성능 기준

퀄컴이 최근 공개한 '스냅드래곤 X 엘리트'를 강조하기 위해 모바일에서도 매개변수가 130억개(13B)인 LLM까지 처리가능하다고 밝혔습니다. 이제는 칩 성능을 과시하기 위해 LLM의 매개변수까지 언급하는 등 '온디바이스 AI'가 대세입니다.

AI타임스 news@aitimes.com

1