#Kanana #MultiModal
최근 GPT-4v, GPT-4o와 같은 멀티모달 LLM에 대한 관심이 급증하면서 관련 연구들이 쏟아지고 있지만, 이 모델들을 구체적으로 어떻게 학습시키고 최적화하는지에 대한 정보는 희소한 상황입니다.
본 발표에서는 CVPR 2024에 하이라이트 논문으로 선정된 카카오의 자체 멀티모달 LLM을 소개하고, 이후 최근까지의 개선 과정을 통해 얻은 인사이트와 노하우를 공유합니다.
발표자 : edwin.ai
카나나 알파 조직의 Multimodal LLM Core 팀원 에드윈입니다. 기존의 텍스트 모달리티만을 다루는 LLM에서 더 나아가 시각, 음성을 포함한 다양한 모달리티를 이해하고 반응할 수 있도록 하는 방법에 대해 연구하고 있습니다.