ALIGN (Google) 1) Florence (Microsoft) 2) 1) https:/ /ai.googleblog.com/2021/05/align - scaling - up - visual - and - vision.html
2) https:/ /www.microsoft.com/en - us/research/publication/ fl orence - a - new - foundation - model - for - computer - vision/ 1.8B Image - Text Pairs 900M Image - Text Pairs
Common Crawl “We build and maintain an open repository of web crawl data that can be accessed and analyzed by anyone.” — Common Crawl1) 2,300억 웹 페이지 6.8 PiB 데이터 크기 3) 10년 총 수집기간 2) 1) Common Crawl, https:/ /commoncrawl.org/
속성 데이터 타입 설명 ID Long 64비트 정수형 아이디 URL String 태그의 src 속성에서 가져온 이미지 URL TEXT String 태그의 alt 속성에서 가져온 이미지의 대체 텍스트 WIDTH Integer 이미지의 가로 길이 HEIGHT Integer 이미지의 세로 길이 IMAGE_PHASH String 이미지 해시값 WORD_COUNT Integer 공백으로 구분한 단어 개수 NUM_TOKENS_BERT Integer BertTokenizer 를 사용하여 분리된 토큰들의 개수 NUM_TOKENS_GPT Integer GPT2TokenizerFast를 사용하여 분리한 토큰들의 개수 NUM_FACES Integer 이미지에 포함된 얼굴 개수 CLIP_SIMILARITY_VITB32 Float CLIP ViT - B/32 모델 기반의 이미지-텍스트 코사인 유사도 CLIP_SIMILARITY_VITL14 Float CLIP ViT - L/14 모델 기반의 이미지-텍스트 코사인 유사도 WATERMARK_SCORE Float 이미지에 워터마크 포함 여부를 예측한 점수 AESTHETIC_SCORE_LAION_V2 Float 이미지의 미적 수준을 예측한 점수
속성 데이터 타입 설명 ID Long 64비트 정수형 아이디 URL String 태그의 src 속성에서 가져온 이미지 URL TEXT String 태그의 alt 속성에서 가져온 이미지의 대체 텍스트 WIDTH Integer 이미지의 가로 길이 HEIGHT Integer 이미지의 세로 길이 IMAGE_PHASH String 이미지 해시값 WORD_COUNT Integer 공백으로 구분한 단어 개수 NUM_TOKENS_BERT Integer BertTokenizer 를 사용하여 분리된 토큰들의 개수 NUM_TOKENS_GPT Integer GPT2TokenizerFast를 사용하여 분리한 토큰들의 개수 NUM_FACES Integer 이미지에 포함된 얼굴 개수 CLIP_SIMILARITY_VITB32 Float CLIP ViT - B/32 모델 기반의 이미지-텍스트 코사인 유사도 CLIP_SIMILARITY_VITL14 Float CLIP ViT - L/14 모델 기반의 이미지-텍스트 코사인 유사도 WATERMARK_SCORE Float 이미지에 워터마크 포함 여부를 예측한 점수 AESTHETIC_SCORE_LAION_V2 Float 이미지의 미적 수준을 예측한 점수
ALIGN unCLIP + 1.8B Image - Text Pairs + 250M Image - Text Pairs 1) C. Jia, Y. Yang, Y. Xia, Y. - T. Chen, Z. Parekh, H. Pham, Q. V. Le, Y. Sung, Z. Li, and T. Duerig. Scaling up visual and vision - language representation learning with noisy text supervision. arXiv:2102.05918, 2021.
2) Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen. Hierarchical text - conditional image generation with clip latents. arXiv:2204.06125, 2022.
- COYO-700M에서 선별한 1억개 데이터를 활용하여 텍스트 기반 이미지 생성 모델을 학습
- 더 자세한 내용은 다음 “카카오브레인의 텍스트 기반 이미지 생성 기술” 세션을 확인해주세요. unCLIP (DALL·E 2) Goryeo celadon in the shape of darth vader A pencil drawing of an astronaut riding a horse A high quality picture of a medieval knight with golden armor