클릭하거나 사진을 드래그해서 업로드하세요
JPG, PNG, WEBP 지원 · 최대 5MB사진을 업로드하면 AI가 이미지 속 내용을 자동으로 설명합니다. ViT-GPT2 모델이 브라우저에서 직접 실행됩니다.
클릭하거나 사진을 드래그해서 업로드하세요
JPG, PNG, WEBP 지원 · 최대 5MBViT-GPT2 모델은 영어 기반으로 학습되었습니다. 아래 팁으로 더 정확한 설명을 받아보세요.
배경과 피사체가 명확히 구분되는 사진에서 더 정확한 설명을 생성합니다. 복잡한 장면보다 주제가 명확한 사진을 선택하세요. 풍경, 인물, 음식, 동물 사진에서 특히 잘 동작합니다.
너무 작거나 흐릿한 사진은 AI가 세부 사항을 파악하기 어렵습니다. 최소 300×300 픽셀 이상의 선명한 사진을 사용하면 더 자세한 설명을 얻을 수 있습니다.
AI 모델이 브라우저에서 직접 실행됩니다. 처음 사용 시 모델 파일(약 100MB)을 다운로드하는 데 1~2분 정도 소요됩니다. 이후에는 브라우저 캐시를 사용해 빠르게 실행됩니다.
AI가 생성한 설명은 참고용입니다. 특히 한국어 번역은 MyMemory 번역 서비스를 사용하므로 완벽하지 않을 수 있습니다. 영어 원문을 함께 확인하면 더 정확한 내용을 파악할 수 있습니다.
AI 이미지 설명기의 작동 원리를 간단히 소개합니다.
Vision Transformer 기반의 이미지 인식 모델입니다. 이미지를 작은 조각(패치)으로 나눠 각 영역의 특징을 파악하고 전체 내용을 이해합니다.
OpenAI의 GPT-2 언어 모델로 이미지 특징을 자연스러운 영어 문장으로 변환합니다. 이미지와 텍스트를 연결하는 핵심 기술입니다.
Transformers.js를 사용해 AI 모델이 서버 없이 브라우저에서 직접 실행됩니다. 사진이 외부로 전송되지 않아 개인정보가 안전합니다.
ViT-GPT2 모델은 영어로 학습된 AI 모델이기 때문에 영어로 설명을 생성합니다. Aivery Lab에서는 MyMemory 무료 번역 서비스를 통해 한국어 번역을 함께 제공합니다. 번역이 완벽하지 않을 수 있으니 영어 원문도 함께 확인해 주세요.
AI 모델이 브라우저에서 직접 실행되기 때문에, 처음 사용 시 모델 파일(약 100MB)을 다운로드해야 합니다. 인터넷 속도에 따라 1~2분이 소요될 수 있습니다. 한 번 다운로드 후에는 브라우저 캐시에 저장되어 이후 사용 시 빠르게 실행됩니다.
업로드된 사진은 AI 분석을 위해 Hugging Face 서버로 전송되지만, 서버에 저장되거나 기록되지 않습니다. 분석이 완료되면 이미지 데이터는 즉시 삭제됩니다. 개인 정보가 포함된 사진은 신중하게 사용해 주세요.
풍경, 동물, 음식, 건물, 인물 사진에서 가장 잘 동작합니다. 추상적인 그림이나 매우 복잡한 장면, 텍스트가 많은 이미지는 설명이 부정확할 수 있습니다. 또한 이 AI는 얼굴 인식 기능이 없어 특정 인물을 식별하지 않습니다.