multimodal AI

4일 전 · ai

새로운 Apple 모델이 시각 이해와 이미지 생성을 결합해 인상적인 결과를 보여줍니다

Apple 연구원들은 시각 이해와 텍스트‑투‑이미지 생성을 결합한 다중모달 모델인 Manzano에 대한 연구를 발표했으며, 동시에 크게…

#Apple #multimodal AI #vision-language model #text-to-image generation #Manzano #computer vision #generative AI #AI research
4일 전 · ai

Gemini의 새로운 베타 기능은 사진, 이메일 등을 기반으로 능동적인 응답을 제공합니다

Personal Intelligence는 기본적으로 꺼져 있으며, 사용자는 Google 앱을 Gemini에 연결할지 여부와 시점을 선택할 수 있습니다....

#Gemini #Google AI #personal intelligence #multimodal AI #beta feature #privacy controls #email integration #photo analysis
1주 전 · ai

픽셀에서 칼로리까지: GPT-4o를 활용한 멀티모달 식사 분석 엔진 구축

🍝 픽셀에서 칼로리까지 – 멀티모달 AI & 자동 칼로리 추적 우리 모두 그런 상황을 겪어봤을 겁니다: 맛있는 파스타 한 접시를 바라보며, 그것이…

#multimodal AI #GPT-4o #computer vision #nutrition analysis #Streamlit
1주 전 · ai

왜 Image Hallucination이 Text Hallucination보다 더 위험한가

‘Why Image Hallucination Is More Dangerous Than Text Hallucination’ 표지 이미지 https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=au...

#image hallucination #vision-language models #AI safety #multimodal AI #generative AI
1주 전 · ai

NVIDIA, 모든 산업에 걸친 AI 발전을 위한 새로운 오픈 모델, 데이터 및 도구 공개

NVIDIA가 오픈 모델 유니버스를 확장합니다. NVIDIA는 오늘 AI 채택을 모든 산업에 걸쳐 가속화하기 위해 설계된 새로운 오픈 모델, 데이터 및 도구 모음을 발표했습니다.

#NVIDIA #open foundation models #multimodal AI #AI data resources #AI acceleration
2주 전 · ai

새해 AI 서프라이즈: Fal이 Flux 2 이미지 생성기의 자체 버전을 출시, 비용은 10배 저렴하고 효율은 6배 향상

새로운 1억 4천만 달러 규모의 시리즈 D 자금 조달 라운드 직후, 멀티모달 엔터프라이즈 AI 미디어 제작 플랫폼인 fal.ai는 단순히 ‘fal’ 또는 ‘Fal…’이라고 알려져 있다.

#generative AI #image generation #Flux 2 #diffusion models #Fal.ai #cost efficiency #open source #multimodal AI
3주 전 · ai

Gemini 2.5: 고급 추론, 멀티모달리티, LongContext, 차세대 에이전시 능력으로 프런티어를 개척하다

개요: Gemini 2.5는 더 똑똑한 AI로, 더 많이 보고, 생각하고, 기억합니다. Gemini 2.5 Pro를 만나보세요. 이미지, 비디오 및 텍스트를 함께 읽을 수 있는 새로운 AI이며, 문제를 해결합니다.

#Gemini 2.5 #multimodal AI #long‑context reasoning #video understanding #agentic capabilities #AI assistants #Flash model
3주 전 · ai

LLM Deep Dive 2025: 왜 Claude 4와 GPT‑5.1이 모든 것을 바꾸는가

2025년 말의 LLM 풍경 생태계는 생성 AI 초기 시기를 훨씬 넘어섰습니다. 우리는 더 큰 자율성과 깊은…

#LLM #Claude 4 #GPT-5.1 #multimodal AI #context management #agentic workflows #generative AI 2025 #AI tool integration
3주 전 · ai

왜 당신의 ChatGPT 이미지가 실패할까요?

개요 ChatGPT는 2025년 12월에 주간 활성 사용자 9억 명에 도달했으며, 이는 2024년 12월 대비 세 배에 해당합니다. 그러나 그 쿼리 중 약 7 %만이 다중…

#ChatGPT #AI image generation #prompt engineering #multimodal AI #image generation troubleshooting
3주 전 · ai

LAION-400M: CLIP 필터링된 4억 이미지‑텍스트 쌍의 오픈 데이터셋

LAION-400M은 새로운 아이디어를 촉발하기 위해 설계된 거대한 공개 자원입니다. 약 4억 개의 이미지가 짧은 캡션과 짝을 이루며, 정제되고 CLIP‑filtered됩니다.

#LAION-400M #image-text dataset #CLIP-filtered #multimodal AI #open data #machine learning #computer vision
3주 전 · ai

Gemini 3 API 마스터하기: 차세대 멀티모달 AI 애플리케이션 설계

대형 언어 모델이 진정한 멀티모달성을 만나다 Gemini 3 – 기술 심층 분석 대형 언어 모델(LLMs)의 풍경은 텍스트 중심 인터…

#Gemini 3 #multimodal AI #large language models #LLM API #Omni-Modal Transformer #AI agents #Google AI #AI application architecture
3주 전 · ai

새로운 Google DeepMind 사무실에서 싱가포르 분위기와 함께

이벤트 개요: 우리는 최근 싱가포르에 있는 새로운 Google DeepMind 사무실에서 100명의 빌더들을 초대하여 Google AI Studio와 G...를 활용한 바이브 코딩 세션을 진행했습니다.

#Google DeepMind #Gemini API #AI Studio #hackathon #Singapore #multimodal AI #job interview app #recipe generator #builder community

Newer posts

Older posts