Gemini 3 Flash'ın görsel muhakeme ile kod yürütmeyi birleştiren yeni yeteneği: Agentic Vision

Google, Gemini 3 Flash için Agentic Vision yeteneklerini duyurdu. Şirket, Gemini gibi ileri seviye modellerin genellikle dünyayı tek bir statik bakışta işlediğini belirtiyor. Bu modeller, mikroçipteki…

Google, Gemini 3 Flash için Agentic Vision özelliklerini duyurdu. Şirket, ileri seviye modellerin genellikle detayları kaçırabildiğini belirtiyor ve Gemini 3 Flash’ın Agentic Vision sayesinde görüntü anlamını ajansal bir sürece dönüştürdüğünü vurguluyor. Model, kod yürütme ile birleştirilerek görüntüleri adım adım işlemek ve yakınlaştırmak için planlar yapıyor. Gemini 3 Flash ile kod yürütme etkinleştirildiğinde %5 ila %10 arasında kalite artışı sağlanıyor. Agentic Vision, “Düşün, Harekete Geç, Gözlemle” döngüsünü kullanarak çalışıyor. Model, kullanıcı sorgusunu analiz ederek planlar oluşturuyor ve görüntüleri işlemek için Python kodu oluşturuyor. Gemini 3 Flash, görüntüdeki detayları algıladığında yakınlaştırma yapabiliyor ve Python kodunu çalıştırarak bulguları görselleştirebiliyor. Agentic Vision yeteneği, Gemini uygulamasında Thinking modeli ile sunulmaya başlandı. Geliştiriciler, bu yeni yeteneğe Google AI Studio ve Vertex AI’daki Gemini API ile erişebilir.