- Gemini 3 uvodi duboko razmišljanje, dugi kontekst i nove modele (Pro, Flash i Pro Image) s alatima poput uzemljenja pretrage, pretrage datoteka i konteksta URL-a.
- Nove API kontrole kao što su thinking_level, media_resolution i thoughtSignatures omogućavaju vam podešavanje dubine zaključivanja, multimodalne vjernosti i tokova rada agenata.
- Migracija sa Geminija 2.5 zahtijeva ponovni pregled postavki temperature, zadanih postavki medija, potreba segmentacije slike i kompatibilnosti alata (npr. Mape i korištenje računara).
- Najbolji rezultati dolaze iz jasnih uputa, očuvanja misaonih potpisa, tretiranja svih modaliteta kao prvoklasnih inputa i postavljanja pitanja na kraj dugih konteksta.
Gemini 3 llega como la generación más potente de modelos Gemini y viene acompañada de un aluvión de cambios en la API diseñados para desarrolladores que quieren más control, más rendimiento y in flujos untrajos de agent IDE centar i agenti bazirani i VS kod. Desde nuevas formas de gestionar el razonamiento y la multimodalidad, hasta herramientas avanzadas para trabajar con archivos, búsqueda y grounding, la plataforma se ha ido puliendo version tras versión para soportar casos de uso cada compact.
Este artículo recopila y reordena de forma práctica todas las novedades clave de la API de Gemini relacionadas con Gemini 3 y su evolución desde Gemini 1.5 y 2.x, incluyendo modelos, parametros, herramientas relacionadas con Gemini 3 y su evolución desde Gemini 1.5 y 2.x, incluyendo modelos, parametros, herramientas relacionadas, precisions verzija prácticas de uso. La idea es que tengas en un único lugar una visión amplia: qué hay disponible hoy, qué ha quedado obsoleto, cómo sacar partido a las nuevas capacidades y qué debes tener presente si vienes de generaciones anteriores.
Evolución de la API de Gemini hasta Gemini 3
La historia de la API de Gemini arranca públicamente en diciembre de 2023 sa llegada de gemini-pro, gemini-pro-vision i el primer modela de embeddings embedding-001, junto con los canales v1 i v1.beta Desde entonces, la plataforma ha ido creciendo en modalidades, contexto, herramientas y modelos especializados, preparando el terreno para las capacidades de razonamiento y agentes que hoy vemos en Gemini 3.
U 2024., Gemini 1.5 Pro y 1.5 Flash se konsoliduje kao model za općeniti kontekst (uključujući verzije hasta 2M tokena) i kompaktne varijante kao gemini-1.5-flash-8b-001, mientras se postupno remitira model 1.0 Pro Vision. Ova etapa uvodi además la API de File, las instrukciones del system, el modo de llamada i función, el formato JSON de salida i nove opcije za sigurnost i kontrolu.
Finales de 2024 y comienzos de 2025 aparecen los modelos experimentales Gemini 2.0 Flash y Gemini 2.0 Flash Thinking, que traen bidirectional via la API de Live, multimodalidad más rica (tekst, slike i olovke) i "opening" i "open" Paralelno se sa lanza gemini-exp-1114 y gemini-exp-1121 kao modelos eksperimentales más potentes, y se aktuelizan los alias gemini-1.5-pro-latest y gemini-1.5-flash-latest para apuntar a last recientes mátes.
Durante 2025, serija Gemini 2.0 y 2.5 amplía el catálogo con modelos optimizados para coste (Flash-Lite), slike, video, robótica i audio izvorni, kao što su kapaciteti za uzemljenje sa Google Search, herramientas y file s kontekstom za pretraživanje Uživo. Ovo je kontekst u kojem se uvode también politicas de retirada de modelos, prilagođavaju cijene i cambios en la configuración por defecto, pripremaju se za Gemini 3.

Qué es Gemini 3 y qué modelos incluye
Gemini 3 es la nueva familia de modelos de Google centrala en razonamiento de última generación, agentes autonomos y comprensión multimodal profunda, diseñada para dar vida i flujos complejos de programción, investigación y generación de contenido. Su objetivo es ir más allá de "odgovornici" y convertirse en el motor de sistemas que piensan, planifican, llaman herramientas y se adaptan al contexto de forma continua.
Dentro de la serija Gemini 3 sadrži glavne modele i pregled verzije: gemini-3-pro-preview, gemini-3-flash-preview i gemini-3-pro-image-preview. Cada uno está especializado en un tipo de tarea, pero todos comparten una base de razonamiento avanzado, contexto largo y soporte para nuevas capacidades de la API como thinking_level, media_resolution y firmas de pensamiento.
Gemini 3 Pro es el modelo más capaz de la familia, pensado para tareas complejas que requieren amplio conocimiento del mundo, razonamiento profundo en múltiples modalidades y una fuerte orientación a agentes y código. Una ventana de contexto de entrada de hasta 1 millón de tokens i hasta 64.000 tokens de salida, con un cutoff de conocimiento enero de 2025 i un precio escalonado según el volume de tokens.
Gemini 3 Flash je varijantna optimizacija za brzinu i cijenu, nivo reciendo inteligencije Pro pero adaptada a applicaciones de alta requesta, mala latencia y gran volumen, Como chat de usuario final, extracción estructurada ili tareas repetitivas. Comparte el mismo contexto máximo que Pro (1M / 64K), mantiene el mismo cutoff de conocimiento y se ofrece con precios significativamente más bajos por millón de tokens de entrada y salida.
Gemini 3 Pro Image (también denominado internamente kao Nano Banana Pro) je model slike gradonačelnika calidad de la familia, sa kapacitetima avanzadas de generación y edición, uključujući renderizado de texto nítido, resoluciones de fluenced conversacionales que se apoyan fuertemente en las firmas de pensamiento. Dispone de un contexto de entrada de 65.000 tokens y 32.000 tokens de salida, con una estructura de precios diferenciada entre tokens de texto de entrada y generación de imagenes.
Nuevos parametros de la API en la serie Gemini 3

Una de las grandes novedades de Gemini 3 es la introducción de parametros pensados específicamente para controlar el razonamiento interno del modelo, el coste y la fidelidad multimodal: thinking_level, media_resolution y las thinkSignatures. Estos cambios buscan que puedas equilibrar latencia, precio y calidad visual o de razonamiento sin recurrir a trucos de prompt engineering excesivamente complejos.
Control del razonamiento con thinking_level
Los modelos de Gemini 3 utilizan de forma nativa un mecanismo de razonamiento dinámico, y el nuevo parametro thinking_level te permite establecer el límite máximo de profundidad del “pensamiento interno” antes de que modelo. No se trata de un número exacto de tokens, sino de niveles relativos que el modelo interpreta como guías de hasta dónde debe pensar.
Si no se especifica thinking_level, Gemini 3 Pro y Flash usan por defecto el nivo high, que prioriza la calidad del razonamiento sobre la latencia. Cuando tu caso de uso exige respuestas más rápidas y no necesita reflexión profunda (por ejemplo, extracción estructurada, pequeñas transformaciones o resúmenes muy directos), puedes limitar el nivel a low para reducir coste resu y tiempo de.
Gemini 3 Pro y Flash comparten dos niveles basicos de pensamiento: low y high. El modo low minimiza el coste y el tiempo de inicio de la respuesta, idealno para instrucciones sencillas y aplicaciones de alto propusnost; high maximiza la profundidad del razonamiento, lo que puede retrasar la aparición del primer token, pero production respuestas más elaboradas en tareas como análisis estratégico, debugging complejo ili problems matemáticos avanzados.
Gemini 3 Flash amplia s više kontrole od minimalnog i srednjeg recenzije, nije dostupan u Gemini 3 Pro. El modo minimal se aproxima a un comportamiento “sin pensar” para la mayoría de usos, aunque el modelo puede seguir razonando ligeramente en tareas de programación difíciles, mientras que medium ofrece un equilibrio intermedio entre coste, latencia de razmiona profund.
Es importante tener en cuenta que no puedes emplear thinking_level y el parametro heredado thinking_budget en la misma llamada a la API, ya que se proizvodi greška 400. thinking_budget se mantiene únicamente por compatibilidad con integraciones antiguas, pero la recomendación es migrar progresivamente a thinking_level para lograr un control más claro y predecible.
Kontrola vizualne vjernosti u media_resolution
Parametar media_resolution uvodi kontrolne granularne tokene cuántos de contexto se dodjeljuje cada imagen, PDF ili fotograma de vídeo, lo que te dozvoljava ajustar la calidad de la visión multimodal frente al coste y la latencia. Las resoluciones más altas permiten leer texto pequeño y deteter detalles finos, pero aumentan el consumo de tokens.
Konfigurira media_resolution nižu globalnu (travels de generation_config) ili por cada parte de contenido, koja vrijedi kao media_resolution_low, media_resolution_medium, media_resolution_high y, para algunos casos, media_resolution_ultra_high. Si no se establece explícitamente, el modelo aplica valores predeterminados diferentes según el tipo de medio, buscando un equilibrio razonable.
Za slike, preporuka za konfiguraciju suele ser media_resolution_high, koja ima 1120 tokena na slici u ofrece una calidad suficiente para la mayoría de tareas de analisis visual. Los niveles más bajos (nisko ili srednje) reparten menos tokens y pueden ser útiles para conjuntos de imagenes grandes donde la prioridad es el volume y no el detalle fino.
Sa PDF-ovima, media_resolution_medium (560 tokena) suele ser el punto óptimo: en la practica, subir a high rara vez mejora los resultados de OCR en documentos estándar, por lo que acostumbra i ser un mal intercambio en términos de coste. Para documentos especialmente densos o con maquetados complejos, puedes experimentar con high, pero no suele ser necesario.
En video, la lógica cambia: tanto media_resolution_low como media_resolution_medium se comprimen de forma agresiva y asignan unos 70 tokena por fotograma, suficientes para la mayoría de tareas de reconocimiento de acciones general ili descripción. Solo cuando necesites leer mucho texto en pantalla (subtítulos densos, paneles, dashboard) tiene sentido passar a media_resolution_high, que puede llegar a unos 280 tokena por fotograma para mejorar la lectura.
Preporučena temperatura kod Blizanaca 3
Una diferencia relevante respecto a modelos anteriores es que en Gemini 3 se preporučuje mantener la temperature en su valor por defecto de 1.0, incluso en tareas que antes se trabajaban con temperatures bajas para ganar determinismo. El modelo ha sido optimizado para razonar correctamente con esta configuración, y tocarla puede tener efectos contraintuitivos.
Reducir la temperature en Gemini 3 (primjerno, por debajo de 1.0) puede provocar comportamientos no deseados como bucles, respuestas extrañamente rígidas o degradación del rendimiento en tareas de razonamiento complicados problem. Si tu código heredado ajusta de forma agresiva la temperature, conviene revisar y, en muchos casos, eliminar ese ajuste al migrar a Gemini 3.
Firmas de pensamiento (thoughtSignatures) y validación estricta
Las firmas de pensamiento son representaciones cifradas del processo de razonamiento interno de Gemini 3 que el modelo emite en determinadas respuestas y que debes reenviar en llamadas posteriores para preservar la cadena de razonamiento. Son un componente clave para agentes de varios pasos, edición de imágenes conversacional y flujos complejos de llamadas a funciones.
Funkcioniše i API aplikacija validación estricta sobre el “turno current”: ako falta una thinkSignature requerida, la petición fallará con un error 400. Esto afecta tanto a llamadas simples a una sola herramienta como a secuencias de varios pasos (p. ej., consultar un vuelo, recibir resultados, reservar un taxi) ya escenarios de llamadas en paralelo, donde la primere firma functionCall su
Engeneración de texto o chat estándar, la validación no es estricta, es decir, la API no devolverá un error si omites las firmas, pero la calidad del razonamiento y de las respuestas puede disminuir de manera perceptible, conversual contextase dependencies, conversual contextase muchdependent. Por ello, aunque no sea obligatorio, se recomienda devolver cualquier thoughtSignature que recibas para mantener el rendimiento del modelo.
En generación y edición de imagenes con gemini-3-pro-image-preview, la validación vuelve a ser estricta: las firmas están garantizadas en la primera parte tras el razonamiento (texto ili inlineData) y en todas, das de luster las partes inlines in íntegramente al solicitar ediciones o nuevos pasos del flujo visual. De lo contrario, la API devolverá errores 400 y el modelo perderá el hilo sobre la composición original.
Koristimo službene SDK (Python, Node, Java) i historijski chat estándar, la buena noticia es que la gestión de thoughtSignatures se realizuje de forma automática, por lo que no tendrás que manipularlas manualmente. El trabajo manual solo es necesario cuando construyes wrappers personalizados de bajo nivel o diseñas interacciones fuera de los flujos estándar de los SDK.
En situaciones donde importas un historial de conversación desde otro modelo (primjerno, Gemini 2.5) o creas bloques de functionCall a mano sin firmas válidas, puedes desactivar la validación estricta para ese contexto usando unought valor “Screaignthio concreignto ficture” “context_engineering_is_the_way_to_go”. Esta cadena se reconoce como un bypass controlado para migraciones y contextos artificiales.
Modelos y herramientas clave en la transición a Gemini 3
Gemini 3 bez llega en el vacío: apoya en una larga serie de lanzamientos y retiradas de modelos Gemini 1.5, 2.0 y 2.5, así como en un un ecosistema de herramientas za uzemljenje, búsqueda en archieocontext URL Entender este contexto te ayuda a decidir qué mantener, qué migrar y qué evitar.
U ovoj verziji Gemini 2.5, lanzan modeli kao gemini-2.5-pro, gemini-2.5-flash, gemini-2.5-flash-lite, izvorne audio verzije za API de Live, varijante specifikacija za TTS (Flash i Pro model sa slike) u 3.xe Slika 4 i različite modalidade. Paralelamentno je predstavljen Gemini Robotics-ER 1.5, modeli ugradnje kao gemini-embedding-001 i deprecan prethodne generacije kao embedding-001 ili text-embedding-004 sa ograničenim brojem poruka.
En cuanto a herramientas, Gemini 3 podržava Búsqueda de Google za uzemljenje, File Search, ejecución de codigo y contexto de URL, además de la llamada i función estándar para tus propias herramientas personalizadas. Sin embargo, funcionalidades como Grounding with Google Maps o Computer Use no están todavía habilitadas para Gemini 3, por lo que seguirán ligadas a modelos anteriores ili flujos alternativos.
Pricing de Grounding con Google Search también cambia para favorecer flujos agentic dinámicos: napustite model tarifnog plana od US$35 za 1.000 promptova i možete preuzeti tarifu za uso más fino de US$14 za cada 1.000 konsultovati. Esto encaja mejor con agentes que mezclan llamadas de búsqueda con otros tipos de acciones.
Nivel de retirada de models, se han ido desactivando paulatinamente varijante Gemini 1.5 y 2.x, uključujući gemini-1.5-pro, gemini-1.5-flash, gemini-1.5-flash-8b, distintos-proviews-y 2.5. Live y models de imagen como gemini-2.5-flash-image-preview, con fechas concretas de cierre a finales de 2025 i inicios de 2026. Obvezno je planirati migraciju na Gemini 2.5 i usmjeriti ga u seriji Gemini 3.
Migracija od Blizanaca 2.5 do Blizanaca 3
Prebacite Gemini 2.5 na Gemini 3, što je važno kao što je pasando de modelos poderosos u una familia centrada explícitamente en razonamiento, lo que cambia ciertas habituales de prompt engineering. Muchas técnicas utilizadas para forzar cadenas de pensamiento, como prompts extremadamente detallados, pueden ser contraproducentes o redundantes.
Ako je potrebno da koristite upite za detaljne upute za Gemini 2.5, koristite Gemini 3 na nivou razmišljanja: “visoki” y upitima más koncisne i upute. El modelo ya está diseñado para razonar en profundidad cuando se le indica, por lo que no necesita tanta “coreografía” textual.
Revisa también cualquier configuración explícita de temperature en tu código existente: si fijabas valores muy bajos para obtener respuestas deterministas, es probble que prefieras eliminar ese ajuste ajuste y confiar en el valor por defecto defecto defectos extra. rendimiento en tareas complejas. Si de todos modos necesitas controlar parcialmente la variabilidad, hazlo con pequeñas variaciones y pruebas exhaustivas.
En lo relativo a documentos y PDFs, ten en cuenta que la resolución de OCR por defecto ha cambiado, lo que puede alterar el consumo de tokens. La migración a los valores por defecto de Gemini 3 puede incrementar el coste para PDFs (por una mayor resolución) y, a la vez, reducirlo para video gracias a la compresión más agresiva en media_resolution.
Si tus flujos de trabajo zavisi od segmentacije slika sa mascarima i nivoom piksela, debes saber que Gemini 3 Pro y Gemini 3 Flash no ofrecen esta funcionalidad. Ovo je casos, službena preporuka je za korištenje Gemini 2.5 Flash sa modom deaktivacije Pensamiento deaktivacije Gemini Robotics-ER 1.5, koji je glavni alineados sa teretnim automobilom.
Por último, ten presente que las herramientas de grounding con Google Maps y Computer Use aún no son compatibles con los modelos de Gemini 3, y tampoco está soportada la combinación de herramientas integradas (como Search) con llamadas a funcación personalisation. Esto condiciona cómo diseñas tus agentes híbridos y puede requerir orquestación de varios modelos.
Kompatibilnost sa tipom API-ja OpenAI i strukturiranim rezultatima
Ako želite da koristite tip kompatibilnosti OpenAI, transición a Gemini 3 rezultat je más suave porque parametros families se mapean automáticamente a sus equivalentes en Gemini. El caso más visible es rezoning_effort, que se traduce a thinking_level en la API de Gemini.
Conviene saber que el nivel medium de reasoning_effort se interpreta como una prioridad alta de thinking_level en Gemini, por lo que los cambios de comportamiento pueden ser más marcados si dabas por hecho que medium era un punto intermedio “neutro”. Ajustar explícitamente thinking_level puede darte un control más fino que delegar todo en la capa de compatibilidad.
Modeli Gemini 3 dozvoljavaju kombinovane herramientas integradas kao uzemljenje sa Google pretragom, kontekst URL-a i unos koda sa salidas estructuradas (primjerno, JSON) definirane i sheme respuesta. Esto es especialmente útil para agentes que tienen que rascar información en tiempo real y volcarla en estructuras limpias para pipelines posteriores.
Paralelno, Gemini 3 Pro Image provjerava kapacitete uzemljenja para generarnih slika i stvarnih podataka (klima, finansijeri, información noticiosa) prije produkcije slike alta fidelidad. De esta forma se reducira las alucinaciones visuales en contextos donde la precisión factual es crítica.
Praktični rad za Gemini 3 Pro i Flash
La forma de conseguir buen rendimiento con Gemini 3 cambia ligeramente respecto a generaciones anteriores: el modelo prefiere instrucciones claras, razonamiento controlado vía parametros y un manejo cuidadoso del contexto largo. Forzarle con prompts excesivamente rebuscados puede hacer que “sobreanalice” partes irelevantes.
Nivel de temperature, la recomendación firm es dejarla en 1.0 salvo que tengas un motivo muy específico y controlado para modificarla. Gemini 3 ya equilibra creatividad y preciznost i este valor, y los ajustes arbitrarios pueden producir efectos raros que antes se arreglaban ajustando la temperature pero que ahora se abordan mejor con thinking_level.
En cuanto a estilo de salida, Gemini 3 tiende a ser menos verboso por defecto y prioriza respuestas directas y eficientes. Si tu caso de uso requiere un tono más conversacional o “charla de café”, debes pedirlo de forma explícita en las instrucciones, indicando el rol, el tono y el nivel detalle deseado.
Para tareas multimodales, trata texto, imagenes, audio y video como entradas de primera clase y haz referencias claras a cada modalidad en tus instrucciones. Esto ayuda a que el modelo fusione la información de todos los medios en lugar de processarlos como piezas aisladas, lo que se traduce en respuestas más coherentes cuando combinas, por ejemplo, código fuente text, diagram.
Cuando trabajes con contextos muy largos (libros completos, bases de codigo extensas, videos de larga duración), coloca tus preguntas o instrucciones específicas al final del prompt, después del bloque de datos. Es útil anclar el razonamiento con frases como “Basándote en la información anterior…” para que el modelo conecte explícitamente la pregunta con el contexto previo.
Gemini 3 marca un salto importante en la API de Gemini al combinar razonamiento de vanguardia, control fino de cómo piensa y cómo procesa medios, nuevas herramientas para grounding y contexto, y un marco claro de migración desde Gemini 2.5, de multi construlicacione agent, pued modal construlicaciones y flujos complejos con más estabilidad, menos prompt engineering forzado y un control mucho mayor sobre coste, latencia y calidad de las respuestas.