À la Une · Modèles ouvertsFront Page · Open ModelsSchlagzeilen · Offene ModellePrima pagina · Modelli apertiIn prima pagina · Modèll Avert
Google DeepMind lance Gemma 4 12B, un modèle multimodal qui tourne sur un simple laptopGoogle DeepMind launches Gemma 4 12B, a multimodal model that runs on a simple laptopGoogle DeepMind lanciert Gemma 4 12B, ein multimodales Modell für den einfachen LaptopGoogle DeepMind lancia Gemma 4 12B, un modello multimodale che gira su un semplice laptopGoogle DeepMind el lanza Gemma 4 12B, on modèll multimodal che 'l gira sora on laptop sempliz
Le nouveau modèle open-source traite texte, image et audio sans encodeur dédié et fonctionne sur une machine dotée de 16 Go de RAM.The new open-source model processes text, image and audio without a dedicated encoder and runs on a machine with 16 GB of RAM.Das neue Open-Source-Modell verarbeitet Text, Bild und Audio ohne dedizierten Encoder und läuft auf einem Rechner mit 16 GB RAM.Il nuovo modello open-source elabora testo, immagini e audio senza encoder dedicato e funziona su una macchina con 16 GB di RAM.El noeuv modèll open-source el trata test, immagin e audio senza encoder dedicad e 'l fonziona sora ona macchina dotada de 16 GB de RAM.
De la rédaction — 4 juin 2026From the editorial desk — 4 June 2026Von der Redaktion — 4. Juni 2026Dalla redazione — 4 giugno 2026De la redazzion — 4 giugno 2026
Google DeepMind a dévoilé mercredi Gemma 4 12B, un modèle multimodal dense qui se distingue par une architecture dite « sans encodeur » : les données visuelles et audio sont injectées directement dans le backbone du grand modèle de langage, sans passer par des modules de vision ou de codage audio séparés. Cette approche, détaillée dans le guide développeur publié par Google, permet au modèle d'atteindre des performances proches de celles de son grand frère Gemma 4 26B tout en consommant moitié moins de ressources.Google DeepMind unveiled Wednesday Gemma 4 12B, a dense multimodal model distinguished by a so-called 'encoder-free' architecture: visual and audio data are injected directly into the large language model backbone, without passing through separate vision or audio encoding modules. This approach, detailed in the developer guide published by Google, allows the model to achieve performance close to that of its larger sibling Gemma 4 26B while consuming half the resources.Google DeepMind hat am Mittwoch Gemma 4 12B vorgestellt, ein dichtes multimodales Modell, das sich durch eine sogenannte «encoderfreie» Architektur auszeichnet: Visuelle und Audiodaten werden direkt in das Backbone des grossen Sprachmodells eingespeist, ohne separate Bild- oder Audio-Codierungsmodule. Dieser Ansatz, der im von Google veröffentlichten Entwicklerleitfaden detailliert beschrieben wird, ermöglicht es dem Modell, eine Leistung zu erzielen, die der seines grossen Bruders Gemma 4 26B nahekommt, bei halbem Ressourcenverbrauch.Google DeepMind ha svelato mercoledì Gemma 4 12B, un modello multimodale denso che si distingue per un'architettura detta « senza encoder »: i dati visivi e audio vengono iniettati direttamente nel backbone del grande modello linguistico, senza passare attraverso moduli di visione o codifica audio separati. Questo approccio, dettagliato nella guida per sviluppatori pubblicata da Google, consente al modello di raggiungere prestazioni vicine a quelle del suo fratello maggiore Gemma 4 26B consumando la metà delle risorse.Google DeepMind l'ha presentaa mercoldì Gemma 4 12B, on modèll multimodal dens che 'l se distingua per ona architettura ciamada « senza encoder »: i dati visiv e audio hinn iniettad direttament in del backbone del grand modèll de lengoeu, senza passà per di modul de vision o de codifega audio separaa. 'Sto approcc, dettagliaa in del guida desvilupador publicada de Google, el permet al modèll de rivà a di prestazion arent a quei del sò fradell grand Gemma 4 26B, consumand la metà di risorse.
Le modèle, disponible sous licence Apache 2.0, supporte un contexte allant jusqu'à 256 000 tokens et couvre plus de 140 langues. Selon The Decoder, il s'agit du premier modèle multimodal de cette taille capable de fonctionner sur un ordinateur portable grand public avec 16 Go de RAM, ouvrant la voie à des workflows agentiques et à du traitement de données entièrement locaux. Google a également publié des variantes pré-entraînées et instruction-tunées, ainsi que des poids ouverts.The model, available under the Apache 2.0 license, supports a context of up to 256,000 tokens and covers more than 140 languages. According to The Decoder, it is the first multimodal model of this size capable of running on a consumer laptop with 16 GB of RAM, paving the way for agentic workflows and fully local data processing. Google has also released pre-trained and instruction-tuned variants, as well as open weights.Das unter der Apache-2.0-Lizenz verfügbare Modell unterstützt einen Kontext von bis zu 256'000 Tokens und deckt über 140 Sprachen ab. Laut The Decoder handelt es sich um das erste multimodale Modell dieser Grösse, das auf einem handelsüblichen Laptop mit 16 GB RAM lauffähig ist, und ebnet den Weg für agentische Workflows und vollständig lokale Datenverarbeitung. Google hat zudem vortrainierte und instruktionsgetunte Varianten sowie offene Gewichte veröffentlicht.Il modello, disponibile con licenza Apache 2.0, supporta un contesto fino a 256.000 token e copre oltre 140 lingue. Secondo The Decoder, si tratta del primo modello multimodale di queste dimensioni in grado di funzionare su un computer portatile consumer con 16 GB di RAM, aprendo la strada a flussi di lavoro agentici e all'elaborazione dei dati interamente locale. Google ha inoltre pubblicato varianti pre-addestrate e instruction-tuned, oltre a pesi aperti.El modèll, disponibil sotta licenza Apache 2.0, el supporta on contest fina a 256 000 token e 'l quatta pussee de 140 lengoeu. Segond The Decoder, l'è el prim modèll multimodal de 'sta grandezza bon de fonzionà sora on ordenador portatil de consum cont 16 GB de RAM, dervend la strada a di fluss de lavorà agentigh e a di tratament de dacc completament locai. Google l'ha anca publicaa di variant pre-inalvad e istruzzion-tunad, insema a di pes avert.
La sortie de Gemma 4 12B s'accompagne d'outils concrets pour les développeurs : le framework Google AI Edge Gallery permet d'exécuter le modèle sur macOS avec exécution dynamique de code Python, tandis que LiteRT-LM CLI propose une nouvelle commande serve créant un endpoint local compatible avec les standards de l'industrie. La communauté r/LocalLLaMA a immédiatement salué cette sortie, tandis que des rumeurs évoquent déjà l'arrivée prochaine d'une variante 120B du modèle.The release of Gemma 4 12B comes with concrete tools for developers: the Google AI Edge Gallery framework allows the model to run on macOS with dynamic Python code execution, while LiteRT-LM CLI introduces a new serve command creating a local endpoint compatible with industry standards. The r/LocalLLaMA community immediately welcomed this release, while rumors already hint at an upcoming 120B variant of the model.Die Veröffentlichung von Gemma 4 12B wird von konkreten Tools für Entwickler begleitet: Das Google AI Edge Gallery Framework ermöglicht die Ausführung des Modells unter macOS mit dynamischer Ausführung von Python-Code, während die LiteRT-LM CLI einen neuen Befehl serve bereitstellt, der einen lokalen, mit Industriestandards kompatiblen Endpunkt erzeugt. Die Community r/LocalLLaMA hat diese Veröffentlichung umgehend begrüsst, während bereits Gerüchte über das baldige Erscheinen einer 120B-Variante des Modells kursieren.L'uscita di Gemma 4 12B è accompagnata da strumenti concreti per gli sviluppatori: il framework Google AI Edge Gallery consente di eseguire il modello su macOS con esecuzione dinamica di codice Python, mentre LiteRT-LM CLI propone un nuovo comando serve che crea un endpoint locale compatibile con gli standard del settore. La comunità r/LocalLLaMA ha immediatamente accolto con favore questa uscita, mentre circolano già voci sull'imminente arrivo di una variante 120B del modello.La sortida de Gemma 4 12B l'è compagnada de strüment concret per i desvilupador: el framework Google AI Edge Gallery el permet de eseguì el modèll sora macOS con esecuzion dinamica de codes Python, intant che LiteRT-LM CLI la propon ona noeuva commanda serve che la crea on endpoint local compatibil cont i standard de l'industria. La comunità r/LocalLLaMA l'ha subet salutad 'sta sortida, intant che di vos ghe disen sgiamò de l'arrivada vesina de ona variant 120B del modèll.