OpenAI har presenterat en ny arkitektur som passerar biljonparametersgränsen och, enligt bolaget, sänker inferenskostnaden per token. Det viktiga är inte siffran i rubriken, utan vad den signalerar om var de ledande labben lägger sin kraft.

Vad som faktiskt ändrades

Enligt rapporten kommer vinsterna från omstrukturerad mixture-of-experts-routing snarare än ren skala. Det är den röda tråden genom veckans släpp: effektivitet blir den konkurrensmässiga axeln, inte enbart storlek.

För dem som bygger produkter är slutsatsen smalare latens- och kostnadsramar — vilket gör vertikala, konsumentnära AI-produkter hållbara på tunna marginaler.

Varför det spelar roll

Beskedet kommer när modellagret konsolideras. När alla har tillgång till kapabla modeller flyttar den varaktiga fördelen uppåt i stacken — till distribution, identitet och domändjup.