Hastigheden af specialiserede AI-modeller under inferens afhænger kraftigt af modellens kompleksitet samt den anvendte hardware. Mens enkelte forudsigelser kræver mindre beregningskraft end træning, nødvendiggør levering af millioner af realtidsforudsigelser en optimeret og skalerbar infrastruktur.
Specialiseret hardwareacceleration kan øge hastigheden betydeligt. For simple modeller måles inferens ofte i millisekunder, mens komplekse deep learning-systemer kan tage flere sekunder. Optimeringsteknikker som kvantisering og specialiseret hardware kan potentielt reducere latenstiden til under 100 millisekunder.
Specifikke chips såsom Groq LPU, Taalas HC1, Etched og Cerebras kan udkonkurrere GPU'er i forhold til tokens per watt og latenstid. Når man sammenligner AI-modeller, bør man se på flere dimensioner herunder intelligens, prissætning, outputhastighed målt i tokens per sekund samt latenstid for det første token og den samlede svartid.