Spustit vlastní LLM model zní dnes lákavěji než kdy dřív – jenže hardware rozhoduje o tom, zda projekt poběží, nebo se zadrhne hned na startu. Souboj CPU vs. GPU není akademický – jde o rozdíl mezi desítkami tokenů za sekundu a minutami čekání na jednu odpověď. Proč grafická karta s dostatkem VRAM nemá v oblasti umělé inteligence prakticky žádnou konkurenci? A kde leží strop, na který narazí každý, kdo sáhne po procesoru místo GPU?
Velké jazykové modely (LLM) nejsou složité jen tím, kolik dat spotřebují – jsou složité tím, jaký typ výpočtů vyžadují a jak rychle je potřebují provést. Právě v tom leží odpověď na otázku, proč srovnání CPU vs. GPU skoro vždy dopadá stejně. Procesor přitom není špatný nástroj – jen je určený pro jiný druh práce.
Tisíce jader versus desítky – a proč na tom záleží
Procesor pracuje jako vysoce specializovaný řemeslník – zvládne prakticky jakoukoli operaci, ale s přimhouřením oka je dokončuje jednu po druhé. Grafická karta je oproti tomu továrna s tisíci linkami pracujícími najednou: tam, kde CPU disponuje typicky 8 až 64 výkonnými jádry, nabízí například NVIDIA A100 přes 6 900 specializovaných CUDA jader.
LLM modely při zpracování každého tokenu provádějí obrovské maticové násobení – operaci, která se přirozeně rozkládá do stovek tisíc souběžných výpočtů. Procesoru trvá totéž, co GPU zvládne za zlomek vteřiny, řádově déle. V praxi to znamená, že i špičkový serverový procesor při inferenci generuje jednotky tokenů za sekundu, zatímco GPU se stejnou úlohou pracuje od desítek po stovky tokenů za sekundu.
VRAM – paměť, bez které LLM model ani nenastartuje
Rychlost GPU nestačí sama o sobě – stejně zásadní je množství VRAM, tedy paměti přímo na čipu grafické karty. Model musí mít svá data – váhy, aktivace, a při trénování i gradienty – neustále k dispozici s minimální latencí. Jakmile se model do VRAM nevejde, systém začne přesouvat části dat do systémové RAM nebo na disk, což výkon srazí na zlomek původní hodnoty.
Konkrétní čísla ilustrují nároky lépe než jakýkoli popis: Llama 3 v osmimiliardové variantě vyžaduje minimálně 16 GB VRAM. Sedmdesátimiliardová verze pak v plné přesnosti FP16 potřebuje přibližně 140 GB – tedy výkon několika profesionálních GPU karet dohromady. Přepadne-li část modelu do systémové paměti, inference se v praxi zpomalí přibližně pětkrát. Při trénování jsou nároky ještě vyšší, protože GPU musí průběžně uchovávat gradienty pro zpětnou propagaci chyby.
Trénování LLM modelu – kdy nároky skutečně přerostou jeden server
Inference – tedy samotné generování odpovědí – představuje jen část příběhu. Trénování nebo fine-tuning LLM modelu staví hardwarové požadavky na úplně jinou úroveň: GPU musí vedle vah modelu průběžně uchovávat gradienty a mezivýsledky aktivací, což paměťové nároky násobí třikrát i víckrát oproti pouhé inferenci.
Fine-tuning sedmimiliardového modelu tak vyžaduje zpravidla 28–40 GB VRAM, trénování od nuly pak výkon odpovídající celému clusteru GPU karet. Na konzumentském hardwaru tyto operace technicky proběhnou – jen trvají tak dlouho, že projekt reálně stojí. Pro seriózní práci s umělou inteligencí proto přichází do hry dedikovaná GPU infrastruktura.
Dedikované GPU servery – kde se rozhodnutí CPU vs. GPU převede do praxe
Algotech.cz nabízí dedikované grafické servery osazené kartami NVIDIA A100 80 GB – stroje, které obstojí i tam, kde spotřebitelský hardware vzdává. Firmy tak získají stabilní výpočetní výkon bez nutnosti vlastnit fyzický hardware, starat se o jeho chlazení nebo řešit výpadky.
Pronájem dedikovaného GPU serveru přitom přináší i další výhody – garantovanou dostupnost 99,99 %, technickou podporu 24/7 a transparentní ceny bez skrytých poplatků. Pro organizace, které pracují s umělou inteligencí na denní bázi – ať už jde o inferenci v reálném čase, fine-tuning nebo vývoj vlastních modelů – je tato cesta rychlejší a předvídatelnější než budování vlastní GPU infrastruktury od nuly.