Povieš mu: „Ahoj, vysvetli mi, ako funguje VPN“ a o pol sekundy ti odpovie ako najlepší kolega v kaviarni. Ale čo sa deje na pozadí, zatiaľ čo ty uvažuješ, či si dať vanilkový alebo lieskovoorieškový cheesecake?
Na pozadí sa zapne ohromné AI perpetuum mobile. Systém presmeruje tvoju požiadavku do najbližšieho dostupného datacentra. Potom sa spustí reťazová reakcia: ChatGPT a hardvér tvoria neoddeliteľný tím, kde miliardy parametrov v GPU ožijú ako včelí roj, aby ti odpovedali skôr, než si stihneš vyfúknuť penu z kapučína. Tisíce jadier spracujú tvoje slová, vyhodnotia ich zmysel, preložia, predikujú a ešte ich aj decentne okorenia štýlom.
A hoci to znie ako bežný cloudový operát, v realite sa niekde v clustri potí RTXko a na dashboarde blikne hláška: „GPU dosahuje teplotný limit.“
| Prečo sa to vlastne deje?
Keď OpenAI vydalo napríklad model DALL·E 3 alebo neskôr Soru, svet sa zmenil na jedno obrovské zadávanie promptov. Používatelia generovali:
- mačky v skafandroch
- dinosaury v cyberpunkovom Berlíne
- svokry ako Disney princezné
Tým spôsobili doslova pekelne horúcu inferenciu. GPU bežali v maximálnej záťaži, desiatky tisíc generácií naraz, a chladiace systémy mali viac práce než helpdesk po phishingovej kampani.
Niektoré GPU sa začali doslova zapekať. Systémoví administrátori reroutovali úlohy, vypínali clustre a presúvali inferenciu medzi regionálnymi uzlami. V niektorých prípadoch dočasne obmedzili služby, pretože AI model generoval viac obsahu, než zvládal samotný hardvér.
| Aké železo to vôbec poháňa?
Na pozadí beží GPU typu NVIDIA A100 alebo H100. Ide o výkonné monštrá so stovkami wattov príkonu a desiatkami gigabajtov VRAM. ChatGPT a hardvér tu hrajú dokonale zladený duet – kým ty píšeš vetu, oni už dávno šprintujú maratón výpočtov.
Bežná odpoveď z ChatGPT možno trvá len sekundu, no počas tej chvíle sa spustí počítanie ako pri simulácii počasia na tri dni dopredu.
GPU používa tisíce paralelných CUDA jadier, ktoré naraz spracovávajú vektorové operácie. Model (napr. GPT-4 Turbo) rozloží tvoju vetu na tokeny, analyzuje kontext, hľadá vzory a vyprodukuje odpoveď, ktorá sa ti zdá byť okamžitá. Ale nie je – v zákulisí sa pečie výpočtový guláš, pri ktorom by sa aj superpočítač potil.
| Neuveriteľné fakty, ktoré ti vyrazia dych
- Jeden inference request (odpoveď) z GPT-4 Turbo môže spotrebovať viac energie ako načítanie celej webstránky.
- OpenAI pri spusteniach nových modelov používa desaťtisíce GPU paralelne – niektoré odhady hovoria o 30 000+ NVIDIA A100 na jeden veľký deployment.
- Len za prvý mesiac po spustení GPT-4 Turbo model spracoval miliardy promptov – viac než akékoľvek AI predtým.
- Zásahy adminov pri prehrievaní GPU zahŕňali aj presun výpočtov na ďalšie kontinenty, aby sa zachoval uptime a stabilita služby.
- OpenAI modely (vrátane ChatGPT) bežia na superclusteroch GPU, ktoré fyzicky vlastní Microsoft a sú umiestnené v jeho globálnych dátových centrách.
| A čo si z toho vziať?
Keď nabudúce položíš jednoduchú otázku ako „Koľko je 5 + 7?“, spomeň si, že niekde vo svete sa možno rozsvietila LEDka na GPU, ktorá začala hučať ako turbína, a nejaký admin na dashboarde zazrel hlášku: „GPU THERMAL ALERT“.
| A teraz ty
Už si niekedy prehrial svoje GPU v počítači ? Alebo sa ti domáci stroj dostal do throttlingu, lebo si nechal bežať AI model na lokáli? ChatGPT a hardvér sú ako nespokojný pár v paneláku – on chce výpočty, ona chce chladiť – a ty len dúfaš, že to nebude rozvod cez BSoD. 😅
Napíš do komentárov, ako sa ti páči predstava, že tvoja nevinná otázka „naprogramuj mi sudoku v PHP“ mohla v San Franciscu spustiť sirénu na datacentre. Alebo aspoň niekomu v serverovni odpálila nočný režim, lebo sa zrazu 2000 GPU-čiek začalo potiť viac než ty pri daňovom priznaní. 😄





