LLM modely na tvorbu vlastných AI agentov
Čo to znamená
Keď k nám v roku 2020 prvýkrát prišiel nový kolega, ktorý v tom čase študoval a špecializoval sa na hlboké neurónové siete, takmer nikto v miestnosti mu najskôr nerozumel. Diskusie a vývoj vlastnej AI nabral rýchle obrátky a o pár mesiacov na to, sme releasovali vlastný Chatbot, vlastný AI Recommender a v roku 2025 aj prvú internú verziu AI agenta, ktorého knowledge base bola, samozrejme, ešte niekde úplne inde, ako je dnes.
Viac info
Dnes máme teda za sebou nie mesiac, ale roky vývoja AI riešení a naše dnešné (opäť vlastné) je priamo napojené na API od Anthropicu a to bez frameworkov, jednoducho na vlastnom kóde s vlastným SKILL.md, v ktorom si ukladá poznatky, kontext aj chyby, ktorým sa má vyvarovať. Momentálne pripravujeme procesy a postupy na to, kto a ako môže odovzdávať know-how AI agentovi, aby sa učil skutočne od tých najlepších, a toto know-how ďalej šíril.
A práve preto vieme povedať, čo v roku 2026 pri stavbe agentov skutočne funguje a kde sú ich limity.
Ak si dnes chcete postaviť vlastného AI agenta, kľúčová otázka už nie je či, ale na akom modeli ho postaviť, pretože výber LLM (Large Language Modelu) zásadne ovplyvňuje:
- kvalitu výstupov
- mieru autonómie
- náklady
- aj to, ako veľmi budete musieť agenta „strážiť“
Ako sa porovnávajú LLM modely?
Aktuálne je na trhu dostupných niekoľko popredných tvorcov svetových LLM modelov. Takmer každý mesiac sa navzájom predbiehajú v tom, kto releasne lepší, kvalitnejší a rýchlejší jazykový model. Ako sa ale dá určiť jeho kvalita bez toho, aby ste ho testovali v praxi?
LLM modely sa porovnávajú cez benchmarky ako:
- MMLU (všeobecné vedomosti)
- HumanEval (kódovanie)
- GSM8K (logika, matematika)
- bar exam / právnické testy v USA (argumentácia, práca s komplexným textom)
Je dôležité ale povedať, že benchmark, čiže to, čo funguje v teste, nemusí fungovať rovnako aj v realite. Najmä rýchlosť spracovania maximálneho počtu požiadaviek za sekundu sa ukazuje častokrát až v praxi. Platí však minimálne trend a jednotlivé rankovanie modelov.
1. Anthropic (Claude Opus)
Najlepší pre komplexných agentov a reasoning. Veľmi obľúbený pre developerov, pretože je prehľadný, všetky tooly má v sebe natívne
Claude dokáže veľmi kvalitne zhodnocovať aktuálny kontext, podľa potreby si dokáže volať tooly (externé nástroje ako GA4, GSC a podobne), od ktorých dopytuje informácie. Dokáže spracovať dodané informácie, zhodnotiť ich objem a ak nemá dostatok dát, dokáže sa dopýtať iného toolu na dozbieranie dostatku dát na vyhodnotenie.
Je to jeden z drahších modelov. Jeho cena sa v čase môže meniť, ale aktuálne sa to hýpe pri inpute na $10–15 / 1M tokenov, pri outpute $30–75 / 1M tokenov
2. OpenAI (GPT-4.1 / GPT-4o)
Je to najuniverzálnejší ekosystém. OpenAI bol dlho považovaný za najlepšieho tvorcu LLM modelov, pričom z trónu ho zhodil Anthropic vďaka vyššie spomenutým výhodám claude, ktoré sú prirodzene nevýhodou GPT. Medzi najväčšie výhody patrí výborný pomer ceny vs kvalita, silný coding performance a široká škála integrácie.
Cena sa orientačne (podľa modelu) hýbe v inpute $5–10 / 1M tokenov, v outpute ~ $15–30 / 1M tokenov.
Medzi jeho nevýhody patrí najmä to, že pre prográmatorov neposkytuje vlastnú natívnu infraštruktúru a využíva napríklad Copilota od Microsoftu.
3. Google DeepMind (Gemini)
Je určite najlepší pre multimodálne agent systémy (text, obraz, video) a poskytuje silné napojenie na Google stack
Cenono patrí k tým lacnejším riešeniam: input ~ $3–10 / 1M tokenov a output: ~ $10–30 / 1M tokenov
4. Open-source modely (LLaMA, Mistral, Mixtral)
Najlepšie pre kontrolu a infra, open source - čiže si ich vieš rozbehať u nich, ale aj u seba na lokále, pričom ak ich rozbeháš u seba, tak sú násobne pomalšie. V prípade, ak to beži na infraštruktúre silných serverov, štatistické prepočty.
Vyhoda je, ze je to uatvoreny system na lokalnom compe bez pristupu na interner, ak bezi len na lokalnej sieti, nic nikam nepustas, je to jediny sposob ako drzat bezpecnost.
Prečo:
- plná kontrola nad dátami
- on-premise nasadenie
Cena:
- žiadna priama cena za model
- ale: infra náklady (GPU, hosting)
→ od stovák po tisíce € mesačne
- lacné pri veľkom scale, drahé pri malom
- V praxi: enterprise, citlivé dáta
Sme ONE-STOP SHOP pre rast vášho biznisu. Prepájame vývoj webov a e-shopov, UX a CX dizajn, budovanie značky, marketing aj AI riešenia do jedného funkčného celku. Pretože len tak dokáže digitál dlhodobo prinášať výkon aj rast.
Najnovšie blogové články
Kontaktujte nás
Všetko pre rast vášho biznisu na jednom mieste
V ui42 spájame kreativitu, technológie a marketing do jedného tímu.
Budujeme značky a vizuálne identity, tvoríme weby a e-shopy, navrhujeme UX a CRO, produkujeme video a kreatívu a následne prinášame výsledky cez performance marketing.
Vďaka tomu získate partnera, ktorý dokáže pokryť celý digitálny ekosystém vášho biznisu – od prvého kontaktu so značkou až po konverziu.
Nenechajte si ujsť novinky zo sveta UX, programovania, analytiky a marketingu.