Dlaczego nie trenujemy już agentów AI
92% dokładności bez trenowania. Od sierpnia 2026 EU AI Act wymaga wytłumaczalnych decyzji jednostkowych. Trenowane modele tego nie potrafią.
Trenowanie to nowy faks
W 2019 roku musieliśmy trenować modele AI. Były zbyt ograniczone na cokolwiek innego. GPT-2 nie potrafił napisać spójnego akapitu. BERT do każdego zadania potrzebował tysięcy oznaczonych przykładów i klastra GPU na wiele dni.
To było sześć lat temu. Sześć lat, w których możliwości modeli językowych poprawiły się o rzędy wielkości. Ale branża wciąż zachowuje się tak, jakby “trenowanie” było naturalnym pierwszym krokiem.
Na pierwszy rzut oka - Dlaczego trenowanie to błędna architektura
- LLM osiąga 92% poprawnych decyzji przy weryfikacji faktur - bez jednego przykładu treningowego. Doświadczeni prawnicy osiągają 72%.[1]
- Od sierpnia 2026 EU AI Act (Art. 13, 14, 86) wymaga od systemów wysokiego ryzyka wytłumaczalnych decyzji jednostkowych. Trenowane modele tego nie potrafią.[10]
- Alternatywa: zestaw reguł (wersjonowany), kontekst (per decyzja), Decision Layer (człowiek/reguła/AI per Micro-Decision).
- Skonfigurowane agenty są model-agnostyczne: zmiana modelu Foundation bez zmiany zestawu reguł. Brak lock-in, brak ponownego trenowania.
- Ponad 40% projektów Agentic AI zawodzi do 2027 roku - głównie z powodu brakującej governance, nie brakującej wydajności modelu.[9]
Jeśli ktoś w 2026 roku mówi “Trenujemy nasze agenty AI”, to tak jak powiedzieć w 2010 “Faksujemy nasze zamówienia”. Działa. Ale pokazuje, że nie zrozumiał architektury.
Od trenowania do konfiguracji
2018 - 2020
Trenowanie jest obowiązkowe
BERT, GPT-2. 110M - 1,5B parametrów.
Czas: tygodnie
Koszty: $10 000 - $100 000
Wymóg: klaster GPU
2021 - 2023
Trenowanie staje się opcjonalne
GPT-3/3.5. 175B parametrów.
Czas: dni
Koszty: $1000 - $10 000
Wymóg: GPU potrzebne
2024
Trenowanie czy prompting?
GPT-4o, Claude 3.5. Multimodal.
Czas: godziny
Koszty: $10 - $100
Wymóg: API-Call
2025 - 2026
Konfiguracja wystarczy
GPT-5, Claude Opus 4. Reasoning.
Czas: minuty
Koszty: $10 - $100
Wymóg: API-Call
Kumar Gauraw ujmuje to trafnie: “Większość sięga po Fine-Tuning zbyt wcześnie.”[5] Nie dlatego, że Fine-Tuning jest zły. Lecz dlatego, że w 2026 roku dla większości zadań enterprise nie jest już konieczny.
Czego trenowany model nie potrafi: wytłumaczyć pojedynczej decyzji
Kandydat zostaje odrzucony przez Twojego agenta rekrutacyjnego. Pyta: dlaczego?
Dwie odpowiedzi. Dwie architektury.
Trenowany model: “Nasz model na podstawie 50 000 historycznych decyzji o zatrudnieniu nauczył się, że Twój profil ma prawdopodobieństwo sukcesu 34%.”
Skonfigurowany agent: “Twoje kwalifikacje w zakresie inżynierii mechanicznej nie spełniają wymagania 3 (elektrotechnika lub porównywalne). Reguła: profil stanowiska v2026-03. Zaskarżalne: tak. Proces: dział merytoryczny sprawdza, czy inżynieria mechaniczna kwalifikuje się jako ‘porównywalna’.”
Pierwsza odpowiedź jest od sierpnia 2026 nielegalna.
EU AI Act, Art. 13 (przejrzystość), Art. 14 (nadzór ludzki), Art. 86 (prawo do wyjaśnienia).[10] Dla systemów wysokiego ryzyka - a rekrutacja jest wysokim ryzykiem, Annex III(4) - każda decyzja jednostkowa musi być zrozumiała, wytłumaczalna i zaskarżalna.
Nie model. Pojedyncza decyzja. Dla tego kandydata. Z tym uzasadnieniem.
Trenowany model tego nie potrafi. Nie ma akta decyzji. Ma wagi. A wagi nie tłumaczą nic radzie zakładowej.
Test compliance: trenowany vs. skonfigurowany
Architektura A
Trenowany model
"Dlaczego ta decyzja?"
"Model się nauczył" - Black Box
Niewytłumaczalne
"Zmiana przepisów?"
Ponowne trenowanie. 2 - 4 tygodnie, $5000 - $20 000
Drogie i powolne
"Czy osoba dotknięta może zaskarżyć?"
Przeciw czemu? Przeciw wagom?
Niezaskarżalne
"Nowy model LLM dostępny?"
Nowe trenowanie konieczne. Tygodnie, lock-in.
Zależność od dostawcy
"Zgodność z EU AI Act?"
Art. 13: brak przejrzystości. Art. 14: ingerencja = wymiana modelu. Art. 86: wyjaśnienie niemożliwe.
Problematyczne
Lock-in: tak | Audyt: trudny | EU AI Act: problematyczne
Architektura B
Skonfigurowany agent
"Dlaczego ta decyzja?"
"§9 EStG v2026-01, nieobecność 14h15min" (niemiecki przepis podatkowy - analogiczne reguły w każdej jurysdykcji)
Reguła, wersja, kontekst udokumentowane
"Zmiana przepisów?"
Aktualizacja reguły. Natychmiast skuteczna, $0.
Wersjonowane i audytowalne
"Czy osoba dotknięta może zaskarżyć?"
"Śniadanie nie było wliczone." Referent sprawdza.
Zaskarżalne z aktami decyzji
"Nowy model LLM dostępny?"
Zestaw reguł pozostaje. 0 nakładu, brak lock-in.
Model-agnostyczny
"Zgodność z EU AI Act?"
Akta decyzji per Micro-Decision. Nadpisywanie reguły, nie wymiana modelu.
Zgodne by Design
Lock-in: nie | Audyt: by Design | EU AI Act: zgodne
Problem compliance to jednak tylko powierzchnia. Pod nią kryje się problem architektoniczny.
92% vs. 72%
Badacze przetestowali w 2025 roku, jak dobrze LLM potrafi weryfikować faktury prawnicze względem Billing Guidelines.[1] Bez Fine-Tuning. Bez trenowania. Tylko zestaw reguł jako kontekst.
Wynik:
Faktura prawnicza: zgodna z regułami czy nie?
Better Bill GPT, Whitehouse et al. (kwiecień 2025). Peer-reviewed. LLM otrzymał zestaw reguł jako kontekst, bez Fine-Tuning.[1]
Dokładność ogólna
LLM (bez trenowania)
92%
Doświadczeni prawnicy
72%
Klasyfikacja pozycji pojedynczych (F-Score)
LLM (bez trenowania)
81%
Najlepsza grupa ludzka
43%
Czas na fakturę
LLM
3,6 sek.
Prawnicy
~250 sek.
Koszt na fakturę
LLM
< $0,01
Prawnicy
$4,27
Redukcja kosztów: 99,97%.[4] Mechanizm przenośny na każde zadanie compliance oparte na regułach.
LLM nie został wytrenowany na fakturach. Otrzymał Billing Guidelines jako kontekst. I natychmiast zdecydował.
Dlaczego LLM był lepszy
Nie dlatego, że jest mądrzejszy. Lecz dlatego, że o 15:00 stosuje tę samą regułę tak samo jak o 9:00. Niespójność to problem człowieka, nie niekompetencja.[1]
Doświadczeni prawnicy podejmują 72% poprawnych decyzji - ale każdy prawnik popełnia inne błędne decyzje. Błędy nie są systematyczne, lecz losowe. Zmęczenie, presja czasu, osobista interpretacja. LLM nie zna zmęczenia.
Przenośny mechanizm
Czy zestaw reguł nazywa się “Billing Guideline”, “§14 UStG” czy “Ryczałty BMF 2026”: sprawdzenie dokumentu względem reguły, identyfikacja odchylenia, udokumentowanie decyzji. Mechanizm jest identyczny.
| Wymiar | Trenowany model | Skonfigurowany agent |
|---|---|---|
| Zmiana reguł | Ponowne trenowanie (tygodnie, $5k - $20k) | Aktualizacja zestawu reguł (minuty, $0) |
| Wytłumaczalność | "Model się nauczył" (Black Box) | Reguła + wersja + kontekst (akta decyzji) |
| Zaskarżalność | Niemożliwe (brak akt decyzji) | Tak (osoba dotknięta widzi regułę i może sprzeciwić się) |
| Zmiana modelu | Nowe trenowanie konieczne (lock-in) | 0 nakładu (model-agnostyczny) |
| Audit Trail | Wejście + wyjście (brak uzasadnienia) | Wejście + reguła + wersja + pewność + wynik |
| EU AI Act (sie. 2026) | Art. 13, 14, 86: problematyczne | Art. 13, 14, 86: zgodne by Design |
| Break-Even Fine-Tuning | Od ~35 000 zapytań/miesiąc[6] | Natychmiastowa opłacalność |
Badanie Chauhan et al. (2025) określa punkt Break-Even Fine-Tuning względem promptingu na około 35 000 zapytań miesięcznie.[6] Większość procesów HR i Finance w przedsiębiorstwach jest daleko poniżej tego poziomu.
Trzy rzeczy zamiast trenowania
Jeśli nie trenowanie, to co? Trzy komponenty zastępują to, co Fine-Tuning obiecuje, ale strukturalnie nie jest w stanie dotrzymać.
1. Zestaw reguł
Wszystko, co agent musi wiedzieć, znajduje się w przepisie, rozporządzeniu, układzie zbiorowym lub porozumieniu ramowym. Te reguły się zmieniają. Prawo podatkowe zmienia się corocznie. Ryczałty i stawki zmieniają się corocznie. Rozporządzenia UE zmieniają się.
Trenowany model musi być ponownie trenowany przy każdej zmianie. Zestaw reguł jest aktualizowany. Natychmiastowo skuteczny, wersjonowany, audytowalny. Brak klastra GPU, brak cyklu ewaluacji, brak ryzyka regresji.
RAG (Retrieval Augmented Generation) redukuje błędy faktyczne o do 50%.[11] Nie dlatego, że model staje się mądrzejszy. Lecz dlatego, że widzi aktualną regułę zamiast wywoływać przestarzałą wagę.
2. Kontekst
Agent nie potrzebuje 10 000 historycznych rozliczeń podróżnych. Potrzebuje tego jednego rozliczenia: data podróży, wyjazd, powrót, hotel, śniadanie wliczone czy nie. To jest kontekst tej decyzji.
Jest dostarczany przez strukturalne dane wejściowe lub RAG, nie wbudowany przez trenowanie. Gdy kontekst się zmienia - inna podróż, inny pracownik - zmienia się decyzja. Nie model.
Konkretny przykład: Travel Decision Layer weryfikuje diety podróżne względem §9 EStG (niemieckie prawo podatkowe dot. kosztów podróży). Kontekstem jest pojedyncza podróż. Zestawem reguł jest aktualne prawo podatkowe. Model Foundation jest wymienialny.
3. Ramowy układ decyzyjny
Kto decyduje o czym? Nie każda decyzja w procesie jest taka sama.
Dieta podróżna to zestaw reguł: §9 EStG, deterministyczna, 100% pewności. Pytanie, czy wydatek na reprezentację jest “stosowny”, to ocena: człowiek. Klasyfikacja nieczytelnego paragonu to AI: ekstrakcja LLM, probabilistyczna.
To rozłożenie na Micro-Decisions z przyporządkowaniem człowiek/reguła/AI jest właściwą pracą architektoniczną. Nie trenowanie. Decision Layer formalizuje dokładnie ten podział. Szczegóły architektury: Decision Layer - wyjaśnienie.
Micro-Decision w praktyce
Rozliczenie podróży: 8-godzinny dzień, podróż krajowa, hotel ze śniadaniem
Każdy z tych kroków ma stały typ: zestaw reguł (deterministyczny), AI (probabilistyczne, z progiem pewności) lub człowiek (ocena). Gdy §9 EStG się zmieni, reguła zostaje zaktualizowana. Brak ponownego trenowania. Brak nowego modelu.
Trzy warstwy: architektura zamiast trenowania
Architektura skonfigurowanego agenta składa się z trzech warstw. Każda warstwa jest niezależnie wymienialna.
Wszystko powyżej warstwy 1 pozostaje, gdy model się zmieni. Zestaw reguł, Decision Layer, akta decyzji, Audit Trail - wszystko model-agnostyczne. Brak ponownego trenowania. Brak lock-in.
Dlaczego trzy warstwy? Ponieważ każda ma inną odpowiedzialność.
Foundation Model dostarcza rozumienie języka i reasoning. Rozumie kontekst, wyodrębnia informacje z dokumentów, klasyfikuje dane wejściowe. Nie musi wiedzieć, co mówi §9 EStG. Musi rozumieć, czym jest tekst prawny.
Zestaw reguł zawiera logikę biznesową. Przepisy, rozporządzenia, układy zbiorowe, porozumienia ramowe. Każda reguła ma wersję. Każda wersja ma datę obowiązywania. Gdy przepis się zmieni, reguła zostaje zaktualizowana. Nie model.
Decision Layer steruje, kto co może decydować. Rozkłada procesy na kroki decyzyjne. Definiuje dla każdego: człowiek, zestaw reguł lub AI. Dokumentuje każdą decyzję z regułą, wersją, kontekstem i wynikiem.
Co trenowanie naprawdę kosztuje
Nie w dolarach. W zależnościach.
Lock-in
Fine-tuned model wiąże Cię z tym dostawcą. Zbiór treningowy, wagi, pipeline ewaluacji: wszystko własnościowe. Zmiana modelu = nowe trenowanie = nowe koszty = nowa strata czasu.
Skonfigurowany agent zmienia Foundation Model bez zmiany choćby jednej reguły. Claude dziś, GPT jutro, model open-source w przyszłym tygodniu. Zestaw reguł pozostaje. Decision Layer pozostaje. Akta decyzji pozostają.
Utrzymanie
Każda zmiana przepisów wymaga ponownego trenowania. W Finance prawo podatkowe, wytyczne ministerialne i składki na ubezpieczenia społeczne zmieniają się corocznie. W HR zmieniają się układy zbiorowe, porozumienia ramowe i regulacje UE.
Trenowany agent wymaga ciągłej pielęgnacji, która wygląda jak projekt softwarowy. Skonfigurowany agent potrzebuje edytora zestawu reguł.
MIT i Stanford (Choi & Xie, 2025) pokazują: AI redukuje zamknięcie miesiąca o 7,5 dnia.[7] Ale 62% księgowych obawia się błędów AI.[8] Obawa jest uzasadniona - przy trenowanych modelach. Przy skonfigurowanych agentach z aktami decyzji i możliwością zaskarżenia każdy błąd jest identyfikowalny i korygowalny.
Wytłumaczalność
Trenowany model może powiedzieć, co zdecydował. Nie może powiedzieć, dlaczego.
“Model się nauczył” to nie uzasadnienie, które zaakceptuje kontroler. Żadna rada zakładowa tego nie zaakceptuje. Żaden odrzucony kandydat tego nie zaakceptuje.
“Reguła §9 EStG v2026-01, zastosowana do nieobecności 14h15min” jest uzasadnieniem.
Jeśli nie potrafisz wytłumaczyć decyzji, nie możesz pozwolić jej zaskarżyć. A jeśli nie możesz pozwolić jej zaskarżyć, od sierpnia 2026 nie jest ona zgodna z prawem w UE.[10]
Czy Fine-Tuning ma swoje miejsce?
Tak. Od około 35 000 zapytań miesięcznie przy stabilnym zestawie reguł Fine-Tuning staje się opłacalny.[6] Adaptacja językowa, żargon domenowy, optymalizacja latencji: do tego istnieją dobre powody.
Ale tam, gdzie branża go dziś sprzedaje - Enterprise HR i Finance z corocznie zmieniającymi się przepisami - jest to błędna decyzja architektoniczna. Gartner prognozuje, że ponad 40% projektów Agentic AI zawiedzie do 2027 roku.[9] Nie z powodu wydajności modeli. Z powodu governance.
Pytanie, które powinien zadać Twój zarząd
Nie: “Na jakich danych został wytrenowany wasz agent?”
Lecz:
1. Jaki zestaw reguł leży u podstaw decyzji? Jaka wersja obowiązywała w momencie decyzji?
Jeśli odpowiedź brzmi “To jest w modelu”, nie ma wersji. Nie ma historii zmian. Nie ma Audit Trail.
2. Co się dzieje, gdy reguła się zmieni? Ponowne trenowanie czy aktualizacja?
Jeśli odpowiedź brzmi “Trenujemy ponownie”, płacisz za utrzymanie, które jest niepotrzebne.
3. Czy osoba dotknięta może zobaczyć decyzję jednostkową i ją zaskarżyć?
Jeśli brak odpowiedzi, od sierpnia 2026 masz problem compliance. Art. 86 EU AI Act: prawo do wyjaśnienia. Nieobowiązkowe to nie jest.[10]
Podejście Gosign
Decision Layer Gosign to implementacja tej architektury. Rozkłada procesy na kroki decyzyjne. Definiuje dla każdego: człowiek, zestaw reguł lub AI. Zestawy reguł są wersjonowane. Decyzje są audytowalne. Wyniki są zaskarżalne.
48 agentów HR i 49 agentów Finance, każdy z tabelą Micro-Decision. Brak Fine-Tuning. Brak lock-in. Brak ponownego trenowania przy zmianach przepisów.
Źródła
- Better Bill GPT, Whitehouse et al. (kwiecień 2025). Legal Invoice Review: LLM osiąga 92% dokładności przy weryfikacji honorariów prawniczych względem Billing Guidelines. Peer-reviewed.
- Better Bill GPT, Whitehouse et al. (kwiecień 2025). F-Score przy klasyfikacji pozycji pojedynczych: LLM 81% vs. najlepsza grupa ludzka 43%.
- Better Bill GPT, Whitehouse et al. (kwiecień 2025). Czas przetwarzania na fakturę: LLM 3,6 sekundy vs. doświadczeni prawnicy 194 do 316 sekund.
- Better Bill GPT, Whitehouse et al. (kwiecień 2025). Redukcja kosztów przy Legal Invoice Review: 99,97% ($4,27 vs. <$0,01 na fakturę).
- Kumar Gauraw (marzec 2026). "Większość sięga po Fine-Tuning zbyt wcześnie."
- Chauhan et al., Journal of Information Systems Engineering (2025). Break-Even Fine-Tuning vs. Prompting: ~35 000 zapytań miesięcznie.
- MIT/Stanford, Choi & Xie (sierpień 2025). AI redukuje zamknięcie miesiąca średnio o 7,5 dnia.
- MIT/Stanford, Choi & Xie (sierpień 2025). 62% księgowych wyraża obawy dotyczące błędów AI w procesach finansowych.
- Gartner (czerwiec 2025). Prognoza: ponad 40% projektów Agentic AI zawiedzie do 2027 roku.
- EU AI Act (VO 2024/1689), Crowell & Moring (luty 2026). Obowiązki dla systemów wysokiego ryzyka od sierpnia 2026: Art. 13 (przejrzystość), Art. 14 (nadzór ludzki), Art. 86 (prawo do wyjaśnienia). Annex III(4): rekrutacja jako system wysokiego ryzyka.
- IBM (2024). RAG redukuje błędy faktyczne w wyjściach LLM o do 50%.

Bert Gogolin
Dyrektor Generalny, Gosign
AI Governance Briefing
Enterprise AI, regulacje i infrastruktura - raz w miesiącu, bezpośrednio ode mnie.