Dlaczego Fine-Tuning jest problematyczny dla agentów enterprise?

Fine-Tuning wbudowuje reguły biznesowe w wagi modelu. Konsekwencja: poszczególnych decyzji nie da się przyporządkować do konkretnej reguły, zmiany w przepisach wymagają kosztownego ponownego trenowania, a zmiana modelu oznacza całkowitą utratę. Od sierpnia 2026 EU AI Act (Art. 13, 14, 86) wymaga od systemów wysokiego ryzyka wytłumaczalnych decyzji jednostkowych. Trenowane modele nie mogą tego zapewnić ze względu na swoją architekturę.

Jaka jest różnica między trenowaniem a konfiguracją?

Trenowanie (Fine-Tuning) zmienia wagi modelu. Reguły biznesowe stają się częścią modelu i nie można ich zidentyfikować pojedynczo. Konfiguracja oznacza: model Foundation pozostaje niezmieniony. Reguły biznesowe są wersjonowanym zestawem reguł, aktualny przypadek jest przekazywany jako kontekst. Rezultat: każda decyzja jest przyporządkowalna do konkretnej reguły, audytowalna i zaskarżalna.

Co oznacza model-agnostyczny?

Model-agnostyczny oznacza: zestaw reguł i Decision Layer działają niezależnie od zastosowanego modelu Foundation. Czy to Claude, GPT, Llama czy Mistral - reguły biznesowe, poziomy decyzyjne i Audit Trails pozostają identyczne. Zmiana modelu wymaga zero zmian w zestawie reguł. Brak lock-in, brak kosztów ponownego trenowania.

Dlaczego nie trenujemy już agentów AI

Q: Czy Fine-Tuning nigdy nie jest sensowny?

Fine-Tuning ma swoje miejsce. Od około 35 000 zapytań miesięcznie przy stabilnym, rzadko zmieniającym się zestawie reguł staje się opłacalny. Ale tam, gdzie branża go dziś sprzedaje - Enterprise HR i Finance z corocznie zmieniającymi się przepisami, układami zbiorowymi i porozumieniami ramowymi - jest to błędna decyzja architektoniczna.

Trenowanie to nowy faks

W 2019 roku musieliśmy trenować modele AI. Były zbyt ograniczone na cokolwiek innego. GPT-2 nie potrafił napisać spójnego akapitu. BERT do każdego zadania potrzebował tysięcy oznaczonych przykładów i klastra GPU na wiele dni.

To było sześć lat temu. Sześć lat, w których możliwości modeli językowych poprawiły się o rzędy wielkości. Ale branża wciąż zachowuje się tak, jakby “trenowanie” było naturalnym pierwszym krokiem.

Na pierwszy rzut oka - Dlaczego trenowanie to błędna architektura

LLM osiąga 92% poprawnych decyzji przy weryfikacji faktur - bez jednego przykładu treningowego. Doświadczeni prawnicy osiągają 72%.^[1]
Od sierpnia 2026 EU AI Act (Art. 13, 14, 86) wymaga od systemów wysokiego ryzyka wytłumaczalnych decyzji jednostkowych. Trenowane modele tego nie potrafią.^[10]
Alternatywa: zestaw reguł (wersjonowany), kontekst (per decyzja), Decision Layer (człowiek/reguła/AI per Micro-Decision).
Skonfigurowane agenty są model-agnostyczne: zmiana modelu Foundation bez zmiany zestawu reguł. Brak lock-in, brak ponownego trenowania.
Ponad 40% projektów Agentic AI zawodzi do 2027 roku - głównie z powodu brakującej governance, nie brakującej wydajności modelu.^[9]

Jeśli ktoś w 2026 roku mówi “Trenujemy nasze agenty AI”, to tak jak powiedzieć w 2010 “Faksujemy nasze zamówienia”. Działa. Ale pokazuje, że nie zrozumiał architektury.

Od trenowania do konfiguracji

2018 - 2020

Trenowanie jest obowiązkowe

BERT, GPT-2. 110M - 1,5B parametrów.

Czas: tygodnie

Koszty: $10 000 - $100 000

Wymóg: klaster GPU

2021 - 2023

Trenowanie staje się opcjonalne

GPT-3/3.5. 175B parametrów.

Czas: dni

Koszty: $1000 - $10 000

Wymóg: GPU potrzebne

2024

Trenowanie czy prompting?

GPT-4o, Claude 3.5. Multimodal.

Czas: godziny

Koszty: $10 - $100

Wymóg: API-Call

2025 - 2026

Konfiguracja wystarczy

GPT-5, Claude Opus 4. Reasoning.

Czas: minuty

Koszty: $10 - $100

Wymóg: API-Call

Kumar Gauraw ujmuje to trafnie: “Większość sięga po Fine-Tuning zbyt wcześnie.”^[5] Nie dlatego, że Fine-Tuning jest zły. Lecz dlatego, że w 2026 roku dla większości zadań enterprise nie jest już konieczny.

Czego trenowany model nie potrafi: wytłumaczyć pojedynczej decyzji

Kandydat zostaje odrzucony przez Twojego agenta rekrutacyjnego. Pyta: dlaczego?

Dwie odpowiedzi. Dwie architektury.

Trenowany model: “Nasz model na podstawie 50 000 historycznych decyzji o zatrudnieniu nauczył się, że Twój profil ma prawdopodobieństwo sukcesu 34%.”

Skonfigurowany agent: “Twoje kwalifikacje w zakresie inżynierii mechanicznej nie spełniają wymagania 3 (elektrotechnika lub porównywalne). Reguła: profil stanowiska v2026-03. Zaskarżalne: tak. Proces: dział merytoryczny sprawdza, czy inżynieria mechaniczna kwalifikuje się jako ‘porównywalna’.”

Pierwsza odpowiedź jest od sierpnia 2026 nielegalna.

EU AI Act, Art. 13 (przejrzystość), Art. 14 (nadzór ludzki), Art. 86 (prawo do wyjaśnienia).^[10] Dla systemów wysokiego ryzyka - a rekrutacja jest wysokim ryzykiem, Annex III(4) - każda decyzja jednostkowa musi być zrozumiała, wytłumaczalna i zaskarżalna.

Nie model. Pojedyncza decyzja. Dla tego kandydata. Z tym uzasadnieniem.

Trenowany model tego nie potrafi. Nie ma akta decyzji. Ma wagi. A wagi nie tłumaczą nic radzie zakładowej.

Test compliance: trenowany vs. skonfigurowany

Architektura A

Trenowany model

"Dlaczego ta decyzja?"

"Model się nauczył" - Black Box

Niewytłumaczalne

"Zmiana przepisów?"

Ponowne trenowanie. 2 - 4 tygodnie, $5000 - $20 000

Drogie i powolne

"Czy osoba dotknięta może zaskarżyć?"

Przeciw czemu? Przeciw wagom?

Niezaskarżalne

"Nowy model LLM dostępny?"

Nowe trenowanie konieczne. Tygodnie, lock-in.

Zależność od dostawcy

"Zgodność z EU AI Act?"

Art. 13: brak przejrzystości. Art. 14: ingerencja = wymiana modelu. Art. 86: wyjaśnienie niemożliwe.

Problematyczne

Lock-in: tak | Audyt: trudny | EU AI Act: problematyczne

Architektura B

Skonfigurowany agent

"Dlaczego ta decyzja?"

"§9 EStG v2026-01, nieobecność 14h15min" (niemiecki przepis podatkowy - analogiczne reguły w każdej jurysdykcji)

Reguła, wersja, kontekst udokumentowane

"Zmiana przepisów?"

Aktualizacja reguły. Natychmiast skuteczna, $0.

Wersjonowane i audytowalne

"Czy osoba dotknięta może zaskarżyć?"

"Śniadanie nie było wliczone." Referent sprawdza.

Zaskarżalne z aktami decyzji

"Nowy model LLM dostępny?"

Zestaw reguł pozostaje. 0 nakładu, brak lock-in.

Model-agnostyczny

"Zgodność z EU AI Act?"

Akta decyzji per Micro-Decision. Nadpisywanie reguły, nie wymiana modelu.

Zgodne by Design

Lock-in: nie | Audyt: by Design | EU AI Act: zgodne

Problem compliance to jednak tylko powierzchnia. Pod nią kryje się problem architektoniczny.

92% vs. 72%

Badacze przetestowali w 2025 roku, jak dobrze LLM potrafi weryfikować faktury prawnicze względem Billing Guidelines.^[1] Bez Fine-Tuning. Bez trenowania. Tylko zestaw reguł jako kontekst.

Wynik:

Faktura prawnicza: zgodna z regułami czy nie?

Better Bill GPT, Whitehouse et al. (kwiecień 2025). Peer-reviewed. LLM otrzymał zestaw reguł jako kontekst, bez Fine-Tuning.^[1]

Dokładność ogólna

LLM (bez trenowania)

92%

Doświadczeni prawnicy

72%

Klasyfikacja pozycji pojedynczych (F-Score)

LLM (bez trenowania)

81%

Najlepsza grupa ludzka

43%

Czas na fakturę

LLM

3,6 sek.

Prawnicy

~250 sek.

Koszt na fakturę

LLM

< $0,01

Prawnicy

$4,27

Redukcja kosztów: 99,97%.^[4] Mechanizm przenośny na każde zadanie compliance oparte na regułach.

LLM nie został wytrenowany na fakturach. Otrzymał Billing Guidelines jako kontekst. I natychmiast zdecydował.

Dlaczego LLM był lepszy

Nie dlatego, że jest mądrzejszy. Lecz dlatego, że o 15:00 stosuje tę samą regułę tak samo jak o 9:00. Niespójność to problem człowieka, nie niekompetencja.^[1]

Doświadczeni prawnicy podejmują 72% poprawnych decyzji - ale każdy prawnik popełnia inne błędne decyzje. Błędy nie są systematyczne, lecz losowe. Zmęczenie, presja czasu, osobista interpretacja. LLM nie zna zmęczenia.

Przenośny mechanizm

Czy zestaw reguł nazywa się “Billing Guideline”, “§14 UStG” czy “Ryczałty BMF 2026”: sprawdzenie dokumentu względem reguły, identyfikacja odchylenia, udokumentowanie decyzji. Mechanizm jest identyczny.

Wymiar	Trenowany model	Skonfigurowany agent
Zmiana reguł	Ponowne trenowanie (tygodnie, $5k - $20k)	Aktualizacja zestawu reguł (minuty, $0)
Wytłumaczalność	"Model się nauczył" (Black Box)	Reguła + wersja + kontekst (akta decyzji)
Zaskarżalność	Niemożliwe (brak akt decyzji)	Tak (osoba dotknięta widzi regułę i może sprzeciwić się)
Zmiana modelu	Nowe trenowanie konieczne (lock-in)	0 nakładu (model-agnostyczny)
Audit Trail	Wejście + wyjście (brak uzasadnienia)	Wejście + reguła + wersja + pewność + wynik
EU AI Act (sie. 2026)	Art. 13, 14, 86: problematyczne	Art. 13, 14, 86: zgodne by Design
Break-Even Fine-Tuning	Od ~35 000 zapytań/miesiąc^[6]	Natychmiastowa opłacalność

Badanie Chauhan et al. (2025) określa punkt Break-Even Fine-Tuning względem promptingu na około 35 000 zapytań miesięcznie.^[6] Większość procesów HR i Finance w przedsiębiorstwach jest daleko poniżej tego poziomu.

Trzy rzeczy zamiast trenowania

Jeśli nie trenowanie, to co? Trzy komponenty zastępują to, co Fine-Tuning obiecuje, ale strukturalnie nie jest w stanie dotrzymać.

1. Zestaw reguł

Wszystko, co agent musi wiedzieć, znajduje się w przepisie, rozporządzeniu, układzie zbiorowym lub porozumieniu ramowym. Te reguły się zmieniają. Prawo podatkowe zmienia się corocznie. Ryczałty i stawki zmieniają się corocznie. Rozporządzenia UE zmieniają się.

Trenowany model musi być ponownie trenowany przy każdej zmianie. Zestaw reguł jest aktualizowany. Natychmiastowo skuteczny, wersjonowany, audytowalny. Brak klastra GPU, brak cyklu ewaluacji, brak ryzyka regresji.

RAG (Retrieval Augmented Generation) redukuje błędy faktyczne o do 50%.^[11] Nie dlatego, że model staje się mądrzejszy. Lecz dlatego, że widzi aktualną regułę zamiast wywoływać przestarzałą wagę.

2. Kontekst

Agent nie potrzebuje 10 000 historycznych rozliczeń podróżnych. Potrzebuje tego jednego rozliczenia: data podróży, wyjazd, powrót, hotel, śniadanie wliczone czy nie. To jest kontekst tej decyzji.

Jest dostarczany przez strukturalne dane wejściowe lub RAG, nie wbudowany przez trenowanie. Gdy kontekst się zmienia - inna podróż, inny pracownik - zmienia się decyzja. Nie model.

Konkretny przykład: Travel Decision Layer weryfikuje diety podróżne względem §9 EStG (niemieckie prawo podatkowe dot. kosztów podróży). Kontekstem jest pojedyncza podróż. Zestawem reguł jest aktualne prawo podatkowe. Model Foundation jest wymienialny.

3. Ramowy układ decyzyjny

Kto decyduje o czym? Nie każda decyzja w procesie jest taka sama.

Dieta podróżna to zestaw reguł: §9 EStG, deterministyczna, 100% pewności. Pytanie, czy wydatek na reprezentację jest “stosowny”, to ocena: człowiek. Klasyfikacja nieczytelnego paragonu to AI: ekstrakcja LLM, probabilistyczna.

To rozłożenie na Micro-Decisions z przyporządkowaniem człowiek/reguła/AI jest właściwą pracą architektoniczną. Nie trenowanie. Decision Layer formalizuje dokładnie ten podział. Szczegóły architektury: Decision Layer - wyjaśnienie.

Micro-Decision w praktyce

Rozliczenie podróży: 8-godzinny dzień, podróż krajowa, hotel ze śniadaniem

#1 Data podróży i czas nieobecności Kontekst Input: dokumenty

#2 Obliczenie diety podróżnej Zestaw reguł §9 EStG v2026-01

#3 Zastosowanie potrącenia za śniadanie Zestaw reguł §9 ust. 4a zd. 8 EStG

#4 Klasyfikacja paragonu kasowego AI Ekstrakcja LLM, Confidence: 87%

#5 Czy wydatek na reprezentację jest "stosowny"? Człowiek Ocena, referent sprawdza

#6 Utworzenie księgowania zgodnego z przepisami Zestaw reguł Przepisy rachunkowe, wersjonowane

Każdy z tych kroków ma stały typ: zestaw reguł (deterministyczny), AI (probabilistyczne, z progiem pewności) lub człowiek (ocena). Gdy §9 EStG się zmieni, reguła zostaje zaktualizowana. Brak ponownego trenowania. Brak nowego modelu.

Trzy warstwy: architektura zamiast trenowania

Architektura skonfigurowanego agenta składa się z trzech warstw. Każda warstwa jest niezależnie wymienialna.

Warstwa 3 Decision Layer

Micro-Decisions Człowiek / Reguły / AI Akta decyzji Audit Trail

Warstwa 2 Zestaw reguł (wersjonowany, wymienialny)

Prawo podatkowe Rozporządzenia Przepisy rachunkowe Układ zbiorowy Porozumienie ramowe EU AI Act

Warstwa 1 Foundation Model (wymienialny)

Claude GPT Llama Mistral Gemini

↑

Wszystko powyżej warstwy 1 pozostaje, gdy model się zmieni. Zestaw reguł, Decision Layer, akta decyzji, Audit Trail - wszystko model-agnostyczne. Brak ponownego trenowania. Brak lock-in.

Dlaczego trzy warstwy? Ponieważ każda ma inną odpowiedzialność.

Foundation Model dostarcza rozumienie języka i reasoning. Rozumie kontekst, wyodrębnia informacje z dokumentów, klasyfikuje dane wejściowe. Nie musi wiedzieć, co mówi §9 EStG. Musi rozumieć, czym jest tekst prawny.

Zestaw reguł zawiera logikę biznesową. Przepisy, rozporządzenia, układy zbiorowe, porozumienia ramowe. Każda reguła ma wersję. Każda wersja ma datę obowiązywania. Gdy przepis się zmieni, reguła zostaje zaktualizowana. Nie model.

Decision Layer steruje, kto co może decydować. Rozkłada procesy na kroki decyzyjne. Definiuje dla każdego: człowiek, zestaw reguł lub AI. Dokumentuje każdą decyzję z regułą, wersją, kontekstem i wynikiem.

Co trenowanie naprawdę kosztuje

Nie w dolarach. W zależnościach.

Lock-in

Fine-tuned model wiąże Cię z tym dostawcą. Zbiór treningowy, wagi, pipeline ewaluacji: wszystko własnościowe. Zmiana modelu = nowe trenowanie = nowe koszty = nowa strata czasu.

Skonfigurowany agent zmienia Foundation Model bez zmiany choćby jednej reguły. Claude dziś, GPT jutro, model open-source w przyszłym tygodniu. Zestaw reguł pozostaje. Decision Layer pozostaje. Akta decyzji pozostają.

Utrzymanie

Każda zmiana przepisów wymaga ponownego trenowania. W Finance prawo podatkowe, wytyczne ministerialne i składki na ubezpieczenia społeczne zmieniają się corocznie. W HR zmieniają się układy zbiorowe, porozumienia ramowe i regulacje UE.

Trenowany agent wymaga ciągłej pielęgnacji, która wygląda jak projekt softwarowy. Skonfigurowany agent potrzebuje edytora zestawu reguł.

MIT i Stanford (Choi & Xie, 2025) pokazują: AI redukuje zamknięcie miesiąca o 7,5 dnia.^[7] Ale 62% księgowych obawia się błędów AI.^[8] Obawa jest uzasadniona - przy trenowanych modelach. Przy skonfigurowanych agentach z aktami decyzji i możliwością zaskarżenia każdy błąd jest identyfikowalny i korygowalny.

Wytłumaczalność

Trenowany model może powiedzieć, co zdecydował. Nie może powiedzieć, dlaczego.

“Model się nauczył” to nie uzasadnienie, które zaakceptuje kontroler. Żadna rada zakładowa tego nie zaakceptuje. Żaden odrzucony kandydat tego nie zaakceptuje.

“Reguła §9 EStG v2026-01, zastosowana do nieobecności 14h15min” jest uzasadnieniem.

Jeśli nie potrafisz wytłumaczyć decyzji, nie możesz pozwolić jej zaskarżyć. A jeśli nie możesz pozwolić jej zaskarżyć, od sierpnia 2026 nie jest ona zgodna z prawem w UE.^[10]

Czy Fine-Tuning ma swoje miejsce?

Tak. Od około 35 000 zapytań miesięcznie przy stabilnym zestawie reguł Fine-Tuning staje się opłacalny.^[6] Adaptacja językowa, żargon domenowy, optymalizacja latencji: do tego istnieją dobre powody.

Ale tam, gdzie branża go dziś sprzedaje - Enterprise HR i Finance z corocznie zmieniającymi się przepisami - jest to błędna decyzja architektoniczna. Gartner prognozuje, że ponad 40% projektów Agentic AI zawiedzie do 2027 roku.^[9] Nie z powodu wydajności modeli. Z powodu governance.

Pytanie, które powinien zadać Twój zarząd

Nie: “Na jakich danych został wytrenowany wasz agent?”

Lecz:

1. Jaki zestaw reguł leży u podstaw decyzji? Jaka wersja obowiązywała w momencie decyzji?

Jeśli odpowiedź brzmi “To jest w modelu”, nie ma wersji. Nie ma historii zmian. Nie ma Audit Trail.

2. Co się dzieje, gdy reguła się zmieni? Ponowne trenowanie czy aktualizacja?

Jeśli odpowiedź brzmi “Trenujemy ponownie”, płacisz za utrzymanie, które jest niepotrzebne.

3. Czy osoba dotknięta może zobaczyć decyzję jednostkową i ją zaskarżyć?

Jeśli brak odpowiedzi, od sierpnia 2026 masz problem compliance. Art. 86 EU AI Act: prawo do wyjaśnienia. Nieobowiązkowe to nie jest.^[10]

Podejście Gosign

Decision Layer Gosign to implementacja tej architektury. Rozkłada procesy na kroki decyzyjne. Definiuje dla każdego: człowiek, zestaw reguł lub AI. Zestawy reguł są wersjonowane. Decyzje są audytowalne. Wyniki są zaskarżalne.

48 agentów HR i 49 agentów Finance, każdy z tabelą Micro-Decision. Brak Fine-Tuning. Brak lock-in. Brak ponownego trenowania przy zmianach przepisów.

Źródła

Better Bill GPT, Whitehouse et al. (kwiecień 2025). Legal Invoice Review: LLM osiąga 92% dokładności przy weryfikacji honorariów prawniczych względem Billing Guidelines. Peer-reviewed.
Better Bill GPT, Whitehouse et al. (kwiecień 2025). F-Score przy klasyfikacji pozycji pojedynczych: LLM 81% vs. najlepsza grupa ludzka 43%.
Better Bill GPT, Whitehouse et al. (kwiecień 2025). Czas przetwarzania na fakturę: LLM 3,6 sekundy vs. doświadczeni prawnicy 194 do 316 sekund.
Better Bill GPT, Whitehouse et al. (kwiecień 2025). Redukcja kosztów przy Legal Invoice Review: 99,97% ($4,27 vs. <$0,01 na fakturę).
Kumar Gauraw (marzec 2026). "Większość sięga po Fine-Tuning zbyt wcześnie."
Chauhan et al., Journal of Information Systems Engineering (2025). Break-Even Fine-Tuning vs. Prompting: ~35 000 zapytań miesięcznie.
MIT/Stanford, Choi & Xie (sierpień 2025). AI redukuje zamknięcie miesiąca średnio o 7,5 dnia.
MIT/Stanford, Choi & Xie (sierpień 2025). 62% księgowych wyraża obawy dotyczące błędów AI w procesach finansowych.
Gartner (czerwiec 2025). Prognoza: ponad 40% projektów Agentic AI zawiedzie do 2027 roku.
EU AI Act (VO 2024/1689), Crowell & Moring (luty 2026). Obowiązki dla systemów wysokiego ryzyka od sierpnia 2026: Art. 13 (przejrzystość), Art. 14 (nadzór ludzki), Art. 86 (prawo do wyjaśnienia). Annex III(4): rekrutacja jako system wysokiego ryzyka.
IBM (2024). RAG redukuje błędy faktyczne w wyjściach LLM o do 50%.

Bert Gogolin

Dyrektor Generalny, Gosign

AI Governance Briefing

Enterprise AI, regulacje i infrastruktura - raz w miesiącu, bezpośrednio ode mnie.