Firmy coraz częściej nie zatrzymują się dziś na pytaniu, czy mogą wykorzystać sztuczną inteligencję. Znacznie trudniejsze staje się inne pytanie: czy wiedzą, jakimi danymi karmią swoje systemy AI, kto za te dane odpowiada i czy można im zaufać w procesach biznesowych.
To zasadnicza zmiana. W pierwszej fali wdrożeń generatywnej AI najważniejsze były dostęp do modeli, szybkość pilotaży i pierwsze zastosowania w obsłudze klienta, sprzedaży, marketingu, IT czy analizie dokumentów. W drugiej fazie firmy zderzają się z bardziej przyziemnym problemem. AI nie skaluje się na prezentacjach, ale na danych: często rozproszonych, niespójnych, częściowo nieaktualnych, nieopisanych lub objętych ograniczeniami prawnymi.
Dlatego data governance przestaje być tematem dla wąskiej grupy specjalistów od danych. Staje się jednym z warunków bezpiecznego, zgodnego i skalowalnego użycia AI w organizacji. Im większą rolę AI odgrywa w decyzjach, automatyzacji i codziennych procesach, tym większe znaczenie ma możliwość odpowiedzi na kilka podstawowych pytań: skąd pochodzą dane, czy wolno ich użyć, jaka jest ich jakość, czy są reprezentatywne, kto ma do nich dostęp i kto odpowiada za ich skutki.
Dane są nowym punktem kontroli AI
W tradycyjnej analityce błąd w danych mógł prowadzić do złego raportu albo mylącego dashboardu. W przypadku AI ten sam błąd może zostać powielony przez model, wykorzystany przez agenta, przeniesiony do decyzji operacyjnej albo ukryty w rekomendacji, której nikt nie sprawdził na czas. AI wzmacnia więc nie tylko wartość danych, ale również ich braki.
Z tego powodu gotowość danych do AI nie może być rozumiana jako sama dostępność dużych zbiorów. Organizacja może mieć ogromne ilości danych, a jednocześnie nie być gotowa do skalowania AI. Problemem może być brak właścicieli danych, brak metadanych, niejasne definicje, niepełny lineage, luki jakościowe, brak klasyfikacji danych osobowych lub brak procedur monitorowania po wdrożeniu.
AI Act wzmacnia ten kierunek. Komisja Europejska opisuje AI Act jako pierwsze kompleksowe ramy prawne dla AI, oparte na podejściu do ryzyka. Dla systemów wysokiego ryzyka wskazuje m.in. wymogi dotyczące wysokiej jakości datasetów, logowania aktywności, dokumentacji, informacji dla użytkownika, nadzoru człowieka oraz wysokiego poziomu odporności, cyberbezpieczeństwa i dokładności.
To oznacza, że data governance w kontekście AI nie jest już tylko dobrą praktyką. W wielu zastosowaniach staje się mechanizmem dowodowym: firma musi nie tylko twierdzić, że kontroluje dane, ale też potrafić to wykazać.
Co data governance oznacza w praktyce
Data governance dla AI można opisać jako system zasad, ról, procesów i kontroli, które pozwalają organizacji zarządzać danymi przez cały cykl życia systemu AI. Nie chodzi tylko o dane treningowe. W firmowych wdrożeniach równie ważne są dane walidacyjne i testowe, dane wykorzystywane w systemach RAG, dane wejściowe użytkowników, logi, dane produkcyjne, dane referencyjne oraz informacje używane do monitorowania działania modeli po wdrożeniu.
Dojrzała organizacja powinna wiedzieć, które dane są krytyczne dla działania systemu AI, jakie mają ograniczenia, kto jest ich właścicielem, kto może je przetwarzać, jak często są aktualizowane i jak wpływają na wynik modelu. Bez tego skalowanie AI staje się mnożeniem ryzyka.
Najmocniejszą podstawę dla takiego podejścia daje dziś AI Act w odniesieniu do systemów wysokiego ryzyka. Wymaga on, aby dane treningowe, walidacyjne i testowe były objęte praktykami data governance i data management odpowiednimi do przeznaczenia systemu. W praktyce oznacza to konieczność zarządzania pochodzeniem danych, przygotowaniem zbiorów, ich reprezentatywnością, błędami, kompletnością, biasem oraz lukami danych.
| Element data governance | Podstawa źródłowa | Znaczenie dla organizacji |
|---|
| Pochodzenie danych i proces zbierania | AI Act wskazuje na procesy zbierania danych, ich pochodzenie oraz pierwotny cel zbierania danych osobowych | Firma musi wiedzieć, skąd pochodzą dane i czy może użyć ich w danym celu AI |
| Przygotowanie danych | AI Act odnosi się do operacji takich jak annotation, labelling, cleaning, updating, enrichment i aggregation | Nie wystarczy mieć dataset; trzeba wiedzieć, jak został przetworzony |
| Założenia dotyczące danych | AI Act wymaga określenia założeń dotyczących tego, co dane mają mierzyć i reprezentować | Pozwala ograniczyć ryzyko błędnych proxy i fałszywych korelacji |
| Dostępność, ilość i przydatność danych | AI Act wskazuje na ocenę availability, quantity i suitability datasetów | Skala AI wymaga oceny, czy dane pasują do celu systemu |
| Bias w danych | AI Act wymaga badania możliwych biasów oraz działań wykrywających, zapobiegających i ograniczających bias | To kluczowe przy zastosowaniach wpływających na ludzi, np. rekrutację, kredyt, edukację czy usługi publiczne |
| Luki i braki danych | AI Act wymaga identyfikacji luk lub braków danych, które mogą uniemożliwić zgodność z wymogami | Gotowość danych obejmuje także wiedzę o tym, czego w danych brakuje |
| Reprezentatywność, kompletność i błędy | AI Act wymaga, aby dane były relewantne, wystarczająco reprezentatywne, możliwie wolne od błędów i kompletne względem celu systemu | To fundament oceny jakości danych dla AI |
Ta tabela pokazuje, że governance nie jest abstrakcją. To bardzo konkretna lista obszarów, które muszą zostać opisane, zmierzone lub udokumentowane, zanim AI trafi do procesów o większej skali.
Gotowość danych trzeba mierzyć, nie deklarować
Największym błędem firm skalujących AI jest traktowanie jakości danych jako opinii. W praktyce gotowość danych powinna być mierzona zestawem wskaźników, które pozwalają określić, czy dany zbiór można bezpiecznie wykorzystać w konkretnym zastosowaniu AI.
Nie istnieje jeden uniwersalny próg gotowości danych dla wszystkich branż i przypadków użycia. Inne wymagania będą miały systemy wspierające marketing, inne systemy klasyfikujące zgłoszenia serwisowe, a jeszcze inne rozwiązania wysokiego ryzyka, np. w rekrutacji, kredycie, edukacji, ochronie zdrowia czy infrastrukturze krytycznej. Można jednak wskazać metryki, które wynikają bezpośrednio z logiki AI Act, RODO, NIST AI RMF oraz standardów jakości danych dla analityki i uczenia maszynowego.
ISO/IEC 5259-5:2025 opisuje ramy governance jakości danych dla analityki i machine learningu. Standard jest skierowany m.in. do osób odpowiedzialnych za zarządzanie organizacją i jakością danych, co dobrze pokazuje, że jakość danych dla AI nie jest wyłącznie zadaniem technicznym.
| Obszar | Metryka | Co mierzy | Źródłowe uzasadnienie |
| Kompletność | Odsetek wymaganych pól bez braków | Czy dataset zawiera dane potrzebne do celu AI | AI Act mówi o kompletności oraz lukach danych |
| Poprawność | Odsetek wartości zgodnych z regułami biznesowymi lub referencyjnymi | Czy dane są możliwie wolne od błędów | AI Act wymaga, aby dane były możliwie wolne od błędów |
| Reprezentatywność | Porównanie danych treningowych z populacją lub kontekstem użycia | Czy dane odpowiadają warunkom, w których system będzie działał | AI Act wymaga wystarczającej reprezentatywności danych |
| Aktualność | Odsetek danych mieszczących się w wymaganym SLA czasu | Czy AI korzysta z danych aktualnych dla procesu | ISO/IEC 5259 odnosi jakość danych do cyklu życia analityki i ML |
| Przydatność do celu | Ocena dopasowania danych do konkretnego zastosowania AI | Czy dane nadają się do danego celu, a nie tylko są dostępne | AI Act wymaga oceny suitability datasetów |
| Bias review | Udokumentowany przegląd możliwych biasów | Czy dane mogą prowadzić do stronniczych lub dyskryminacyjnych wyników | AI Act wymaga badania i ograniczania biasów |
| Luki danych | Liczba i istotność brakujących segmentów, pól lub źródeł | Czego brakuje, aby system spełniał wymagania | AI Act wymaga identyfikacji luk i braków danych |
| Ownership | Odsetek krytycznych datasetów z przypisanym właścicielem | Czy ktoś odpowiada za jakość, definicje i dostęp | ISO/IEC 5259-5 ujmuje jakość danych w ramach governance |
Ważne jest, aby te metryki nie były prowadzone wyłącznie na poziomie centralnego zespołu danych. Przy AI właściciel biznesowy powinien odpowiadać za sens i kontekst danych, zespół danych za ich jakość i przepływy, IT za architekturę oraz bezpieczeństwo, a compliance za zgodność z regulacjami i politykami wewnętrznymi. Bez tego organizacja może mieć techniczne narzędzia do governance, ale nadal nie mieć faktycznej odpowiedzialności.
Regulacje i standardy mówią jednym językiem: kontroluj dane
AI Act nie działa w próżni. Firmy skalujące AI muszą równolegle uwzględniać RODO, standardy zarządzania ryzykiem i jakością danych oraz wewnętrzne polityki bezpieczeństwa. W praktyce wszystkie te ramy prowadzą do podobnego wniosku: organizacja powinna wiedzieć, jakich danych używa, dlaczego, na jakiej podstawie, z jakim ryzykiem i pod czyją odpowiedzialnością.
RODO pozostaje szczególnie ważne tam, gdzie AI korzysta z danych osobowych. Komisja Europejska przypomina, że zasady ochrony danych obejmują m.in. zgodność z prawem, rzetelność i przejrzystość, ograniczenie celu, minimalizację danych, dokładność, ograniczenie przechowywania, integralność i poufność oraz rozliczalność.
NIST AI RMF porządkuje zarządzanie ryzykiem AI przez funkcje Govern, Map, Measure i Manage. Governance jest w tym ujęciu funkcją przekrojową, która wspiera pozostałe działania przez cały cykl życia AI.
| Rama | Co wnosi do data governance dla AI | Pytanie dla zarządu |
| AI Act | Wymaga kontroli danych, dokumentacji, logowania, jakości datasetów i ograniczania ryzyka w systemach wysokiego ryzyka | Czy wiemy, skąd są dane, jak zostały przygotowane i czy są reprezentatywne? |
| RODO | Wymaga celu, minimalizacji, dokładności, bezpieczeństwa, ograniczenia przechowywania i rozliczalności danych osobowych | Czy mamy podstawę prawną i jasno określony cel użycia danych osobowych w AI? |
| NIST AI RMF | Porządkuje zarządzanie ryzykiem AI przez governance, mapowanie, pomiar i zarządzanie | Czy ryzyko danych jest mapowane, mierzone i zarządzane po wdrożeniu? |
| ISO/IEC 5259 | Dotyczy jakości danych dla analityki i machine learningu | Czy jakość danych jest zarządzana systemowo, a nie incydentalnie? |
Ta perspektywa jest ważna zwłaszcza dla zarządów. Wdrożenie AI nie jest już tylko decyzją technologiczną. To decyzja o tym, jak organizacja zarządza ryzykiem, odpowiedzialnością i dowodami zgodności.
Pięć pytań przed skalowaniem AI
W praktyce firmy nie muszą zaczynać od wielkiego programu transformacji danych. Dobrym pierwszym krokiem jest przegląd najważniejszych zastosowań AI i danych, które je zasilają. Jeśli organizacja nie potrafi odpowiedzieć na poniższe pytania, prawdopodobnie nie jest jeszcze gotowa do bezpiecznego skalowania.
| Pytanie | Co pokazuje odpowiedź |
| Czy wiemy, skąd pochodzą dane używane przez AI? | Widoczność źródeł danych i możliwość odtworzenia ich pochodzenia |
| Czy wiemy, czy dane są reprezentatywne dla celu systemu? | Ryzyko błędnych wyników, biasu i złych decyzji |
| Czy dane są możliwie wolne od błędów i kompletne? | Realną jakość danych, a nie deklarację jakości |
| Czy mamy prawo użyć danych osobowych w tym konkretnym celu? | Zgodność z RODO, AI Act i politykami wewnętrznymi |
| Czy monitorujemy dane po wdrożeniu modelu? | Zdolność do wykrywania driftu, błędów i incydentów po uruchomieniu AI |
Te pytania są proste, ale ich konsekwencje organizacyjne są poważne. Jeśli firma nie wie, skąd pochodzą dane, nie odtworzy decyzji modelu. Jeśli nie bada reprezentatywności, może wdrożyć system, który działa dobrze tylko w pilotażu. Jeśli nie monitoruje danych po wdrożeniu, nie zauważy, że zmieniły się warunki działania modelu.
Narzędzia pomagają, ale nie zastępują odpowiedzialności
Rynek oferuje coraz więcej narzędzi do katalogowania danych, badania jakości, śledzenia lineage, kontroli dostępu, data observability, wersjonowania zbiorów czy monitorowania driftu. Są one potrzebne, ale nie rozwiązują najważniejszego problemu same z siebie. Narzędzie może pokazać chaos, ale nie zdecyduje, kto za niego odpowiada.
To częsty błąd organizacji. Firma kupuje platformę do danych, wdraża katalog lub system klasyfikacji, ale nie ustala, które zbiory są krytyczne, kto jest ich właścicielem, jakie są minimalne progi jakości i jak wygląda reakcja na incydent. W efekcie governance pozostaje warstwą dokumentacyjną, a nie operacyjnym mechanizmem kontroli.
W kontekście AI to za mało. Modele i agenci coraz częściej działają w czasie rzeczywistym, korzystają z wielu źródeł danych i wpływają na decyzje podejmowane przez ludzi. Data governance musi więc działać nie tylko na etapie przygotowania projektu, ale także w pipeline’ach danych, procesach dostępu, monitoringu produkcyjnym i audycie.
Governance oddziela pilotaż od skali
Pilotaż AI można przeprowadzić nawet na ograniczonych, częściowo ręcznie przygotowanych danych. Skalowanie wymaga czegoś innego: powtarzalności, kontroli, odpowiedzialności i dowodów. To dlatego data governance staje się granicą między efektownym eksperymentem a bezpieczną infrastrukturą biznesową.
Firmy, które chcą przejść od pojedynczych wdrożeń do szerokiego wykorzystania AI, powinny zacząć nie od pytania, które modele wybrać, ale od pytania, które dane są naprawdę gotowe do użycia. Czy są opisane? Czy mają właściciela? Czy są aktualne? Czy są reprezentatywne? Czy można odtworzyć ich pochodzenie? Czy można udowodnić zgodność ich użycia z prawem?
W kolejnej fazie adopcji AI przewagę będą miały nie te organizacje, które najszybciej podłączą modele do wszystkich zasobów danych, lecz te, które będą wiedziały, którym danym można zaufać, których danych używać nie wolno i kto odpowiada za skutki ich wykorzystania.
Data governance nie jest więc biurokracją wokół sztucznej inteligencji. Jest mechanizmem, który decyduje, czy AI pozostanie serią pilotaży, czy stanie się bezpieczną, zgodną i skalowalną częścią działalności firmy.

