AI w firmie wymaga kontroli nad jakością danych

Firmy coraz częściej nie zatrzymują się dziś na pytaniu, czy mogą wykorzystać sztuczną inteligencję. Znacznie trudniejsze staje się inne pytanie: czy wiedzą, jakimi danymi karmią swoje systemy AI, kto za te dane odpowiada i czy można im zaufać w procesach biznesowych.

To zasadnicza zmiana. W pierwszej fali wdrożeń generatywnej AI najważniejsze były dostęp do modeli, szybkość pilotaży i pierwsze zastosowania w obsłudze klienta, sprzedaży, marketingu, IT czy analizie dokumentów. W drugiej fazie firmy zderzają się z bardziej przyziemnym problemem. AI nie skaluje się na prezentacjach, ale na danych: często rozproszonych, niespójnych, częściowo nieaktualnych, nieopisanych lub objętych ograniczeniami prawnymi.

Dlatego data governance przestaje być tematem dla wąskiej grupy specjalistów od danych. Staje się jednym z warunków bezpiecznego, zgodnego i skalowalnego użycia AI w organizacji. Im większą rolę AI odgrywa w decyzjach, automatyzacji i codziennych procesach, tym większe znaczenie ma możliwość odpowiedzi na kilka podstawowych pytań: skąd pochodzą dane, czy wolno ich użyć, jaka jest ich jakość, czy są reprezentatywne, kto ma do nich dostęp i kto odpowiada za ich skutki.

Dane są nowym punktem kontroli AI

W tradycyjnej analityce błąd w danych mógł prowadzić do złego raportu albo mylącego dashboardu. W przypadku AI ten sam błąd może zostać powielony przez model, wykorzystany przez agenta, przeniesiony do decyzji operacyjnej albo ukryty w rekomendacji, której nikt nie sprawdził na czas. AI wzmacnia więc nie tylko wartość danych, ale również ich braki.

Z tego powodu gotowość danych do AI nie może być rozumiana jako sama dostępność dużych zbiorów. Organizacja może mieć ogromne ilości danych, a jednocześnie nie być gotowa do skalowania AI. Problemem może być brak właścicieli danych, brak metadanych, niejasne definicje, niepełny lineage, luki jakościowe, brak klasyfikacji danych osobowych lub brak procedur monitorowania po wdrożeniu.

AI Act wzmacnia ten kierunek. Komisja Europejska opisuje AI Act jako pierwsze kompleksowe ramy prawne dla AI, oparte na podejściu do ryzyka. Dla systemów wysokiego ryzyka wskazuje m.in. wymogi dotyczące wysokiej jakości datasetów, logowania aktywności, dokumentacji, informacji dla użytkownika, nadzoru człowieka oraz wysokiego poziomu odporności, cyberbezpieczeństwa i dokładności.

To oznacza, że data governance w kontekście AI nie jest już tylko dobrą praktyką. W wielu zastosowaniach staje się mechanizmem dowodowym: firma musi nie tylko twierdzić, że kontroluje dane, ale też potrafić to wykazać.

Co data governance oznacza w praktyce

Data governance dla AI można opisać jako system zasad, ról, procesów i kontroli, które pozwalają organizacji zarządzać danymi przez cały cykl życia systemu AI. Nie chodzi tylko o dane treningowe. W firmowych wdrożeniach równie ważne są dane walidacyjne i testowe, dane wykorzystywane w systemach RAG, dane wejściowe użytkowników, logi, dane produkcyjne, dane referencyjne oraz informacje używane do monitorowania działania modeli po wdrożeniu.

Dojrzała organizacja powinna wiedzieć, które dane są krytyczne dla działania systemu AI, jakie mają ograniczenia, kto jest ich właścicielem, kto może je przetwarzać, jak często są aktualizowane i jak wpływają na wynik modelu. Bez tego skalowanie AI staje się mnożeniem ryzyka.

Najmocniejszą podstawę dla takiego podejścia daje dziś AI Act w odniesieniu do systemów wysokiego ryzyka. Wymaga on, aby dane treningowe, walidacyjne i testowe były objęte praktykami data governance i data management odpowiednimi do przeznaczenia systemu. W praktyce oznacza to konieczność zarządzania pochodzeniem danych, przygotowaniem zbiorów, ich reprezentatywnością, błędami, kompletnością, biasem oraz lukami danych.

Element data governance	Podstawa źródłowa	Znaczenie dla organizacji

Pochodzenie danych i proces zbierania

AI Act wskazuje na procesy zbierania danych, ich pochodzenie oraz pierwotny cel zbierania danych osobowych

Firma musi wiedzieć, skąd pochodzą dane i czy może użyć ich w danym celu AI

Przygotowanie danych

AI Act odnosi się do operacji takich jak annotation, labelling, cleaning, updating, enrichment i aggregation

Nie wystarczy mieć dataset; trzeba wiedzieć, jak został przetworzony

Założenia dotyczące danych

AI Act wymaga określenia założeń dotyczących tego, co dane mają mierzyć i reprezentować

Pozwala ograniczyć ryzyko błędnych proxy i fałszywych korelacji

Dostępność, ilość i przydatność danych

AI Act wskazuje na ocenę availability, quantity i suitability datasetów

Skala AI wymaga oceny, czy dane pasują do celu systemu

Bias w danych

AI Act wymaga badania możliwych biasów oraz działań wykrywających, zapobiegających i ograniczających bias

To kluczowe przy zastosowaniach wpływających na ludzi, np. rekrutację, kredyt, edukację czy usługi publiczne

Luki i braki danych

AI Act wymaga identyfikacji luk lub braków danych, które mogą uniemożliwić zgodność z wymogami

Gotowość danych obejmuje także wiedzę o tym, czego w danych brakuje

Reprezentatywność, kompletność i błędy

AI Act wymaga, aby dane były relewantne, wystarczająco reprezentatywne, możliwie wolne od błędów i kompletne względem celu systemu

To fundament oceny jakości danych dla AI

Ta tabela pokazuje, że governance nie jest abstrakcją. To bardzo konkretna lista obszarów, które muszą zostać opisane, zmierzone lub udokumentowane, zanim AI trafi do procesów o większej skali.

Gotowość danych trzeba mierzyć, nie deklarować

Największym błędem firm skalujących AI jest traktowanie jakości danych jako opinii. W praktyce gotowość danych powinna być mierzona zestawem wskaźników, które pozwalają określić, czy dany zbiór można bezpiecznie wykorzystać w konkretnym zastosowaniu AI.

Nie istnieje jeden uniwersalny próg gotowości danych dla wszystkich branż i przypadków użycia. Inne wymagania będą miały systemy wspierające marketing, inne systemy klasyfikujące zgłoszenia serwisowe, a jeszcze inne rozwiązania wysokiego ryzyka, np. w rekrutacji, kredycie, edukacji, ochronie zdrowia czy infrastrukturze krytycznej. Można jednak wskazać metryki, które wynikają bezpośrednio z logiki AI Act, RODO, NIST AI RMF oraz standardów jakości danych dla analityki i uczenia maszynowego.

ISO/IEC 5259-5:2025 opisuje ramy governance jakości danych dla analityki i machine learningu. Standard jest skierowany m.in. do osób odpowiedzialnych za zarządzanie organizacją i jakością danych, co dobrze pokazuje, że jakość danych dla AI nie jest wyłącznie zadaniem technicznym.

Obszar

Metryka

Co mierzy

Źródłowe uzasadnienie

Kompletność

Odsetek wymaganych pól bez braków

Czy dataset zawiera dane potrzebne do celu AI

AI Act mówi o kompletności oraz lukach danych

Poprawność

Odsetek wartości zgodnych z regułami biznesowymi lub referencyjnymi

Czy dane są możliwie wolne od błędów

AI Act wymaga, aby dane były możliwie wolne od błędów

Reprezentatywność

Porównanie danych treningowych z populacją lub kontekstem użycia

Czy dane odpowiadają warunkom, w których system będzie działał

AI Act wymaga wystarczającej reprezentatywności danych

Aktualność

Odsetek danych mieszczących się w wymaganym SLA czasu

Czy AI korzysta z danych aktualnych dla procesu

ISO/IEC 5259 odnosi jakość danych do cyklu życia analityki i ML

Przydatność do celu

Ocena dopasowania danych do konkretnego zastosowania AI

Czy dane nadają się do danego celu, a nie tylko są dostępne

AI Act wymaga oceny suitability datasetów

Bias review

Udokumentowany przegląd możliwych biasów

Czy dane mogą prowadzić do stronniczych lub dyskryminacyjnych wyników

AI Act wymaga badania i ograniczania biasów

Luki danych

Liczba i istotność brakujących segmentów, pól lub źródeł

Czego brakuje, aby system spełniał wymagania

AI Act wymaga identyfikacji luk i braków danych

Ownership

Odsetek krytycznych datasetów z przypisanym właścicielem

Czy ktoś odpowiada za jakość, definicje i dostęp

ISO/IEC 5259-5 ujmuje jakość danych w ramach governance

Ważne jest, aby te metryki nie były prowadzone wyłącznie na poziomie centralnego zespołu danych. Przy AI właściciel biznesowy powinien odpowiadać za sens i kontekst danych, zespół danych za ich jakość i przepływy, IT za architekturę oraz bezpieczeństwo, a compliance za zgodność z regulacjami i politykami wewnętrznymi. Bez tego organizacja może mieć techniczne narzędzia do governance, ale nadal nie mieć faktycznej odpowiedzialności.

Regulacje i standardy mówią jednym językiem: kontroluj dane

AI Act nie działa w próżni. Firmy skalujące AI muszą równolegle uwzględniać RODO, standardy zarządzania ryzykiem i jakością danych oraz wewnętrzne polityki bezpieczeństwa. W praktyce wszystkie te ramy prowadzą do podobnego wniosku: organizacja powinna wiedzieć, jakich danych używa, dlaczego, na jakiej podstawie, z jakim ryzykiem i pod czyją odpowiedzialnością.

RODO pozostaje szczególnie ważne tam, gdzie AI korzysta z danych osobowych. Komisja Europejska przypomina, że zasady ochrony danych obejmują m.in. zgodność z prawem, rzetelność i przejrzystość, ograniczenie celu, minimalizację danych, dokładność, ograniczenie przechowywania, integralność i poufność oraz rozliczalność.

NIST AI RMF porządkuje zarządzanie ryzykiem AI przez funkcje Govern, Map, Measure i Manage. Governance jest w tym ujęciu funkcją przekrojową, która wspiera pozostałe działania przez cały cykl życia AI.

Rama

Co wnosi do data governance dla AI

Pytanie dla zarządu

AI Act

Wymaga kontroli danych, dokumentacji, logowania, jakości datasetów i ograniczania ryzyka w systemach wysokiego ryzyka

Czy wiemy, skąd są dane, jak zostały przygotowane i czy są reprezentatywne?

RODO

Wymaga celu, minimalizacji, dokładności, bezpieczeństwa, ograniczenia przechowywania i rozliczalności danych osobowych

Czy mamy podstawę prawną i jasno określony cel użycia danych osobowych w AI?

NIST AI RMF

Porządkuje zarządzanie ryzykiem AI przez governance, mapowanie, pomiar i zarządzanie

Czy ryzyko danych jest mapowane, mierzone i zarządzane po wdrożeniu?

ISO/IEC 5259

Dotyczy jakości danych dla analityki i machine learningu

Czy jakość danych jest zarządzana systemowo, a nie incydentalnie?

Ta perspektywa jest ważna zwłaszcza dla zarządów. Wdrożenie AI nie jest już tylko decyzją technologiczną. To decyzja o tym, jak organizacja zarządza ryzykiem, odpowiedzialnością i dowodami zgodności.

Pięć pytań przed skalowaniem AI

W praktyce firmy nie muszą zaczynać od wielkiego programu transformacji danych. Dobrym pierwszym krokiem jest przegląd najważniejszych zastosowań AI i danych, które je zasilają. Jeśli organizacja nie potrafi odpowiedzieć na poniższe pytania, prawdopodobnie nie jest jeszcze gotowa do bezpiecznego skalowania.

Pytanie

Co pokazuje odpowiedź

Czy wiemy, skąd pochodzą dane używane przez AI?

Widoczność źródeł danych i możliwość odtworzenia ich pochodzenia

Czy wiemy, czy dane są reprezentatywne dla celu systemu?

Ryzyko błędnych wyników, biasu i złych decyzji

Czy dane są możliwie wolne od błędów i kompletne?

Realną jakość danych, a nie deklarację jakości

Czy mamy prawo użyć danych osobowych w tym konkretnym celu?

Zgodność z RODO, AI Act i politykami wewnętrznymi

Czy monitorujemy dane po wdrożeniu modelu?

Zdolność do wykrywania driftu, błędów i incydentów po uruchomieniu AI

Te pytania są proste, ale ich konsekwencje organizacyjne są poważne. Jeśli firma nie wie, skąd pochodzą dane, nie odtworzy decyzji modelu. Jeśli nie bada reprezentatywności, może wdrożyć system, który działa dobrze tylko w pilotażu. Jeśli nie monitoruje danych po wdrożeniu, nie zauważy, że zmieniły się warunki działania modelu.

Narzędzia pomagają, ale nie zastępują odpowiedzialności

Rynek oferuje coraz więcej narzędzi do katalogowania danych, badania jakości, śledzenia lineage, kontroli dostępu, data observability, wersjonowania zbiorów czy monitorowania driftu. Są one potrzebne, ale nie rozwiązują najważniejszego problemu same z siebie. Narzędzie może pokazać chaos, ale nie zdecyduje, kto za niego odpowiada.

To częsty błąd organizacji. Firma kupuje platformę do danych, wdraża katalog lub system klasyfikacji, ale nie ustala, które zbiory są krytyczne, kto jest ich właścicielem, jakie są minimalne progi jakości i jak wygląda reakcja na incydent. W efekcie governance pozostaje warstwą dokumentacyjną, a nie operacyjnym mechanizmem kontroli.

W kontekście AI to za mało. Modele i agenci coraz częściej działają w czasie rzeczywistym, korzystają z wielu źródeł danych i wpływają na decyzje podejmowane przez ludzi. Data governance musi więc działać nie tylko na etapie przygotowania projektu, ale także w pipeline’ach danych, procesach dostępu, monitoringu produkcyjnym i audycie.

Governance oddziela pilotaż od skali

Pilotaż AI można przeprowadzić nawet na ograniczonych, częściowo ręcznie przygotowanych danych. Skalowanie wymaga czegoś innego: powtarzalności, kontroli, odpowiedzialności i dowodów. To dlatego data governance staje się granicą między efektownym eksperymentem a bezpieczną infrastrukturą biznesową.

Firmy, które chcą przejść od pojedynczych wdrożeń do szerokiego wykorzystania AI, powinny zacząć nie od pytania, które modele wybrać, ale od pytania, które dane są naprawdę gotowe do użycia. Czy są opisane? Czy mają właściciela? Czy są aktualne? Czy są reprezentatywne? Czy można odtworzyć ich pochodzenie? Czy można udowodnić zgodność ich użycia z prawem?

W kolejnej fazie adopcji AI przewagę będą miały nie te organizacje, które najszybciej podłączą modele do wszystkich zasobów danych, lecz te, które będą wiedziały, którym danym można zaufać, których danych używać nie wolno i kto odpowiada za skutki ich wykorzystania.

Data governance nie jest więc biurokracją wokół sztucznej inteligencji. Jest mechanizmem, który decyduje, czy AI pozostanie serią pilotaży, czy stanie się bezpieczną, zgodną i skalowalną częścią działalności firmy.