AI w firmie wymaga kontroli nad jakością danych

Sztuczna inteligencja w firmach coraz rzadziej jest już problemem dostępu do technologii, a coraz częściej testem dojrzałości organizacji: jej danych, procesów i odpowiedzialności. Im więcej decyzji i automatyzacji opiera się na AI, tym bardziej ryzykowne staje się pytanie, czy firma naprawdę wie, skąd pochodzą dane, kto za nie odpowiada i czy można im zaufać.

15 Min
Dane, technologia
Pixabay

Firmy coraz częściej nie zatrzymują się dziś na pytaniu, czy mogą wykorzystać sztuczną inteligencję. Znacznie trudniejsze staje się inne pytanie: czy wiedzą, jakimi danymi karmią swoje systemy AI, kto za te dane odpowiada i czy można im zaufać w procesach biznesowych.

To zasadnicza zmiana. W pierwszej fali wdrożeń generatywnej AI najważniejsze były dostęp do modeli, szybkość pilotaży i pierwsze zastosowania w obsłudze klienta, sprzedaży, marketingu, IT czy analizie dokumentów. W drugiej fazie firmy zderzają się z bardziej przyziemnym problemem. AI nie skaluje się na prezentacjach, ale na danych: często rozproszonych, niespójnych, częściowo nieaktualnych, nieopisanych lub objętych ograniczeniami prawnymi.

Dlatego data governance przestaje być tematem dla wąskiej grupy specjalistów od danych. Staje się jednym z warunków bezpiecznego, zgodnego i skalowalnego użycia AI w organizacji. Im większą rolę AI odgrywa w decyzjach, automatyzacji i codziennych procesach, tym większe znaczenie ma możliwość odpowiedzi na kilka podstawowych pytań: skąd pochodzą dane, czy wolno ich użyć, jaka jest ich jakość, czy są reprezentatywne, kto ma do nich dostęp i kto odpowiada za ich skutki.

Dane są nowym punktem kontroli AI

W tradycyjnej analityce błąd w danych mógł prowadzić do złego raportu albo mylącego dashboardu. W przypadku AI ten sam błąd może zostać powielony przez model, wykorzystany przez agenta, przeniesiony do decyzji operacyjnej albo ukryty w rekomendacji, której nikt nie sprawdził na czas. AI wzmacnia więc nie tylko wartość danych, ale również ich braki.

Z tego powodu gotowość danych do AI nie może być rozumiana jako sama dostępność dużych zbiorów. Organizacja może mieć ogromne ilości danych, a jednocześnie nie być gotowa do skalowania AI. Problemem może być brak właścicieli danych, brak metadanych, niejasne definicje, niepełny lineage, luki jakościowe, brak klasyfikacji danych osobowych lub brak procedur monitorowania po wdrożeniu.

AI Act wzmacnia ten kierunek. Komisja Europejska opisuje AI Act jako pierwsze kompleksowe ramy prawne dla AI, oparte na podejściu do ryzyka. Dla systemów wysokiego ryzyka wskazuje m.in. wymogi dotyczące wysokiej jakości datasetów, logowania aktywności, dokumentacji, informacji dla użytkownika, nadzoru człowieka oraz wysokiego poziomu odporności, cyberbezpieczeństwa i dokładności.

To oznacza, że data governance w kontekście AI nie jest już tylko dobrą praktyką. W wielu zastosowaniach staje się mechanizmem dowodowym: firma musi nie tylko twierdzić, że kontroluje dane, ale też potrafić to wykazać.

Co data governance oznacza w praktyce

Data governance dla AI można opisać jako system zasad, ról, procesów i kontroli, które pozwalają organizacji zarządzać danymi przez cały cykl życia systemu AI. Nie chodzi tylko o dane treningowe. W firmowych wdrożeniach równie ważne są dane walidacyjne i testowe, dane wykorzystywane w systemach RAG, dane wejściowe użytkowników, logi, dane produkcyjne, dane referencyjne oraz informacje używane do monitorowania działania modeli po wdrożeniu.

Dojrzała organizacja powinna wiedzieć, które dane są krytyczne dla działania systemu AI, jakie mają ograniczenia, kto jest ich właścicielem, kto może je przetwarzać, jak często są aktualizowane i jak wpływają na wynik modelu. Bez tego skalowanie AI staje się mnożeniem ryzyka.

Najmocniejszą podstawę dla takiego podejścia daje dziś AI Act w odniesieniu do systemów wysokiego ryzyka. Wymaga on, aby dane treningowe, walidacyjne i testowe były objęte praktykami data governance i data management odpowiednimi do przeznaczenia systemu. W praktyce oznacza to konieczność zarządzania pochodzeniem danych, przygotowaniem zbiorów, ich reprezentatywnością, błędami, kompletnością, biasem oraz lukami danych.

Element data governancePodstawa źródłowaZnaczenie dla organizacji
Pochodzenie danych i proces zbieraniaAI Act wskazuje na procesy zbierania danych, ich pochodzenie oraz pierwotny cel zbierania danych osobowychFirma musi wiedzieć, skąd pochodzą dane i czy może użyć ich w danym celu AI
Przygotowanie danychAI Act odnosi się do operacji takich jak annotation, labelling, cleaning, updating, enrichment i aggregationNie wystarczy mieć dataset; trzeba wiedzieć, jak został przetworzony
Założenia dotyczące danychAI Act wymaga określenia założeń dotyczących tego, co dane mają mierzyć i reprezentowaćPozwala ograniczyć ryzyko błędnych proxy i fałszywych korelacji
Dostępność, ilość i przydatność danychAI Act wskazuje na ocenę availability, quantity i suitability datasetówSkala AI wymaga oceny, czy dane pasują do celu systemu
Bias w danychAI Act wymaga badania możliwych biasów oraz działań wykrywających, zapobiegających i ograniczających biasTo kluczowe przy zastosowaniach wpływających na ludzi, np. rekrutację, kredyt, edukację czy usługi publiczne
Luki i braki danychAI Act wymaga identyfikacji luk lub braków danych, które mogą uniemożliwić zgodność z wymogamiGotowość danych obejmuje także wiedzę o tym, czego w danych brakuje
Reprezentatywność, kompletność i błędyAI Act wymaga, aby dane były relewantne, wystarczająco reprezentatywne, możliwie wolne od błędów i kompletne względem celu systemuTo fundament oceny jakości danych dla AI

Ta tabela pokazuje, że governance nie jest abstrakcją. To bardzo konkretna lista obszarów, które muszą zostać opisane, zmierzone lub udokumentowane, zanim AI trafi do procesów o większej skali.

Gotowość danych trzeba mierzyć, nie deklarować

Największym błędem firm skalujących AI jest traktowanie jakości danych jako opinii. W praktyce gotowość danych powinna być mierzona zestawem wskaźników, które pozwalają określić, czy dany zbiór można bezpiecznie wykorzystać w konkretnym zastosowaniu AI.

Nie istnieje jeden uniwersalny próg gotowości danych dla wszystkich branż i przypadków użycia. Inne wymagania będą miały systemy wspierające marketing, inne systemy klasyfikujące zgłoszenia serwisowe, a jeszcze inne rozwiązania wysokiego ryzyka, np. w rekrutacji, kredycie, edukacji, ochronie zdrowia czy infrastrukturze krytycznej. Można jednak wskazać metryki, które wynikają bezpośrednio z logiki AI Act, RODO, NIST AI RMF oraz standardów jakości danych dla analityki i uczenia maszynowego.

ISO/IEC 5259-5:2025 opisuje ramy governance jakości danych dla analityki i machine learningu. Standard jest skierowany m.in. do osób odpowiedzialnych za zarządzanie organizacją i jakością danych, co dobrze pokazuje, że jakość danych dla AI nie jest wyłącznie zadaniem technicznym.

ObszarMetrykaCo mierzyŹródłowe uzasadnienie
KompletnośćOdsetek wymaganych pól bez brakówCzy dataset zawiera dane potrzebne do celu AIAI Act mówi o kompletności oraz lukach danych
PoprawnośćOdsetek wartości zgodnych z regułami biznesowymi lub referencyjnymiCzy dane są możliwie wolne od błędówAI Act wymaga, aby dane były możliwie wolne od błędów
ReprezentatywnośćPorównanie danych treningowych z populacją lub kontekstem użyciaCzy dane odpowiadają warunkom, w których system będzie działałAI Act wymaga wystarczającej reprezentatywności danych
AktualnośćOdsetek danych mieszczących się w wymaganym SLA czasuCzy AI korzysta z danych aktualnych dla procesuISO/IEC 5259 odnosi jakość danych do cyklu życia analityki i ML
Przydatność do celuOcena dopasowania danych do konkretnego zastosowania AICzy dane nadają się do danego celu, a nie tylko są dostępneAI Act wymaga oceny suitability datasetów
Bias reviewUdokumentowany przegląd możliwych biasówCzy dane mogą prowadzić do stronniczych lub dyskryminacyjnych wynikówAI Act wymaga badania i ograniczania biasów
Luki danychLiczba i istotność brakujących segmentów, pól lub źródełCzego brakuje, aby system spełniał wymaganiaAI Act wymaga identyfikacji luk i braków danych
OwnershipOdsetek krytycznych datasetów z przypisanym właścicielemCzy ktoś odpowiada za jakość, definicje i dostępISO/IEC 5259-5 ujmuje jakość danych w ramach governance

Ważne jest, aby te metryki nie były prowadzone wyłącznie na poziomie centralnego zespołu danych. Przy AI właściciel biznesowy powinien odpowiadać za sens i kontekst danych, zespół danych za ich jakość i przepływy, IT za architekturę oraz bezpieczeństwo, a compliance za zgodność z regulacjami i politykami wewnętrznymi. Bez tego organizacja może mieć techniczne narzędzia do governance, ale nadal nie mieć faktycznej odpowiedzialności.

Regulacje i standardy mówią jednym językiem: kontroluj dane

AI Act nie działa w próżni. Firmy skalujące AI muszą równolegle uwzględniać RODO, standardy zarządzania ryzykiem i jakością danych oraz wewnętrzne polityki bezpieczeństwa. W praktyce wszystkie te ramy prowadzą do podobnego wniosku: organizacja powinna wiedzieć, jakich danych używa, dlaczego, na jakiej podstawie, z jakim ryzykiem i pod czyją odpowiedzialnością.

RODO pozostaje szczególnie ważne tam, gdzie AI korzysta z danych osobowych. Komisja Europejska przypomina, że zasady ochrony danych obejmują m.in. zgodność z prawem, rzetelność i przejrzystość, ograniczenie celu, minimalizację danych, dokładność, ograniczenie przechowywania, integralność i poufność oraz rozliczalność.

NIST AI RMF porządkuje zarządzanie ryzykiem AI przez funkcje Govern, Map, Measure i Manage. Governance jest w tym ujęciu funkcją przekrojową, która wspiera pozostałe działania przez cały cykl życia AI.

RamaCo wnosi do data governance dla AIPytanie dla zarządu
AI ActWymaga kontroli danych, dokumentacji, logowania, jakości datasetów i ograniczania ryzyka w systemach wysokiego ryzykaCzy wiemy, skąd są dane, jak zostały przygotowane i czy są reprezentatywne?
RODOWymaga celu, minimalizacji, dokładności, bezpieczeństwa, ograniczenia przechowywania i rozliczalności danych osobowychCzy mamy podstawę prawną i jasno określony cel użycia danych osobowych w AI?
NIST AI RMFPorządkuje zarządzanie ryzykiem AI przez governance, mapowanie, pomiar i zarządzanieCzy ryzyko danych jest mapowane, mierzone i zarządzane po wdrożeniu?
ISO/IEC 5259Dotyczy jakości danych dla analityki i machine learninguCzy jakość danych jest zarządzana systemowo, a nie incydentalnie?

Ta perspektywa jest ważna zwłaszcza dla zarządów. Wdrożenie AI nie jest już tylko decyzją technologiczną. To decyzja o tym, jak organizacja zarządza ryzykiem, odpowiedzialnością i dowodami zgodności.

Pięć pytań przed skalowaniem AI

W praktyce firmy nie muszą zaczynać od wielkiego programu transformacji danych. Dobrym pierwszym krokiem jest przegląd najważniejszych zastosowań AI i danych, które je zasilają. Jeśli organizacja nie potrafi odpowiedzieć na poniższe pytania, prawdopodobnie nie jest jeszcze gotowa do bezpiecznego skalowania.

PytanieCo pokazuje odpowiedź
Czy wiemy, skąd pochodzą dane używane przez AI?Widoczność źródeł danych i możliwość odtworzenia ich pochodzenia
Czy wiemy, czy dane są reprezentatywne dla celu systemu?Ryzyko błędnych wyników, biasu i złych decyzji
Czy dane są możliwie wolne od błędów i kompletne?Realną jakość danych, a nie deklarację jakości
Czy mamy prawo użyć danych osobowych w tym konkretnym celu?Zgodność z RODO, AI Act i politykami wewnętrznymi
Czy monitorujemy dane po wdrożeniu modelu?Zdolność do wykrywania driftu, błędów i incydentów po uruchomieniu AI

Te pytania są proste, ale ich konsekwencje organizacyjne są poważne. Jeśli firma nie wie, skąd pochodzą dane, nie odtworzy decyzji modelu. Jeśli nie bada reprezentatywności, może wdrożyć system, który działa dobrze tylko w pilotażu. Jeśli nie monitoruje danych po wdrożeniu, nie zauważy, że zmieniły się warunki działania modelu.

Narzędzia pomagają, ale nie zastępują odpowiedzialności

Rynek oferuje coraz więcej narzędzi do katalogowania danych, badania jakości, śledzenia lineage, kontroli dostępu, data observability, wersjonowania zbiorów czy monitorowania driftu. Są one potrzebne, ale nie rozwiązują najważniejszego problemu same z siebie. Narzędzie może pokazać chaos, ale nie zdecyduje, kto za niego odpowiada.

To częsty błąd organizacji. Firma kupuje platformę do danych, wdraża katalog lub system klasyfikacji, ale nie ustala, które zbiory są krytyczne, kto jest ich właścicielem, jakie są minimalne progi jakości i jak wygląda reakcja na incydent. W efekcie governance pozostaje warstwą dokumentacyjną, a nie operacyjnym mechanizmem kontroli.

W kontekście AI to za mało. Modele i agenci coraz częściej działają w czasie rzeczywistym, korzystają z wielu źródeł danych i wpływają na decyzje podejmowane przez ludzi. Data governance musi więc działać nie tylko na etapie przygotowania projektu, ale także w pipeline’ach danych, procesach dostępu, monitoringu produkcyjnym i audycie.

Governance oddziela pilotaż od skali

Pilotaż AI można przeprowadzić nawet na ograniczonych, częściowo ręcznie przygotowanych danych. Skalowanie wymaga czegoś innego: powtarzalności, kontroli, odpowiedzialności i dowodów. To dlatego data governance staje się granicą między efektownym eksperymentem a bezpieczną infrastrukturą biznesową.

Firmy, które chcą przejść od pojedynczych wdrożeń do szerokiego wykorzystania AI, powinny zacząć nie od pytania, które modele wybrać, ale od pytania, które dane są naprawdę gotowe do użycia. Czy są opisane? Czy mają właściciela? Czy są aktualne? Czy są reprezentatywne? Czy można odtworzyć ich pochodzenie? Czy można udowodnić zgodność ich użycia z prawem?

W kolejnej fazie adopcji AI przewagę będą miały nie te organizacje, które najszybciej podłączą modele do wszystkich zasobów danych, lecz te, które będą wiedziały, którym danym można zaufać, których danych używać nie wolno i kto odpowiada za skutki ich wykorzystania.

Data governance nie jest więc biurokracją wokół sztucznej inteligencji. Jest mechanizmem, który decyduje, czy AI pozostanie serią pilotaży, czy stanie się bezpieczną, zgodną i skalowalną częścią działalności firmy.

Udostępnij