AI začíná předpovídat, jak budeme připravovat data
Umělá inteligence zásadně mění přípravu dat. Nová studie ukazuje, že dokáže předvídat většinu úprav v BI projektech
Příprava dat patří dlouhodobě k nejnáročnějším etapám datové analytiky. Podle odborníků zabírá v mnoha projektech nejvíce času a vyžaduje značný podíl manuální práce. Nový výzkum publikovaný v prestižním časopise VLDB Endowment pro rok 2025 však naznačuje, že tento proces může v blízké budoucnosti výrazně zrychlit.
Studie s názvem Auto-Prep: Holistic Prediction of Data Preparation Steps představuje model, který dokáže předpovědět více než 70 % transformačních a spojovacích kroků běžně používaných při přípravě dat. Autoři vycházeli z analýzy více než dvou tisíc reálných BI projektů.

Jednotný model pro transformace i spojování dat
Na rozdíl od dosavadních přístupů, které se zaměřují buď na transformace, nebo na joiny, Auto-Prep kombinuje obojí do jednoho komplexního modelu. Vědci využili grafovou reprezentaci, kde jednotlivé tabulky fungují jako uzly a možné kroky přípravy dat jako hrany.
Tento "holistický" pohled umožnil dosáhnout vyšší přesnosti, neboť transformace a join operace se v praxi vzájemně ovlivňují. Model tak dokáže navrhnout nejen správné operace, ale také jejich odpovídající pořadí.
Podle autorů se ukázalo, že metoda překonala i velké jazykové modely, jako je GPT-4, a to zejména při určování optimální sekvence kroků.Váš text začíná právě zde.
Výsledky testování a dopady na praxi
Testování na rozsáhlém vzorku Power BI projektů ukázalo, že Auto-Prep dokáže:
-
správně předpovědět více než 70 % kroků přípravy dat,
-
pracovat efektivně i s projekty obsahujícími velký počet tabulek,
-
dosáhnout vysokého F1 skóre u transformací, přibližně 0,76.
Výzkumníci upozorňují, že příprava dat patří k nejnáročnějším částem analytických projektů. Automatizace této fáze by proto mohla výrazně zkrátit dobu potřebnou k nasazení BI řešení a ulevit datovým analytikům od rutinní práce.Váš text začíná právě zde. Klikněte a můžete začít psát.

Možné budoucí využití
Ačkoli je Auto-Prep zaměřen na prostředí self-service BI nástrojů, koncept se podle expertů může rozšířit i do dalších oblastí. Patří mezi ně zejména datové toky v ETL, automatizace datového inženýrství nebo příprava dat pro modely strojového učení.
Studie otevírá cestu k sistematičtější automatizaci procesů, které byly dosud silně závislé na manuálním zásahu. Pokud se podobné technologie začnou prosazovat v praxi, může se role datových specialistů výrazně proměnit – od rutinní přípravy dat směrem ke strategickému rozhodování.

