S AI to není tak růžové, jak se zdá. Čeká nás trnitá cesta k udržení kvality chatbotů?
Praktické užití umělé inteligence se bude objevovat stále častěji, dokonce se ani nebude objevovat. Už totiž těch příkladů, kde nízkou nebo AI 0.1 používáme a ani to nevíme, je veliké množství.
Je samozřejmé a vlastně trochu smutné, že generativní AI vzbudila tak velký rozruch. Je to jen ukázka toho, že nejsme na nástup umělé inteligence všichni připraveni.
Nicméně se začalo ukazovat, že umělá inteligence není připravena ani sama na sebe. Začaly se totiž ozývat hlasy varující před vyčerpáním přirozených dat.
Data hrají v ekonomice umělé inteligence ústřední roli a jsou životně důležitou silou modelu, a to jak v základní funkci, tak v kvalitě; čím přirozenější – například lidmi vytvořená – data, na kterých se dá systém AI trénovat, tím lepší se tento systém stává.
Naneštěstí pro společnosti pracující s umělou inteligencí se ukazuje, že zdroje přirozených dat jsou omezené.
Jak poznamenává Rita Matulionyte, profesorka práva informačních technologií na australské Macquarie University v eseji pro The Conversation, „výzkumníci umělé inteligence již téměř rok na tento fakt upozorňují. Jedna loňská studie výzkumníků z organizace pro předpovědi umělé inteligence Epoch AI odhaduje, že společnostem s umělou inteligencí by mohla docházet vysoce kvalitní textová tréninková data již v roce 2026, stejně jako obrazové zdroje, které vyschnou později.“
Originál článku zde.
Nabízí se možnost použití syntetických dat, nebo dat generovaných modely umělé inteligence, ale ani to nemusí být životaschopné řešení. Použití syntetického obsahu by totiž mohlo ve skutečnosti zcela zničit daný model; existuje určitý výzkum, který ukazuje, že trénování modelů umělé inteligence na obsahu generovaném umělou inteligencí způsobuje zřetelný inbrední efekt – poruchy při křížení mezi příbuznými jedinci.
Tím, jak je najednou AI všudypřítomná, roste i syntetický obsah, který produkuje. Paradoxní je, že právě tyto syntetické výstupy mohou být také největší hrozbou generativní umělé inteligence. Zjednodušeně řečeno, využíváním svých vlastních výstupů jako dat, může AI úplně zhloupnout.
První mně známý signál je z února tohoto roku, kdy výzkumník z Monash University Jathan Sadowski napsal: „…. Ze systému silně trénovaného na výstupech jiných generativních AI se stává inbrední mutant, pravděpodobně s přehnanými, groteskními rysy“.
Výzkumníci strojového učení Sinou Alemohammad a Josue Casco-Rodriguezem, oba doktorandi na katedře elektrotechniky a počítačového inženýrství Rice University, a jejich dohlížející profesor Richard G. Baraniuk ve spolupráci s výzkumníky ze Stanfordu nedávno publikovali fascinující (i když dosud nerecenzovaný) článek na toto téma, nazvaný „Self-consuming Generative Models Go MAD“. Pozn. MAD je zkratka pro Model Autophagy Disorder.
Rozhovor s výzkumníky zde.
Baraniuk: „Řekněme, že existují společnosti, které z jakéhokoli důvodu – možná je levnější používat syntetická data, nebo prostě nemají dostatek skutečných dat – hodí opatrnost za hlavu. Říkají: "budeme používat syntetická data." Co si neuvědomují, je, že pokud to budou dělat dlouho, syntetická data se začnou vzdalovat realitě.
To je ta věc, která je opravdu nejnebezpečnější a možná si ani neuvědomujete, že se to děje. A tím, že se vzdalujete od reality, mám na mysli, že vytváříte obrazy, které budou čím dál tím více monotónní a nudné. Totéž se stane i s textem. V jednom experimentu, který jsme provedli, místo toho, aby se rozdíly výstupů zesílily, všechny obrázky splývají v podstatě do stejné podoby. Je to úplně šílené.“