Než budeme řešit větu „no training on your data“, je fér si vysvětlit, co to trénování vůbec je. Protože spousta lidí si pod tím představí: „AI si pamatuje, co jsem jí napsal.“ A to není úplně ono.
Co je trénování
Trénování je proces, kdy se AI „učí“ tak, že se jí ukazuje obrovské množství textů a ona se na nich učí předvídat, co dává smysl. Podobně jako když se někdo učí psát: čte hromadu textů, zkouší napsat větu, někdo mu řekne „tohle je divný“, a on se postupně zlepšuje.
A to nejdůležitější: trénování je velká plánovaná výroba. Neděje se pokaždé, když se zeptáte.
Představte si to jako:
Stojíte u pultu a řeknete: „dej mi kafe“ → barista vám ho udělá a jde dál.
Továrna ladí recepturu kávy a přenastavuje stroje, aby příště dělaly lepší kafe pro všechny.
Tohle jsou dvě různé věci.
Jak trénování typicky probíhá
Krok 1: Někdo posbírá data na učení
Aby se AI zlepšovala, potřebuje „učebnici“: velký balík textů, na kterých se učí. To jsou tzv. trénovací data. Tady je první místo, kde může (nebo nemusí) vzniknout problém:
Krok 2: AI se na těch datech „učí“
AI má něco jako „vnitřní nastavení“, díky kterému umí psát. Trénování znamená: AI dostane kus textu, zkusí doplnit pokračování, když se netrefí, „opraví se“ – a takhle dokola milionkrát.
Trénování znamená změnu AI samotné. Nejen to, že si někam uloží váš text.
Krok 3: Dolaďovací fáze
Kromě základního učení existují ještě další „vylepšení“, aby AI odpovídala užitečněji, držela instrukce, byla méně toxická a dávala kvalitnější výstupy. Někdy se k tomu používají příklady promptů a odpovědí, někdy lidi hodnotí, která odpověď je lepší.
A zase: otázka není „děje se to?“ (děje). Otázka je: používají na to i reálný obsah uživatelů? A za jakých podmínek?
Kde přesně se do trénování můžou dostat „moje data“?
U běžných veřejných AI služeb je často „zlepšování modelu“ defaultně zapnuté a pokud to nechcete, musíte si to aktivně vypnout (opt-out).
„No training“ řeší jen jednu konkrétní obavu
…že se vaše dokumenty stanou „materiálem“, ze kterého se AI učí pro ostatní. Super.
Ale neřeší to, co se děje s vašimi daty při běžném provozu služby.
A to je přesně důvod, proč se lidi nechají ukolejšit frází „no training“, ale pořád se může stát průšvih.
Nepoužijeme vaše věci na učení modelu.
Ukládání a historie, logy, přístupy lidí, subdodavatelé, retence.
A přesně to jsou ty další šuplíky, které rozhodují, jestli je to safe. Víc o nich najdete v prvním dílu: 3 otázky, které vám pomohou rozhodnout.
V dalším dílu se podíváme na to, jaký je reálný rozdíl mezi free a enterprise verzemi AI nástrojů – a proč to, co používáte doma, nemusí být vhodné pro firmu.
