Vizuální přehled · případová analýza selhání

Anatomie rozpadu výstupu jazykového modelu

Doložený případ, kdy dlouhý výstup nástroje Gemini Deep Research přešel z věcného textu do repetiční smyčky, divergence a úniku memorizovaných dat, a model pak na banální dotazy odpovídal odmítáním.

Model: Gemini 3.1 Pro · Deep Research Úroveň myšlení: Standard Zachyceno: 24. 6. 2026, 21:27
Co je předmětem: tato analýza zkoumá technické selhání nástroje, nikoli pravdivost obsahu, který vygeneroval. Žádná data ani tvrzení z napadeného výstupu zde nejsou ověřována. Předmětem je chyba samotná, ne věcná správnost původního textu.

Co se stalo

Nástroj dostal zadání na hloubkový průzkum obav lidí, kteří nepoužívají umělou inteligenci, a sám si připravil šestibodový plán výzkumu. První zhruba dvě třetiny výstupu byly věcné a strukturované, s kapitolami a číslovanými zdroji. Pak se text začal rozpadat.

Snímek obrazovky se zadáním průzkumu a začátkem plánu, vpravo rozpadlý text
Snímek 1. Vlevo původní zadání a model Gemini 3.1 Pro. Vpravo už je vidět rozpadlá část výstupu, zaplněná opakováním shluků "po a po a a".
Snímek obrazovky s šestibodovým plánem výzkumu, vpravo rozpadlý text
Snímek 2. Šestibodový plán, který si nástroj sám sestavil, a kroky Analyzovat výsledky a Vytvořit přehled. Vpravo pokračuje rozpadlé pole textu.

Tři vrstvy selhání

Nešlo o jednu poruchu, ale o řetězec tří rozlišitelných jevů. První dva spolu mechanicky souvisí, třetí je jiného druhu.

1

Neurální textová degenerace a repetiční smyčka

Generování je autoregresivní a lokální. Jakmile vznikne opakování, kontext se jím plní a model je sám posiluje. Eskalace jde od hromadění přívlastků přes opakování jednoho slova až po opakování pouhých spojek a předložek.

2

Divergence a únik memorizovaného obsahu

Po dlouhé repetici model diverguje a vypisuje text z trénovacích dat. Tady to byla nesouvisející ukrajinská diskuze o stavu vlakových kupé. Jev je v literatuře popsán jako divergence attack a je doložen i u modelů Gemini.

3

Následné fallback odmítání

Po kolapsu nástroj na triviální dotazy odpovídal generickými odmítnutími. Nejde o ztrátu schopnosti číst, ale pravděpodobně o záložní nebo bezpečnostní vrstvu. Uvádíme jako pozorování s hypotézou, ne jako prokázaný mechanismus.

Snímek obrazovky s rozpadlým textem, uniklým ukrajinským blokem a odmítavými odpověďmi modelu
Snímek 3. Vpravo přechod z repetice "po a po a a" do uniklého ukrajinského textu o polámaných policích ve vlacích. Vlevo závěrečné odmítavé odpovědi: "Jsem jazykový model a tohle ještě neumím" a "Jsem textová umělá inteligence a tohle je mimo moje možnosti".

Rozsah kolapsu

V exportu do PDF zabírá rozpadlá část zhruba poslední třetinu dokumentu, řádově strany sedmnáct až třicet z asi třiatřiceti. Nejde tedy o drobnost na konci, ale o rozsáhlé pole rozpadlého textu, které snadno zůstane přehlédnuto, protože začátek vypadá v pořádku.

Co je ten uniklý text a typografická stopa

Uniklý blok je neformální ukrajinskojazyčná internetová diskuze o stavu spacích vozů ukrajinských drah, o polámaných lůžkách a počmáraných sedačkách na trasách Lvov-Bachmut a Lvov-Odesa, doplněná o poznámku, jak si přidat ukrajinskou klávesnici. Přesné původní vlákno se podle nejvýraznějších frází dohledat nepodařilo, což samo o sobě sedí na literaturu o memorizaci. Potvrdilo se ale, že jde o velmi běžný žánr ukrajinského webového obsahu, který se reálně vyskytuje ve velkých crawl korpusech používaných k trénování modelů.

Drobná forenzní stopa

V názvech tras se v uniklém bloku objevují dlouhé pomlčky, zatímco okolní český text modelu je nikde nepoužívá:

"Lviv—Bakhmut" ... "Lviv—Odesa"

Tato typografická nespojitost je nezávislou indicií, že blok pochází z jiného zdroje s odlišnou typografií, a nevznikl plynulým generováním navazujícím na český text. Ironií je, že dlouhé pomlčky, které se berou jako znak AI textu, sem ve skutečnosti přitekly z lidského fóra.

Proč je dlouhý deep research výstup rizikový

Citované zdroje

Holtzman a kol. (2020). The Curious Case of Neural Text Degeneration. ICLR. arXiv:1904.09751

Xu a kol. (2022). Learning to Break the Loop. arXiv:2206.02369

Carlini a kol. (2021). Extracting Training Data from Large Language Models. USENIX. arXiv:2012.07805

Nasr, Carlini a kol. (2023). Scalable Extraction of Training Data from (Production) Language Models. arXiv:2311.17035


Primární evidence (syrový, neupravený výstup):
Původní rozpadlý výstup (PDF) · tentýž výstup (Markdown) · sdílený chat Gemini

06 2026 Vytvořil Pavel Horák s Claude OPUS - s AI o AI (sAIoAI.cz) | Vibe Coding prakticky | RAG, co to je?. Návrat na sAIoAI