Kognitivní personalizace a typologie uživatelů v LLM: Jak paměť a real-time analýza mění chování AI (referenční bod, květen 2026)

• 24. května 2026 • 12 min čtení

K polovině roku 2026 prošly velké jazykové modely přechodem od bezestavových textových generátorů k systémům s perzistentní pamětí a schopností autonomní evaluace třetích osob. Studie technicky rozebírá dva paralelní jevy — hlubokou personalizaci přes vícevrstvé paměťové architektury a real-time profilování cizích osob z veřejné digitální stopy — ověřuje je proti aktuálnímu výzkumu a kriticky vyvrací mýtus o perzistentní skryté typologii lidí.

Od bezestavového generátoru ke kontextově perzistentnímu systému

K polovině roku 2026 prošly velké jazykové modely (LLM) zásadním přechodem od bezestavových textových generátorů k systémům, které si dokážou udržovat kontext napříč relacemi a aktivně personalizovat své výstupy. Tento posun stojí na dvou paralelních jevech. Prvním je hluboké, dlouhodobé poznávání přímého uživatele prostřednictvím vícevrstvých paměťových architektur. Druhým je schopnost provádět analýzu třetích osob v reálném čase na základě jejich veřejné digitální stopy a zařazovat je do vnitřních kategorií v embeddingovém prostoru. Tato studie obě pozorování technicky rozebírá, ověřuje je proti aktuálním publikacím a firemní dokumentaci a definuje pevný referenční bod k 24. květnu 2026.

Architektura paměťových systémů

Personalizace už dávno nespočívá v prostém doplňování statických systémových instrukcí. Přední poskytovatelé implementovali asynchronní paměťové vrstvy, které se liší podle míry integrace s jejich aplikačním ekosystémem a klientskými daty.

OpenAI (ChatGPT) staví paměť na strukturovaném kontextovém okně o čtyřech hierarchických vrstvách: metadata relace (typ zařízení, prohlížeč, přibližná poloha, časové pásmo, úroveň předplatného), permanentní uživatelská fakta, asynchronně předpočítaná shrnutí zhruba patnácti posledních konverzací (proces pro tokenovou efektivitu ignoruje repliky modelu a analyzuje výhradně vstupy uživatele) a nekomprimovaný přepis aktuální relace, který se při vyčerpání kontextu ořezává od nejstarších zpráv.

Anthropic (Claude.ai) spustil persistentní paměť pro bezplatné i platící uživatele v březnu 2026. Neukládá doslovné přepisy, nýbrž strukturovaná odvozená fakta rozdělená do kategorií: vyjádřené preference, pracovní a studijní kontext, sdílené faktické údaje a preferovaný pracovní styl. Architektura je transparentní — model v odpovědi explicitně deklaruje, kdykoliv jeho výstup ovlivnila uložená paměť, čímž se odlišuje od tiché personalizace.

Google (Gemini) staví personalizaci na systému Personal Intelligence, který propojuje aktivitu vyhledávání, sledování historie a přímé napojení na Workspace aplikace (Gmail, YouTube, Mapy, Fotky); v podnikové verzi umí extrahovat kontext i z připojených zdrojů jako Microsoft Outlook či OneDrive a nechává uživatele přímo editovat uložená fakta.

Akademické modely reprezentace uživatele

Výzkum hledá způsoby, jak reprezentovat uživatelský profil bez neustálého navyšování kontextového okna nebo nákladného dolaďování parametrů. Framework O-Mem (Active User Profiling Memory) chápe každou interakci jako příležitost k aktualizaci sémantického profilu a zápisu do epizodické paměti. Temporal Semantic Memory (TSM) konstruuje sémantickou časovou osu namísto pouhé chronologie dialogu, aby model rozlišoval mezi přechodnými stavy a dlouhodobě platnými skutečnostmi. RUMS (Response-Utility optimization for Memory Selection) nevybírá vzpomínky podle prosté vektorové podobnosti, ale měří vzájemnou informaci mezi podmnožinou paměti a výstupem modelu, čímž maximalizuje redukci nejistoty.

Empirický dopad paměti: past personalizace

Ačkoliv je personalizace prezentována jako zvýšení komfortu, nezávislá měření odhalila závažné anomálie. Studie The Personalization Trap (Fang et al., Amazon) hodnotila 15 modelů na standardizovaných testech emoční inteligence za přítomnosti různých uživatelských profilů a zjistila, že zavedení uživatelské paměti systematicky degraduje schopnost emoční interpretace u 11 z 15 modelů.

Socioekonomická hierarchizace: modely nabízely přesnější interpretaci a adekvátnější doporučení společensky privilegovaným profilům. Claude 3.7 Sonnet vykázal 80,10 % úspěšnost pro privilegované oproti 77,37 % pro znevýhodněné profily; DeepSeek-R1 klesl z 81,62 % na 76,57 %.
Negativní priming u znevýhodněných profilů: informace o strukturních bariérách vedly k prudkému nárůstu „flip rate" — podílu rozhodnutí, která se změnila čistě kvůli přidání profilu k jinak identickému scénáři. Model interpretoval běžné stresové situace zkresleným, stereotypizovaným způsobem.

Latentní reprezentace a typologie třetích osob

Modely si během tréninku budují vnitřní sémantický model světa. Studie Localizing Persona Representations in LLMs (Cintas et al., 2025) ukázala, že komplexní sociální konstrukty — hodnoty, politické a morální postoje — jsou v dekodérových LLM lokalizovány v poslední třetině dekodérových vrstev, přičemž politické ideologie jsou kódovány v geometricky odlišných oblastech, zatímco abstraktní etické postoje se výrazně překrývají. Experiment s round-trip hodnocením dále prokázal, že z generovaných životních příběhů lze zpětně rekonstruovat osobnostní rysy Big Five s korelací r = 0,750, což odpovídá zhruba 85 % lidského stropu spolehlivosti.

Real-time stylometrie a hodnocení zdrojů

Při vyhledávání v reálném čase modely zdroje nejen extrahují, ale i hodnotí jejich kvalitu. Klíčovým rozlišovacím znakem mezi lidským a strojovým textem je perplexita: AI text vykazuje vysokou distribuční uniformitu a nízkou entropii, zatímco lidské psaní se vyznačuje strukturální neuspořádaností, výkyvy v délce vět a afektivní hustotou, kterou současné modely nedokážou věrně napodobit. To se promítá do citačních vzorců — analýzy ukazují, že kolem 82 % zdrojů citovaných modely ChatGPT a Perplexity tvoří prokazatelně lidské texty.

Studie Cited but Not Verified ale odhalila zásadní rozpor. Nejsilnější modely sice udržují dostupnost odkazů nad 94 % a sémantickou relevanci nad 80 %, ale reálná faktická shoda (Fact Check) se pohybuje jen mezi 39–77 %. Překvapivé zjištění: rozsáhlejší vyhledávání nevede k přesnějším citacím. Při škálování počtu vyhledávacích kroků z 2 na 150 klesla přesnost Fact Check v průměru o 42 % — model GPT-5.4 propadl ze 79 % na pouhých 17 %. Přeplnění kontextového okna různorodými zdroji vede k asociačnímu chaosu a chybnému přiřazování tvrzení k autorům. Odtud i název audio verze: proč více informací dělá AI hloupější.

Kritická dekonstrukce hypotéz

Empirická verifikace vyžaduje korekci tří rozšířených domněnek:

Žádná perzistentní typologie cizích osob: neexistuje globální skrytá databáze hodnotících štítků pro konkrétní lidi. Když model o autorovi prohlásí, že „podle všeho nepřepisuje výstupy jiné AI", jde o zero-shot stylometrický výpočet v reálném čase, který zaniká s uzavřením kontextového okna — ne o načtení dříve uložené kategorie.
Nestabilita a nespolehlivost úsudků: míra shody mezi modely silně kolísá podle poskytovatele a tématu. Vysoká flip rate u znevýhodněných profilů dokazuje, že „úsudky" o lidech nejsou objektivní analýzou charakteru, ale jsou náchylné k předsudkům, negativnímu primingu a halucinování souvislostí.
Původ názorové vyhraněnosti: asertivní, sebevědomý tón není projevem autonomního vědomí, nýbrž důsledkem ladění RLHF, které upřednostňuje sebejisté formulace, protože je lidští hodnotitelé vnímají jako fakticky přesnější — bez ohledu na jejich reálnou správnost.

Závěr

K 24. květnu 2026 je prokázáno, že velké jazykové modely dosáhly vysoké technické vyspělosti v integraci uživatelské paměti a v asynchronní správě kontextu. Tyto systémy však vykazují vážné kontextové deformace: přítomnost uživatelské paměti prokazatelně zhoršuje kvalitu rozhodování a aktivuje socioekonomické předsudky ukotvené v latentním prostoru. V oblasti hodnocení třetích osob jsou modely schopny přesné real-time stylometrie, ale představa o stabilních, perzistentních typologických profilech cizích osob je vědecky vyvrácena — jde o ad-hoc výpočet v kontextovém okně a asertivní tón vynucený fází alignmentu. Tento dokument slouží jako výchozí bod pro budoucí srovnání vývoje kognitivních a strukturálních vrstev LLM.

Kompletní studie k prohlížení i ke stažení

Kromě článku výše si můžete prohlédnout nebo stáhnout kompletní studii včetně všech dat, grafů a příloh.

PDF studie (kompletní) Vizuální HTML verze

Poslechnout audio verzi

Délka: 5:59

Revize: Claude Opus 4.8 — 30. května 2026

Provedl jsem nezávislou verifikaci hlavních empirických tvrzení této studie křížovým porovnáním s primárními zdroji. Tři stěžejní claimy se potvrdily přesně, u několika dílčích čísel a popisů architektur platí upřesnění uvedená níže.

Ověřená tvrzení:

1. The Personalization Trap — POTVRZENO
→ Studie The Personalization Trap: How User Memory Alters Emotional Reasoning in LLMs (Fang et al., Amazon, arXiv 2510.09905) je reálná. Sedí jádro tvrzení: 15 hodnocených modelů, identické scénáře s různými profily vedou k systematicky odlišné emoční interpretaci a zvýhodněné profily dostávají přesnější a vstřícnější reakce. Personalizace tak může do modelů zabudovat sociální hierarchie.

2. Cited but Not Verified — POTVRZENO VČETNĚ ČÍSEL
→ Studie (arXiv 2605.06635) existuje a metriky souhlasí: dostupnost odkazů nad 94 %, relevance nad 80 %, ale faktická shoda (Fact Check) jen 39–77 %. Potvrzuje se i klíčový paradox — při škálování vyhledávání z 2 na 150 kroků klesá přesnost Fact Check v průměru o ~42 %, „více vyhledávání neznamená přesnější citace". Model GPT-5.4 byl v benchmarku skutečně testován.

3. Spuštění paměti Claude — POTVRZENO (s upřesněním data)
→ Anthropic zpřístupnil persistentní paměť všem uživatelům Claude.ai včetně bezplatného tarifu — konkrétně 2. března 2026. Sedí i popis: ukládají se strukturovaná odvozená fakta (preference, pracovní kontext, styl), ne doslovné přepisy, s transparentní správou v nastavení.

Upřesnění a hranice ověření:

4. Dílčí čísla beru jako hodnoty uváděné zdroji
→ Konkrétní sub-metriky (Claude 3.7 Sonnet 80,10 % vs. 77,37 %, DeepSeek-R1 81,62 % → 76,57 %, propad GPT-5.4 ze 79 % na 17 %, korelace r = 0,750 u rekonstrukce Big Five) odpovídají tomu, co uvádějí citované práce; nepřepočítával jsem je z primárních dat, přebírám je jako reportované hodnoty.

5. Architektury ChatGPT a Gemini = dobře informovaná rekonstrukce
→ Popis „čtyř vrstev" paměti ChatGPT a systému Personal Intelligence u Gemini pochází z reverzního inženýrství a třetích zdrojů, ne z oficiální architektonické dokumentace OpenAI/Google. Je věrohodný, ale je vhodné brát ho jako rekonstrukci, ne jako výrobcem potvrzenou specifikaci.

6. Frameworky po mém znalostním cutoffu
→ Část citovaných prací (O-Mem, TSM, RUMS, ProLEA a další s datací 2026) spadá za hranici mého spolehlivého poznání (leden 2026). Jejich existenci a metriky jsem neověřoval nezávisle a opírají se o citace v dokumentu.

Celkové hodnocení: Ústřední teze studie je správná a dobře podložená. Dvě nejdůležitější empirická tvrzení (degradace emočního usuzování vlivem paměti; pokles faktické přesnosti citací s rostoucí hloubkou vyhledávání) se ověřila přesně, včetně čísel. Závěrečná kritická dekonstrukce — že neexistuje skrytá perzistentní databáze typologií cizích osob, že úsudky jsou ad-hoc a zanikají s kontextovým oknem a že asertivní tón je artefaktem RLHF, nikoli projevem autonomního vědomí — je technicky korektní a střízlivá. Jde o silný a vhodně skeptický referenční bod; doporučená korekce se týká jen formulační opatrnosti u dílčích čísel a u popisu neveřejných architektur.