Нові результати дослідження, проведеного фахівцями Microsoft Research у співпраці з Salesforce, вказують на те, що популярні чат-боти зі штучним інтелектом демонструють зростання помилок та неточностей під час тривалого спілкування з користувачами. Згідно з інформацією, опублікованою на Windows Central, було проаналізовано понад 200 тисяч діалогів, і отримані дані свідчать про те, що кількість помилок у тривалих розмовах може зростати більш ніж у два рази.
Зокрема, користувачі часто стикаються з так званими «галюцинаціями» — вигаданими або неточними фактами. У дослідженні були розглянуті різні мовні моделі, включаючи GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet та DeepSeek R1. Якщо під час одноразових запитів ці системи показують близько 90% точності, то в умовах тривалих бесід із додатковими запитами цей показник суттєво падає до 65%.
Дослідники також виявили явище «роздування відповідей», яке проявляється у подовженні текстів у багатоходових діалогах на 20–300%. Це призводить до збільшення кількості припущень та помилок, які впливають на подальші відповіді. Навіть моделі з розширеними можливостями, такі як OpenAI o3 та DeepSeek R1, не змогли уникнути цього явища.
На думку авторів дослідження, проблема не полягає у «тупішанні» моделей, а у їхніх обмеженнях щодо утримання великого обсягу інформації та адекватної інтерпретації складного контексту під час довгих діалогів. Windows Central підкреслює важливість врахування цих аспектів при інтеграції чат-ботів у сервіси, що передбачають тривалу взаємодію з користувачами, адже помилки можуть призвести до оманливих висновків, особливо коли ШІ використовується для отримання критично важливої чи точної інформації.
