Stanford про legal RAG: не тот вывод, но важный

Вокруг Stanford paper про legal RAG разошёлся лишний вывод про порог в 10k векторов, но в самой работе его нет. Важно другое: даже с retrieval юридические системы всё ещё галлюцинируют, а значит AI implementation нельзя строить на одной вере в векторный поиск.

Технический контекст

Я полез в сам paper Stanford после очередного тезиса в духе «до 10 тысяч векторов RAG ещё жив, после миллиона уже мусор». И вот тут я сразу притормозил: в этой работе такого эмпирического порога нет.

Документ, на который все ссылаются, это Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools. Там исследуют legal RAG-инструменты вроде Westlaw и LexisNexis, сравнивают их с GPT-4 на юридических задачах и смотрят, как часто системы выдумывают факты, путают источники или искажают выводы.

Результат неприятный, но полезный: retrieval снижает число галлюцинаций по сравнению с голой моделью, однако не обнуляет их. В зависимости от инструмента ошибки всё ещё заметные, примерно в диапазоне 17-33%.

А вот истории про «10k векторов это норм, 1 млн это уже шум» в этом paper я не нашёл. Ни графиков по размеру индекса, ни бенчмарков по precision@k на больших коллекциях, ни анализа деградации retrieval при росте корпуса там нет. То есть как инженер я бы это не цитировал как доказанный факт.

Но сама мысль не взялась из воздуха. В production я и без этого paper много раз видел, как плохо спроектированный векторный поиск начинает тащить полурелевантный мусор: слабые эмбеддинги, неправильный чанкинг, кривой metadata filter, слишком щедрый top-k. И потом люди винят модель, хотя проблема в AI architecture и retrieval-слое.

Если коротко: Stanford показал не предел в 10k векторов, а более приземлённую вещь. Даже дорогой юридический RAG не даёт права отключать проверку ответа и делать вид, что вопрос надёжности уже закрыт.

Что это меняет для бизнеса и автоматизации

Для команд, которые строят AI automation на документах, вывод простой: «добавим RAG и всё станет достоверным» не работает. Особенно в legal, compliance, policy и внутренних базах знаний.

Выигрывают те, кто проектирует retrieval как систему: гибридный поиск, жёсткая фильтрация, reranking, ограничение контекста, трассировка источников. Проигрывают те, кто просто заливает миллион кусков в векторную базу и ждёт магии.

Мы в Nahornyi AI Lab как раз разбираем такие узкие места на практике: где нужен RAG, где лучше knowledge graph, а где вообще дешевле и надёжнее сделать другой слой AI integration вместо бесконечного накачивания векторов. Если у вас поиск по документам уже шумит или ответы нельзя выпускать в прод, давайте посмотрим на архитектуру и соберём AI solution development без хрупких допущений.

Поделиться статьёй

Twitter/X LinkedIn Telegram

Stanford про legal RAG: не тот вывод, но важный

Технический контекст

Что это меняет для бизнеса и автоматизации

Ещё новости

LFM2.5-8B-A1B: что реально помогает от циклов

Твит Альтмана есть, а релиза пока не видно