Технический контекст
Я полез в сам paper Stanford после очередного тезиса в духе «до 10 тысяч векторов RAG ещё жив, после миллиона уже мусор». И вот тут я сразу притормозил: в этой работе такого эмпирического порога нет.
Документ, на который все ссылаются, это Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools. Там исследуют legal RAG-инструменты вроде Westlaw и LexisNexis, сравнивают их с GPT-4 на юридических задачах и смотрят, как часто системы выдумывают факты, путают источники или искажают выводы.
Результат неприятный, но полезный: retrieval снижает число галлюцинаций по сравнению с голой моделью, однако не обнуляет их. В зависимости от инструмента ошибки всё ещё заметные, примерно в диапазоне 17-33%.
А вот истории про «10k векторов это норм, 1 млн это уже шум» в этом paper я не нашёл. Ни графиков по размеру индекса, ни бенчмарков по precision@k на больших коллекциях, ни анализа деградации retrieval при росте корпуса там нет. То есть как инженер я бы это не цитировал как доказанный факт.
Но сама мысль не взялась из воздуха. В production я и без этого paper много раз видел, как плохо спроектированный векторный поиск начинает тащить полурелевантный мусор: слабые эмбеддинги, неправильный чанкинг, кривой metadata filter, слишком щедрый top-k. И потом люди винят модель, хотя проблема в AI architecture и retrieval-слое.
Если коротко: Stanford показал не предел в 10k векторов, а более приземлённую вещь. Даже дорогой юридический RAG не даёт права отключать проверку ответа и делать вид, что вопрос надёжности уже закрыт.
Что это меняет для бизнеса и автоматизации
Для команд, которые строят AI automation на документах, вывод простой: «добавим RAG и всё станет достоверным» не работает. Особенно в legal, compliance, policy и внутренних базах знаний.
Выигрывают те, кто проектирует retrieval как систему: гибридный поиск, жёсткая фильтрация, reranking, ограничение контекста, трассировка источников. Проигрывают те, кто просто заливает миллион кусков в векторную базу и ждёт магии.
Мы в Nahornyi AI Lab как раз разбираем такие узкие места на практике: где нужен RAG, где лучше knowledge graph, а где вообще дешевле и надёжнее сделать другой слой AI integration вместо бесконечного накачивания векторов. Если у вас поиск по документам уже шумит или ответы нельзя выпускать в прод, давайте посмотрим на архитектуру и соберём AI solution development без хрупких допущений.