Технический контекст
Я люблю такие кейсы: на входе хаос в PDF и сканах, а на выходе все равно можно собрать рабочую AI integration. Вопрос был простой: чем понимать электрические чертежи из строительства, если обозначают кто во что горазд, а интересует именно детекция элементов.
Я бы здесь не начинал с магии. Я бы начинал с опорного словаря символов, и в этой роли очень хорошо работает IEC 60617. Это международная база графических обозначений для электрических схем, по сути нормальный визуальный якорь для модели.
Дальше становится интересно. Если у вас Claude Sonnet или другая сильная мультимодальная модель, ей уже можно скормить не только сам чертеж, но и примеры символов, правила именования и близкие варианты из библиотеки QElectroTech. И вот тут zero-shot или few-shot начинает вести себя заметно лучше, чем голый промпт без контекста.
QElectroTech мне здесь нравится по практической причине: это не абстрактный стандарт на бумаге, а живая библиотека элементов, совместимая с IEC-подходом. Из нее удобно собирать референсы, синтетику для обучения и даже простую валидацию, когда я проверяю, что модель не путает выключатель с автоматом только из-за стиля рисунка.
Если нужен именно bbox detection, я бы не романтизировал LLM. Sonnet хорошо помогает как слой понимания, классификации и нормализации названий, но для массовой разметки на потоке я бы рядом держал YOLO или другой детектор. Связка получается здравая: vision-модель ищет объекты, Sonnet приводит это к IEC-логике и вытаскивает смысл из схемы.
Что это меняет для бизнеса и автоматизации
Первое: в энергетике и стройке можно перестать ждать идеального стандарта от подрядчиков. Если собрать пайплайн вокруг IEC 60617 и QElectroTech, появляется реальная automation with AI для разбора архивов схем, аудита документации и подготовки данных для CAD/BIM-процессов.
Второе: дешевеет старт. Не нужно сразу размечать гигантский датасет с нуля, потому что стандарт и библиотека символов уже дают крепкую основу. Проигрывают тут только те команды, которые пытаются решить все одним OCR и удивляются, почему схема разваливается на мусор.
Третье: архитектура становится взрослее. Я бы разделял OCR, детекцию, классификацию символов и пост-обработку по правилам сети, а не сваливал все в один промпт. Мы в Nahornyi AI Lab как раз такие AI solutions for business и собираем: когда нужно не демо на один PDF, а рабочая система под реальный поток документов. Если у вас чертежи тормозят проект, можно спокойно посмотреть процесс и собрать AI automation без лишнего шума вокруг «волшебного ИИ».