CASE / OPENEDAI-DOC-PROCESSING
← все кейсыAI · документооборотгод · 2025длительность · 4 месяца

Конвейер AI-разбора документов

Счета, договоры и акты превращаются в проведённые проводки без ручного ввода.

извлечение полей · очередь
Счёт-фактура · 1 из 1 240
OCRLLM
scan_8417.pdf300 dpi
★ читаю
извлечено · валидация● схема ok
№ документаСФ-004281799.8%
Дата28.04.202599.4%
Сумма с НДС₽ 1 284 60098.9%
КонтрагентООО «Тех­строй»97.6%
ИНН / КПП770421732099.1%
→ выгрузка в 1С: УППпроведено
среднее: 14 сек / документ
1 084 / 1 240
01 / CONTEXTКонтекст

Контекст

Бухгалтерия клиента вручную перебивала входящие счета, договоры и акты в учётную систему: открыть скан, найти номер, дату, сумму, контрагента — и вбить. На один документ уходило около 47 минут с проверками, поток шёл сотнями в день.

Проект под NDA, имя клиента не раскрываем. Задача была не «прикрутить OCR», а закрыть весь путь: скан → распознанные поля → валидация по схеме → проводка в учётной системе, с честной оценкой уверенности и понятным разбором спорных случаев.

02 / BRIEFЗадача

Задача

  1. 01OCR входящих сканов и PDF (счета, договоры, акты, УПД, ТОРГ-12)
  2. 02LLM-извлечение полей: №, дата, сумма, НДС, контрагент, ИНН/КПП
  3. 03Валидация по JSON Schema + сверка контрагента по реестру
  4. 04Очередь обработки с приоритетами и понятным статусом по каждому документу
  5. 05Выгрузка проводок в 1С / ERP без ручного ввода
03 / SOLUTIONРешение

Решение

/ step 01

OCR-фронт и нормализация

Скан выравнивается, чистится и распознаётся в 300 dpi. Текст вместе с координатами блоков уходит дальше — так модель видит, где именно на странице лежит каждое значение.

/ step 02

LLM-извлечение полей

Модель извлекает поля в нормализованную форму и к каждому возвращает оценку уверенности. Выход жёстко ограничен JSON Schema — формат предсказуемый, без свободного текста.

/ step 03

Валидация и сверка

Суммы проверяются на арифметику (база + НДС = итог), даты — на формат, контрагент сверяется с реестром по ИНН. Что ниже порога уверенности — уходит в ручную проверку, а не в учёт молча.

/ step 04

Выгрузка в учёт

Прошедшие валидацию документы превращаются в проводки и выгружаются в 1С по расписанию через очередь. Каждый документ остаётся прослеживаемым: скан, извлечённые поля, кто и что правил.

04 / STACKАрхитектура

Архитектура

OCRLLM-extractionJSON SchemaQueuePostgres1C / ERP API

Сердце системы — очередь. Документ проходит стадии (OCR → извлечение → валидация → выгрузка) как джоба с идемпотентным ключом, поэтому повторный запуск не плодит дублей. Тяжёлый OCR и обращения к LLM вынесены в воркеры и масштабируются отдельно от приёма.

Извлечённые поля хранятся в Postgres вместе со ссылкой на исходный скан и оценками уверенности — это и аудит-след, и обучающая выборка. Выход LLM зажат JSON Schema, а пороги уверенности настраиваются по типу документа, чтобы баланс автоматики и ручной проверки держал заданный уровень точности.

05 / RESULTSРезультаты

Результаты

0мин → 14 сек
на один документ
0.0%
точность полей
0
ручного ввода
0типов
документов в конвейере
06 / HONESTЧто не получилось с первого раза

Что не получилось с первого раза

  • Сначала доверились средней точности по документу — и пропустили, что на «сумме прописью» и рукописных правках модель ошибалась чаще, чем на печатных полях. Перешли на пороги по каждому полю отдельно: спорные значения теперь уходят в ручную проверку, а не в учёт.
  • На сложных сканах OCR съедал минуты и подвешивал приём новых документов. Вынесли распознавание и вызовы LLM в отдельные воркеры с очередью — приём перестал зависеть от тяжёлой обработки, и пиковые пачки больше не копятся.
07 / VOICEСлово клиента
Бухгалтерия перестала перебивать документы руками. Теперь люди смотрят только спорные — где модель честно сказала, что не уверена.
ND
Под NDA
Финансовый директор · NDA
08 / TEAMКоманда

Команда

DK
Product lead
LO
AI lead
AL
Backend
AS
Интеграции
09 / ROADMAPЧто дальше

Что дальше

  • Дообучение на спорных документах из ручной проверки
  • Автосопоставление документа с заказом/договором
  • Расширение типов: таможенные и кадровые документы
10 / RELATEDСвязанные кейсы