+7 (383) 390-00-86
Главная
Проекты
Анонимизация чертежей

Анонимизация чертежей

Алгоритм автоматического поиска и маскировки конфиденциальных данных на чертежах

Проблема

Крупный производитель металлоконструкций, у которого можно сделать заказ деталей из металла, столкнулся с проблемой, связанной с процессом обмена технической документацией между собственными подразделениями и с партнерами. Поскольку в чертежах заказчика содержатся конфиденциальные данные (ФИО ответственных лиц, подписи, название организации и пр.), их приходилось удалять вручную с каждого документа. Это занимало много времени и повышало риск случайного пропуска важных сведений.

В рамках сотрудничества с этим заказчиком мы также реализовали проект сравнения документов и разработали сервис сопоставления отгрузочной документации и заказов.

Цель

Компания обратилась к нам за технологическим решением: автоматизировать процесс ручного удаления информации из блока с конфиденциальные данными на отсканированных документах.

На чертежах оформленных по ГОСТу такая информация содержится в блоке Основная надпись.png

На чертежах, оформленных по ГОСТу, такая информация содержится в блоке «Основная надпись».

Задачи

  • Автоматизировать процесс обнаружения конфиденциальных данных на чертежах.
  • Реализовать точное определение области с персональными данными независимо от ориентации документа.
  • Обеспечить поддержку разных форматов (PNG, JPG, PDF, ZIP, 7ZIP, RAR).
  • Обеспечить корректное удаление только областей с конфиденциальной информацией без повреждения технического содержания чертежей.
  • Разработать решение, работающее локально — без отправки данных во внешние системы.

Процесс разработки

1
Разработка алгоритма определения ориентации чертежа
Сначала мы проанализировали типовые чертежи и особенности расположения блока с персональными данными. Чтобы автоматически находить на чертеже область «Основная надпись» (таблицу с персональными данными), алгоритм выполняет следующие шаги:
  • Вырезает правый нижний фрагмент чертежа — в этом месте по ГОСТу обычно расположена «Основная надпись».
  • Применяет распознавание текста к выделенной области и проверяет наличие ключевых слов, характерных для таблицы, таких как: Лит, Лист, Листов и др.
  • Если хотя бы одно из этих слов найдено — алгоритм считает, что чертёж ориентирован правильно (горизонтально). Если нужные слова не найдены — алгоритм поворачивает изображение на 90° и повторяет анализ, начиная с первого шага.
  • Если после четырех итераций (поворотов) характерные слова так и не обнаружены, алгоритм возвращает чертёж в исходное положение и исключает его из дальнейшей обработки.
2
Создание системы поиска и идентификации табличных блоков с конфиденциальной информацией
Чтобы программа корректно находила блок «Основная надпись» мы разработали алгоритм обнаружения ключевых слов для определения ориентации документа:
  • с помощью нейросети для обнаружения таблиц алгоритм находит все таблицы на изображении;
  • таблицы фильтруются по размеру и близости к правому нижнему краю с помощью средств обработки изображений;
  • с помощью инструментов openCV определяются контуры ячеек таблицы.
3
Автоматическое маскирование обнаруженных данных
Мы приступили к разработке механизма замещения чувствительной информации. Для этого был реализован следующий механизм:
  • алгоритм разбивает область таблицы на отдельные ячейки и выполняет анализ содержимого каждой из них;
  • при обнаружении ячейки с конфиденциальной информацией она автоматически закрашивается с помощью инструментов обработки изображений.

Решение не требует ручного вмешательства и позволяет эффективно обезличивать персональные данные перед передачей документов.

Результат

  1. Сократили время обработки документации — автоматизация анонимизации позволила обрабатывать один чертёж за 5–10 секунд вместо ручного редактирования.
  2. Минимизировали риски утечки персональных данных за счёт исключения человеческого фактора.
  3. Упростили и ускорили обмен документацией между подразделениями и внешними партнерами — процесс стал быстрее и безопаснее.
  4. Обеспечили полную конфиденциальность: вся обработка происходит локально, без передачи данных во внешние сервисы.
  5. Достигли высокой точности (по результатам тестирования на выборке из 255 реальных документов от заказчика):
    - 89% — машиностроительных чертежей успешно обработано;
    - 81% — строительных чертежей успешно обработано.

Команда проекта

  • Разработчик компьютерного зрения (computer vision engineer)
  • Аналитик

На этом сайте используются файлы cookie. Продолжая просмотр сайта, Вы даете согласие на использование файлов cookie и иных инструментов аналитики, применяемых на сайте. Подробнее