big-lab.com
ДЕПЕРСОНАЛИЗАТОР ДАННЫХ Деперсонализация чувствительных данных с помощью нейронных сетей

Привет!

Меня зовут Максим, согласно новому закону компании не могут использовать персональные данные, поэтому был разработан проект, который преобразовывает базы данных с персональными данными в базы с данными обезличенными. Наш проект получил "большой чек" на хакатоне ЛЦТ-2024 и теперь мы готовы обезличивать ваши данные! Скорее пишите на почту или в телеграм и все ваши базы будут обезличены. Поддерживаются базы данных: PostgreSQL, MS SQL, Oracle, MySQL

Вход


ВИДЕО ДЕМОНСТРАЦИЯ

СИСТЕМНЫЕ ВОЗМОЖНОСТИ

Поддержка различных типов баз данных и документов

Распределенная архитектура с использованием мощных GPU

Процесс деперсонализации включает использование распределенной архитектуры, где каждый Worker представляет собой машину с мощным GPU, устанавливающую зашифрованный канал связи с административным сервером и получающую свою задачу на деперсонализацию. Это позволяет обрабатывать терабайты данных в день.

Работа в оффлайн-режиме

Программа поддерживает возможность работы в оффлайн-режиме, что позволяет выполнять деперсонализацию данных без доступа к интернету, включая использование аппаратного обеспечения заказчика.

Поддержка БД размером более 4 терабайт

Программа поддерживает деперсонализацию баз данных, размер которых превышает 4 терабайта. При этом база данных не загружается полностью в память, а обрабатывается побайтово по частям, что позволяет эффективно работать с крупными объемами данных.

Умная разбивка базы данных по частям

Программа поддерживает функцию "Умная разбивка базы данных по частям", которая позволяет разбивать большие базы данных на меньшие сегменты. Каждая часть содержит инструкции, включая заголовки таблицы, чтобы нейронная сеть могла понимать контекст каждого куска данных. Это обеспечивает точную и эффективную деперсонализацию данных, сохраняя целостность и контекст информации.

Быстрый предварительный анализатор данных

Программа оснащена двумя нейронными сетями: быстрым анализатором заголовков таблицы и полнотекстовым деперсонализатором. Первый анализирует названия полей и начальные значения, чтобы быстро определить наличие персональных данных в базе. Например, если таблица содержит поля id, name, surname, passport_data, bithday, программа мгновенно помечает всю таблицу, как содержащую персональные данные. Даже с сотнями миллионов записей такая таблица деперсонализируется за считанные секунды. Если анализатор показывает, что колонка может содержать персональные данные, то в дело вступает полнотекстовый деперсонализатор.

Дообучение нейронной сети «на лету»

Программа позволяет отредактировать деперсонализированный шаблон и сохранить его для дообучения нейронной сети. После сохранения шаблона нейронная сеть переобучается с учетом новых данных, что позволяет улучшить качество деперсонализации в будущем.

Различные типы маскировки данных

Программа поддерживает различные типы маскировки данных, включая:

Маскировка "Звездочками"
ФИО = *********** ******* ***********, Телефон = ***********, Эл. почта = ***************, Дата = *********

Маскировка "Скобками"
ФИО = [ФИО], Телефон = [ТЕЛЕФОН], Эл. почта = [ЭЛЕКТРОННАЯ_ПОЧТА], Дата = [ДАТА]

ИНСТРУКЦИЯ ПОЛЬЗОВАТЕЛЯ

Авторизация в сервисе:

- Введите ваш логин и пароль, предоставленный администратором на странице:

https://depersonalizer.ru/

Логин: demo
Пароль: demo

Выберите базу данных:

На этом экране вы можете выбрать базу данных, которую необходимо деперсонализировать. По умолчанию в списке доступных баз данных отображается Example_Generated.sql. Чтобы выбрать другую базу данных, нажмите на выпадающий список и выберите нужный файл.

Кол-во частей для извлечения:

Здесь вы можете указать, сколько частей вы хотите извлечь из выбранной базы данных. Если вы хотите извлечь все части, выберите опцию Извлечь все части.

Максимальный размер части:

Этот параметр позволяет вам задать максимальный размер каждой части в символах. Введите нужное значение, например, 4000 символов.

Выберите шаблон для разбивки данных по частям:

В этом поле вы можете выбрать шаблон, который будет использоваться для разбивки данных. Доступны следующие шаблоны:

Например, выберите Шаблон для Oracle, если вы работаете с базами данных Oracle. Шаблон Авто автоматически адаптируется для файлов форматов txt, docx и pdf.

Кол-во частей на странице:

Этот параметр позволяет вам задать количество частей базы данных, которые будут отображаться на одной странице. Введите нужное значение, например, 10, чтобы видеть по 10 частей на каждой странице.

Удалить части БД:

Если вы хотите удалить ранее созданные части базы данных, нажмите кнопку Удалить части БД.

Разбить БД на части:

После настройки всех параметров нажмите кнопку Разбить БД на части, чтобы начать процесс разбивки базы данных на части согласно выбранным параметрам.

Проверка извлеченных частей базы данных

После того как вы разбили базу данных на части, вы можете просмотреть извлеченные части по отдельности. Нужно проверить части БД, чтобы убедиться в корректности разбивки и точности данных. Вы можете отредактировать каждую часть перед деперсонализацией.

Деперсонализация частей базы данных

Когда вы убедитесь, что все части извлечены и проверены корректно, нажмите кнопку Деперсонализировать части, чтобы начать процесс деперсонализации. Этот процесс удалит или изменит персональные данные в соответствии с выбранными вами настройками и шаблонами.


Страница с прогрессом:

На странице с прогрессом вы можете следить за выполнением активных процессов деперсонализации. В данном разделе отображается информация о текущем статусе обработки каждого задания.

Процесс деперсонализации включает в себя использование распределенной архитектуры, где каждый Worker представляет собой машину с мощным GPU. При начале процесса деперсонализации каждый Worker устанавливает зашифрованный канал связи с административным сервером и получает свою задачу на деперсонализацию.

После завершения обработки Worker передает результаты обратно административному серверу и ожидает следующей задачи.

Система обладает возможностью масштабирования, что позволяет динамически добавлять новых Worker для обработки дополнительных частей базы данных, что позволяет обрабатывать десятки гигабайт данный в час и больше.


Просмотр результата:

На этой странице вы можете просмотреть деперсонализированные части базы данных с выбранной маркировкой.

В зависимости от выбора пользователя исходный текст конвертируется в деперсонализированный текст.


Результат с маскировкой "Скобками"

[ФИРМА_НАЗВАНИЕ]
Директор: [ФИО]
Телефон: [ТЕЛЕФОН]
Эл. почта: [ЭЛЕКТРОННАЯ_ПОЧТА]
[ДАТА]

Маскировка "Скобками" представляет собой метод обработки текста, при котором конфиденциальные данные обрамляются в скобки. Это позволяет легко идентифицировать тип конфиденциальных данных, сохраняя при этом их оригинальную структуру.

Результат с маскировкой "Звездочками"

*******************
Директор: ******************************
Телефон: ******************
Эл. почта: *********************
*******************

Маскировка "Звездочками" представляет собой метод обработки текста, при котором конфиденциальные данные заменяются звездочками, сохраняя при этом длину текста.

Результат с маскировкой "Кастомная"

Рога и копыта
Директор: Иванов Иван Иванович
Телефон: +7 999 123 12 12
Эл. почта: ivanov@ivan.ru
01.01.1980

Маскировка "Кастомная" представляет собой метод обработки текста, при котором конфиденциальные данные заменяются на данные из шаблона, ФИО заменяются, например, на Иванов Иван Иванович или Петров Петр Петрович. Это позволяет деперсонализировать данные, сохраняя при этом их оригинальную структуру.

Просмотр шаблона для деперсонализированной части

На этой странице вы можете просмотреть шаблон, по которому была проведена деперсонализация части базы данных. Это позволяет убедиться в корректности и соответствии маскированных данных исходным шаблонам.

Пример шаблона, который генерирует нейронная сеть:

[PERS TYPE="ФИРМА_НАЗВАНИЕ"]ООО «Капитал-Строй»[/PERS]
Директор: [PERS TYPE="ФИО"]Максим Александрович Головачёв[/PERS]
Телефон: [PERS TYPE="ТЕЛЕФОН"]+7 (495) 123-45-67[/PERS]
Эл. почта: [PERS TYPE="ЭЛЕКТРОННАЯ_ПОЧТА"]info@kapital-stroy.ru[/PERS]
[PERS TYPE="ДАТА"]20 апреля 2024 года[/PERS]

Редактирование шаблона

На этой странице вы можете отредактировать шаблон деперсонализации в случае, если маскировка была выполнена неправильно или требует корректировки.

Доступные действия:

После редактирования шаблона вы можете отправить его на дообучение нейронной сети. Это позволяет улучшить работу алгоритма и дальнейшую деперсонализацию данных с учетом новых знаний и требований к защите данных.


Экспорт деперсонализированной базы данных:

После того как вы завершили процесс деперсонализации данных и убедились в корректности результатов, нажмите кнопку "Экспортировать БД". Это позволит собрать все деперсонализированные части в единую базу данных и сохранить ее.

Рекомендации:

ИНСТРУКЦИЯ АДМИНИСТРАТОРА

Авторизация в сервисе

- Введите ваш логин и пароль администратора на странице:

https://depersonalizer.ru/

Загрузка базы данных

На этой странице администратор может загрузить базу данных или создать удаленную папку для загрузки БД. Поля формы включают:

Кнопки:


Управление пользователями

Эта страница позволяет администратору добавлять новых пользователей и управлять существующими пользователями. Поля формы включают:

ИНСТРУКЦИЯ ПО УСТАНОВКЕ ПО

Инструкция по разворачиванию сервиса с настройками на комплексе технических средств заказчика

Установка административной панели

Для разворачивания административной панели выполните следующие шаги:

  1. Откройте терминал и выполните команду:
    cd /var/www/html/
  2. Скачайте архив административной панели с сайта depersonalizer.ru:
    wget --header="api-key: your_api_key" https://.../Admin_Panel.zip
  3. Убедитесь, что папки databases, results и finetune закрыты .htaccess файлом

Установка ПО с большой языковой моделью

Для установки необходимого ПО выполните следующие шаги:

  1. Установите CUDA и библиотеки для работы с трансформерами:
    sudo apt-get install cuda
    pip install transformers
  2. Скачайте архив с Python файлами в домашнюю директорию:
    wget --header="api-key: your_api_key" https://.../GPU_Bot.zip -P ~
  3. Запустите стартовый файл "Run Server.ipynb"

Контакты

Телефон:
Email:
Telegram:

+7 (953) 3333-6-99
admin@big-lab.com
develop_ios