Привет!
Меня зовут Максим, согласно новому закону компании не могут использовать персональные данные, поэтому был разработан проект, который преобразовывает базы данных с персональными данными в базы с данными обезличенными. Наш проект получил "большой чек" на хакатоне ЛЦТ-2024 и теперь мы готовы обезличивать ваши данные! Скорее пишите на почту или в телеграм и все ваши базы будут обезличены. Поддерживаются базы данных: PostgreSQL, MS SQL, Oracle, MySQL
Вход
Поддержка различных типов баз данных и документов
- Oracle
- PostgreSQL
- MS SQL
- MySQL
- Текстовые файлы (txt)
- Документы Microsoft Word (docx)
- PDF файлы
Распределенная архитектура с использованием мощных GPU
Процесс деперсонализации включает использование распределенной архитектуры, где каждый Worker представляет собой машину с мощным GPU, устанавливающую зашифрованный канал связи с административным сервером и получающую свою задачу на деперсонализацию. Это позволяет обрабатывать терабайты данных в день.
Работа в оффлайн-режиме
Программа поддерживает возможность работы в оффлайн-режиме, что позволяет выполнять деперсонализацию данных без доступа к интернету, включая использование аппаратного обеспечения заказчика.
Поддержка БД размером более 4 терабайт
Программа поддерживает деперсонализацию баз данных, размер которых превышает 4 терабайта. При этом база данных не загружается полностью в память, а обрабатывается побайтово по частям, что позволяет эффективно работать с крупными объемами данных.
Умная разбивка базы данных по частям
Программа поддерживает функцию "Умная разбивка базы данных по частям", которая позволяет разбивать большие базы данных на меньшие сегменты. Каждая часть содержит инструкции, включая заголовки таблицы, чтобы нейронная сеть могла понимать контекст каждого куска данных. Это обеспечивает точную и эффективную деперсонализацию данных, сохраняя целостность и контекст информации.
Быстрый предварительный анализатор данных
Программа оснащена двумя нейронными сетями: быстрым анализатором заголовков таблицы и полнотекстовым деперсонализатором. Первый анализирует названия полей и начальные значения, чтобы быстро определить наличие персональных данных в базе. Например, если таблица содержит поля id, name, surname, passport_data, bithday, программа мгновенно помечает всю таблицу, как содержащую персональные данные. Даже с сотнями миллионов записей такая таблица деперсонализируется за считанные секунды. Если анализатор показывает, что колонка может содержать персональные данные, то в дело вступает полнотекстовый деперсонализатор.
Дообучение нейронной сети «на лету»
Программа позволяет отредактировать деперсонализированный шаблон и сохранить его для дообучения нейронной сети. После сохранения шаблона нейронная сеть переобучается с учетом новых данных, что позволяет улучшить качество деперсонализации в будущем.
Различные типы маскировки данных
Программа поддерживает различные типы маскировки данных, включая:
Маскировка "Звездочками"
ФИО = *********** ******* ***********, Телефон = ***********, Эл. почта = ***************, Дата = *********
Маскировка "Скобками"
ФИО = [ФИО], Телефон = [ТЕЛЕФОН], Эл. почта = [ЭЛЕКТРОННАЯ_ПОЧТА], Дата = [ДАТА]
Авторизация в сервисе:
- Введите ваш логин и пароль, предоставленный администратором на странице:
https://depersonalizer.ru/
Логин: demo
Пароль: demo
Выберите базу данных:
На этом экране вы можете выбрать базу данных, которую необходимо деперсонализировать. По умолчанию в списке доступных баз данных отображается Example_Generated.sql. Чтобы выбрать другую базу данных, нажмите на выпадающий список и выберите нужный файл.
Кол-во частей для извлечения:
Здесь вы можете указать, сколько частей вы хотите извлечь из выбранной базы данных. Если вы хотите извлечь все части, выберите опцию Извлечь все части.
Максимальный размер части:
Этот параметр позволяет вам задать максимальный размер каждой части в символах. Введите нужное значение, например, 4000 символов.
Выберите шаблон для разбивки данных по частям:
В этом поле вы можете выбрать шаблон, который будет использоваться для разбивки данных. Доступны следующие шаблоны:
- Шаблон для Oracle
- Шаблон для PostgreSQL
- Шаблон для MS SQL
- Шаблон для MySQL
- Авто (txt, docx, pdf)
Например, выберите Шаблон для Oracle, если вы работаете с базами данных Oracle. Шаблон Авто автоматически адаптируется для файлов форматов txt, docx и pdf.
Кол-во частей на странице:
Этот параметр позволяет вам задать количество частей базы данных, которые будут отображаться на одной странице. Введите нужное значение, например, 10, чтобы видеть по 10 частей на каждой странице.
Удалить части БД:
Если вы хотите удалить ранее созданные части базы данных, нажмите кнопку Удалить части БД.
Разбить БД на части:
После настройки всех параметров нажмите кнопку Разбить БД на части, чтобы начать процесс разбивки базы данных на части согласно выбранным параметрам.
Проверка извлеченных частей базы данных
После того как вы разбили базу данных на части, вы можете просмотреть извлеченные части по отдельности. Нужно проверить части БД, чтобы убедиться в корректности разбивки и точности данных. Вы можете отредактировать каждую часть перед деперсонализацией.
Деперсонализация частей базы данных
Когда вы убедитесь, что все части извлечены и проверены корректно, нажмите кнопку Деперсонализировать части, чтобы начать процесс деперсонализации. Этот процесс удалит или изменит персональные данные в соответствии с выбранными вами настройками и шаблонами.
Страница с прогрессом:
На странице с прогрессом вы можете следить за выполнением активных процессов деперсонализации. В данном разделе отображается информация о текущем статусе обработки каждого задания.
Процесс деперсонализации включает в себя использование распределенной архитектуры, где каждый Worker представляет собой машину с мощным GPU. При начале процесса деперсонализации каждый Worker устанавливает зашифрованный канал связи с административным сервером и получает свою задачу на деперсонализацию.
После завершения обработки Worker передает результаты обратно административному серверу и ожидает следующей задачи.
Система обладает возможностью масштабирования, что позволяет динамически добавлять новых Worker для обработки дополнительных частей базы данных, что позволяет обрабатывать десятки гигабайт данный в час и больше.
Просмотр результата:
На этой странице вы можете просмотреть деперсонализированные части базы данных с выбранной маркировкой.
В зависимости от выбора пользователя исходный текст конвертируется в деперсонализированный текст.
Результат с маскировкой "Скобками"
Маскировка "Скобками" представляет собой метод обработки текста, при котором конфиденциальные данные обрамляются в скобки. Это позволяет легко идентифицировать тип конфиденциальных данных, сохраняя при этом их оригинальную структуру.
Результат с маскировкой "Звездочками"
Маскировка "Звездочками" представляет собой метод обработки текста, при котором конфиденциальные данные заменяются звездочками, сохраняя при этом длину текста.
Результат с маскировкой "Кастомная"
Маскировка "Кастомная" представляет собой метод обработки текста, при котором конфиденциальные данные заменяются на данные из шаблона, ФИО заменяются, например, на Иванов Иван Иванович или Петров Петр Петрович. Это позволяет деперсонализировать данные, сохраняя при этом их оригинальную структуру.
Просмотр шаблона для деперсонализированной части
На этой странице вы можете просмотреть шаблон, по которому была проведена деперсонализация части базы данных. Это позволяет убедиться в корректности и соответствии маскированных данных исходным шаблонам.
Пример шаблона, который генерирует нейронная сеть:
Редактирование шаблона
На этой странице вы можете отредактировать шаблон деперсонализации в случае, если маскировка была выполнена неправильно или требует корректировки.
Доступные действия:
- Сохранить шаблон и добавить на дообучение нейронной сети: Эта опция позволяет сохранить отредактированный шаблон и отправить его на дообучение нейронной сети для улучшения качества деперсонализации.
- Сохранить шаблон: Сохраняет текущие изменения в шаблоне без отправки на дообучение нейронной сети.
- Удалить шаблон: Удаляет текущий шаблон деперсонализации из системы.
После редактирования шаблона вы можете отправить его на дообучение нейронной сети. Это позволяет улучшить работу алгоритма и дальнейшую деперсонализацию данных с учетом новых знаний и требований к защите данных.
Экспорт деперсонализированной базы данных:
После того как вы завершили процесс деперсонализации данных и убедились в корректности результатов, нажмите кнопку "Экспортировать БД". Это позволит собрать все деперсонализированные части в единую базу данных и сохранить ее.
Рекомендации:
- Проверьте результаты: Просмотрите деперсонализированные части базы данных, чтобы убедиться в корректности маскировки конфиденциальных данных.
- Редактируйте шаблоны при необходимости: В случае ошибок или необходимости изменений, используйте функцию редактирования шаблона и отправки на дообучение нейронной сети.
Авторизация в сервисе
- Введите ваш логин и пароль администратора на странице:
https://depersonalizer.ru/
Загрузка базы данных
На этой странице администратор может загрузить базу данных или создать удаленную папку для загрузки БД. Поля формы включают:
- Тип базы данных: Выпадающий список для выбора типа базы данных.
- Адрес базы данных: Текстовое поле для ввода адреса базы данных.
- Имя пользователя БД: Текстовое поле для ввода имени пользователя базы данных.
- Пароль БД: Поле для ввода пароля базы данных.
- Выбор базы данных: Текстовое поле для ввода имени базы данных.
- Добавить пользователя к БД: Выпадающий список для выбора пользователя, которому предоставляется доступ к базе данных.
Кнопки:
- Кнопка "Скачать БД" для загрузки базы данных.
- Кнопка "Создать удаленный диск" для создания удаленной папки для загрузки БД.
Управление пользователями
Эта страница позволяет администратору добавлять новых пользователей и управлять существующими пользователями. Поля формы включают:
- Добавить нового пользователя:
- Поле для ввода ФИО пользователя.
- Поле для ввода почты пользователя.
- Поле для ввода пароля пользователя.
- Выпадающий список для выбора базы данных, к которой будет предоставлен доступ.
- Кнопка "Создать пользователя" для добавления нового пользователя.
- Удалить или редактировать пользователя:
- Выпадающий список для выбора пользователя.
- Кнопка "Редактировать" для редактирования информации о пользователе.
- Кнопка "Удалить пользователя" для удаления пользователя.
Инструкция по разворачиванию сервиса с настройками на комплексе технических средств заказчика
- Python
- Cuda
- Web
Установка административной панели
Для разворачивания административной панели выполните следующие шаги:
- Откройте терминал и выполните команду:
cd /var/www/html/ - Скачайте архив административной панели с сайта depersonalizer.ru:
wget --header="api-key: your_api_key" https://.../Admin_Panel.zip - Убедитесь, что папки databases, results и finetune закрыты .htaccess файлом
Установка ПО с большой языковой моделью
Для установки необходимого ПО выполните следующие шаги:
- Установите CUDA и библиотеки для работы с трансформерами:
sudo apt-get install cuda
pip install transformers - Скачайте архив с Python файлами в домашнюю директорию:
wget --header="api-key: your_api_key" https://.../GPU_Bot.zip -P ~ - Запустите стартовый файл "Run Server.ipynb"
Контакты
Телефон:
Email:
Telegram: