'
Научный журнал «Вестник науки»

Режим работы с 09:00 по 23:00

zhurnal@vestnik-nauki.com

Информационное письмо

  1. Главная
  2. Архив
  3. Вестник науки №4 (73) том 3
  4. Научная статья № 72

Просмотры  22 просмотров

Хаустова И.В., Аникина О.В.

  


ИСПОЛЬЗОВАНИЕ ПОЛНОСТЬЮ ГОМОМОРФНОГО ШИФРОВАНИЯ ДЛЯ ЗАЩИТЫ ДАННЫХ В МАШИННОМ ОБУЧЕНИИ В ОБЛАКЕ *

  


Аннотация:
в работе рассматривается проблема недостаточной защищённости конфиденциальных данных, используемых банком для машинного обучения в облаке. Для решения проблемы было проанализировано использование полностью гомоморфного шифрования в машинном обучении и аппроксимирование сигмоидной функции. Была решена задача кредитного скоринга с обеспечением полной безопасности данных, для чего с помощью библиотеки TenSEAL данные на клиенте были зашифрованы с помощью схемы CKKS и загружены на сервер, где на зашифрованных данных была обучена модель логистической регрессии, продемонстрировавшая такую же точность, как и модель, обученная на незашифрованных данных.   

Ключевые слова:
полностью гомоморфное шифрование, логистическая регрессия, полиномиальная аппроксимация, конфиденциальное машинное обучение   


Введение. В данной работе рассматривается ситуация, в которой банк, использующий в своей деятельности машинное обучение, столкнулся с нехваткой вычислительной мощности, поэтому было принято решение арендовать для этих целей облачный сервер. Но так как данные передаются на сторонний сервер, возникает проблема обеспечения безопасности данных, так как, например, утечка данных может привести к репутационным потерям и штрафам за нарушение правил информационной безопасности.Решить данную проблему позволяет технология полностью гомоморфного шифрования, позволяющая выполнять вычисления (сложение и умножение) над зашифрованными данными без их расшифровки, что обеспечивает наивысший уровень безопасности [2], так как содержание данных никогда не раскрывается.Целью данной работы является разработка модели машинного обучения на зашифрованных данных на примере решения задачи кредитного скоринга, а новизна работы заключается в реализации клиент-серверного сценария использования библиотеки TenSEAL путём передачи на сервер уже зашифрованных на клиенте данных.Для того, чтобы показать, насколько эффективно обучение модели логистической регрессии на зашифрованных данных, предварительно обучим эту же модель, но не на зашифрованных данных.Анализ источников и литературы по применению полностью гомоморфного шифрования для машинного обучения. Большинство работ [2, 6, 7, 8, 9], посвященных использованию полностью гомоморфного шифрования для машинного обучения, описывают только шифрование вывода работы нейронной сети, и не касаются этапа обучения. Например, работа [7] посвящена аддитивно-гомоморфному шифрованию с интерактивным протоколом, в результате чего вывод небольшой нейронной сети занял всего 10 секунд, в то время как в следующей работе [9] для набора данных MNIST вывод занял уже 30 мс.Предположительно, небольшое внимание к обучению на зашифрованных данных обусловлено тем, что оно занимает слишком много времени, однако уже в 2019 году в работе [8] с помощью библиотеки HELib была обучена нейронная сеть на основе стохастического градиентного спуска (SGD), что продемонстрировало эффективность обучения на зашифрованных данных.Активной темой исследования в последние годы является разработка эффективного способа представления неполиномиальных функций, так как, полностью гомоморфное шифрование позволяет вычислять только те функции, которые могут быть представлены с помощью сложения и умножения. Однако сигмоидная функций, применяемая для решения поставленной задачи кредитного скоринга, не может быть представлена подобным образом:Первым решением проблемы поддержки неполиномиальных функций было использование полиномиальной замены, представленной в работе [5], в которой авторы предложили замену сигмоиды квадратичным полиномом, который, однако, может вызвать нестабильность во время обучения нейросети [3]. Более эффективный и часто используемый способ поддержки неполиномиальных функций заключается в аппроксимации неполиномиальных функций полиномами низкой степени.К наиболее используемым методам полиномиальной аппроксимации сигмоидной функции можно отнести численный метод [1, 5], разложение в ряд Тейлора [1, 5], использование полиномов Чебышёва [1, 5, 6], аппроксимацию производной [1, 5, 7] и минимаксную аппроксимацию [4]. При этом, если оценивать качество аппроксимации с использованием среднеквадратической ошибки, наименьшее значение показывает полином, полученный с помощью минимаксной аппроксимации [4]:Данный полином наиболее точно аппроксимирует сигмоидную функцию, поэтому именно его будем использовать в дальнейшей работе. При этом полином (2) аппроксимирует сигмоидную функцию на отрезке [-5, 5], поэтому данные должны быть нормализованы в рамках этого диапазона. Также следует отметить, что во всех рассмотренных работах процесс шифрования данных не выделяется на отдельный этап, то есть загрузка и шифрование данных происходит на сервере, а не на клиенте, что подвергает данные определённым угрозам информационной безопасности, и что предлагается решить в рамках данной работы.Настройка параметров полностью гомоморфного шифрования и шифрование данных. В качестве библиотеки полностью гомоморфного шифрования выбрана TenSEAL, основанная на Microsoft SEAL, которая является наиболее используемой библиотекой полностью гомоморфного шифрования [2, 6, 7]. Прежде чем приступить к шифрованию данных, настроим схему и параметры шифрования с помощью специального объекта TenSEALContextВ качестве схемы шифрования используем CKKS, так как она позволяет производить вычисления с вещественными числами, параметры шифрования которой включают в себя степень полиномиального модуля    и размеры модуля коэффициента   .Приняв желаемый уровень защищенности, эквивалентный AES, равный 128 битам, степень полиномиального модуля следует определить равной 8192, что позволит группировать до 4096 значений в одном зашифрованном тексте.Так как требуемое количество операций умножения равно 6 (1 для скалярного произведения, 2 для аппроксимации сигмоидной функции и 3 для обратного распространения ошибки), а желаемый уровень защищённости всё так же равен 128 бит, то в качестве двоичного размера следует использовать 21 бит, так как 128 / 6   21.Тогда размеры модуля коэффициента – это список чисел [40, 21, 21, 21, 21, 21, 21, 40], обозначающий, что модуль коэффициента будет содержать 8 простых чисел: первое и последнее по 40 бит и остальные по 21 бит.Для обеспечения безопасности данных на сервер нужно загружать уже зашифрованные на клиенте данные, для чего для каждой из выборок создадим зашифрованные вектора, которые сериализуем, то есть представим в виде двоичных данных, запишем в отдельные файлы и архивируем.Таким же образом сериализуем объект TenSEALContext для того, чтобы развернуть его на сервере и не настраивать параметры шифрования ещё раз.Модель логистической регрессии, обучаемая на зашифрованных данных. Логистическую регрессию можно рассматривать как простую однослойную нейронную сеть, использующую сигмоидальную функцию активации (1). Для разработки модели логистической регрессии используем PyTorch, а в качестве набора данных – «Credit score classification», скачанный с Kaggle, который включает в себя практически полную информацию о заёмщиках. Также перед тем, как приступить к обучению модели на сервере, следует загрузить и восстановить на нём сериализованный TenSEALContext, содержащий схему и параметры шифрования, а также сериализованные зашифрованные векторы. Так как решаемая задача кредитного скоринга относится к задачам бинарной классификации, то в качестве оптимизатора используем стохастический градиентный спуск, а в качестве функции потерь – бинарную потерю кросс-энтропии.Для борьбы с переобучением используем L2 регуляризацию, и тогда функция потерь будет иметь следующий вид:где    – количество экземпляров в наборе данных,     – фактическая метка для каждого экземпляра (0 или 1),  (  ) – предсказанная вероятность принадлежности экземпляра положительному классу,   – параметр регуляризации,   – вектор параметров модели.Для обновления параметров применяется следующее правило:Однако, учитывая ограничения полностью гомоморфного шифрования, примем   =1 и     =0.05, и тогда правило обновления параметров примет следующий вид:Анализ результатов. Основные результаты, полученные в ходе эксперимента по обеспечению безопасности данных при обучении модели логистической регрессии на сервере, приведены в таблице 1.Таблица 1. Характеристика модели логистической регрессии для решения задачи кредитного скоринга.Вес одного зашифрованного вектора составляет 429 Кбайт, в то время как файл, содержащий набор из 20000 строк, весит всего 30 407 Кбайт, что свидетельствует о значительном увеличении объема данных после шифрования, что может оказывать влияние на требования к хранению и передаче данных. Время шифрования одного тензора составляет 59 секунд и демонстрирует, что процесс шифрования является достаточно времязатратным.При этом точность модели логистической регрессии, обученной на зашифрованных данных, составила 86%, что совпадает с точностью модели, обученной на незашифрованных данных. Этот результат подтверждает эффективность применения технологии полностью гомоморфного шифрования для защиты конфиденциальности данных в процессе их обработки, без потери качества моделирования. Cреднее время обучения модели на зашифрованных данных равно 346 секунд, что указывает на то, что обучение на зашифрованных данных занимает больше времени по сравнению с обучением на незашифрованных данных. Заключение.В данной работе рассматривалась проблема обеспечения безопасности данных, используемых банком для машинного обучения, так как утечка или раскрытие данных могут привести к репутационным потерям и штрафам за нарушение правил информационной безопасности.В рамках проведенного исследования было осуществлено решение задачи кредитного скоринга путём разработки модели логистической регрессии, обучаемой на данных, зашифрованных с использованием технологии полностью гомоморфного шифрования. В результате обучения модели логистической регрессии на зашифрованных данных была достигнута точность 86.27 %, что совпало с точностью модели логистической регрессии, обученной на незашифрованных данных, и что демонстрирует применимость технологии полностью гомоморфного шифрования для обеспечения безопасности данных в машинном обучении, так как оно не влияет на качество прогноза, но при этом обеспечивает максимальный уровень защиты данных.Тем не менее, необходимо отметить, что использование полностью гомоморфного шифрования влечёт за собой дополнительные вычислительные затраты, например, увеличение размера данных и времени обучения модели. Направления для дальнейшего исследования могут включать в себя оптимизацию процесса отправки данных на сервер и получения данных с него, так как сейчас это выполняется вручную.

  


Полная версия статьи PDF

Номер журнала Вестник науки №4 (73) том 3

  


Ссылка для цитирования:

Хаустова И.В., Аникина О.В. ИСПОЛЬЗОВАНИЕ ПОЛНОСТЬЮ ГОМОМОРФНОГО ШИФРОВАНИЯ ДЛЯ ЗАЩИТЫ ДАННЫХ В МАШИННОМ ОБУЧЕНИИ В ОБЛАКЕ // Вестник науки №4 (73) том 3. С. 482 - 491. 2024 г. ISSN 2712-8849 // Электронный ресурс: https://www.вестник-науки.рф/article/13981 (дата обращения: 19.05.2024 г.)


Альтернативная ссылка латинскими символами: vestnik-nauki.com/article/13981



Нашли грубую ошибку (плагиат, фальсифицированные данные или иные нарушения научно-издательской этики) ?
- напишите письмо в редакцию журнала: zhurnal@vestnik-nauki.com


Вестник науки СМИ ЭЛ № ФС 77 - 84401 © 2024.    16+




* В выпусках журнала могут упоминаться организации (Meta, Facebook, Instagram) в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25 июля 2002 года № 114-ФЗ 'О противодействии экстремистской деятельности' (далее - Федеральный закон 'О противодействии экстремистской деятельности'), или об организации, включенной в опубликованный единый федеральный список организаций, в том числе иностранных и международных организаций, признанных в соответствии с законодательством Российской Федерации террористическими, без указания на то, что соответствующее общественное объединение или иная организация ликвидированы или их деятельность запрещена.