Информационная безопасность

Здесь Вы найдете только нужную информацию.

Деперсонализация данных

   Защита персональных данных — это многогранная и сложная деятельность. Но для ее комплексного восприятия следует иметь четкое представление как о правовых, так и сугубо технических мерах. Данная статья призвана осветить общеизвестный, но не такой простой, как кажется на первый взгляд, вопрос о деперсонализации данных.

   Ряд документов прямо требуют того, чтобы операторы соблюдали принципы минимизации обрабатываемых данных и внедряли технические меры безопасности по умолчанию. По этой причине мы рассмотрим подходы по деперсонализации данных, которые рекомендованы NIST.

   Для этого мы обратимся к публикациии NISTIR 8053 De-Identification of Personal Information, подготовленной National Institute of Standards and Technology (NIST). Описание данного документа гласит, что - “при деперсонализации из набора данных удаляется идентифицирующая информация, поэтому отдельные данные не могут быть связаны с конкретными лицами. Деперсонализация может снизить риск нарушения конфиденциальности, связанный со сбором, обработкой, архивированием, распространением или публикацией информации. Таким образом, деперсонализация представляет собой попытку сбалансировать противоречивые цели использования и обмена личной информацией при одновременной защите неприкосновенности частной жизни”.

   Как и в любой сфере сначала определимся с терминологией. В большинстве источников посвящённых данному вопросу используются три основных термина: деперсонализация анонимизация и псевдонимизация. Я рекомендую использовать их определения из международного стандарта ISO 25237:2017

деперсонализация – общее название любого процесса удаления связи между совокупностью идентифицирующих данных и субъектом данных

анонимизация (обезличивание) – действия, в результате которых удаляется связь между совокупностью идентифицирующих данных и субъектом данных

псевдонимизация – особый случай обезличивания, при котором помимо удаления прямой связи с субъектом данных создается связь между конкретной совокупностью характеристик этого субъекта и одним или несколькими псевдонимами

 

   Несмотря на появление инструментов, позволяющих работать с неструктурированными данными, подавляющие большинство действительно значимой информации содержится в структурированном виде. Для примера возьмем таблицу, содержащую информацию о клиентах медицинского центра.

Ф.И.О.

Телефон

Год

 Пол 

Вес

Рост

Березкин Евгений Владимирович

7775555

1990

м

80

178

Дубровская Анна Игоревна

3331111

1991

ж

55

169

 

   Одним из наиболее распространённых способов деперсонализации таких данных, является удаление одного или двух прямых идентификаторов (выделены жирным шрифтом). Однако простое удаление может затруднить возможность их полезного использования по этой причине чаще прибегают к комбинации двух приемов – удалению части прямых идентификаторов и псевдонимизации остальных. При этом важно выбрать подходящий способ псевдонимизации.

   Как пример можно привести случай, когда одно ведомство предоставило сведения о поездках такси, совершенных за прошедший год. В опубликованном наборе данных прямые идентификаторы в виде номера лицензии и номера медальона водителя такси были заменены на псевдонимы, полученные путем вычисления хэш значения от прямых идентификаторов. К сожалению, несколько исследователей легко распознали используемый криптографический алгоритм и имея сведения о номерах лицензий смогли легко восстановить первоначальные значения. 

   С целью исключения подобных ситуаций я совету использовать пошаговый процесс деидентификации данных, основанный на работах профессоров Халед Эль Эмама и Брэдли Малина.

Шаг 1: Пробный импорт ограниченного объема информации из исходной базы данных.

Шаг 2: Определение прямых идентификаторов в наборе данных. В нашем случае это Ф.И.О. и телефон.

Шаг 3: Удаление прямых идентификаторов либо их замена псевдонимами.  Заменим значения в первом столбце на хэш значения, высчитанные по алгоритму SHA1, а столбец с номерами телефонов просто удалим.

Ф.И.О.

Год

Пол

Вес

 Рост 

145E0E4742B4A13B539AFDAFF2EBEA59E51771B6

1990

м

80

178

504C293A02CEA4ACCF9AB1444E98EF961823038E

1991

ж

55

169

Шаг 4: Проведение анализа деидентифицированных данных, на предмет их полезности и невозможности повторной идентификации. На этом этапе можно утверждать, что деидентифицированные таким способом данные, достаточно надежно защищены от редеперсонализации, однако все еще полезны для определенного круга лиц.

Шаг 5: Импорт всего необходимого объема данных.

Шаг 6: Деперсонализация данных при экспорте во внешний набор. На данном шаге необходимо не только качественно реализовать технические меры, но правильно задокументировать проделанную работу.

Продолжение следует…