Якщо ваші дані використовувалися для навчання штучного інтелекту, вони в теорії мають бути надійно захищені від сторонніх очей. Але це не факт. Дослідження показують, що ШІ сам вивчає дані і робить власні висновки про вас на основі ваших даних.
Машинне навчання розширило межі багатьох сфер, включаючи медицину, безпілотні автомобілі та індивідуальну рекламу тощо. Проте дослідження показали, що ці системи запам’ятовують деякі аспекти даних, на яких вони навчались. І це викликає занепокоєння щодо конфіденційності. Про це пише видання The Conversation.
Складні моделі машинного навчання мають певні плюси та мінуси. Позитивним є те, що вони можуть вивчати набагато складніші шаблони та працювати з багатшими наборами даних.
Однак вони також мають ризик надмірного підбору даних. Тобто, вони не просто виконують аналіз даних, який був у завданні, але починають вивчати додаткові аспекти. Вони аналізують дані так, як їх про це не просили.
Приклади порушення конфіденційності
Через велику кількість параметрів у моделях машинного навчання існує ймовірність того, що метод машинного навчання запам’ятовує деякі дані, на яких він навчався. Насправді, це явище широко поширене.
Якщо навчальні дані містять конфіденційну інформацію (наприклад, медичні або геномні дані), то конфіденційність людей може бути порушена.
Більше того, моделі машинного навчання здатні отримати конфіденційну інформацію, використовуючи загальнодоступну інформацію.
Наприклад, Target вдалося передбачити, які клієнтки, ймовірно, вагітні, проаналізувавши купівельні звички клієнток, які зареєструвалися в реєстрі дітей Target. Коли модель пройшла навчання на цьому наборі даних, вона змогла надсилати рекламу, пов’язану з вагітністю, тим клієнткам, які могли бути вагітними, оскільки вони купували такі продукти, як добавки або лосьйони без запаху.
Чи взагалі можливий захист конфіденційності?
Хоча було запропоновано багато методів зменшення запам’ятовування в методах машинного навчання, більшість з них були в основному неефективними. На даний момент найбільш багатообіцяючим рішенням цієї проблеми є забезпечення математичного обмеження ризику конфіденційності.
Найсучаснішим методом формального захисту конфіденційності є диференціальна конфіденційність. Диференційована конфіденційність вимагає, щоб модель машинного навчання не сильно змінювалася, якщо дані однієї людини змінюються в навчальному наборі даних. Диференціальні методи конфіденційності досягають цієї гарантії шляхом введення додаткової випадковості в алгоритм навчання, що «прикриває» внесок будь-якої конкретної особи.
Навіть якщо модель машинного навчання навчається з використанням диференціальної конфіденційності, це не заважає їй робити чутливі висновки, як у прикладі Target. Щоб запобігти цим порушенням конфіденційності, усі дані, що передаються в організацію, мають бути захищені. Цей підхід називається локальною диференціальною конфіденційністю, і Apple і Google реалізували його.
Водночас, диференційована конфіденційність обмежує розвиток моделі машинного навчання, тому цей підхід зазнає критики.
Підпишись на нас в Google НОВИНИ, та отримуй більше свіжих новин!