Анонимная веб-статистика не такая уж и анонимная

Время 17:45 Дата 03.02.2012

Анонимная веб-статистика не такая уж и анонимная

Авторы последнего аналитического отчета из корпорации Microsoft говорят, что данные, которые обычно собираются веб-серверами, такие как ip-адреса, Cookie ID, данные о клиентских операционных системах, типы браузеров и данные user-agent, могут угрожать онлайн-безопасности, так как они могут указывать на активность той или иной индивидуальной машины в интернете.

С другой стороны, авторы отчета указывают, что анализ таких данных в анонимном порядке позволяет устанавливать вредоносную активность, осуществляемую теми или иными компьютерами.

Авторы отчета утверждают, что на основании проведенных ими исследований можно в 62% случаев точно указать на тот или иной интернет-адрес на основании информации user-agent, передаваемой всеми пользовательскими компьютерами при обращении последних к серверам. Объединив эти данные с IP-адресами, вероятность верного определения конкретного пользователя возрастает до 80,6%, если же данные присутствуют только о префиксе IP-адреса, то вероятность составляет 79,3%.

Высочайшая точность достигается, когда на один и тот же компьютер указывают в веб-статистике хотя бы два user ID. Такое может быть в случае семейного использования компьютера. В случае множественных user ID вероятность определения конкретного пользователя возрастает до 92,8%.

К таким данным в Microsoft пришли на базе сбора обыкновенной статистической информации с серверов, обслуживающих почтовую систему Hotmail и поисковик Bing. Авторы отчета говорят, что они просто попытались установить, можно ли при помощи стандартных серверных логов вычислить конкретного пользователя, подключавшегося к сервису. В процессе исследования было установлено, что даже стандартные анонимные веб-данные могут раскрыть точные данные о пользователе, если оператор веб-сервиса того пожелает.

В отчете корпорации говорится, что в рамках эксперимента авторы специально имели доступ только к тем логам, которые создавались прикладным программным обеспечением и не подключали к исследованию данные от сетевых устройств, которые способны со значительно более высокой вероятностью указать на конкретного пользователя. Авторы говорят, что намеренно базировали исследования только на обычных идентификаторах, доступных любому администратору сервера.

Адрес новости: http://siteua.org/n/335165