- Услуги
- Цена и срок
- О компании
- Контакты
- Способы оплаты
- Гарантии
- Отзывы
- Вакансии
- Блог
- Справочник
- Заказать консультацию
Анализ данных в социальных сетях стремительно набирает популярность во всём мире благодаря появлению в 1990-х годах онлайновых сервисов социальных сетей (SixDegrees, LiveJournal, Facebook, Twitter, YouTube и другие). С этим связан феномен социализации персональных данных: стали публично доступными факты биографии, переписка, дневники, фото-, видео-, аудиоматериалы, заметки о путешествиях и т.д. Таким образом, социальные сети являются уникальным источником данных о личной жизни и интересах реальных людей.
Это открывает беспрецедентные возможности для решения исследовательских и бизнес-задач (многие из которых до этого невозможно было решать эффективно из-за недостатка данных), а также создания вспомогательных сервисов и приложений для пользователей социальных сетей. Кроме того, этим обуславливается повышенный интерес к сбору и анализу социальных данных со стороны компаний и исследовательских центров.
Компании-владельцы сервисов онлайновых социальных сетей (Facebook, Twitter) активно инвестируют в разработку усовершенствованных инфраструктурных (Cassandra, Presto, FlockDB, Thrift) и алгоритмических (новые алгоритмы поиска и рекомендации пользователей, товаров и услуг) решений для обработки больших массивов пользовательских данных.
Возникают и успешно развиваются коммерческие компании, предоставляющие услуги по доступу к хранилищам социальных данных (GNIP), сбору социальных данных по заданным сценариям (801egs), социальной аналитике (DataSift), а также расширению существующих платформ с помощью социальных данных (FlipTop).
Таким образом, специалисты из исследовательских центров и компаний по всему миру используют данные социальных сетей для моделирования социальных, экономических, политических и других процессов от персонального до государственного уровня с целью разработки механизмов воздействия на эти процессы, а также создания инновационных аналитических и бизнес-приложений, и сервисов.
Существуют две различные стратегии сбора данных для анализа социальных сетей.
Первая направлена на получение данных о взаимодействиях всех акторов сети, например, всех компаний на рынке информационных систем. В этом случае возникает проблема определения границ сети: если существует сторонний актор, интенсивно взаимодействующий с представителями данной сети, необходимо определить, являются ли эти взаимодействия существенными для структуры сети, и, если это так, то указанный актор должен быть включен в состав анализируемой социальной сети. В то же время ее границы могут задаваться границами исследуемой социальной общности, например, социальная сеть может содержать информацию о взаимодействиях землевладельцев только в пределах данного района страны, при этом их внешние связи не будут рассматриваться.
Вторая стратегия может быть названа «актороцентрической» и заключается в сборе данных обо всех взаимодействиях, в которые включен определенный актор. Эта стратегия особенно часто используется при построении социальной сети по результатам опроса респондентов. В этом случае мы можем получить полную информацию о взаимодействиях респондента за определенный промежуток времени и, сравнивая структуры этих взаимодействий, выявить их зависимость от характеристик актора и внешних воздействий.
С целью анализа устойчивости и валидности структур получаемых социальных сетей был проведен ряд исследований, направленных на выявление изменения абсолютного размера сети, состава акторов и их рейтингов с течением времени. В результате было установлено, что эти характеристики в среднем устойчивы на 70-95%.
Социальные сети с разнотипными акторами применяются для анализа структуры некоторых коллективов, например, членства бизнесменов в загородных клубах или борцов за женскую эмансипацию в различных женских организациях. Данная модель может быть использована и для исследования более размытых коллективов, например, посетителей вечеринок или зрителей на спортивных состязаниях. В ней социальная сеть содержит вершины двух типов, соответствующих акторам и коллективам или событиям, и ребра связывают вершины с различными типами. При этом две вершины одного типа не могут быть непосредственно связаны ребром, и путь между ними должен проходить через вершину другого типа. Таким образом, предприниматель, одновременно являющийся членом двух загородных клубов, связывает данные клубы, и клуб, членами которого являются два бизнесмена, связывает этих индивидов.
Вместе с тем, при работе с социальными данными нужно принимать во внимание такие факторы, как нестабильность качества пользовательского контента (спам и ложные аккаунты), проблемы с обеспечением приватности личных данных пользователей при хранении и обработке, а также частые обновления пользовательской модели и функционала. Всё это требует постоянного совершенствования алгоритмов решения различных аналитических и бизнес-задач.
Каждый день пользователи добавляют более 200 миллионов фотографий и оставляют более 2 миллиардов комментариев к различным объектам сети. На сегодняшний день большинство существующих алгоритмов, позволяющих эффективно решать актуальные задачи, не способны обрабатывать данные подобной размерности за приемлемое время. В связи с этим, возникает потребность в новых решениях, позволяющих осуществлять распределённую обработку и хранение данных без существенной потери качества результатов.
Веб-интерфейсы социальных сетей являются источниками данных реального времени и предназначены для просмотра и взаимодействия со страницами социальной сети в веб-браузере либо для использования данных пользователей специализированными приложениями.
Поскольку сценарии использования интерфейсов социальных сетей не предполагают автоматического сбора данных множества пользователей с целью построения социального графа, то возникает ряд проблем:
На сегодняшний день ценность аналитических инструментов, позволяющих визуализировать отношения между людьми, организациями и транзакциями, очевидна. По мнению независимого эксперта в области финансовой информационной безопасности Криса Свекера (Chris Swecker), ранее работавшего на постах помощника главы ФБР и руководителя службы информационной безопасности Bank of America, мошенничества со стороны организованных криминальных групп наносят финансовым институтам наибольший ущерб. И лучший способ борьбы с ними – удар по организации в целом, а не по отдельным ее участникам. Инструментом, дающим аналитикам возможность спланировать и осуществить этот удар, является анализ социальных сетей.
Анализ данных социальных сетей эффективно используется для борьбы с отмыванием денег, кражами личности, сетевыми мошенничествами, кибератаками и др. В частности методики анализа данных использовались при расследовании незаконных операций с ценными бумагами, проводившемся Австралийской комиссией по ценным бумагам и инвестициям (Australian Securities and Investment Commission).
Автор ряда книг и эксперт в области безопасности и анализа данных Джисус Мина (Jesus Mena) назвал АСС «техникой интеллектуального анализа данных, представляющей их структуру в виде связанных между собой объектов». Эта техника базируется на таких математических дисциплинах, как теория графов и матричная алгебра, и обеспечивает аналитиков инструментарием, позволяющим моделировать и изучать структуру связей между различными объектами.
Матрицы могут быть квадратными, если анализируются однородные объекты (например, люди), и прямоугольными для анализа связей разнородных объектов (например, люди и организации). Принципы их построения идентичны в обоих случаях: наличие связи между объектами помечается выбранным символом в ячейке, лежащей на пересечении соответствующих строки и столбца.
Квадратная матрица симметрична относительно диагонали, то есть принимается версия: если агент № 1 знает агента № 2, то и агента № 2 знает агент № 1. В диагональных ячейках матрицы проставлены нули, поскольку игнорируется связь человека с самим собой.
Матрицы позволяют сделать связи между различными объектами анализа более наглядными, но еще большей степенью визуализации обладают диаграммы связи. Построению диаграммы связи предшествует детальный анализ матрицы. Чтобы диаграмма оказалась максимально удобной и наглядной начинать ее построение следует с объектов, имеющих наибольшее количество связей. Для этого требуется просуммировать показатели строк матрицы для каждого индивида.
В простейшей диаграмме связей не учитывается ни направление, ни вес связи. В реальной жизни эти характеристики имеют критическое значение. Например, Илья может знать Егора, но это не значит, что Егор знает Илью. Или с партнером по бизнесу исследуемое лицо может иметь гораздо более тесные отношения, чем с клиентом своей компании. И вес, и направление связей можно отобразить с помощью диаграмм социальных сетей, которые представляют собой усовершенствованное развитие матриц и диаграмм связи.
В связи с постоянной необходимостью получения больших наборов данных из социальных сетей, был разработан фреймворк для сбора данных из различных интернет-сервисов.
Разработанный инструмент поддерживает скачивание данных из социальных сетей Facebook, Twitter, Hunch. Реализовано несколько способов получения репрезентативных выборок пользователей социальных сетей: сэмплирование методом обхода в ширину (breadth-first search, BFS), по Метрополису-Гастингсу (Metropolis-Hastings Random Walk, MHRW) и методом «лесного пожара» (Forest Fire, FF).
Реализован механизм автоматического выбора учетной записи социальной сети для каждого запроса, а также поддержка прокси-соединений. Это обеспечивает устойчивость к блокировкам по IP- адресам и учетным записям. Кроме того, фреймворк поддерживает многопоточное скачивание.
Для оценки производительности фреймворка были проведены эксперименты, в которых скачивались профили пользователей социальных сетей Twitter, Facebook и Hunch.
Были достигнуты следующие показатели:
Рассмотрим генерацию случайных социальных графов
Несмотря на наличие средств для сбора данных из социальных сетей и большого количества доступных наборов данных, актуальной является задача создания моделей случайных социальных графов и инструментов для генерации случайных графов с заданным набором свойств.
Для достоверного тестирования методов анализа социальных данных они должны быть применены к множеству наборов данных с различными свойствами.
К примеру, методы поиска сообществ пользователей в социальном графе могут показывать существенно различные результаты в зависимости от размера исходного графа, средней степени вершины, коэффициента кластеризации и других структурных свойств.
Были разработаны модель и оригинальный метод для генерации случайных графов, обладающих основными свойствами социальных сетей (распределение степеней, диаметр, коэффициент кластеризации и т.д.) и заданной структурой сообществ пользователей.
Для каждого пользователя осуществляется генерация атрибутов профиля, социальных связей, сообществ и текстовых сообщений. Предложенный метод имеет распределённую реализацию на основе фреймворка Apache Spark, что позволяет создавать случайные графы большой размерности для тестирования производительности и точности методов анализа социальных данных.
Определение демографических атрибутов пользователей
В частности, в системах интернет-маркетинга и рекомендаций особую важность представляет определение демографических атрибутов пользователя для таргетированного продвижения товаров и услуг в группах пользователей с одинаковыми значениями атрибутов.
Помимо интернет-сервисов, такие демографические характеристики находят применение в различных дисциплинах: социология, психология, криминология, экономика, управление персоналом и др.