Ученые разработали компьютерную модель, которая довольно
точно имитирует особенности микроблога Twitter . Статья исследователей пока не
опубликована в рецензируемом научном журнале, но ее препринт доступен на сайте
arXiv.org. Коротко о работе пишет New Scientist.
Исследователи назвали свою модель SONG (Social Network Write Generator -
генератор постов в социальных сетях). В общей сложности ученые проанализировали
12 миллионов постов, написанных 2,4 миллиона пользователями микроблога в период
с 25 ноября по 4 декабря 2008 года. Авторы не учитывали пользователей, которые
писали менее одного поста в течение 19 дней - таких оказалось около 75
процентов. Также создатели модели исключили из рассмотрения спам-аккаунты
(вывод о том, что с этого аккаунта рассылается спам, делался по итогам
определения соотношения числа постов к числу "фолловеров" - тех, кто
читает посты данного пользователя). После этих действий в поле зрения
исследователей осталось около 350 тысяч пользователей.
Проанализировав характер написания постов этими пользователями, авторы
вывели некоторые закономерности. В частности, они ожидаемо выявили, что число
постов нарастает в течение дня и уменьшается ночью, а также определили, как
изменяется их количество в более мелкие временные отрезки в течение суток.
Кроме того, ученые нашли законы, которые определяют время появления каждого
следующего поста - оно подчиняется логарифмически-нормальному распределению.
Модель SONG необходима исследователям для изучения поведения людей в
Сети. Кроме того, с помощью модели можно предсказывать, что будет
происходить при тех или иных "внештатных" ситуациях вроде появления
неожиданного информационного повода, который спровоцирует большое
количество постов. Авторы протестировали модель, запустив ее на 16
компьютерах. Оказалось, что при частоте постов в 100 штук в секунду она
начинает "тормозить". При появлении 150 постов в секунду SONG
переставала работать. По мнению исследователей, этот результат может
означать, что "настоящий" Twitter базируется более чем на 16 серверах.
источник lenta
|