Ученые из Техаса создали программу, вычисляющую ботов и троллей
Программисты из университета Техаса разработали алгоритм, позволяющий вычислять и «отлавливать» ботов и троллей, и использовали его для раскрытия проплаченных пользователей в комментариях к новостям газет Guardian, Sydney Morning Herald и телекомпании ABC, говорится в статье, опубликованной в журнале Concurrency and Computation.
«Купленные комментарии по своей сути никак не нарушают закон, однако их этическая суть вызывает вопросы у многих людей. С другой стороны, они существуют так же долго, как и сами социальные сети. Их используют для самых разных целей. Предприниматели могут так рекламировать свои услуги или товары, или наоборот, подрывать образ конкурентов, используя подставных лиц и троллей», — заявил Раймон Чу (Raymond Choo) из университета Техаса в Сан-Антонио (США).
Помимо корпораций, подобными «услугами» часто, как заявляют многие люди в сети, пытаются пользоваться различные политики, пытающиеся создать иллюзию массовой поддержки себя избирателями. В качестве примеров Чу называет крупнейшие политические фигуры в США – Джорджа Буша-младшего, и текущих кандидатов в президенты, Хиллари Клинтон и Дональда Трампа.
Как правило, все проплаченные комментарии генерируются одинаковым образом – один человек или группа из нескольких «ботоводов» или «троллей» создает десятки или сотни внешне не связанных аккаунтов в соцсетях и на сайтах СМИ, и публикуют однотипные записи в блогах и комментарии к конкретным новостям или событиям. Этот информационный «шум» генерирует определенную повестку дня, которая может быть подхвачена «мейнстримом» и размножена самостоятельно, уже без участия породивших ее интернет-«кукловодов».
Так как у главная задача «троллей» состоит именно в создании большой массы контента, а не в обеспечении его качества, их посты от лица разных пользователей часто состоят из однотипных сообщений с минимальными изменениями в синтаксическом и семантическом содержании текста. Этот фактор, как предположили Чу и его коллеги, является «ахиллесовой пятой» троллей, по которой их можно достаточно легко вычислить.
Руководствуясь этой идеей, ученые создали алгоритм, который анализировал комментарии и посты в соцсетях и вычислял ботов, извлекая данные об авторском стиле из каждого изучаемого текста и сравнивая их между собой при помощи методики N-грамм. Стиль, как объясняет ученый, в том числе типичную длину слов и приложений, количество оборотов и манеру использования знаков препинания, гораздо сложнее поменять, чем сами слова, что почти безошибочно выдает троллей и ботов.
Используя эту методику, ученые раскрыли сразу несколько пользователей сайтов газет Guardian, The Sydney Herald и австралийского отделения телерадиокомпании ABC, которые оставляли на всех этих порталах сотни комментариев под несколькими разными аккаунтами, критикуя Лейбористскую партию, главную оппозиционную силу в Австралии, и защищая интересы правящих консервативных кругов.
Проверив работу этой методики в «поле», Чу и его коллеги планируют использовать ее для наблюдений за выборами США, а также для диссертационных расследований и поиска плагиата в научных публикациях. Как надеются ученые, созданная ими программа поможет людям лучше сопротивляться пропаганде и меньше подчиняться мнениям троллей и ботов при выборе того или иного решения.