Нейросеть научили распознавать агрессию и троллинг в Сети‍

Исследователи из Корнельского университета создали алгоритм, который поможет администраторам социальных сетей модерировать сообщения, содержащие ненависть и вражду. Нейросеть способна отличить вежливую беседу от оскорбительной и делает это всего на 7% хуже человека. Исследование опубликовано на сайте университета.

Для обучения алгоритма исследователи использовали базу данных Wikipedia — Talk pages, в которой хранятся диалоги администраторов онлайн-библиотеки о достоверности статей. В нейросеть загрузили 1,2 тыс. бесед, начинающихся с вежливых реплик, а затем добавили сообщения, содержащие язвительные или грубые высказывания.

В результате искусственный интеллект научился распознавать фразы «спасибо за помощь» и «пожалуйста, найди источники к этой правке» как вежливые, а высказывания, подобные «твои источники не имеют значения», как грубые. Ученые заметили, что диалоги, начинающиеся с прямого вопроса или обращения «ты», чаще всего заканчивались оскорблениями.

«Каждый день миллионы людей спорят друг с другом в интернете, и отслеживать их в реальном времени невозможно. Наша система поможет модераторам перенаправлять их внимание в нужную сторону. У людей есть интуитивное ощущение, когда разговор идет наперекосяк, но мы не угадываем в 100% случаев. Нам интересно, сможем ли мы создать такую систему, которая преодолеет наше собственное интуитивное ощущение», – заявил Кристиан Данеску-Мизил, профессор Корнельского университета