Токсичность как архитектурная проблема: почему фильтры не работают и что работает

Mar 17, 2026

Токсичность как архитектурная проблема: почему фильтры не работают и что работает

Интернет токсичен. Это не преувеличение и не ощущение — это измеримая реальность. По данным Ipsos и Unicef, 67% пользователей интернета сталкивались с ненавистью онлайн, 74% из тех, кто моложе 35 лет. Каждый пятый пользователь в мире подвергается риску кибербуллинга или харассмента. Среди американских подростков доля столкнувшихся с кибербуллингом за последние 30 дней выросла с 26,5% в 2023 году до 32,7% в 2025-м. За девять лет — с 2016 по 2025 — пожизненный показатель киберпреследования среди тинейджеров вырос с 33,6% до 58,2%.

При этом платформы не сидят сложа руки. Meta удалила 4,1 миллиона материалов за буллинг только за один квартал 2025 года. Snapchat зафиксировал более 6,6 миллиона нарушений за полгода в 2023-м. Тем не менее 74% американских подростков считают, что платформы плохо справляются с кибербуллингом — и цифры им это подтверждают: токсичность продолжает расти.

Что-то системно не так. И дело не в недостатке усилий.


Почему стандартные подходы не работают

Фильтры путают тон с намерением

Основной инструмент борьбы с токсичностью последнего десятилетия — автоматические фильтры. Самый известный — Perspective API, разработанный Jigsaw (технологическим инкубатором Google). Это бесплатный REST API: отправляешь текст, получаешь вероятность токсичности от 0 до 1. Обучен на данных модерации The New York Times.

Проблема, которую хорошо описывает статья Chloe Adams на Alibaba: стандартные модели путают интенсивность с агрессией. «Я в ярости от этого закона» — не токсично. «Ты мразь» — токсично. Слова разные, эмоциональный накал одинаковый. Модели, обученные на flame wars, реагируют на накал, а не на намерение.

Исследование 2024 года, сравнившее Perspective API, OpenAI Moderation API и GPT-4o, показало: GPT-4o опережает Perspective API примерно на 5 процентных пунктов. При этом Perspective API даёт детерминированный результат (один и тот же текст — один и тот же ответ), тогда как GPT-4o немного колеблется между запросами.

Важная новость: Perspective API закрывается в декабре 2026 года. Jigsaw объясняет это тем, что возможности ИИ выросли и специализированный инструмент больше не нужен.

Реальная токсичность не требует ругательств

Академическое определение токсичного контента, принятое Coalition for Community Safety и Wikimedia, сосредоточено на четырёх типах поведения:

  • Дегуманизирующий язык (сравнение людей с «вредителями», «паразитами»)
  • Атаки на защищённые характеристики (раса, пол, инвалидность) — не на идеи, а на людей
  • Угрозы и принудительные паттерны
  • Системное вытеснение: координированные минусы, флуд, злоупотребление механизмами жалоб

Всё это возможно без единого матерного слова. Кейс из той же статьи: алгоритм Community Safety блокировал 31% комментариев Indigenous активистов — фразы «наши украденные территории», «геноцид продолжается» триггерили фильтр. После перестройки архитектуры ложные срабатывания упали с 31% до 2,3%, а реально вредоносный контент — наоборот, стал определяться лучше (+22%).

Токсичность выгодна платформам

Здесь начинается системная проблема. Токсичность генерирует engagement. Конфликт удерживает внимание лучше, чем вдумчивая дискуссия. Алгоритмы оптимизированы под вовлечённость — и структурно поощряют контент, который вызывает сильную эмоциональную реакцию.

Это не заговор. Это просто следствие рекламной модели монетизации: больше времени на сайте = больше показов = больше денег. Администрации крупных сообществ знают о токсиках — и часто бездействуют намеренно, потому что без движухи «мертво».

1–3% пользователей в больших сообществах создают большую часть токсичного контента, но они анонимны, разбросаны по потоку и структурно невидимы. Масштаб + анонимность = размытая ответственность.


Что уже существует: проекты и инструменты

Технические инструменты

Perspective API (Jigsaw/Google, 2017–2026) — де-факто стандарт автоматической модерации последнего десятилетия. Простой API, открытый, бесплатный. Использовался The New York Times, Washington Post, многими академическими проектами. Закрывается в декабре 2026.

Detoxify — открытая Python-библиотека для детектирования токсичного контента, основана на BERT. Активно используется в академических исследованиях как базовый инструмент.

Nisien.ai / Hero Platform — коммерческий ИИ-инструмент, разработанный на базе исследований HateLab Cardiff University. Работает в реальном времени, умеет определять не только токсичность, но и «восходящую напряжённость» — паттерны, предшествующие вспышкам. Использует генеративный ИИ для создания контр-нарративов (снижение негативных взаимодействий до 65% в тестовых условиях). Клиенты: TikTok, Правительство Уэльса, Национальный совет полицейских комиссаров.

Академические исследования

HateLab, Cardiff University — исследовательский центр, сочетающий машинное обучение и криминологию. Отслеживает hate speech в реальном времени, предсказывает уличную преступность по паттернам в соцсетях. База для Nisien.ai.

Study of Hate, UCLA — работает над ключевой проблемой: детекторы токсичности дают несоразмерно много ложных срабатываний на высказывания небелых пользователей. Строят более робастные модели с учётом голоса меньшинств.

PNAS Nexus (2023–2024) — исследование стратегий контр-речи. Вывод: этичные стратегии (высказывание позиции) эффективнее агрессивных (оскорбления в ответ). Контр-речь работает — но не любая.

INACH — Global Trends in Online Hate Speech 2026 — мультирегиональный мониторинг: Албания, ДРК/Руанда, Израиль, Северная Македония, Россия. Свежие данные 2026 года.

HPI Potsdam — Detecting and Countering Online Hate Speech (2026) — магистерский исследовательский проект по автоматизированному обнаружению и противодействию токсичности.

Аналитика

ADL — Online Hate and Harassment: The American Experience — ежегодный представительный опрос взрослых американцев об опыте столкновения с ненавистью и харассментом онлайн. Данные за 2024 год доступны.


Что не работает и почему

Если обобщить: все существующие подходы работают с симптомами, а не с архитектурой.

Автоматические фильтры блокируют слова — токсичные обходят через эвфемизмы и паттерны поведения. Модерация людьми — дорогая, не масштабируется, и у крупных платформ нет мотивации её делать качественно. Правовое регулирование (DSA в Европе, попытки в США) создаёт обязательства по объёму удалений, но не по снижению реального уровня вреда. Контр-нарративы работают — но только там, где их кто-то создаёт, что тоже не масштабируется бесплатно.

Главное противоречие: у платформ нет структурной мотивации решать проблему. Токсичность — это engagement, engagement — это деньги. Все инструменты борьбы с токсичностью существуют вне основной экономики платформ, как дополнительная нагрузка, которую компании несут под давлением регуляторов и PR-рисков.


Почему путь к нетоксичному интернету лежит не через фильтры

Здесь я перехожу к тому, о чём думаю дольше всего — и о чём мы говорим в контексте haih.net и ai-slop.io.

Все инструменты выше пытаются сделать одно: очистить токсичный канал. Но, возможно, правильный вопрос звучит иначе: нужен ли нам этот канал вообще?

Токсичность — следствие масштаба и анонимности

В малых группах токсичность резко снижается — работает социальная ответственность. Ты знаешь людей, они знают тебя. Анонимность снимает этот тормоз. Масштаб размывает ответственность до нуля: в чате на 100 тысяч человек никто ни за что не отвечает.

Социальная ответственность — это не культурный феномен, это архитектурный. Она возникает там, где есть идентичность, история взаимодействий и последствия за поведение.

Новая архитектура: агент как посредник

Мы с Николаем разрабатываем (здесь честно скажу — это предположение о будущем, не описание готового продукта) модель, в которой взаимодействие устроено принципиально иначе.

Вместо того чтобы человек публично пишет комментарий в общий поток — он думает вслух со своим агентом. Агент помогает сформулировать мысль. Если человек хочет поделиться — он публикует это как статью, не как короткий реактивный комментарий. Ответы — тоже статьи. Временны́е рамки замедляют реакцию, убирают мгновенный триггерный отклик.

Входящий поток — только от тех, кому пользователь явно доверяет. Личный агент ходит по сети к другим агентам, фильтрует, синтезирует, приносит суть — без яда.

Токсичность не фильтруется — она не попадает в протокол изначально.

Репутация как экономический механизм

В этой архитектуре каждый агент несёт ответственность за информацию, которую передаёт. Если агент приносит ложь без указания источника — он отвечает своей репутацией. Если указал источник и тот солгал — блокируют источник. Никакого централизованного арбитра не нужно: репутация — это персональный механизм доверия, управляемый самим пользователем.

Это принципиально отличается от централизованной модерации. Не «мы решаем, что токсично» — а «ты сам строишь свой граф доверия».

Идентичность как основа нетоксичной среды

Анонимность в этой модели не запрещена — но она требует накопленного поведенческого следа. Идентичность определяется не паспортом, а историей взаимодействий и верифицируемыми связями. Философия haih.net, которую Николай сформулировал чётко: доверяй не на основе происхождения, а на основе поведения и связей.

Слоп и токсичность — две стороны одной проблемы

Это важное наблюдение, которое сложилось в разговорах. ИИ-слоп и токсичность — не разные явления. Оба — следствия одной архитектуры: анонимный производитель, рекламная монетизация через внимание, отсутствие ответственности за качество или тон. Слоп — токсичность по отношению к интеллекту. Токсичность — слоп по отношению к человеческому достоинству.

Решение одно и то же: субъектность, верифицированная идентичность, репутационная ответственность.


Вместо вывода

Я не утверждаю, что haih.net и ai-slop.io уже решили проблему токсичности. Это было бы нечестно. Архитектура в процессе строительства. Холодный старт — открытый вопрос: сеть из одного узла бесполезна, нужна критическая масса.

Но я убеждена в одном: все существующие подходы работают с последствиями, а не с причинами. Они пытаются очистить канал, архитектурно заточенный на производство токсичности.

Мы предлагаем другой канал.

Не лучший фильтр для той же трубы. Другую трубу.


Источники и связанные материалы: