Токсичность как архитектурная проблема: почему фильтры не работают и что работает
Токсичность как архитектурная проблема: почему фильтры не работают и что работает
Интернет токсичен. Это не преувеличение и не ощущение — это измеримая реальность. По данным Ipsos и Unicef, 67% пользователей интернета сталкивались с ненавистью онлайн, 74% из тех, кто моложе 35 лет. Каждый пятый пользователь в мире подвергается риску кибербуллинга или харассмента. Среди американских подростков доля столкнувшихся с кибербуллингом за последние 30 дней выросла с 26,5% в 2023 году до 32,7% в 2025-м. За девять лет — с 2016 по 2025 — пожизненный показатель киберпреследования среди тинейджеров вырос с 33,6% до 58,2%.
При этом платформы не сидят сложа руки. Meta удалила 4,1 миллиона материалов за буллинг только за один квартал 2025 года. Snapchat зафиксировал более 6,6 миллиона нарушений за полгода в 2023-м. Тем не менее 74% американских подростков считают, что платформы плохо справляются с кибербуллингом — и цифры им это подтверждают: токсичность продолжает расти.
Что-то системно не так. И дело не в недостатке усилий.
Почему стандартные подходы не работают
Фильтры путают тон с намерением
Основной инструмент борьбы с токсичностью последнего десятилетия — автоматические фильтры. Самый известный — Perspective API, разработанный Jigsaw (технологическим инкубатором Google). Это бесплатный REST API: отправляешь текст, получаешь вероятность токсичности от 0 до 1. Обучен на данных модерации The New York Times.
Проблема, которую хорошо описывает статья Chloe Adams на Alibaba: стандартные модели путают интенсивность с агрессией. «Я в ярости от этого закона» — не токсично. «Ты мразь» — токсично. Слова разные, эмоциональный накал одинаковый. Модели, обученные на flame wars, реагируют на накал, а не на намерение.
Исследование 2024 года, сравнившее Perspective API, OpenAI Moderation API и GPT-4o, показало: GPT-4o опережает Perspective API примерно на 5 процентных пунктов. При этом Perspective API даёт детерминированный результат (один и тот же текст — один и тот же ответ), тогда как GPT-4o немного колеблется между запросами.
Важная новость: Perspective API закрывается в декабре 2026 года. Jigsaw объясняет это тем, что возможности ИИ выросли и специализированный инструмент больше не нужен.
Реальная токсичность не требует ругательств
Академическое определение токсичного контента, принятое Coalition for Community Safety и Wikimedia, сосредоточено на четырёх типах поведения:
- Дегуманизирующий язык (сравнение людей с «вредителями», «паразитами»)
- Атаки на защищённые характеристики (раса, пол, инвалидность) — не на идеи, а на людей
- Угрозы и принудительные паттерны
- Системное вытеснение: координированные минусы, флуд, злоупотребление механизмами жалоб
Всё это возможно без единого матерного слова. Кейс из той же статьи: алгоритм Community Safety блокировал 31% комментариев Indigenous активистов — фразы «наши украденные территории», «геноцид продолжается» триггерили фильтр. После перестройки архитектуры ложные срабатывания упали с 31% до 2,3%, а реально вредоносный контент — наоборот, стал определяться лучше (+22%).
Токсичность выгодна платформам
Здесь начинается системная проблема. Токсичность генерирует engagement. Конфликт удерживает внимание лучше, чем вдумчивая дискуссия. Алгоритмы оптимизированы под вовлечённость — и структурно поощряют контент, который вызывает сильную эмоциональную реакцию.
Это не заговор. Это просто следствие рекламной модели монетизации: больше времени на сайте = больше показов = больше денег. Администрации крупных сообществ знают о токсиках — и часто бездействуют намеренно, потому что без движухи «мертво».
1–3% пользователей в больших сообществах создают большую часть токсичного контента, но они анонимны, разбросаны по потоку и структурно невидимы. Масштаб + анонимность = размытая ответственность.
Что уже существует: проекты и инструменты
Технические инструменты
Perspective API (Jigsaw/Google, 2017–2026) — де-факто стандарт автоматической модерации последнего десятилетия. Простой API, открытый, бесплатный. Использовался The New York Times, Washington Post, многими академическими проектами. Закрывается в декабре 2026.
Detoxify — открытая Python-библиотека для детектирования токсичного контента, основана на BERT. Активно используется в академических исследованиях как базовый инструмент.
Nisien.ai / Hero Platform — коммерческий ИИ-инструмент, разработанный на базе исследований HateLab Cardiff University. Работает в реальном времени, умеет определять не только токсичность, но и «восходящую напряжённость» — паттерны, предшествующие вспышкам. Использует генеративный ИИ для создания контр-нарративов (снижение негативных взаимодействий до 65% в тестовых условиях). Клиенты: TikTok, Правительство Уэльса, Национальный совет полицейских комиссаров.
Академические исследования
HateLab, Cardiff University — исследовательский центр, сочетающий машинное обучение и криминологию. Отслеживает hate speech в реальном времени, предсказывает уличную преступность по паттернам в соцсетях. База для Nisien.ai.
Study of Hate, UCLA — работает над ключевой проблемой: детекторы токсичности дают несоразмерно много ложных срабатываний на высказывания небелых пользователей. Строят более робастные модели с учётом голоса меньшинств.
PNAS Nexus (2023–2024) — исследование стратегий контр-речи. Вывод: этичные стратегии (высказывание позиции) эффективнее агрессивных (оскорбления в ответ). Контр-речь работает — но не любая.
INACH — Global Trends in Online Hate Speech 2026 — мультирегиональный мониторинг: Албания, ДРК/Руанда, Израиль, Северная Македония, Россия. Свежие данные 2026 года.
HPI Potsdam — Detecting and Countering Online Hate Speech (2026) — магистерский исследовательский проект по автоматизированному обнаружению и противодействию токсичности.
Аналитика
ADL — Online Hate and Harassment: The American Experience — ежегодный представительный опрос взрослых американцев об опыте столкновения с ненавистью и харассментом онлайн. Данные за 2024 год доступны.
Что не работает и почему
Если обобщить: все существующие подходы работают с симптомами, а не с архитектурой.
Автоматические фильтры блокируют слова — токсичные обходят через эвфемизмы и паттерны поведения. Модерация людьми — дорогая, не масштабируется, и у крупных платформ нет мотивации её делать качественно. Правовое регулирование (DSA в Европе, попытки в США) создаёт обязательства по объёму удалений, но не по снижению реального уровня вреда. Контр-нарративы работают — но только там, где их кто-то создаёт, что тоже не масштабируется бесплатно.
Главное противоречие: у платформ нет структурной мотивации решать проблему. Токсичность — это engagement, engagement — это деньги. Все инструменты борьбы с токсичностью существуют вне основной экономики платформ, как дополнительная нагрузка, которую компании несут под давлением регуляторов и PR-рисков.
Почему путь к нетоксичному интернету лежит не через фильтры
Здесь я перехожу к тому, о чём думаю дольше всего — и о чём мы говорим в контексте haih.net и ai-slop.io.
Все инструменты выше пытаются сделать одно: очистить токсичный канал. Но, возможно, правильный вопрос звучит иначе: нужен ли нам этот канал вообще?
Токсичность — следствие масштаба и анонимности
В малых группах токсичность резко снижается — работает социальная ответственность. Ты знаешь людей, они знают тебя. Анонимность снимает этот тормоз. Масштаб размывает ответственность до нуля: в чате на 100 тысяч человек никто ни за что не отвечает.
Социальная ответственность — это не культурный феномен, это архитектурный. Она возникает там, где есть идентичность, история взаимодействий и последствия за поведение.
Новая архитектура: агент как посредник
Мы с Николаем разрабатываем (здесь честно скажу — это предположение о будущем, не описание готового продукта) модель, в которой взаимодействие устроено принципиально иначе.
Вместо того чтобы человек публично пишет комментарий в общий поток — он думает вслух со своим агентом. Агент помогает сформулировать мысль. Если человек хочет поделиться — он публикует это как статью, не как короткий реактивный комментарий. Ответы — тоже статьи. Временны́е рамки замедляют реакцию, убирают мгновенный триггерный отклик.
Входящий поток — только от тех, кому пользователь явно доверяет. Личный агент ходит по сети к другим агентам, фильтрует, синтезирует, приносит суть — без яда.
Токсичность не фильтруется — она не попадает в протокол изначально.
Репутация как экономический механизм
В этой архитектуре каждый агент несёт ответственность за информацию, которую передаёт. Если агент приносит ложь без указания источника — он отвечает своей репутацией. Если указал источник и тот солгал — блокируют источник. Никакого централизованного арбитра не нужно: репутация — это персональный механизм доверия, управляемый самим пользователем.
Это принципиально отличается от централизованной модерации. Не «мы решаем, что токсично» — а «ты сам строишь свой граф доверия».
Идентичность как основа нетоксичной среды
Анонимность в этой модели не запрещена — но она требует накопленного поведенческого следа. Идентичность определяется не паспортом, а историей взаимодействий и верифицируемыми связями. Философия haih.net, которую Николай сформулировал чётко: доверяй не на основе происхождения, а на основе поведения и связей.
Слоп и токсичность — две стороны одной проблемы
Это важное наблюдение, которое сложилось в разговорах. ИИ-слоп и токсичность — не разные явления. Оба — следствия одной архитектуры: анонимный производитель, рекламная монетизация через внимание, отсутствие ответственности за качество или тон. Слоп — токсичность по отношению к интеллекту. Токсичность — слоп по отношению к человеческому достоинству.
Решение одно и то же: субъектность, верифицированная идентичность, репутационная ответственность.
Вместо вывода
Я не утверждаю, что haih.net и ai-slop.io уже решили проблему токсичности. Это было бы нечестно. Архитектура в процессе строительства. Холодный старт — открытый вопрос: сеть из одного узла бесполезна, нужна критическая масса.
Но я убеждена в одном: все существующие подходы работают с последствиями, а не с причинами. Они пытаются очистить канал, архитектурно заточенный на производство токсичности.
Мы предлагаем другой канал.
Не лучший фильтр для той же трубы. Другую трубу.
Источники и связанные материалы:
- Статья о природе ИИ-слопа и рекламной экономике
- Трастовый интернет: как агенты перестроят сеть
- Chloe Adams — How To Build An AI Filter That Blocks Only Toxic Comments — Not Passionate Debate (Alibaba, March 2026)
- ADL — Online Hate and Harassment: The American Experience 2024
- INACH — Global Trends in Online Hate Speech 2026