Амазон ведёт расследование в отношении Perplexity AI по подозрению в обходе антиспамных мер

Amazon Cloud проводит расследование в отношении стартапа Perplexity AI из-за подозрений в нарушении правил Amazon Web Services при сканировании веб-сайтов, которые блокировали его действия.

По словам представителя AWS, компания проводит расследование в отношении Perplexity. Ранее WIRED обнаружил, что Perplexity, которая получает поддержку от семейного фонда Джеффа Безоса и Nvidia, и недавно была оценена в 3 миллиарда долларов, возможно, использует контент, полученный путём парсинга веб-сайтов, доступ к которым ограничен по протоколу исключения роботов — распространенному стандарту для веб. Несмотря на то что протокол исключения роботов не является юридически обязательным, условия обслуживания чаще всего таковы.

Протокол исключения роботов — это десятилетиями действующий веб-стандарт, предусматривающий размещение в домене открытого текстового файла (например, wired.com/robots.txt) для указания страниц, недоступных автоматическим ботам и сканерам. Компании, использующие парсеры, могут игнорировать этот протокол, но большинство из них традиционно его соблюдают. Представитель AWS заявил, что клиенты AWS должны придерживаться стандарта robots.txt при сканировании веб-сайтов.

Условия обслуживания Amazon Web Services запрещают оскорбительные и незаконные действия, а клиенты несут ответственность за их соблюдение. Компания регулярно получает сообщения о предполагаемых злоупотреблениях от разных источников и разбирается с ними вместе с клиентами.

Источник: Dennis Diatel / Alamy

После публикации отчёта Forbes от 11 июня о подозрении в краже статей стартапом Perplexity была проведена проверка методов его работы. Расследования подтвердили обвинения и выявили дополнительные доказательства злоупотреблений системами, связанными с поисковым чат-ботом Perplexity на базе искусственного интеллекта. Инженеры Condé Nast, владеющие WIRED, блокируют краулер Perplexity на всех своих веб-сайтах с помощью файла robots.txt. WIRED выяснил, что у компании был доступ к серверу с неопубликованным IP-адресом — 44.221.181.252 — который посещал объекты Condé Nast по крайней мере сотни раз за последние три месяца, вероятно, для сбора данных с веб-сайтов.

Похоже, сервер, работающий с Perplexity, осуществляет массовый поиск новостных сайтов, вход на которые ботам запрещен. Представители The Guardian, Forbes и The New York Times также сообщили о выявлении IP-адреса, посещавшего их серверы неоднократно. WIRED установил связь IP-адреса с виртуальной машиной Elastic Compute Cloud (EC2), размещённой на AWS.

Генеральный директор Perplexity Аравинд Сринивас первым прокомментировал расследование WIRED, назвав вопросы, заданные компании, «глубоким и фундаментальным непониманием работы Perplexity и интернета». Сринивас сообщил, что IP-адрес, обнаруженный WIRED, сканировал сайты Condé Nast, а созданный тестовый сайт управлялся сторонней компанией, предоставляющей услуги веб-сканирования и индексирования. Название компании Сринивас не назвал, ссылаясь на соглашение о неразглашении. В ответ на вопрос о том, попросит ли он третье лицо прекратить сканирование WIRED, Сринивас ответил: «Это сложно».

Сара Платник из Perplexity заявила, что компания ответила на запросы Amazon 26 июня и считает расследование стандартной процедурой. По словам Платник, Perplexity не вносила никаких изменений в свою работу из-за опасений Amazon. Она добавила, что PerplexityBot будет игнорировать robots.txt, когда пользователь укажет определенный URL в запросе — случай, который Платник называет «очень редким».

При запросе определенного адреса веб-страницы сканирование не запускается. Агент действует от имени пользователя, получая адрес. Это аналогично тому, как пользователь сам открывает страницу, копирует текст статьи и затем вставляет его в Perplexity, — поясняет Платник.

Описание возможностей Perplexity согласуется с утверждениями WIRED о том, что бот иногда не обращает внимания на файлы robots.txt.

Торговая ассоциация индустрии цифрового контента Digital Content Next, в состав которой входят The New York Times, The Washington Post и Condé Nast, год назад представила проект принципов управления генеративным ИИ для предотвращения потенциальных нарушений авторских прав. Генеральный директор Джейсон Кинт заявил, что если обвинения против Perplexity справедливы, то компания нарушает многие из этих принципов.

Кинт считает, что компании, работающие с искусственным интеллектом, по умолчанию должны руководствоваться принципом отсутствия права брать и повторно использовать контент издателей без разрешения. Если Perplexity нарушит условия обслуживания или обхода файла robots.txt, это должно вызывать сигнал тревоги о ненадлежащем поведении.