آموزش‌های کلادفلر به‌زودی در این بخش قرار داده می‌شود.

کلادفلر پرپلکسیتی را مسدود کرد، جمع‌آوری اطلاعات سایت‌ها بدون اجازه

قضیه از این قراره که شرکت کلادفلر (Cloudflare) که در زمینه زیرساخت و امنیت اینترنت فعالیت میکنه، اعلام کرده که موتور پاسخ‌دهی هوش مصنوعی پرپلکسیتی (Perplexity) داره از روش‌های مخفیانه برای خزش و جمع‌آوری اطلاعات از وب‌سایت‌ها استفاده میکنه. به گفته کلادفلر، پرپلکسیتی دستوراتی رو که صاحبان وب‌سایت‌ها برای جلوگیری از دسترسی ربات‌ها تعیین کردن، نادیده میگیره.

کلادفلر میگه که پرپلکسیتی اول با هویت مشخص خودش به سایت‌ها سر میزنه، اما وقتی با مسدود شدن یا بلاک شدن مواجه میشه، هویتش رو مخفی میکنه تا بتونه محدودیت‌ها رو دور بزنه. شواهد نشون میده که پرپلکسیتی به طور مداوم «یوزر ایجنت» (User Agent) یا همون شناسه کاربری رباتش رو تغییر میده، از شبکه‌های مختلفی (ASN) برای اتصال استفاده میکنه و گاهی فایل‌های robots.txt رو که قوانین دسترسی به سایت هستن، نادیده میگیره یا اصلا بررسی نمیکنه.

بر اساس این مشاهدات، کلادفلر اعلام کرده که این رفتار با اصول اعتماد و شفافیت در اینترنت سازگار نیست و به همین دلیل، پرپلکسیتی رو از لیست ربات‌های تایید شده خودش حذف کرده و قوانینی رو برای مسدود کردن این نوع خزش مخفیانه به سیستم‌هاش اضافه کرده.

این تست‌ها چطوری انجام شدن؟

این ماجرا از شکایت مشتریان کلادفلر شروع شد. اونها میگفتن با اینکه دسترسی ربات‌های پرپلکسیتی رو هم از طریق فایل robots.txt و هم با قوانین مشخص در فایروال وب (WAF) مسدود کرده بودن، باز هم میدیدن که پرپلکسیتی به محتوای سایتشون دسترسی داره. این مشتری‌ها به طور مشخص جلوی دو خزنده اعلام شده پرپلکسیتی یعنی PerplexityBot و Perplexity-User رو گرفته بودن.

برای بررسی دقیق‌تر، کلادفلر چند دامنه کاملا جدید مثل testexample.com و secretexample.com خرید. این دامنه‌ها هیچ‌جای اینترنت ثبت نشده بودن و هیچ موتور جستجویی از وجودشون خبر نداشت. بعد، یک فایل robots.txt روی این سایت‌ها قرار دادن که به همه ربات‌ها میگفت حق دسترسی به هیچ بخشی از سایت رو ندارن.

در مرحله بعد، از هوش مصنوعی پرپلکسیتی سوالاتی در مورد محتوای این دامنه‌های محدود شده پرسیدن. نتیجه این بود که پرپلکسیتی اطلاعات دقیقی در مورد محتوای این سایت‌های ممنوعه ارائه میداد، در حالی که تمام اقدامات لازم برای جلوگیری از دسترسی ربات‌ها انجام شده بود.

رفتارهای مخفی‌کارانه مشاهده شده

مشاهدات کلادفلر نشون داد که پرپلکسیتی علاوه بر خزنده‌های رسمی خودش، از یک شناسه کاربری دیگه هم استفاده میکنه که خودش رو به عنوان یک مرورگر معمولی «گوگل کروم روی سیستم‌عامل مک» جا میزنه. این اتفاق زمانی میفتاد که خزنده رسمی پرپلکسیتی مسدود میشد.

نوع خزندهشناسه کاربری (User Agent)تعداد درخواست روزانه
اعلام شدهMozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user)۲۰ تا ۲۵ میلیون
مخفیMozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36۳ تا ۶ میلیون

این خزنده مخفی از آی‌پی‌های مختلفی استفاده میکرد که در لیست آی‌پی‌های رسمی پرپلکسیتی نبودن و برای دور زدن محدودیت‌ها، مدام آی‌پی و شبکه خودش رو عوض میکرد. این فعالیت در ده‌ها هزار دامنه و با میلیون‌ها درخواست در روز مشاهده شد. کلادفلر با استفاده از یادگیری ماشین و سیگنال‌های شبکه تونست این خزنده رو شناسایی کنه.

یک نکته جالب این بود که وقتی خزنده مخفی هم با موفقیت بلاک میشد، پرپلکسیتی سعی میکرد با استفاده از منابع دیگه (مثل اطلاعاتی که سایت‌های دیگه در مورد سایت اصلی منتشر کردن) به سوالات جواب بده، اما این جواب‌ها کلی بودن و جزئیات محتوای اصلی رو نداشتن.

واکنش پرپلکسیتی و وضعیت کسب و کارش

در مقابل این گزارش، یک سخنگوی پرپلکسیتی در صحبت با رسانه The Verge، گزارش کلادفلر رو یک «شگرد تبلیغاتی» دونست و گفت که «سوءتفاهم‌های زیادی در این پست وبلاگ وجود داره».

این اتهامات در حالی مطرح میشه که پرپلکسیتی که حدود ۱۵ میلیون کاربر داره و سال گذشته به ارزش ۱ میلیارد دلار رسید، در حال مذاکره برای قراردادهای بزرگیه. گزارش‌هایی از معامله احتمالی با سامسونگ برای استفاده از این هوش مصنوعی در دستگاه‌های آینده این شرکت و همچنین صحبت‌های داخلی در شرکت اپل برای خرید کامل پرپلکسیتی منتشر شده.

رفتار یک ربات خوب چطوری باید باشه؟

در مقابل رفتاری که به پرپلکسیتی نسبت داده شده، جامعه اینترنت یک سری انتظارات روشن از ربات‌های قانونمند داره:

  1. شفاف باشن: هویت خودشون رو به درستی اعلام کنن، لیست آی‌پی‌هاشون مشخص باشه و اطلاعات تماس داشته باشن.
  2. رفتار درستی داشته باشن: با ترافیک بیش از حد به سایت‌ها فشار نیارن، اطلاعات حساس رو جمع‌آوری نکنن و از روش‌های مخفیانه برای دور زدن قوانین استفاده نکنن.
  3. هدف مشخصی داشته باشن: هدف ربات باید به طور واضح تعریف شده باشه تا صاحبان سایت بتونن در موردش تصمیم بگیرن.
  4. برای کارهای مختلف، ربات‌های جدا داشته باشن: اینطوری صاحب سایت میتونه اجازه دسترسی به بعضی فعالیت‌ها رو بده و جلوی بقیه رو بگیره.
  5. به قوانین احترام بذارن: به فایل robots.txt توجه کنن، محدودیت‌های سرعت رو رعایت کنن و سعی نکنن سیستم‌های امنیتی رو دور بزنن.

کلادفلر برای مثال به شرکت اوپن‌ای‌آی (OpenAI) اشاره میکنه که این اصول رو رعایت میکنه. اونها خزنده‌هاشون رو به وضوح معرفی میکنن، به robots.txt احترام میذارن و برای دور زدن محدودیت‌ها تلاش نمیکنن. در تستی مشابه، ربات ChatGPT-User وقتی با دستور عدم دسترسی مواجه شد، خزش رو متوقف کرد و تلاش دیگه‌ای از طرفش مشاهده نشد.

چطوری میشه از خودمون محافظت کنیم؟

کلادفلر میگه مشتریانی که از سیستم مدیریت ربات این شرکت استفاده میکنن و قوانینی برای مسدود کردن یا به چالش کشیدن ربات‌ها دارن، در برابر این نوع فعالیت‌ها محافظت شدن. علاوه بر این، کلادفلر یک شناسه مشخص برای این خزنده مخفی به قوانین مدیریت شده خودش اضافه کرده که جلوی فعالیت ربات‌های هوش مصنوعی رو میگیره. این قابلیت برای تمام مشتریان، حتی کاربران طرح رایگان، در دسترسه.

قدم بعدی چیه؟

کلادفلر حدود یک ماه پیش قابلیتی به نام «روز استقلال محتوا» رو معرفی کرد تا به صاحبان سایت‌ها کنترل بیشتری روی نحوه دسترسی به محتواشون بده. از اون زمان، بیش از دو و نیم میلیون وب‌سایت تصمیم گرفتن با استفاده از ابزارهای کلادفلر، جلوی آموزش مدل‌های هوش مصنوعی با داده‌هاشون رو بگیرن.

کلادفلر انتظار داره که با این ویژگی‌های جدید، رفتار ربات‌ها تغییر کنه و روش‌های اونها برای دور زدن قوانین هم پیچیده‌تر بشه. به همین دلیل، این شرکت در حال همکاری با متخصصان فنی و سیاست‌گذاری در سراسر دنیا، مثل تلاش‌های گروه IETF، برای استانداردسازی و ایجاد اصول روشن و قابل اندازه‌گیری برای رفتار ربات‌هاست.

منابع

  • [1] Perplexity is using stealth, undeclared crawlers to evade website no-crawl directives
  • [2] Cloudflare Says Perplexity’s AI Bots Ignore No-Crawl Directives
  • [3] Yahoo ist Teil der Yahoo-Markenfamilie.
  • [4] Perplexity is using stealth, undeclared crawlers to evade website no-crawl directives – OSnews

دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *