قضیه از این قراره که شرکت کلادفلر (Cloudflare) که در زمینه زیرساخت و امنیت اینترنت فعالیت میکنه، اعلام کرده که موتور پاسخدهی هوش مصنوعی پرپلکسیتی (Perplexity) داره از روشهای مخفیانه برای خزش و جمعآوری اطلاعات از وبسایتها استفاده میکنه. به گفته کلادفلر، پرپلکسیتی دستوراتی رو که صاحبان وبسایتها برای جلوگیری از دسترسی رباتها تعیین کردن، نادیده میگیره.
کلادفلر میگه که پرپلکسیتی اول با هویت مشخص خودش به سایتها سر میزنه، اما وقتی با مسدود شدن یا بلاک شدن مواجه میشه، هویتش رو مخفی میکنه تا بتونه محدودیتها رو دور بزنه. شواهد نشون میده که پرپلکسیتی به طور مداوم «یوزر ایجنت» (User Agent) یا همون شناسه کاربری رباتش رو تغییر میده، از شبکههای مختلفی (ASN) برای اتصال استفاده میکنه و گاهی فایلهای robots.txt
رو که قوانین دسترسی به سایت هستن، نادیده میگیره یا اصلا بررسی نمیکنه.
بر اساس این مشاهدات، کلادفلر اعلام کرده که این رفتار با اصول اعتماد و شفافیت در اینترنت سازگار نیست و به همین دلیل، پرپلکسیتی رو از لیست رباتهای تایید شده خودش حذف کرده و قوانینی رو برای مسدود کردن این نوع خزش مخفیانه به سیستمهاش اضافه کرده.
این تستها چطوری انجام شدن؟
این ماجرا از شکایت مشتریان کلادفلر شروع شد. اونها میگفتن با اینکه دسترسی رباتهای پرپلکسیتی رو هم از طریق فایل robots.txt
و هم با قوانین مشخص در فایروال وب (WAF) مسدود کرده بودن، باز هم میدیدن که پرپلکسیتی به محتوای سایتشون دسترسی داره. این مشتریها به طور مشخص جلوی دو خزنده اعلام شده پرپلکسیتی یعنی PerplexityBot
و Perplexity-User
رو گرفته بودن.
برای بررسی دقیقتر، کلادفلر چند دامنه کاملا جدید مثل testexample.com
و secretexample.com
خرید. این دامنهها هیچجای اینترنت ثبت نشده بودن و هیچ موتور جستجویی از وجودشون خبر نداشت. بعد، یک فایل robots.txt
روی این سایتها قرار دادن که به همه رباتها میگفت حق دسترسی به هیچ بخشی از سایت رو ندارن.
در مرحله بعد، از هوش مصنوعی پرپلکسیتی سوالاتی در مورد محتوای این دامنههای محدود شده پرسیدن. نتیجه این بود که پرپلکسیتی اطلاعات دقیقی در مورد محتوای این سایتهای ممنوعه ارائه میداد، در حالی که تمام اقدامات لازم برای جلوگیری از دسترسی رباتها انجام شده بود.
رفتارهای مخفیکارانه مشاهده شده
مشاهدات کلادفلر نشون داد که پرپلکسیتی علاوه بر خزندههای رسمی خودش، از یک شناسه کاربری دیگه هم استفاده میکنه که خودش رو به عنوان یک مرورگر معمولی «گوگل کروم روی سیستمعامل مک» جا میزنه. این اتفاق زمانی میفتاد که خزنده رسمی پرپلکسیتی مسدود میشد.
نوع خزنده | شناسه کاربری (User Agent) | تعداد درخواست روزانه |
---|---|---|
اعلام شده | Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user) | ۲۰ تا ۲۵ میلیون |
مخفی | Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 | ۳ تا ۶ میلیون |
این خزنده مخفی از آیپیهای مختلفی استفاده میکرد که در لیست آیپیهای رسمی پرپلکسیتی نبودن و برای دور زدن محدودیتها، مدام آیپی و شبکه خودش رو عوض میکرد. این فعالیت در دهها هزار دامنه و با میلیونها درخواست در روز مشاهده شد. کلادفلر با استفاده از یادگیری ماشین و سیگنالهای شبکه تونست این خزنده رو شناسایی کنه.
یک نکته جالب این بود که وقتی خزنده مخفی هم با موفقیت بلاک میشد، پرپلکسیتی سعی میکرد با استفاده از منابع دیگه (مثل اطلاعاتی که سایتهای دیگه در مورد سایت اصلی منتشر کردن) به سوالات جواب بده، اما این جوابها کلی بودن و جزئیات محتوای اصلی رو نداشتن.
واکنش پرپلکسیتی و وضعیت کسب و کارش
در مقابل این گزارش، یک سخنگوی پرپلکسیتی در صحبت با رسانه The Verge، گزارش کلادفلر رو یک «شگرد تبلیغاتی» دونست و گفت که «سوءتفاهمهای زیادی در این پست وبلاگ وجود داره».
این اتهامات در حالی مطرح میشه که پرپلکسیتی که حدود ۱۵ میلیون کاربر داره و سال گذشته به ارزش ۱ میلیارد دلار رسید، در حال مذاکره برای قراردادهای بزرگیه. گزارشهایی از معامله احتمالی با سامسونگ برای استفاده از این هوش مصنوعی در دستگاههای آینده این شرکت و همچنین صحبتهای داخلی در شرکت اپل برای خرید کامل پرپلکسیتی منتشر شده.
رفتار یک ربات خوب چطوری باید باشه؟
در مقابل رفتاری که به پرپلکسیتی نسبت داده شده، جامعه اینترنت یک سری انتظارات روشن از رباتهای قانونمند داره:
- شفاف باشن: هویت خودشون رو به درستی اعلام کنن، لیست آیپیهاشون مشخص باشه و اطلاعات تماس داشته باشن.
- رفتار درستی داشته باشن: با ترافیک بیش از حد به سایتها فشار نیارن، اطلاعات حساس رو جمعآوری نکنن و از روشهای مخفیانه برای دور زدن قوانین استفاده نکنن.
- هدف مشخصی داشته باشن: هدف ربات باید به طور واضح تعریف شده باشه تا صاحبان سایت بتونن در موردش تصمیم بگیرن.
- برای کارهای مختلف، رباتهای جدا داشته باشن: اینطوری صاحب سایت میتونه اجازه دسترسی به بعضی فعالیتها رو بده و جلوی بقیه رو بگیره.
- به قوانین احترام بذارن: به فایل
robots.txt
توجه کنن، محدودیتهای سرعت رو رعایت کنن و سعی نکنن سیستمهای امنیتی رو دور بزنن.
کلادفلر برای مثال به شرکت اوپنایآی (OpenAI) اشاره میکنه که این اصول رو رعایت میکنه. اونها خزندههاشون رو به وضوح معرفی میکنن، به robots.txt
احترام میذارن و برای دور زدن محدودیتها تلاش نمیکنن. در تستی مشابه، ربات ChatGPT-User
وقتی با دستور عدم دسترسی مواجه شد، خزش رو متوقف کرد و تلاش دیگهای از طرفش مشاهده نشد.
چطوری میشه از خودمون محافظت کنیم؟
کلادفلر میگه مشتریانی که از سیستم مدیریت ربات این شرکت استفاده میکنن و قوانینی برای مسدود کردن یا به چالش کشیدن رباتها دارن، در برابر این نوع فعالیتها محافظت شدن. علاوه بر این، کلادفلر یک شناسه مشخص برای این خزنده مخفی به قوانین مدیریت شده خودش اضافه کرده که جلوی فعالیت رباتهای هوش مصنوعی رو میگیره. این قابلیت برای تمام مشتریان، حتی کاربران طرح رایگان، در دسترسه.
قدم بعدی چیه؟
کلادفلر حدود یک ماه پیش قابلیتی به نام «روز استقلال محتوا» رو معرفی کرد تا به صاحبان سایتها کنترل بیشتری روی نحوه دسترسی به محتواشون بده. از اون زمان، بیش از دو و نیم میلیون وبسایت تصمیم گرفتن با استفاده از ابزارهای کلادفلر، جلوی آموزش مدلهای هوش مصنوعی با دادههاشون رو بگیرن.
کلادفلر انتظار داره که با این ویژگیهای جدید، رفتار رباتها تغییر کنه و روشهای اونها برای دور زدن قوانین هم پیچیدهتر بشه. به همین دلیل، این شرکت در حال همکاری با متخصصان فنی و سیاستگذاری در سراسر دنیا، مثل تلاشهای گروه IETF، برای استانداردسازی و ایجاد اصول روشن و قابل اندازهگیری برای رفتار رباتهاست.
دیدگاهتان را بنویسید