آموزش‌های کلادفلر به‌زودی در این بخش قرار داده می‌شود.

سئو عکس؛ گوگل چطور عکس‌هارا رتبه‌بندی می‌کند؟ (بر اساس اسناد لیک شده)

گوگل با عکس‌هایی که ما توی اینترنت آپلود می‌کنیم چیکار می‌کنه؟ این اطلاعات رو از کجا آوردیم؟ از یک سری داده‌های فنی که اخیرا از خود گوگل به بیرون درز کرده. پس این مقاله برای هر کسیه که می‌خواد سئو عکس رو فراتر از حرف‌های کلیشه‌ای مثل «تگ آلت یادت نره» یاد بگیره. چرا این مهمه؟ چون برای اولین بار می‌تونیم به جای حدس و گمان، بر اساس یک نقشه فنی ببینیم که چه چیزهایی برای گوگل اهمیت داره.

فقط یک نکته مهم: این تحلیل بر اساس داده‌های غیررسمیه و خود من با استنتاج منطقی این چارچوب رو کنار هم گذاشتم. پس شما هم با تفکر انتقادی به این موضوع نگاه کنید. هدف اصلی من اینه که بهتون نشون بدم سئو کلاه سفید، یعنی کار درست و اصولی انجام دادن، هنوز هم بهترین راهه و گوگل واقعا تلاش می‌کنه سایت‌های باکیفیت و قابل اعتماد رو پیدا کنه.

فصل اول: شالوده معماری؛ گوگل چطور عکس‌ها رو جمع‌آوری، ذخیره و انتخاب می‌کنه؟

قبل از اینکه گوگل بخواد بفهمه توی یک عکس چه خبره یا بهش رتبه بده، اول باید اون عکس رو توی زیرساخت عظیم خودش جا بده. این فایل‌های لو رفته نشون میده که سیستم گوگل وسواس شدیدی روی مدیریت عکس‌های تکراری، پیدا کردن منبع اصلی و پردازش موثر میلیاردها عکس داره. بیاید ببینیم توی این مرحله چه اتفاقی برای یک عکس می‌افته.

۱. هویت، اصالت و منبع اصلی؛ پیدا کردن یک شناسنامه واحد برای هر عکس

اینترنت پر از عکس‌های تکراریه. یک عکس محبوب ممکنه روی میلیون‌ها سایت مختلف وجود داشته باشه. اولین و بزرگترین چالش مهندسی گوگل اینه که این هرج و مرج رو مدیریت کنه و برای هر عکس یک هویت واحد تعریف کنه. سیستم گوگل برای این کار خیلی هوشمنده.

  • url: این همون آدرس مطلق و سرراست عکسه. مثلا yoursite.com/images/cat.jpg.
  • docid: این یک جور اثر انگشت داخلیه که گوگل از آدرس غیرکنونیکال عکس می‌سازه. مثل یک کد موقت می‌مونه.
  • canonicalDocid: و اما ستاره اصلی این بخش. این شناسه قطعی و نهایی عکسه که توی جستجوی عکس گوگل استفاده میشه. تمام سیگنال‌های دیگه، از امتیاز کیفیت گرفته تا داده‌های کلیک، به این شناسه می‌چسبن. این مهم‌ترین شناسه یک عکسه. اگه این شناسه واحد وجود نداشت، سیگنال‌های رتبه‌بندی بین هزاران آدرس تکراری پخش می‌شد و ارزیابی عکس غیرممکن بود.

کل این معماری طراحی شده تا جلوی این آشفتگی محتوای بصری رو بگیره و اهمیت «اصل بودن» رو از یک توصیه ساده به یک ضرورت فنی برای دیده شدن تبدیل کنه.

برای پیدا کردن منبع اصلی، گوگل از چند تا برچسب زمانی هم استفاده می‌کنه:

  • firstCrawlTime: اولین باری که گوگل یک عکس رو در یک آدرس خاص دیده.
  • lastCrawlTime: آخرین باری که همون عکس رو در همون آدرس دیده.
  • contentFirstCrawlTime: و اما مهم‌ترینشون. این یعنی «اولین باری که محتوای این عکس، در هر کجای وب، دیده شده».

این یک سیگنال فوق‌العاده قوی برای تشخیص اصالت و منبع اصلیه. گوگل با مقایسه این زمان می‌تونه با دقت بالایی حدس بزنه که کدوم سایت اولین بار اون عکس رو منتشر کرده. عکسی که contentFirstCrawlTime اون نزدیک به تاریخ انتشارش روی یک سایت معتبر باشه، به احتمال خیلی زیاد منبع اصلی در نظر گرفته میشه، نه نسخه‌ای که چند ماه بعد روی یک سایت بی‌کیفیت کپی شده.

جالبه بدونید توی این اسناد به سیستمی به اسم «Alexandria» یا «اسکندریه» اشاره شده که سیستم اصلی ایندکس گوگل هست. درست مثل کتابخانه باستانی اسکندریه که می‌خواست تمام دانش بشر رو جمع‌آوری کنه، این سیستم گوگل هم مخزن اصلی محتوای وب، از جمله عکس‌هاست. اون canonicalDocid هم در واقع مثل شماره ثبت هر عکس توی این کتابخانه عظیم می‌مونه.

۲. پشت صحنه انبار داده‌ها؛ خط تولید ایندکس و انتخاب عکس‌ها

هر عکسی که گوگل پیدا می‌کنه، لزوما وارد نتایج جستجو نمیشه. این اسناد به وضوح نشون میدن که یک فرایند گزینشی و یک «دروازه کیفیت» وجود داره که تصمیم می‌گیره یک عکس ارزش اضافه شدن به ایندکس اصلی رو داره یا نه.

  • isIndexedByImagesearch: یک پرچم ساده که میگه آیا عکس برای ایندکس اصلی انتخاب شده یا نه.
  • noIndexReason: اگه عکس انتخاب نشده باشه، این فیلد دلیلش رو توضیح میده.

این وجود یک دروازه کیفیت برای ایندکس عکس رو ثابت می‌کنه. اما این انتخاب چطوری انجام میشه؟ اینجا اسم یک سیستم دیگه به اسم «Amarna» به چشم می‌خوره. اطلاعات عمومی زیادی درباره آمارنا وجود نداره، اما از روی متن میشه فهمید که این یک سیستم پردازش اولیه است که عکس‌ها رو برای ورود به بخش‌های مختلف انبار داده ارزیابی می‌کنه. اگه یک عکس حداقل کیفیت یا ارتباط لازم رو نداشته باشه، همینجا رد میشه. این دقیقا شبیه وضعیت «Discovered – currently not indexed» هست که برای صفحات وب توی گوگل سرچ کنسول می‌بینیم و ثابت می‌کنه که برای عکس‌ها هم یک حداقل استانداردی وجود داره.

این ساختار لایه لایه است. به نظر میرسه سیستم‌هایی مثل آمارنا ارزیابی اولیه رو انجام میدن و تصمیم می‌گیرن که یک عکس اصلا ایندکس بشه یا نه، و اگه شد، در کدوم لایه از ایندکس قرار بگیره. عکس‌های باکیفیت‌تر و معتبرتر احتمالا در یک لایه با اولویت بالاتر و به‌روزرسانی سریع‌تر قرار می‌گیرن. پس سئو عکس یک فرایند دو مرحله‌ای میشه: اول، مطمئن بشیم که عکسمون از «دروازه آمارنا» رد میشه، و دوم، سیگنال‌های معنایی و رتبه‌بندیش رو برای موتور اصلی بهینه کنیم.

۳. از انبار داده تا صفحه نتایج: موتور رتبه‌بندی «موستانگ» و رتبه‌بندی اولیه

وقتی یک عکس ایندکس شد، نوبت به رتبه‌بندیش توسط سیستم‌های اصلی گوگل می‌رسه. این داده‌ها به طور مستقیم به سیستمی به نام «Mustang» اشاره می‌کنن. مثلا یک فیلد به اسم packedFullFaceInfo که اطلاعات چهره‌های داخل عکس رو ذخیره می‌کنه، به صراحت ذکر شده که «برای ذخیره‌سازی در موستانگ» بسته‌بندی میشه. این نقش موستانگ رو به عنوان سیستم اصلی رتبه‌بندی عکس تایید می‌کنه.

خروجی این فرایند رتبه‌بندی اولیه توی چند تا فیلد مشخصه:

  • imagerank: یک امتیاز کلی و سطح بالا که پتانسیل رتبه‌بندی کلی عکس رو نشون میده.
  • rankInNeardupCluster: این یکی خیلی جالبه. این فیلد، رتبه یک عکس رو «درون خوشه عکس‌های کاملا مشابه خودش» نشون میده. یعنی حتی وقتی دو تا عکس پیکسل به پیکسل شبیه هم باشن، گوگل بینشون یک سلسله مراتب ایجاد می‌کنه. عکسی که روی سایت معتبرتره، رزولوشن بالاتری داره، متن اطرافش بهتره یا contentFirstCrawlTime قدیمی‌تری داره، رتبه بهتری (نزدیک به ۱) در این خوشه می‌گیره. این همون مکانیزمیه که باعث میشه گوگل کار خالق اصلی رو بالاتر از یک کپی روی سایت‌های دیگه نشون بده.

یک لایه پیچیده‌تر هم وجود داره. فیلدی به اسم imageContentQueryBoost مستقیما به الگوریتمی به نام «pamir» اشاره می‌کنه. تحقیقات نشون میده که پامیر یک الگوریتم یادگیری ماشینه که برای «بازیابی چندوجهی، مثل پیدا کردن عکس از روی کوئری متنی» طراحی شده. این الگوریتم یاد می‌گیره که چطور عکس‌ها رو بر اساس ارتباطشون با یک عبارت جستجوی خاص مرتب کنه.

این یعنی رتبه‌بندی عکس فقط بر اساس سیگنال‌های کلی مثل کیفیت عکس یا پیج رنک صفحه نیست. بلکه شامل امتیازهای ویژه‌ای میشه که توسط مدل‌های هوش مصنوعی پیشرفته محاسبه میشن تا ارتباط دقیق یک عکس با هدف کاربر رو بسنجن.

فصل دوم: درک معنایی؛ رمزگشایی محتوا و مفهوم عکس‌ها

برای اینکه گوگل بتونه یک عکس رو خوب رتبه بده، باید فراتر از ویژگی‌های فنی بره و مثل یک انسان، محتوای داخل اون رو درک کنه. این اسناد نشون میدن که گوگل یک زرادخانه کامل از تکنولوژی‌ها برای این کار داره که پیکسل‌های بی‌معنی رو به داده‌های ساختاریافته و قابل فهم برای ماشین تبدیل می‌کنن. این فرایند شامل تشخیص متن، شناسایی اشیا، لینک دادن به موجودیت‌های دنیای واقعی و طبقه‌بندی ژانر عکسه.

۱. خواندن ناخوانده‌ها: قدرت تشخیص نوری کاراکتر یا OCR

هر متنی که داخل یک عکس باشه (مثل یک اینفوگرافیک یا اسکرین‌شات) یک منبع غنی از اطلاعاته. گوگل از چندین سیستم OCR موازی استفاده می‌کنه تا مطمئن بشه این اطلاعات از دست نمیرن. وجود دو فیلد ocrGoodoc و ocrTaser نشون میده که حداقل دو موتور OCR مختلف روی عکس‌ها اجرا میشن. این یعنی هر کلمه‌ای که روی یک عکس نوشته شده باشه، کاملا ایندکس و قابل جستجو میشه.

  • ocrGoodoc
  • ocrTaser

اما قضیه از این هم جالب‌تره. فیلد ocrTextboxes نه تنها متن استخراج شده رو ذخیره می‌کنه، بلکه موقعیت مکانی اون متن رو هم داخل عکس نگه میداره. این به گوگل اجازه میده رابطه فضایی بین متن و عناصر دیگه رو بفهمه. مثلا می‌تونه تشخیص بده کدوم متن عنوان اصلی اینفوگرافیکه و کدوم متن منبع پایینه. این قابلیت باعث میشه طراحی بصری عکس‌های پر از اطلاعات، خودش یک فاکتور سئو باشه. متنی که واضح، با کنتراست بالا و در جای منطقی قرار گرفته باشه، شانس بیشتری برای پردازش دقیق و استفاده در رتبه‌بندی داره.

۲. از پیکسل تا موجودیت: تشخیص اشیا، چهره‌ها و مفاهیم

گوگل فراتر از متن، یک تحلیل جامع برای شناسایی اشیا، افراد و مفاهیم داخل عکس انجام میده. این سیستم فقط تشخیص نمیده، بلکه اون‌ها رو به یک شبکه دانشی متصل می‌کنه.

  • imageRegions: این لایه پایه است. اشیای مختلف داخل عکس رو با یک کادر (bounding box) مشخص می‌کنه و بهشون یک برچسب میده. مثلا «ماشین»، «درخت».
  • deepTags: این تگ‌ها جزئی‌تر و معمولا تجاری‌تر هستن. مثلا به جای «پیراهن»، میگه «پیراهن آستین بلند».
  • multibangKgEntities: اینجاست که جادوی واقعی اتفاق می‌افته. این فیلد، اشیای تشخیص داده شده رو به موجودیت‌های خاص در «گراف دانش» (Knowledge Graph) عظیم گوگل لینک می‌کنه. یعنی عکسی که برج ایفل توشه، فقط تگ «برج» نمی‌خره، بلکه مستقیما به موجودیت یکتای «برج ایفل» در گراف دانش متصل میشه. این دقیقا اساس فنی سئو مبتنی بر موجودیت (Entity-based SEO) برای عکس‌هاست. یک عکس که موجودیت‌های واضح و مرتبط با موضوع صفحه رو نشون میده، درک گوگل از اون موضوع رو عمیق‌تر می‌کنه و باعث میشه هم عکس و هم صفحه برای طیف وسیع‌تری از جستجوهای مفهومی رتبه بگیرن.

گوگل همچنین توجه ویژه‌ای به حضور انسان در عکس‌ها داره. فیلدهایی مثل numberFaces (تعداد چهره‌ها) و largestFaceFrac (نسبت بزرگترین چهره به کل عکس) نشون میده که سیستم نه تنها حضور افراد رو تشخیص میده، بلکه اهمیت و برجستگی اون‌ها در تصویر رو هم اندازه می‌گیره.

۳. طبقه‌بندی هدف و ژانر: این یک عکس واقعیه، کلیپ‌آرت یا طراحی خطی؟

کاربری که دنبال «نمودار رشد کسب و کار» می‌گرده، احتمالا یک گرافیک یا طراحی خطی می‌خواد، نه یک عکس واقعی از یک دفتر کار. گوگل برای پاسخ به این نیاز، دسته‌بندی‌های مشخصی داره:

  • photoDetectorScore: امتیازی که احتمال واقعی بودن (عکس بودن) تصویر رو نشون میده.
  • clipartDetectorScore: امتیازی که احتمال کلیپ‌آرت بودن تصویر رو نشون میده.
  • lineartDetectorScore: امتیازی که احتمال طراحی خطی بودن تصویر رو نشون میده.

این طبقه‌بندی به گوگل اجازه میده نتایج رو بر اساس هدف ضمنی کاربر فیلتر کنه. برای ما به عنوان تولیدکننده محتوا، این یعنی انتخاب سبک بصری عکس یک فاکتور مستقیم در رتبه‌بندیه. اگه برای یک موضوع، کاربران دنبال تصویرسازی هستن و شما یک عکس واقعی آپلود کنید، ممکنه تصویر شما اصلا در نتایج نشون داده نشه، حتی اگه کیفیت بالایی داشته باشه.

۴. ظهور درک چندوجهی (Multimodal)

ترکیب OCR، تشخیص موجودیت و طبقه‌بندی ژانر، همون داده‌های ساختاریافته‌ای رو فراهم می‌کنه که مدل‌های هوش مصنوعی پیشرفته گوگل مثل MUM و Gemini بهش نیاز دارن. این ساختار داده، پلیه که پیکسل‌های بی‌ساختار رو به دانش ساختاریافته تبدیل می‌کنه.

مثلا کاربری می‌تونه عکس یک پیراهن طرح‌دار رو به گوگل بده و بنویسه «یک کراوات با این طرح برام پیدا کن». این کار فقط به این دلیله که داده‌های اون عکس پیراهن از قبل آماده شده: imageRegions اون رو به عنوان «پیراهن» شناسایی کرده، deepTags ممکنه طرحش رو «بته‌جقه» طبقه‌بندی کرده باشه و colorScore پروفایل رنگیش رو مشخص کرده. بعد الگوریتم MUM می‌تونه از این داده‌های ساختاریافته برای جستجوی کراوات‌هایی با همین ویژگی‌ها استفاده کنه. این یعنی آینده از آن عکس‌هاییه که سرشار از اطلاعات باشن و مفاهیم متعدد، واضح و قابل خوندن برای ماشین رو در خودشون جا داده باشن.

فصل سوم: معادله کیفیت؛ سنجش زیبایی‌شناسی، تعامل کاربر و اعتماد

فقط مرتبط بودن برای گرفتن رتبه بالا در جستجوی عکس کافی نیست. این اسناد یک سیستم پیچیده و چندوجهی رو برای ارزیابی «کیفیت» یک عکس نشون میدن. این ارزیابی یک امتیاز واحد نیست، بلکه ترکیبی از سیگنال‌های مختلفه که جذابیت بصری ذاتی عکس، عملکردش در دنیای واقعی با کاربران و نشانه‌های فنی برای حرفه‌ای بودن و قابل اعتماد بودن رو اندازه می‌گیره. گوگل مفهوم کیفیت رو به دو بخش تقسیم کرده: کیفیت زیبایی‌شناختی ذاتی و کیفیت درک شده توسط کاربر. یک عکس موفق باید در هر دو عالی باشه.

۱. زیبایی‌شناسی الگوریتمی: NIMA و اندازه‌گیری زیبایی

در گذشته، کیفیت زیبایی‌شناختی یک موضوع کاملا سلیقه‌ای به حساب میومد که ماشین از درکش عاجز بود. اما فریم‌ورک «NIMA» یا «ارزیابی عصبی تصویر» گوگل این تصور رو به چالش می‌کشه و خروجی‌هاش مستقیما در این ساختار داده ذخیره میشن.

NIMA یک شبکه عصبی عمیقه که آموزش دیده تا به جای دادن یک امتیاز ساده «خوب/بد»، توزیع امتیازات انسان‌ها در مقیاس ۱ تا ۱۰ رو پیش‌بینی کنه. یعنی می‌تونه ظرافت‌های درک انسان رو بفهمه. در این اسناد دو فیلد مرتبط با NIMA وجود داره:

  • nimaVq: به احتمال زیاد امتیاز «کیفیت فنی» رو نشون میده. این فیلد ویژگی‌های عینی و پیکسلی مثل وضوح (شارپ بودن)، نورپردازی، نوردهی و نبود نویز رو اندازه می‌گیره.
  • nimaAva: به احتمال زیاد امتیاز «زیبایی‌شناختی» رو نشون میده. این فیلد ویژگی‌های ذهنی‌تری مثل ترکیب‌بندی، هارمونی رنگ‌ها و تاثیر احساسی رو می‌سنجه.

وجود این امتیازها یک تغییر پارادایم در سئو عکسه. این تایید می‌کنه که گوگل به صورت الگوریتمی در حال قضاوت در مورد ارزش هنری و فنی عکس‌هاست. عکس‌هایی که فوکوس نیستن، نورپردازی بدی دارن یا ترکیب‌بندی ضعیفی دارن، امتیاز NIMA پایین‌تری می‌گیرن و این مستقیما روی ارزیابی کیفیتشون تاثیر میذاره. این یعنی سرمایه‌گذاری روی عکاسی حرفه‌ای و طراحی گرافیک باکیفیت دیگه فقط برای برندینگ نیست، بلکه یک ورودی مستقیم به سیستم‌های رتبه‌بندی گوگله.

۲. کاربر، داور نهایی: سیگنال‌های کلیک و تعامل

با اینکه الگوریتم‌ها می‌تونن کیفیت بالقوه رو پیش‌بینی کنن، گوگل به رفتار کاربران در دنیای واقعی به عنوان معیار نهایی موفقیت یک عکس نگاه می‌کنه. یک مجموعه غنی از فیلدها برای ثبت سیگنال‌های تعامل کاربر وجود داره.

  • h2i (hovers-to-impressions): نسبت تعداد دفعاتی که موس کاربر روی تامبنیل عکس هاور شده به تعداد نمایش‌ها.
  • h2c (hovers-to-clicks): نسبت تعداد کلیک‌ها بعد از هاور کردن به تعداد هاورها.

این دو معیار با هم نشون میدن که تامبنیل یک عکس چقدر در صفحه نتایج جستجو جذابه. h2i بالا یعنی تامبنیل توجه کاربر رو جلب می‌کنه و h2c بالا یعنی پیش‌نمایش بزرگتر اونقدر قانع‌کننده بوده که کاربر روش کلیک کرده. این سیستم معادل تصویری سیستم قدرتمند NavBoost در جستجوی وبه که بر اساس کلیک‌ها رتبه‌ها رو بازآرایی می‌کنه.

اما نکته حیاتی اینجاست: همه کلیک‌ها ارزش یکسانی ندارن.

clickMagnetScore: این یک امتیاز منفی برای عکس‌هایی هست که از «کوئری‌های بد» و نامرتبط کلیک زیادی جذب می‌کنن. این یک اقدام متقابل الگوریتمی مستقیم علیه «کلیک‌بیت بصری» هست. یک عکس با تامبنیل عجیب یا مبهم ممکنه کلیک زیادی بگیره، اما اگه این کلیک‌ها از جستجوهای نامرتبط باشن و کاربر بلافاصله به صفحه نتایج برگرده، این سیگنال منفی ثبت میشه. این نشون میده که هدف جذب هر کلیکی نیست، بلکه جذب کلیک درست از یک کاربر راضیه. چون کلیک‌های اشتباه اندازه‌گیری میشن و ممکنه به رتبه عکس در بلندمدت آسیب بزنن.

۳. نشانه‌هایی برای اعتماد و E-E-A-T

با اینکه E-E-A-T (تجربه، تخصص، اعتبار، اعتماد) یک چارچوب برای محتوای یک صفحه است، این اسناد نشون میدن که گوگل از چند ویژگی فنی به عنوان نماینده‌های قدرتمند برای جنبه‌های بصری اعتماد و حرفه‌ای بودن استفاده می‌کنه.

  • whiteBackgroundScore: این یک مثال عالیه. این طبقه‌بند، عکس‌هایی رو شناسایی می‌کنه که احتمالا یک شی روی پس‌زمینه سفید و تمیز هستن. این سبک، مشخصه اصلی عکاسی محصول حرفه‌ای در سایت‌های معتبر فروشگاهیه. امتیاز بالا در این فیلد یک سیگنال قوی از قصد تجاری و قابل اعتماد بودنه.
  • isVisible: یک سیگنال ساده اما اساسی. این فیلد بین عکسی که مستقیما در صفحه قرار گرفته (با تگ <img>) و عکسی که فقط بهش لینک داده شده، تمایز قائل میشه. عکس درون‌خطی بخشی از محتوای صفحه است و نیت ناشر رو بهتر نشون میده.
  • codomainStrength: این فیلد اطمینان از اینکه یک عکس روی یک «دامنه همراه» مثل یک CDN (شبکه توزیع محتوا) میزبانی میشه رو اندازه می‌گیره. سایت‌های حرفه‌ای و ساختاریافته معمولا برای بهبود عملکرد، عکس‌هاشون رو از CDN سرو می‌کنن. بنابراین، مقدار بالای این فیلد مثل یک اثر انگشت فنی از یک وب‌سایت پیچیده و خوب نگهداری شده است و به اعتبار درک شده اون کمک می‌کنه.

فصل چهارم: موتور تجارت؛ عکس‌ها در دنیای خرید و فروش

جستجوی عکس گوگل فقط یک گالری تصاویر نیست؛ یک موتور قدرتمند برای کشف و انجام معاملات تجاریه. این ساختار داده نشون میده که تجارت یک قابلیت جانبی نیست، بلکه یک عملکرد اصلی و ذاتیه که با ساختارهای داده عمیقا یکپارچه شده تا محصولات رو نمایش بده، حقوق کپی‌رایت رو مدیریت کنه و از متادیتای داخلی عکس استفاده کنه.

۱. سطوح قابل خرید: ادغام محصولات در جستجوی تصویری

جاه‌طلبی گوگل برای قابل خرید کردن وب بصری، در پیچیدگی فیلد shoppingProductInformation کاملا مشخصه. این یک پرچم ساده «آیا این محصول است؟» نیست، بلکه یک ساختار داده جامع و تودرتو هست که برای ذخیره تمام اطلاعات لازم برای ساخت یک لیست محصول غنی طراحی شده. این فیلد شامل جزئیات محصول، قیمت، موجودی و اطلاعات فروشنده است. این دقیقا ساختار داده پشت صحنه‌ایه که لیست‌های محصولات رو در جستجوی گوگل، جستجوی عکس و گوگل لنز قدرت میده.

وجود چنین ساختار دقیقی در مدل اصلی داده‌های عکس یعنی از همون لحظه‌ای که یک عکس ایندکس میشه، پتانسیل تجاریش ارزیابی میشه. متخصصان سئو فروشگاهی می‌تونن مستقیما روی پر شدن این فیلد با پیاده‌سازی دقیق داده‌های ساختاریافته «Product» و «Merchant Listing» روی سایتشون تاثیر بذارن.

۲. حقوق و درآمدزایی: مدیریت لایسنس عکس

برای عکاسان، هنرمندان و آژانس‌های عکس، کسب درآمد از حقوق تصویر یک کار حیاتیه. این اسناد یک راه ارتباطی مستقیم و قابل فهم برای ماشین بین متادیتای خالق عکس و توانایی اون‌ها برای کسب درآمد از طریق گوگل فراهم می‌کنن.

  • imageLicenseInfo: این فیلد یک محفظه ساختاریافته برای ذخیره جزئیات دقیق لایسنس یک عکسه. این فیلد مستقیما نشان «قابل لایسنس» (Licensable) رو در نتایج جستجو فعال می‌کنه. این نشان به کاربران سیگنال میده که اطلاعات لایسنس در دسترسه و یک لینک مستقیم برای خرید قانونی عکس فراهم می‌کنه.

این سیستم یک انگیزه واضح و قدرتمند برای تولیدکنندگان محتوا ایجاد می‌کنه تا متادیتای دقیق ارائه بدن. راه‌های اصلی برای پر کردن این فیلد، استفاده از داده‌های ساختاریافته ImageObject روی صفحه وب یا جاسازی متادیتای عکس IPTC مستقیما در فایل عکسه. وقتی گوگل عکسی با این متادیتا رو پردازش می‌کنه، فیلدهای مربوطه رو پر می‌کنه و در نهایت موتور موستانگ این نشان رو نمایش میده. این یک چرخه کامله که در اون ارائه داده‌های ساختاریافته به یک مزیت تجاری ملموس منجر میشه.

۳. قدرت متادیتای داخلی

جمع‌آوری داده توسط گوگل به سیگنال‌های روی صفحه یا تحلیل‌های خودش محدود نمیشه. این ساختار داده تایید می‌کنه که گوگل سرمایه‌گذاری عمیقی روی استخراج متادیتای جاسازی شده در خود فایل‌های عکس کرده. وجود دو فیلد مجزا، embeddedMetadata (برای داده‌های استاندارد EXIF/IPTC) و extendedExif (که جامع‌تره)، نشون دهنده تلاش مداوم برای استفاده از این منبع غنی داده است.

این داده‌های داخلی می‌تونن شامل اطلاعاتی باشن که مستقیما از E-E-A-T و اصالت عکس پشتیبانی می‌کنن: نام خالق، اطلاعات کپی‌رایت، تاریخ ایجاد و حتی داده‌های موقعیت مکانی GPS. این اطلاعات، چون از خود فایل میان، یک سیگنال دست اول و قوی محسوب میشن. برای مثال، اگه نام خالق در داده‌های IPTC با نام نویسنده مقاله‌ای که عکس در اون قرار داره یکی باشه، یک سیگنال قدرتمند از اصالت و تخصص ایجاد می‌کنه.

فصل پنجم: نگهبان؛ سیاست‌ها، ایمنی و نظارت بر محتوا

اداره یک موتور جستجو در مقیاس گوگل، مسئولیت عظیمی برای محافظت از کاربران و برندها در برابر محتوای مضر، ناامن یا نامناسب به همراه داره. این ساختار داده نگاهی به سیستم دفاعی پیچیده و چندلایه‌ای میندازه که گوگل برای نظارت بر وب بصری ساخته.

۱. طیف سیف‌سرچ: یک رویکرد چند مدلی

رویکرد گوگل به سیف‌سرچ (SafeSearch) یکپارچه نیست. این اسناد وجود چندین سیستم امتیازدهی موازی رو نشون میدن که یک استراتژی «دفاع در عمق» رو منعکس می‌کنه. فیلدهایی مثل adaboostImageFeaturePorn به صراحت به عنوان منسوخ شده علامت‌گذاری شدن که نشون دهنده پیشرفت از تکنیک‌های قدیمی‌تر یادگیری ماشینه.

  • adaboostImageFeaturePorn
  • brainPornScores: این فیلد که اسمش از پروژه یادگیری عمیق Google Brain گرفته شده، مجموعه‌ای از امتیازات رو برای دسته‌بندی‌های حساس مختلف از جمله «پورن، خشونت، پزشکی و تمسخرآمیز» ذخیره می‌کنه. این امتیاز بر اساس تحلیل مستقیم «پیکسل‌های تصویر» با استفاده از مدل‌های بینایی کامپیوتر قدرتمند به دست میاد.

اما تحلیل پیکسل به تنهایی حرف آخر رو نمی‌زنه. فیلد finalPornScore هم وجود داره که به عنوان یک امتیاز جامع‌تر توصیف شده که بر اساس طیف وسیع‌تری از ویژگی‌ها (مثل امتیاز محتوا، آمار ارجاع‌دهنده‌ها، کوئری‌های navboost و غیره) به دست میاد. در اسناد یک دستورالعمل حیاتی وجود داره: «در صورت وجود، final_porn_score را ترجیح دهید چون باید دقیق‌تر باشد».

این نشون میده که طبقه‌بندی ایمنی نهایی گوگل یک «سیستم ترکیبی» هست. این سیستم تحلیل اولیه بینایی کامپیوتر رو با داده‌های متنی و رفتار کاربر ترکیب می‌کنه. سیگنال «کوئری‌های navboost» به خصوص مهمه؛ این یعنی نوع کوئری‌هایی که یک عکس براشون رتبه می‌گیره و کلیک دریافت می‌کنه، می‌تونه روی امتیاز ایمنی اون تاثیر بذاره. یک عکس کاملا بی‌خطر ممکنه به طور بالقوه به عنوان ناامن علامت‌گذاری بشه اگه به طور مداوم در وب‌سایت‌های مشکل‌دار قرار بگیره یا برای کوئری‌های نامناسب شروع به رتبه‌بندی کنه.

۲. شناسایی محتوای ناخواسته و مضر

فراتر از طبقه‌بندی‌های لازم برای فیلتر سیف‌سرچ، گوگل مکانیزم‌هایی برای شناسایی محتوایی داره که باید به طور کامل از ایندکس حذف بشن. پرچم isUnwantedContent برای علامت‌گذاری یک عکس برای حذف از نتایج جستجو به دلایل نقض سیاست‌های اصلی گوگل مثل اسپم یا بدافزار استفاده میشه.

  • isUnwantedContent
  • hateLogoDetection: این فیلد خروجی یک طبقه‌بند رو ذخیره می‌کنه که به طور خاص برای شناسایی نمادهای نفرت‌پراکنی آموزش دیده. وجود چنین شناساگر متخصصی نشون میده که گوگل به طور فعال مدل‌هایی رو برای مبارزه با دسته‌های خاصی از محتوای مضر توسعه میده و فقط به طبقه‌بندهای عمومی اکتفا نمی‌کنه.

خب، با این همه اطلاعات چیکار کنیم؟ یک چارچوب عملی برای سئو عکس مدرن

این تحلیل عمیق از ساختار داده‌های عکس گوگل، ما رو مجبور می‌کنه که نگاهمون به بهینه‌سازی عکس رو به کل تغییر بدیم. چک‌لیست‌های قدیمی که فقط روی اسم فایل و تگ آلت تمرکز داشتن دیگه کافی نیستن. یک استراتژی مدرن و مبتنی بر داده باید جامع باشه و درک کنه که گوگل عکس‌ها رو از طریق یک لنز پیچیده از اصالت، درک معنایی، کیفیت سنجیده‌شده، قصد تجاری و پروتکل‌های ایمنی می‌بینه.

۱. مدل چندعاملی برای ارتباط عکس: فراتر از تگ آلت

ارتباط یک عکس با موضوع، توسط یک سه‌گانه به هم پیوسته تعیین میشه:

  • معنای درون عکس (In-Image Semantics): این مرز جدید سئو عکسه. همونطور که دیدیم، منبع اصلی درک گوگل حالا پیکسل‌های خود عکسه. پس باید محتوای داخل عکس رو بهینه کنیم. یعنی اینفوگرافیک‌هایی با متن خوانا برای OCR بسازیم؛ از عکس‌هایی استفاده کنیم که اشیا و موجودیت‌های واضح و قابل تشخیص دارن؛ و مطمئن بشیم که سوژه اصلی برجسته و بدون ابهامه.
  • بافتار روی صفحه (On-Page Context): این همون سئو عکس سنتیه. تگ آلت، عنوان، کپشن و متن اطراف عکس هنوز هم فوق‌العاده مهمن. این‌ها به گوگل کمک می‌کنن تا ارتباط معنایی عکس با بقیه محتوای صفحه رو تایید کنه.
  • ارتباط با موجودیت (Entity Association): پیشرفته‌ترین بخش، اتصال عکس به گراف دانش از طریق فیلد multibangKgEntities هست. هدف اینه که تصاویری بسازیم که مثل یک پل بین محتوای شما و موجودیت‌های تثبیت‌شده دنیای واقعی عمل کنن. برای یک صفحه درباره ماشین‌های برقی، عکسی که به وضوح «تسلا مدل ۳» (یک موجودیت خاص) رو نشون میده، خیلی قدرتمندتر از یک عکس عمومی از یک ماشینه.

استراتژی بهینه اینه که این سه ستون کاملا با هم هماهنگ باشن.

۲. جلب نظر الگوریتم‌ها: بهینه‌سازی برای کیفیت و تعامل

مدل کیفیت دوشاخه گوگل نیاز به یک رویکرد بهینه‌سازی دوگانه داره.

  • بهینه‌سازی برای کیفیت ذاتی (NIMA): روی عکاسی حرفه‌ای و طراحی گرافیک سرمایه‌گذاری کنید. به اصول فنی مثل نور، فوکوس و ترکیب‌بندی توجه کنید. برای عکاسی محصول، از پس‌زمینه‌های تمیز استفاده کنید که توسط whiteBackgroundScore اندازه‌گیری میشه. هدف اینه که عکس‌هایی بسازید که یک داور انسانی بهشون امتیاز بالا بده، چون امتیازهای nimaVq و nimaAva برای شبیه‌سازی همین قضاوت طراحی شدن.
  • بهینه‌سازی برای کیفیت بیرونی (کلیک‌های کاربر): تامبنیل عکس شما، تبلیغ شما در صفحه نتایجه. ورژن‌های مختلف از برش، ترکیب‌بندی و نسبت ابعاد رو تست کنید تا ببینید کدوم‌ها بیشترین نرخ کلیک رو از کوئری‌های مرتبط می‌گیرن. عملکرد رو زیر نظر داشته باشید تا سیگنال‌های مثبت مثل h2c رو به حداکثر برسونید و از استراتژی‌هایی که ممکنه باعث امتیاز بالای clickMagnetScore بشن، دوری کنید.

۳. حداکثر کردن دیده شدن تجاری و درآمدزا

  • برای فروشگاه‌های اینترنتی: پیاده‌سازی بی‌نقص داده‌های ساختاریافته Product و MerchantListing غیرقابل مذاکره است. این مکانیزم مستقیم برای پر کردن ساختار داده shoppingProductInformation و واجد شرایط شدن برای نتایج غنی قابل خرید در تمام سرویس‌های گوگله.
  • برای صاحبان محتوای بصری: یک گردش کار دقیق و خودکار برای جاسازی متادیتای کامل IPTC در هر فایل عکس قبل از آپلود ایجاد کنید. این مستقیم‌ترین و مقیاس‌پذیرترین راه برای پر کردن فیلد imageLicenseInfo، گرفتن نشان «Licensable» و جذب ترافیک واجد شرایط به صفحات فروش یا لایسنس شماست.

۴. آینده‌نگری برای دنیای چندوجهی و هوش مصنوعی

این ساختار داده یک نقشه ثابت نیست؛ این بنیادیه که آینده جستجو بر روی اون ساخته میشه. این داده‌های غنی و ساختاریافته، سوخت هوش مصنوعی پیشرفته چندوجهی مثل MUM و Gemini هستن.

نگاهتون به عکس‌ها رو از «تزیینات صفحه» به «بسته‌های متراکم از داده‌های ساختاریافته» تغییر بدید. آینده از آن تصاویریه که پاسخ و زمینه ارائه میدن. این شامل:

  • گرافیک‌های غنی از اطلاعات: نمودارها و اینفوگرافیک‌هایی با متن و داده‌های واضح و قابل خوندن برای ماشین بسازید.
  • عکاسی متراکم از موجودیت: عکس‌هایی تولید کنید که چندین موجودیت مرتبط با موضوع رو در یک رابطه واضح با هم به تصویر می‌کشن.

با ساختن محتوای بصری که نه تنها با کلمات کلیدی، بلکه از نظر مفهومی و واقعی متراکمه، شما فقط برای موتور جستجوی امروز بهینه‌سازی نمی‌کنید؛ شما در حال فراهم کردن داده‌های ساختاریافته‌ای هستید که برای دیده شدن در موتورهای جستجوی هوشمندتر، محاوره‌ای‌تر و چندوجهی فردا ضروری خواهند بود.

پرسش و پاسخ

سوال ۱: یعنی اگه عکسم قشنگ نباشه گوگل رتبه‌شو کم می‌کنه؟

جواب: سوال خیلی خوبیه! بله، به نوعی همینطوره. گوگل سیستمی به اسم NIMA داره که دو تا چیز رو الگوریتمی اندازه می‌گیره: یکی کیفیت فنی (که عکس تار نباشه، نورش خوب باشه و…) و یکی هم کیفیت زیبایی‌شناختی (که ترکیب‌بندی و جذابیت بصری داشته باشه). پس یک عکس که از نظر فنی ضعیف یا از نظر هنری نچسب باشه، امتیاز کمتری می‌گیره و این می‌تونه روی رتبه‌بندیش تاثیر منفی بذاره. البته این فقط یکی از ده‌ها فاکتوره.

سوال ۲: پس با این حساب دیگه متن جایگزین یا همون alt text مهم نیست؟

جواب: نه اصلا! اتفاقا هنوز خیلی مهمه. فکر کن رتبه‌بندی عکس مثل یک پازل سه تیکه است. یک تیکه «محتوای داخل خود عکسه» (که گوگل با هوش مصنوعی می‌فهمه)، یک تیکه «ارتباطش با موجودیت‌های دنیای واقعی» (مثل برج ایفل) و تیکه سوم «بافتار روی صفحه» است. تگ آلت، کپشن و متن اطراف عکس دقیقا همین تیکه سوم هستن و به گوگل کمک می‌کنن مطمئن بشه که درکش از عکس درسته و با محتوای کلی صفحه شما همخونی داره. پس تگ آلت هنوز یک بخش حیاتی از این پازله.

سوال ۳: گوگل چطوری می‌فهمه عکس من کپیه یا اصل؟ منبع اصلی رو از کجا تشخیص میده؟

جواب: گوگل برای این کار یک ردپای زمانی خیلی هوشمندانه داره. یک فاکتور کلیدی به اسم contentFirstCrawlTime وجود داره که یعنی «اولین باری که محتوای این عکس در کل اینترنت دیده شده». وقتی شما یک عکس اورجینال منتشر می‌کنید، گوگل این زمان رو برای شما ثبت می‌کنه. اگه کسی بعدا عکس شما رو کپی کنه، contentFirstCrawlTime اون عکس کپی شده، همون تاریخ اولین باریه که شما منتشر کردید. اینطوری گوگل می‌فهمه که شما منبع اصلی هستید و بهتون اولویت میده.

سوال ۴: اگه من توی عکسم متن بنویسم، مثلا روی یک اینفوگرافیک، گوگل می‌تونه اون رو بخونه؟

جواب: بله، صد در صد! گوگل از تکنولوژی خیلی قدرتمندی به اسم OCR (تشخیص نوری کاراکتر) استفاده می‌کنه. در واقع از چندین سیستم OCR مختلف استفاده می‌کنه تا مطمئن بشه تمام متن‌های داخل عکس‌ها رو استخراج می‌کنه. این یعنی هر کلمه‌ای که روی اینفوگرافیک، اسکرین‌شات یا حتی یک عکس معمولی می‌نویسید، برای گوگل قابل خوندن، ایندکس شدن و جستجو شدنه. پس به متن‌های داخل عکستون هم به اندازه متن‌های معمولی صفحه اهمیت بدید.

سوال ۵: این قضیه «کلیک مگنت» (Click Magnet) که گفتید چیه؟ یعنی کلیک زیاد گرفتن بده؟

جواب: نه، کلیک زیاد گرفتن خوبه، اما به شرطی که «کلیک درست» باشه. گوگل یک امتیاز منفی به اسم clickMagnetScore داره. این امتیاز برای عکس‌هاییه که با یک تامبنیل گول‌زننده، از جستجوهای نامرتبط و «بد» کلی کلیک جذب می‌کنن. مثلا عکسی که مبهمه و کاربر فکر می‌کنه یک چیز دیگه‌اس، روش کلیک می‌کنه و بعد سریع برمی‌گرده. گوگل این رفتار رو تشخیص میده و اون عکس رو به عنوان یک «کلیک‌بیت» جریمه می‌کنه. پس هدف اینه که از جستجوهای مرتبط کلیک بگیریم، نه اینکه به هر قیمتی کاربر رو به کلیک کردن وادار کنیم.

منابع

  • [1] The Definitive Guide To Image SEO: Google Content Warehouse ImageData Schema Analysis – Hobo

دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *