گوگل با عکسهایی که ما توی اینترنت آپلود میکنیم چیکار میکنه؟ این اطلاعات رو از کجا آوردیم؟ از یک سری دادههای فنی که اخیرا از خود گوگل به بیرون درز کرده. پس این مقاله برای هر کسیه که میخواد سئو عکس رو فراتر از حرفهای کلیشهای مثل «تگ آلت یادت نره» یاد بگیره. چرا این مهمه؟ چون برای اولین بار میتونیم به جای حدس و گمان، بر اساس یک نقشه فنی ببینیم که چه چیزهایی برای گوگل اهمیت داره.
فقط یک نکته مهم: این تحلیل بر اساس دادههای غیررسمیه و خود من با استنتاج منطقی این چارچوب رو کنار هم گذاشتم. پس شما هم با تفکر انتقادی به این موضوع نگاه کنید. هدف اصلی من اینه که بهتون نشون بدم سئو کلاه سفید، یعنی کار درست و اصولی انجام دادن، هنوز هم بهترین راهه و گوگل واقعا تلاش میکنه سایتهای باکیفیت و قابل اعتماد رو پیدا کنه.
فصل اول: شالوده معماری؛ گوگل چطور عکسها رو جمعآوری، ذخیره و انتخاب میکنه؟
قبل از اینکه گوگل بخواد بفهمه توی یک عکس چه خبره یا بهش رتبه بده، اول باید اون عکس رو توی زیرساخت عظیم خودش جا بده. این فایلهای لو رفته نشون میده که سیستم گوگل وسواس شدیدی روی مدیریت عکسهای تکراری، پیدا کردن منبع اصلی و پردازش موثر میلیاردها عکس داره. بیاید ببینیم توی این مرحله چه اتفاقی برای یک عکس میافته.
۱. هویت، اصالت و منبع اصلی؛ پیدا کردن یک شناسنامه واحد برای هر عکس
اینترنت پر از عکسهای تکراریه. یک عکس محبوب ممکنه روی میلیونها سایت مختلف وجود داشته باشه. اولین و بزرگترین چالش مهندسی گوگل اینه که این هرج و مرج رو مدیریت کنه و برای هر عکس یک هویت واحد تعریف کنه. سیستم گوگل برای این کار خیلی هوشمنده.
- url: این همون آدرس مطلق و سرراست عکسه. مثلا
yoursite.com/images/cat.jpg. - docid: این یک جور اثر انگشت داخلیه که گوگل از آدرس غیرکنونیکال عکس میسازه. مثل یک کد موقت میمونه.
- canonicalDocid: و اما ستاره اصلی این بخش. این شناسه قطعی و نهایی عکسه که توی جستجوی عکس گوگل استفاده میشه. تمام سیگنالهای دیگه، از امتیاز کیفیت گرفته تا دادههای کلیک، به این شناسه میچسبن. این مهمترین شناسه یک عکسه. اگه این شناسه واحد وجود نداشت، سیگنالهای رتبهبندی بین هزاران آدرس تکراری پخش میشد و ارزیابی عکس غیرممکن بود.
کل این معماری طراحی شده تا جلوی این آشفتگی محتوای بصری رو بگیره و اهمیت «اصل بودن» رو از یک توصیه ساده به یک ضرورت فنی برای دیده شدن تبدیل کنه.
برای پیدا کردن منبع اصلی، گوگل از چند تا برچسب زمانی هم استفاده میکنه:
- firstCrawlTime: اولین باری که گوگل یک عکس رو در یک آدرس خاص دیده.
- lastCrawlTime: آخرین باری که همون عکس رو در همون آدرس دیده.
- contentFirstCrawlTime: و اما مهمترینشون. این یعنی «اولین باری که محتوای این عکس، در هر کجای وب، دیده شده».
این یک سیگنال فوقالعاده قوی برای تشخیص اصالت و منبع اصلیه. گوگل با مقایسه این زمان میتونه با دقت بالایی حدس بزنه که کدوم سایت اولین بار اون عکس رو منتشر کرده. عکسی که contentFirstCrawlTime اون نزدیک به تاریخ انتشارش روی یک سایت معتبر باشه، به احتمال خیلی زیاد منبع اصلی در نظر گرفته میشه، نه نسخهای که چند ماه بعد روی یک سایت بیکیفیت کپی شده.
جالبه بدونید توی این اسناد به سیستمی به اسم «Alexandria» یا «اسکندریه» اشاره شده که سیستم اصلی ایندکس گوگل هست. درست مثل کتابخانه باستانی اسکندریه که میخواست تمام دانش بشر رو جمعآوری کنه، این سیستم گوگل هم مخزن اصلی محتوای وب، از جمله عکسهاست. اون canonicalDocid هم در واقع مثل شماره ثبت هر عکس توی این کتابخانه عظیم میمونه.
۲. پشت صحنه انبار دادهها؛ خط تولید ایندکس و انتخاب عکسها
هر عکسی که گوگل پیدا میکنه، لزوما وارد نتایج جستجو نمیشه. این اسناد به وضوح نشون میدن که یک فرایند گزینشی و یک «دروازه کیفیت» وجود داره که تصمیم میگیره یک عکس ارزش اضافه شدن به ایندکس اصلی رو داره یا نه.
- isIndexedByImagesearch: یک پرچم ساده که میگه آیا عکس برای ایندکس اصلی انتخاب شده یا نه.
- noIndexReason: اگه عکس انتخاب نشده باشه، این فیلد دلیلش رو توضیح میده.
این وجود یک دروازه کیفیت برای ایندکس عکس رو ثابت میکنه. اما این انتخاب چطوری انجام میشه؟ اینجا اسم یک سیستم دیگه به اسم «Amarna» به چشم میخوره. اطلاعات عمومی زیادی درباره آمارنا وجود نداره، اما از روی متن میشه فهمید که این یک سیستم پردازش اولیه است که عکسها رو برای ورود به بخشهای مختلف انبار داده ارزیابی میکنه. اگه یک عکس حداقل کیفیت یا ارتباط لازم رو نداشته باشه، همینجا رد میشه. این دقیقا شبیه وضعیت «Discovered – currently not indexed» هست که برای صفحات وب توی گوگل سرچ کنسول میبینیم و ثابت میکنه که برای عکسها هم یک حداقل استانداردی وجود داره.
این ساختار لایه لایه است. به نظر میرسه سیستمهایی مثل آمارنا ارزیابی اولیه رو انجام میدن و تصمیم میگیرن که یک عکس اصلا ایندکس بشه یا نه، و اگه شد، در کدوم لایه از ایندکس قرار بگیره. عکسهای باکیفیتتر و معتبرتر احتمالا در یک لایه با اولویت بالاتر و بهروزرسانی سریعتر قرار میگیرن. پس سئو عکس یک فرایند دو مرحلهای میشه: اول، مطمئن بشیم که عکسمون از «دروازه آمارنا» رد میشه، و دوم، سیگنالهای معنایی و رتبهبندیش رو برای موتور اصلی بهینه کنیم.
۳. از انبار داده تا صفحه نتایج: موتور رتبهبندی «موستانگ» و رتبهبندی اولیه
وقتی یک عکس ایندکس شد، نوبت به رتبهبندیش توسط سیستمهای اصلی گوگل میرسه. این دادهها به طور مستقیم به سیستمی به نام «Mustang» اشاره میکنن. مثلا یک فیلد به اسم packedFullFaceInfo که اطلاعات چهرههای داخل عکس رو ذخیره میکنه، به صراحت ذکر شده که «برای ذخیرهسازی در موستانگ» بستهبندی میشه. این نقش موستانگ رو به عنوان سیستم اصلی رتبهبندی عکس تایید میکنه.
خروجی این فرایند رتبهبندی اولیه توی چند تا فیلد مشخصه:
- imagerank: یک امتیاز کلی و سطح بالا که پتانسیل رتبهبندی کلی عکس رو نشون میده.
- rankInNeardupCluster: این یکی خیلی جالبه. این فیلد، رتبه یک عکس رو «درون خوشه عکسهای کاملا مشابه خودش» نشون میده. یعنی حتی وقتی دو تا عکس پیکسل به پیکسل شبیه هم باشن، گوگل بینشون یک سلسله مراتب ایجاد میکنه. عکسی که روی سایت معتبرتره، رزولوشن بالاتری داره، متن اطرافش بهتره یا
contentFirstCrawlTimeقدیمیتری داره، رتبه بهتری (نزدیک به ۱) در این خوشه میگیره. این همون مکانیزمیه که باعث میشه گوگل کار خالق اصلی رو بالاتر از یک کپی روی سایتهای دیگه نشون بده.
یک لایه پیچیدهتر هم وجود داره. فیلدی به اسم imageContentQueryBoost مستقیما به الگوریتمی به نام «pamir» اشاره میکنه. تحقیقات نشون میده که پامیر یک الگوریتم یادگیری ماشینه که برای «بازیابی چندوجهی، مثل پیدا کردن عکس از روی کوئری متنی» طراحی شده. این الگوریتم یاد میگیره که چطور عکسها رو بر اساس ارتباطشون با یک عبارت جستجوی خاص مرتب کنه.
این یعنی رتبهبندی عکس فقط بر اساس سیگنالهای کلی مثل کیفیت عکس یا پیج رنک صفحه نیست. بلکه شامل امتیازهای ویژهای میشه که توسط مدلهای هوش مصنوعی پیشرفته محاسبه میشن تا ارتباط دقیق یک عکس با هدف کاربر رو بسنجن.
فصل دوم: درک معنایی؛ رمزگشایی محتوا و مفهوم عکسها
برای اینکه گوگل بتونه یک عکس رو خوب رتبه بده، باید فراتر از ویژگیهای فنی بره و مثل یک انسان، محتوای داخل اون رو درک کنه. این اسناد نشون میدن که گوگل یک زرادخانه کامل از تکنولوژیها برای این کار داره که پیکسلهای بیمعنی رو به دادههای ساختاریافته و قابل فهم برای ماشین تبدیل میکنن. این فرایند شامل تشخیص متن، شناسایی اشیا، لینک دادن به موجودیتهای دنیای واقعی و طبقهبندی ژانر عکسه.
۱. خواندن ناخواندهها: قدرت تشخیص نوری کاراکتر یا OCR
هر متنی که داخل یک عکس باشه (مثل یک اینفوگرافیک یا اسکرینشات) یک منبع غنی از اطلاعاته. گوگل از چندین سیستم OCR موازی استفاده میکنه تا مطمئن بشه این اطلاعات از دست نمیرن. وجود دو فیلد ocrGoodoc و ocrTaser نشون میده که حداقل دو موتور OCR مختلف روی عکسها اجرا میشن. این یعنی هر کلمهای که روی یک عکس نوشته شده باشه، کاملا ایندکس و قابل جستجو میشه.
- ocrGoodoc
- ocrTaser
اما قضیه از این هم جالبتره. فیلد ocrTextboxes نه تنها متن استخراج شده رو ذخیره میکنه، بلکه موقعیت مکانی اون متن رو هم داخل عکس نگه میداره. این به گوگل اجازه میده رابطه فضایی بین متن و عناصر دیگه رو بفهمه. مثلا میتونه تشخیص بده کدوم متن عنوان اصلی اینفوگرافیکه و کدوم متن منبع پایینه. این قابلیت باعث میشه طراحی بصری عکسهای پر از اطلاعات، خودش یک فاکتور سئو باشه. متنی که واضح، با کنتراست بالا و در جای منطقی قرار گرفته باشه، شانس بیشتری برای پردازش دقیق و استفاده در رتبهبندی داره.
۲. از پیکسل تا موجودیت: تشخیص اشیا، چهرهها و مفاهیم
گوگل فراتر از متن، یک تحلیل جامع برای شناسایی اشیا، افراد و مفاهیم داخل عکس انجام میده. این سیستم فقط تشخیص نمیده، بلکه اونها رو به یک شبکه دانشی متصل میکنه.
- imageRegions: این لایه پایه است. اشیای مختلف داخل عکس رو با یک کادر (bounding box) مشخص میکنه و بهشون یک برچسب میده. مثلا «ماشین»، «درخت».
- deepTags: این تگها جزئیتر و معمولا تجاریتر هستن. مثلا به جای «پیراهن»، میگه «پیراهن آستین بلند».
- multibangKgEntities: اینجاست که جادوی واقعی اتفاق میافته. این فیلد، اشیای تشخیص داده شده رو به موجودیتهای خاص در «گراف دانش» (Knowledge Graph) عظیم گوگل لینک میکنه. یعنی عکسی که برج ایفل توشه، فقط تگ «برج» نمیخره، بلکه مستقیما به موجودیت یکتای «برج ایفل» در گراف دانش متصل میشه. این دقیقا اساس فنی سئو مبتنی بر موجودیت (Entity-based SEO) برای عکسهاست. یک عکس که موجودیتهای واضح و مرتبط با موضوع صفحه رو نشون میده، درک گوگل از اون موضوع رو عمیقتر میکنه و باعث میشه هم عکس و هم صفحه برای طیف وسیعتری از جستجوهای مفهومی رتبه بگیرن.
گوگل همچنین توجه ویژهای به حضور انسان در عکسها داره. فیلدهایی مثل numberFaces (تعداد چهرهها) و largestFaceFrac (نسبت بزرگترین چهره به کل عکس) نشون میده که سیستم نه تنها حضور افراد رو تشخیص میده، بلکه اهمیت و برجستگی اونها در تصویر رو هم اندازه میگیره.
۳. طبقهبندی هدف و ژانر: این یک عکس واقعیه، کلیپآرت یا طراحی خطی؟
کاربری که دنبال «نمودار رشد کسب و کار» میگرده، احتمالا یک گرافیک یا طراحی خطی میخواد، نه یک عکس واقعی از یک دفتر کار. گوگل برای پاسخ به این نیاز، دستهبندیهای مشخصی داره:
- photoDetectorScore: امتیازی که احتمال واقعی بودن (عکس بودن) تصویر رو نشون میده.
- clipartDetectorScore: امتیازی که احتمال کلیپآرت بودن تصویر رو نشون میده.
- lineartDetectorScore: امتیازی که احتمال طراحی خطی بودن تصویر رو نشون میده.
این طبقهبندی به گوگل اجازه میده نتایج رو بر اساس هدف ضمنی کاربر فیلتر کنه. برای ما به عنوان تولیدکننده محتوا، این یعنی انتخاب سبک بصری عکس یک فاکتور مستقیم در رتبهبندیه. اگه برای یک موضوع، کاربران دنبال تصویرسازی هستن و شما یک عکس واقعی آپلود کنید، ممکنه تصویر شما اصلا در نتایج نشون داده نشه، حتی اگه کیفیت بالایی داشته باشه.
۴. ظهور درک چندوجهی (Multimodal)
ترکیب OCR، تشخیص موجودیت و طبقهبندی ژانر، همون دادههای ساختاریافتهای رو فراهم میکنه که مدلهای هوش مصنوعی پیشرفته گوگل مثل MUM و Gemini بهش نیاز دارن. این ساختار داده، پلیه که پیکسلهای بیساختار رو به دانش ساختاریافته تبدیل میکنه.
مثلا کاربری میتونه عکس یک پیراهن طرحدار رو به گوگل بده و بنویسه «یک کراوات با این طرح برام پیدا کن». این کار فقط به این دلیله که دادههای اون عکس پیراهن از قبل آماده شده: imageRegions اون رو به عنوان «پیراهن» شناسایی کرده، deepTags ممکنه طرحش رو «بتهجقه» طبقهبندی کرده باشه و colorScore پروفایل رنگیش رو مشخص کرده. بعد الگوریتم MUM میتونه از این دادههای ساختاریافته برای جستجوی کراواتهایی با همین ویژگیها استفاده کنه. این یعنی آینده از آن عکسهاییه که سرشار از اطلاعات باشن و مفاهیم متعدد، واضح و قابل خوندن برای ماشین رو در خودشون جا داده باشن.
فصل سوم: معادله کیفیت؛ سنجش زیباییشناسی، تعامل کاربر و اعتماد
فقط مرتبط بودن برای گرفتن رتبه بالا در جستجوی عکس کافی نیست. این اسناد یک سیستم پیچیده و چندوجهی رو برای ارزیابی «کیفیت» یک عکس نشون میدن. این ارزیابی یک امتیاز واحد نیست، بلکه ترکیبی از سیگنالهای مختلفه که جذابیت بصری ذاتی عکس، عملکردش در دنیای واقعی با کاربران و نشانههای فنی برای حرفهای بودن و قابل اعتماد بودن رو اندازه میگیره. گوگل مفهوم کیفیت رو به دو بخش تقسیم کرده: کیفیت زیباییشناختی ذاتی و کیفیت درک شده توسط کاربر. یک عکس موفق باید در هر دو عالی باشه.
۱. زیباییشناسی الگوریتمی: NIMA و اندازهگیری زیبایی
در گذشته، کیفیت زیباییشناختی یک موضوع کاملا سلیقهای به حساب میومد که ماشین از درکش عاجز بود. اما فریمورک «NIMA» یا «ارزیابی عصبی تصویر» گوگل این تصور رو به چالش میکشه و خروجیهاش مستقیما در این ساختار داده ذخیره میشن.
NIMA یک شبکه عصبی عمیقه که آموزش دیده تا به جای دادن یک امتیاز ساده «خوب/بد»، توزیع امتیازات انسانها در مقیاس ۱ تا ۱۰ رو پیشبینی کنه. یعنی میتونه ظرافتهای درک انسان رو بفهمه. در این اسناد دو فیلد مرتبط با NIMA وجود داره:
- nimaVq: به احتمال زیاد امتیاز «کیفیت فنی» رو نشون میده. این فیلد ویژگیهای عینی و پیکسلی مثل وضوح (شارپ بودن)، نورپردازی، نوردهی و نبود نویز رو اندازه میگیره.
- nimaAva: به احتمال زیاد امتیاز «زیباییشناختی» رو نشون میده. این فیلد ویژگیهای ذهنیتری مثل ترکیببندی، هارمونی رنگها و تاثیر احساسی رو میسنجه.
وجود این امتیازها یک تغییر پارادایم در سئو عکسه. این تایید میکنه که گوگل به صورت الگوریتمی در حال قضاوت در مورد ارزش هنری و فنی عکسهاست. عکسهایی که فوکوس نیستن، نورپردازی بدی دارن یا ترکیببندی ضعیفی دارن، امتیاز NIMA پایینتری میگیرن و این مستقیما روی ارزیابی کیفیتشون تاثیر میذاره. این یعنی سرمایهگذاری روی عکاسی حرفهای و طراحی گرافیک باکیفیت دیگه فقط برای برندینگ نیست، بلکه یک ورودی مستقیم به سیستمهای رتبهبندی گوگله.
۲. کاربر، داور نهایی: سیگنالهای کلیک و تعامل
با اینکه الگوریتمها میتونن کیفیت بالقوه رو پیشبینی کنن، گوگل به رفتار کاربران در دنیای واقعی به عنوان معیار نهایی موفقیت یک عکس نگاه میکنه. یک مجموعه غنی از فیلدها برای ثبت سیگنالهای تعامل کاربر وجود داره.
- h2i (hovers-to-impressions): نسبت تعداد دفعاتی که موس کاربر روی تامبنیل عکس هاور شده به تعداد نمایشها.
- h2c (hovers-to-clicks): نسبت تعداد کلیکها بعد از هاور کردن به تعداد هاورها.
این دو معیار با هم نشون میدن که تامبنیل یک عکس چقدر در صفحه نتایج جستجو جذابه. h2i بالا یعنی تامبنیل توجه کاربر رو جلب میکنه و h2c بالا یعنی پیشنمایش بزرگتر اونقدر قانعکننده بوده که کاربر روش کلیک کرده. این سیستم معادل تصویری سیستم قدرتمند NavBoost در جستجوی وبه که بر اساس کلیکها رتبهها رو بازآرایی میکنه.
اما نکته حیاتی اینجاست: همه کلیکها ارزش یکسانی ندارن.
clickMagnetScore: این یک امتیاز منفی برای عکسهایی هست که از «کوئریهای بد» و نامرتبط کلیک زیادی جذب میکنن. این یک اقدام متقابل الگوریتمی مستقیم علیه «کلیکبیت بصری» هست. یک عکس با تامبنیل عجیب یا مبهم ممکنه کلیک زیادی بگیره، اما اگه این کلیکها از جستجوهای نامرتبط باشن و کاربر بلافاصله به صفحه نتایج برگرده، این سیگنال منفی ثبت میشه. این نشون میده که هدف جذب هر کلیکی نیست، بلکه جذب کلیک درست از یک کاربر راضیه. چون کلیکهای اشتباه اندازهگیری میشن و ممکنه به رتبه عکس در بلندمدت آسیب بزنن.
۳. نشانههایی برای اعتماد و E-E-A-T
با اینکه E-E-A-T (تجربه، تخصص، اعتبار، اعتماد) یک چارچوب برای محتوای یک صفحه است، این اسناد نشون میدن که گوگل از چند ویژگی فنی به عنوان نمایندههای قدرتمند برای جنبههای بصری اعتماد و حرفهای بودن استفاده میکنه.
- whiteBackgroundScore: این یک مثال عالیه. این طبقهبند، عکسهایی رو شناسایی میکنه که احتمالا یک شی روی پسزمینه سفید و تمیز هستن. این سبک، مشخصه اصلی عکاسی محصول حرفهای در سایتهای معتبر فروشگاهیه. امتیاز بالا در این فیلد یک سیگنال قوی از قصد تجاری و قابل اعتماد بودنه.
- isVisible: یک سیگنال ساده اما اساسی. این فیلد بین عکسی که مستقیما در صفحه قرار گرفته (با تگ
<img>) و عکسی که فقط بهش لینک داده شده، تمایز قائل میشه. عکس درونخطی بخشی از محتوای صفحه است و نیت ناشر رو بهتر نشون میده. - codomainStrength: این فیلد اطمینان از اینکه یک عکس روی یک «دامنه همراه» مثل یک CDN (شبکه توزیع محتوا) میزبانی میشه رو اندازه میگیره. سایتهای حرفهای و ساختاریافته معمولا برای بهبود عملکرد، عکسهاشون رو از CDN سرو میکنن. بنابراین، مقدار بالای این فیلد مثل یک اثر انگشت فنی از یک وبسایت پیچیده و خوب نگهداری شده است و به اعتبار درک شده اون کمک میکنه.
فصل چهارم: موتور تجارت؛ عکسها در دنیای خرید و فروش
جستجوی عکس گوگل فقط یک گالری تصاویر نیست؛ یک موتور قدرتمند برای کشف و انجام معاملات تجاریه. این ساختار داده نشون میده که تجارت یک قابلیت جانبی نیست، بلکه یک عملکرد اصلی و ذاتیه که با ساختارهای داده عمیقا یکپارچه شده تا محصولات رو نمایش بده، حقوق کپیرایت رو مدیریت کنه و از متادیتای داخلی عکس استفاده کنه.
۱. سطوح قابل خرید: ادغام محصولات در جستجوی تصویری
جاهطلبی گوگل برای قابل خرید کردن وب بصری، در پیچیدگی فیلد shoppingProductInformation کاملا مشخصه. این یک پرچم ساده «آیا این محصول است؟» نیست، بلکه یک ساختار داده جامع و تودرتو هست که برای ذخیره تمام اطلاعات لازم برای ساخت یک لیست محصول غنی طراحی شده. این فیلد شامل جزئیات محصول، قیمت، موجودی و اطلاعات فروشنده است. این دقیقا ساختار داده پشت صحنهایه که لیستهای محصولات رو در جستجوی گوگل، جستجوی عکس و گوگل لنز قدرت میده.
وجود چنین ساختار دقیقی در مدل اصلی دادههای عکس یعنی از همون لحظهای که یک عکس ایندکس میشه، پتانسیل تجاریش ارزیابی میشه. متخصصان سئو فروشگاهی میتونن مستقیما روی پر شدن این فیلد با پیادهسازی دقیق دادههای ساختاریافته «Product» و «Merchant Listing» روی سایتشون تاثیر بذارن.
۲. حقوق و درآمدزایی: مدیریت لایسنس عکس
برای عکاسان، هنرمندان و آژانسهای عکس، کسب درآمد از حقوق تصویر یک کار حیاتیه. این اسناد یک راه ارتباطی مستقیم و قابل فهم برای ماشین بین متادیتای خالق عکس و توانایی اونها برای کسب درآمد از طریق گوگل فراهم میکنن.
- imageLicenseInfo: این فیلد یک محفظه ساختاریافته برای ذخیره جزئیات دقیق لایسنس یک عکسه. این فیلد مستقیما نشان «قابل لایسنس» (Licensable) رو در نتایج جستجو فعال میکنه. این نشان به کاربران سیگنال میده که اطلاعات لایسنس در دسترسه و یک لینک مستقیم برای خرید قانونی عکس فراهم میکنه.
این سیستم یک انگیزه واضح و قدرتمند برای تولیدکنندگان محتوا ایجاد میکنه تا متادیتای دقیق ارائه بدن. راههای اصلی برای پر کردن این فیلد، استفاده از دادههای ساختاریافته ImageObject روی صفحه وب یا جاسازی متادیتای عکس IPTC مستقیما در فایل عکسه. وقتی گوگل عکسی با این متادیتا رو پردازش میکنه، فیلدهای مربوطه رو پر میکنه و در نهایت موتور موستانگ این نشان رو نمایش میده. این یک چرخه کامله که در اون ارائه دادههای ساختاریافته به یک مزیت تجاری ملموس منجر میشه.
۳. قدرت متادیتای داخلی
جمعآوری داده توسط گوگل به سیگنالهای روی صفحه یا تحلیلهای خودش محدود نمیشه. این ساختار داده تایید میکنه که گوگل سرمایهگذاری عمیقی روی استخراج متادیتای جاسازی شده در خود فایلهای عکس کرده. وجود دو فیلد مجزا، embeddedMetadata (برای دادههای استاندارد EXIF/IPTC) و extendedExif (که جامعتره)، نشون دهنده تلاش مداوم برای استفاده از این منبع غنی داده است.
این دادههای داخلی میتونن شامل اطلاعاتی باشن که مستقیما از E-E-A-T و اصالت عکس پشتیبانی میکنن: نام خالق، اطلاعات کپیرایت، تاریخ ایجاد و حتی دادههای موقعیت مکانی GPS. این اطلاعات، چون از خود فایل میان، یک سیگنال دست اول و قوی محسوب میشن. برای مثال، اگه نام خالق در دادههای IPTC با نام نویسنده مقالهای که عکس در اون قرار داره یکی باشه، یک سیگنال قدرتمند از اصالت و تخصص ایجاد میکنه.
فصل پنجم: نگهبان؛ سیاستها، ایمنی و نظارت بر محتوا
اداره یک موتور جستجو در مقیاس گوگل، مسئولیت عظیمی برای محافظت از کاربران و برندها در برابر محتوای مضر، ناامن یا نامناسب به همراه داره. این ساختار داده نگاهی به سیستم دفاعی پیچیده و چندلایهای میندازه که گوگل برای نظارت بر وب بصری ساخته.
۱. طیف سیفسرچ: یک رویکرد چند مدلی
رویکرد گوگل به سیفسرچ (SafeSearch) یکپارچه نیست. این اسناد وجود چندین سیستم امتیازدهی موازی رو نشون میدن که یک استراتژی «دفاع در عمق» رو منعکس میکنه. فیلدهایی مثل adaboostImageFeaturePorn به صراحت به عنوان منسوخ شده علامتگذاری شدن که نشون دهنده پیشرفت از تکنیکهای قدیمیتر یادگیری ماشینه.
- adaboostImageFeaturePorn
- brainPornScores: این فیلد که اسمش از پروژه یادگیری عمیق Google Brain گرفته شده، مجموعهای از امتیازات رو برای دستهبندیهای حساس مختلف از جمله «پورن، خشونت، پزشکی و تمسخرآمیز» ذخیره میکنه. این امتیاز بر اساس تحلیل مستقیم «پیکسلهای تصویر» با استفاده از مدلهای بینایی کامپیوتر قدرتمند به دست میاد.
اما تحلیل پیکسل به تنهایی حرف آخر رو نمیزنه. فیلد finalPornScore هم وجود داره که به عنوان یک امتیاز جامعتر توصیف شده که بر اساس طیف وسیعتری از ویژگیها (مثل امتیاز محتوا، آمار ارجاعدهندهها، کوئریهای navboost و غیره) به دست میاد. در اسناد یک دستورالعمل حیاتی وجود داره: «در صورت وجود، final_porn_score را ترجیح دهید چون باید دقیقتر باشد».
این نشون میده که طبقهبندی ایمنی نهایی گوگل یک «سیستم ترکیبی» هست. این سیستم تحلیل اولیه بینایی کامپیوتر رو با دادههای متنی و رفتار کاربر ترکیب میکنه. سیگنال «کوئریهای navboost» به خصوص مهمه؛ این یعنی نوع کوئریهایی که یک عکس براشون رتبه میگیره و کلیک دریافت میکنه، میتونه روی امتیاز ایمنی اون تاثیر بذاره. یک عکس کاملا بیخطر ممکنه به طور بالقوه به عنوان ناامن علامتگذاری بشه اگه به طور مداوم در وبسایتهای مشکلدار قرار بگیره یا برای کوئریهای نامناسب شروع به رتبهبندی کنه.
۲. شناسایی محتوای ناخواسته و مضر
فراتر از طبقهبندیهای لازم برای فیلتر سیفسرچ، گوگل مکانیزمهایی برای شناسایی محتوایی داره که باید به طور کامل از ایندکس حذف بشن. پرچم isUnwantedContent برای علامتگذاری یک عکس برای حذف از نتایج جستجو به دلایل نقض سیاستهای اصلی گوگل مثل اسپم یا بدافزار استفاده میشه.
- isUnwantedContent
- hateLogoDetection: این فیلد خروجی یک طبقهبند رو ذخیره میکنه که به طور خاص برای شناسایی نمادهای نفرتپراکنی آموزش دیده. وجود چنین شناساگر متخصصی نشون میده که گوگل به طور فعال مدلهایی رو برای مبارزه با دستههای خاصی از محتوای مضر توسعه میده و فقط به طبقهبندهای عمومی اکتفا نمیکنه.
خب، با این همه اطلاعات چیکار کنیم؟ یک چارچوب عملی برای سئو عکس مدرن
این تحلیل عمیق از ساختار دادههای عکس گوگل، ما رو مجبور میکنه که نگاهمون به بهینهسازی عکس رو به کل تغییر بدیم. چکلیستهای قدیمی که فقط روی اسم فایل و تگ آلت تمرکز داشتن دیگه کافی نیستن. یک استراتژی مدرن و مبتنی بر داده باید جامع باشه و درک کنه که گوگل عکسها رو از طریق یک لنز پیچیده از اصالت، درک معنایی، کیفیت سنجیدهشده، قصد تجاری و پروتکلهای ایمنی میبینه.
۱. مدل چندعاملی برای ارتباط عکس: فراتر از تگ آلت
ارتباط یک عکس با موضوع، توسط یک سهگانه به هم پیوسته تعیین میشه:
- معنای درون عکس (In-Image Semantics): این مرز جدید سئو عکسه. همونطور که دیدیم، منبع اصلی درک گوگل حالا پیکسلهای خود عکسه. پس باید محتوای داخل عکس رو بهینه کنیم. یعنی اینفوگرافیکهایی با متن خوانا برای OCR بسازیم؛ از عکسهایی استفاده کنیم که اشیا و موجودیتهای واضح و قابل تشخیص دارن؛ و مطمئن بشیم که سوژه اصلی برجسته و بدون ابهامه.
- بافتار روی صفحه (On-Page Context): این همون سئو عکس سنتیه. تگ آلت، عنوان، کپشن و متن اطراف عکس هنوز هم فوقالعاده مهمن. اینها به گوگل کمک میکنن تا ارتباط معنایی عکس با بقیه محتوای صفحه رو تایید کنه.
- ارتباط با موجودیت (Entity Association): پیشرفتهترین بخش، اتصال عکس به گراف دانش از طریق فیلد
multibangKgEntitiesهست. هدف اینه که تصاویری بسازیم که مثل یک پل بین محتوای شما و موجودیتهای تثبیتشده دنیای واقعی عمل کنن. برای یک صفحه درباره ماشینهای برقی، عکسی که به وضوح «تسلا مدل ۳» (یک موجودیت خاص) رو نشون میده، خیلی قدرتمندتر از یک عکس عمومی از یک ماشینه.
استراتژی بهینه اینه که این سه ستون کاملا با هم هماهنگ باشن.
۲. جلب نظر الگوریتمها: بهینهسازی برای کیفیت و تعامل
مدل کیفیت دوشاخه گوگل نیاز به یک رویکرد بهینهسازی دوگانه داره.
- بهینهسازی برای کیفیت ذاتی (NIMA): روی عکاسی حرفهای و طراحی گرافیک سرمایهگذاری کنید. به اصول فنی مثل نور، فوکوس و ترکیببندی توجه کنید. برای عکاسی محصول، از پسزمینههای تمیز استفاده کنید که توسط
whiteBackgroundScoreاندازهگیری میشه. هدف اینه که عکسهایی بسازید که یک داور انسانی بهشون امتیاز بالا بده، چون امتیازهایnimaVqوnimaAvaبرای شبیهسازی همین قضاوت طراحی شدن. - بهینهسازی برای کیفیت بیرونی (کلیکهای کاربر): تامبنیل عکس شما، تبلیغ شما در صفحه نتایجه. ورژنهای مختلف از برش، ترکیببندی و نسبت ابعاد رو تست کنید تا ببینید کدومها بیشترین نرخ کلیک رو از کوئریهای مرتبط میگیرن. عملکرد رو زیر نظر داشته باشید تا سیگنالهای مثبت مثل
h2cرو به حداکثر برسونید و از استراتژیهایی که ممکنه باعث امتیاز بالایclickMagnetScoreبشن، دوری کنید.
۳. حداکثر کردن دیده شدن تجاری و درآمدزا
- برای فروشگاههای اینترنتی: پیادهسازی بینقص دادههای ساختاریافته Product و MerchantListing غیرقابل مذاکره است. این مکانیزم مستقیم برای پر کردن ساختار داده
shoppingProductInformationو واجد شرایط شدن برای نتایج غنی قابل خرید در تمام سرویسهای گوگله. - برای صاحبان محتوای بصری: یک گردش کار دقیق و خودکار برای جاسازی متادیتای کامل IPTC در هر فایل عکس قبل از آپلود ایجاد کنید. این مستقیمترین و مقیاسپذیرترین راه برای پر کردن فیلد
imageLicenseInfo، گرفتن نشان «Licensable» و جذب ترافیک واجد شرایط به صفحات فروش یا لایسنس شماست.
۴. آیندهنگری برای دنیای چندوجهی و هوش مصنوعی
این ساختار داده یک نقشه ثابت نیست؛ این بنیادیه که آینده جستجو بر روی اون ساخته میشه. این دادههای غنی و ساختاریافته، سوخت هوش مصنوعی پیشرفته چندوجهی مثل MUM و Gemini هستن.
نگاهتون به عکسها رو از «تزیینات صفحه» به «بستههای متراکم از دادههای ساختاریافته» تغییر بدید. آینده از آن تصاویریه که پاسخ و زمینه ارائه میدن. این شامل:
- گرافیکهای غنی از اطلاعات: نمودارها و اینفوگرافیکهایی با متن و دادههای واضح و قابل خوندن برای ماشین بسازید.
- عکاسی متراکم از موجودیت: عکسهایی تولید کنید که چندین موجودیت مرتبط با موضوع رو در یک رابطه واضح با هم به تصویر میکشن.
با ساختن محتوای بصری که نه تنها با کلمات کلیدی، بلکه از نظر مفهومی و واقعی متراکمه، شما فقط برای موتور جستجوی امروز بهینهسازی نمیکنید؛ شما در حال فراهم کردن دادههای ساختاریافتهای هستید که برای دیده شدن در موتورهای جستجوی هوشمندتر، محاورهایتر و چندوجهی فردا ضروری خواهند بود.
پرسش و پاسخ
سوال ۱: یعنی اگه عکسم قشنگ نباشه گوگل رتبهشو کم میکنه؟
جواب: سوال خیلی خوبیه! بله، به نوعی همینطوره. گوگل سیستمی به اسم NIMA داره که دو تا چیز رو الگوریتمی اندازه میگیره: یکی کیفیت فنی (که عکس تار نباشه، نورش خوب باشه و…) و یکی هم کیفیت زیباییشناختی (که ترکیببندی و جذابیت بصری داشته باشه). پس یک عکس که از نظر فنی ضعیف یا از نظر هنری نچسب باشه، امتیاز کمتری میگیره و این میتونه روی رتبهبندیش تاثیر منفی بذاره. البته این فقط یکی از دهها فاکتوره.
سوال ۲: پس با این حساب دیگه متن جایگزین یا همون alt text مهم نیست؟
جواب: نه اصلا! اتفاقا هنوز خیلی مهمه. فکر کن رتبهبندی عکس مثل یک پازل سه تیکه است. یک تیکه «محتوای داخل خود عکسه» (که گوگل با هوش مصنوعی میفهمه)، یک تیکه «ارتباطش با موجودیتهای دنیای واقعی» (مثل برج ایفل) و تیکه سوم «بافتار روی صفحه» است. تگ آلت، کپشن و متن اطراف عکس دقیقا همین تیکه سوم هستن و به گوگل کمک میکنن مطمئن بشه که درکش از عکس درسته و با محتوای کلی صفحه شما همخونی داره. پس تگ آلت هنوز یک بخش حیاتی از این پازله.
سوال ۳: گوگل چطوری میفهمه عکس من کپیه یا اصل؟ منبع اصلی رو از کجا تشخیص میده؟
جواب: گوگل برای این کار یک ردپای زمانی خیلی هوشمندانه داره. یک فاکتور کلیدی به اسم contentFirstCrawlTime وجود داره که یعنی «اولین باری که محتوای این عکس در کل اینترنت دیده شده». وقتی شما یک عکس اورجینال منتشر میکنید، گوگل این زمان رو برای شما ثبت میکنه. اگه کسی بعدا عکس شما رو کپی کنه، contentFirstCrawlTime اون عکس کپی شده، همون تاریخ اولین باریه که شما منتشر کردید. اینطوری گوگل میفهمه که شما منبع اصلی هستید و بهتون اولویت میده.
سوال ۴: اگه من توی عکسم متن بنویسم، مثلا روی یک اینفوگرافیک، گوگل میتونه اون رو بخونه؟
جواب: بله، صد در صد! گوگل از تکنولوژی خیلی قدرتمندی به اسم OCR (تشخیص نوری کاراکتر) استفاده میکنه. در واقع از چندین سیستم OCR مختلف استفاده میکنه تا مطمئن بشه تمام متنهای داخل عکسها رو استخراج میکنه. این یعنی هر کلمهای که روی اینفوگرافیک، اسکرینشات یا حتی یک عکس معمولی مینویسید، برای گوگل قابل خوندن، ایندکس شدن و جستجو شدنه. پس به متنهای داخل عکستون هم به اندازه متنهای معمولی صفحه اهمیت بدید.
سوال ۵: این قضیه «کلیک مگنت» (Click Magnet) که گفتید چیه؟ یعنی کلیک زیاد گرفتن بده؟
جواب: نه، کلیک زیاد گرفتن خوبه، اما به شرطی که «کلیک درست» باشه. گوگل یک امتیاز منفی به اسم clickMagnetScore داره. این امتیاز برای عکسهاییه که با یک تامبنیل گولزننده، از جستجوهای نامرتبط و «بد» کلی کلیک جذب میکنن. مثلا عکسی که مبهمه و کاربر فکر میکنه یک چیز دیگهاس، روش کلیک میکنه و بعد سریع برمیگرده. گوگل این رفتار رو تشخیص میده و اون عکس رو به عنوان یک «کلیکبیت» جریمه میکنه. پس هدف اینه که از جستجوهای مرتبط کلیک بگیریم، نه اینکه به هر قیمتی کاربر رو به کلیک کردن وادار کنیم.
منابع
- [1] The Definitive Guide To Image SEO: Google Content Warehouse ImageData Schema Analysis – Hobo

دیدگاهتان را بنویسید