تگ X-Robots چیست، چگونه آنرا در وب سرور پیاده کنیم؟

تگ x-robots در htaccess

موتورهای جستجو در سه مرحله کلی زیر کار خود را انجام می دهند، هر مرحله نیز تسک های مختص به خود را دارد:

  1. خزیدن(Crawling)
  2. ثبت کردن(Indexing)
  3. بازیابی یا تولید نتیجه(Creating Results)

ما در این آموزش فقط با اولین مرحله سر و کار داریم، جایی که اسپایدر(Spider) یا خزنده(Crawler) موتور جستجو وظیفه جمع آوری و تامین داده های مورد نیاز یک موتور جستجو را بر عهده دارد، به عنوان مثال اسپایدر گوگل بات که متعلق به جستجوگر گوگل است به وب سایت های مختلف سرک می کشد و با استفاده از تکنیک هایی که در اختیار دارد سعی می کند لینک ها، فایل های HTML، CSS، Javascript و … را دنبال کند.

اسپایدرها در هنگام بازدید صفحات از هر پیوندی(داخلی و خارجی) برای پیدا کردن و کشف صفحات جدید استفاده می کنند و در نهایت داده های جمع آوری شده را برای سازماندهی، مرتب سازی و ثبت به موتور جستجوی مربوطه ارسال می کنند، آنها این عملیات را به طور مداوم انجام می دهند و حتی تغییرات جدید یک وب سایت را به راحتی شناسایی می کنند.

آیا راهی وجود دارد که این رفتار پیش فرض اسپایدر را تغییر دهیم و از ایندکس شدن صفحات و فایل های مدنظرمان جلوگیری کنیم؟

پاسخ مثبت است، برای اینکار می توانید از روش های زیر استفاده کنید:

  • فایل robots.txt
  • متا تگ robots
  • تگ X‑Robots

در اولین و معمول ترین روش باید یک فایل متنی ساده با نام robots.txt در روت وب سایت تان ایجاد کنید و سپس محدودیت های مدنظرتان را در قالب قوانین(Rules) برای اسپایدرها مشخص نمائید. جزئیات کامل این فایل را می توانید در مقاله آنچه باید از فایل Robots.txt بدانید! مطالعه فرمائید.

متا تگ robots هم یک تگ HTML معمولی است که در بخش Head صفحه وب قرار می گیرد، در واقع این تگ فقط در صفحات وب قابل استفاده است.

به عنوان نمونه کد زیر به اسپایدر موتور جستجو می گوید که این صفحه را ایندکس نکن.

<meta name="robots" content="noindex" />

 

تگ X‑Robots چیست؟

متا تگ robots برای noindex کردن صفحات وب بسیار مناسب است، اما برای جلوگیری از ایندکس فایل های PDF، ویدیو یا تصاویر چکاری باید انجام دهیم؟

در چنین مواقعی استفاده از تگ X-Robots و فایل robots.txt راه حل مناسبی خواهد بود.

به عنوان مثال قوانین زیر مانع ایندکس فایل های PDF وب سایت توسط اسپایدر گوگل بات خواهد شد، کافی است خطوط زیر را به فایل robots.txt اضافه کنید.

User-agent: Googlebot 
Disallow: /*.pdf$

 

در اینجا لازم است به این نکته اشاره کنیم که عملکرد تگ X‑Robots با دو روش قبلی متفاوت است، در واقع این تگ بخشی از هدر HTTP است که توسط وب سرور ارسال می گردد و باید در سطح سرور پیاده سازی شود، شما می توانید کلیه قوائدی که با متا تگ robots و فایل robots.txt قابل انجام است را با این تگ پیاده سازی نمائید.

اما رویکرد ایده ال این است که از از تگ X-Robots برای محدود کردن دسترسی به فایل های غیر HTML وب سایت تان استفاده کنید.

چگونه تگ X‑Robots را تنظیم کنیم؟

پیکربندی X-Robots بسته به نوع وب سروری که استفاه می کنید متفاوت است. به عنوان مثال در وب سرور آپاچی باید قوانین مدنظرتان را در فایل پیکربندی آپاچی یعنی htaccess قرار دهید، در صورتی که با این فایل آشنایی کافی ندارید پیشنهاد می کنیم قبل از اعمال هرگونه تغییری ابتدا مطلب آموزش استفاده از فایل htaccess. در وردپرس را مطالعه فرمائید.

در ادامه برای درک بهتر موضوع می خواهیم اینبار با تگ X‑Robots مانع ایندکس فایل های PDF شویم، پس کدهای زیر را در فایل htaccess قرار دهید.

<Files ~ "\.pdf$">
    Header set X-Robots-Tag "noindex"
</Files>

 

یا در سناریویی دیگر قصد داریم امکان دسترسی به فایل های png، jpg و gif را مسدود کنیم.

<Files ~ "\.(png|jpeg|gif)$">
    Header set X-Robots-Tag "noindex"
</Files>

 

و در نهایت برای مشاهده هدر HTTP افزونه Web Developer مرورگر کروم را نصب کنید، پس از فعال سازی این افزونه از منوی Information گزینه View Response Header را انتخاب نمائید.

جمع بندی

همانطور که ملاحظه کردید روش های مختلفی برای کنترل رفتار اسپایدر وجود دارد، فقط باید بسته به نیاز و سناریویی که مدنظرتان است مسیر درست را انتخاب کنید. به عنوان مثال برای noindex کردن یک صفحه وب متا تگ robots گزینه معقول و بهتری خواهد بود، در صورتی که از سیستم مدیریت محتوای وردپرس استفاده می کنید افزونه Yoast SEO اینکار را به بهترین شکل ممکن انجام می دهد.

برچسب ها
سعید یاورنیا 117 نوشته 117 دیدگاه

توسعه دهنده وب، کارشناس ارشد نرم افزار.

دیدگاهتان را بنویسید.

نشانی ایمیل شما منتشر نخواهد شد، بخش‌های موردنیاز با * مشخص شده‌اند.