Robots.txt چیست؟ هنگامی که موتورهای جستجو به طور مرتب از سایت شما بازدید می کنند و مطالب شما را فهرست می کنند بسیار عالی است، اما اغلب موارد زمانی است که بخش هایی از محتوای آنلاین شما مستقیما چیزی نیست که شما می خواهید. به عنوان مثال، اگر شما دو نسخه از یک صفحه داشته باشید (یکی برای مرور در مرورگر و دیگری برای چاپ)، شما ترجیح می دهید نسخه چاپی را از خزیدن حذف کنید، در غیر این صورت شما یک مجازات محتوای تکراری را دریافت می کنید(یک عامل تاثیر گذار در سئو صفحات به شمار میرود). همچنین اگر شما تصور می کنید که اطلاعات حساسی در سایت شما وجود دارد و نمی خواهید کسی آن را ببینید و ترجیح می دهید که موتورهای جستجو این صفحات را نشان ندهند.

وظیفه فایل robots.txt محدود کردن دسترسی روبات های گوگل و سایر موتورهای جستجو به محتویات سایت شماست. این روبات ها بصورت کاملا اتوماتیک عمل کرده و قبل از ورود به هر سایت یا صفحه ای از وجود فایل robots.txt بر روی آن و محدود نبودن دسترسی محتوا مطمئن میشوند. تمامی روبات های استاندارد در اینترنت به این قوانین و محدودیت ها احترام گذاشته و صفحات شما را بازدید و ایندکس نخواهند کرد ولی روبات های اسپم توجهی به این فایل نخواهند داشت. اگر تمایل به حفظ امنیت محتوایی خاص و پنهان کردن آن از دید روبات های اینترنتی دارید بهتر است از پسورد گذاری صفحات استفاده کنید.

یک راه برای گفتن به موتورهای جستجو که از نمایش فایل ها و پوشه ها در وب سایت شما اجتناب شود با استفاده از متا تگ های ربات ها است. اما از آنجایی که تمام موتورهای جستجو به عنوان metatags خوانده نمی شوند، ماتاگ Robots می تواند به سادگی غیر قابل مشاهده شود. یک راه بهتر برای اطلاع دادن به موتورهای جستجو در مورد تصمیم شما این است که از فایل robots.txt استفاده کنید.

Robots.txt یک متن (نه HTML) است که در سایت خود قرار داده اید تا به روبات های جستجو بگویید که صفحاتی هستند که مایل نیستید آنها را مشاهده کنید. Robots.txt به هیچ وجه اجباری برای موتورهای جستجو نیستند، اما به طور کلی موتورهای جستجو از آنچه که از آنها خواسته نشده است اطاعت می کند. مهم این است که مشخص شود که robots.txt راه دیگری برای جلوگیری از خزش موتورهای جستجو در سایت شما نیست (یعنی یک فایروال نیست یا نوعی از حفاظت از رمز عبور) و این واقعیت است که شما یک فایل robots.txt قرار داده اید چیزی شبیه قرار دادن یادداشت “لطفا در ورودی های نام برده وارد نشوید”.

مکان قرارگیرد فایل robots.txt

مکان robots.txt بسیار مهم است و باید در دایرکتوری اصلی باشد، زیرا در غیر این صورت عاملهای کاربران (موتورهای جستجو) قادر به پیدا کردن آن نخواهند بود. آنها کل سایت را برای فایل با نام robots.txt جستجو نمی کنند. در عوض، آنها ابتدا در دایرکتوری اصلی (به عنوان مثال http://mydomain.com/robots.txt ) نگاه می کنند و اگر آنها آن را پیدا نکنند، به سادگی فرض می کنند که این سایت فایل robots.txt ندارد. بنابراین، اگر شما robots.txt را در جای مناسب قرار ندهید، تعجب نکنید که موتورهای جستجو تمام سایت شما را فهرست می کنند.

مفهوم و ساختار robots.txt بیش از یک دهه پیش توسعه داده شده است و اگر شما علاقه مند به کسب اطلاعات بیشتر در مورد آن هستید، به وب سایت robots.txt مراجعه کنید.

عکاسی معماری
شاید این مطلب را نیز بپسندید

ساختار فایل Robots.txt

ساختار robots.txt بسیار ساده است (و به سختی انعطاف پذیر) – این فهرست بی نهایت از عامل های کاربر و فایل ها و دایرکتوری های مجاز است:

  • user-agent (عامل کاربر)
  • disallow (نادیده گرفتن)

User-agent نشان دهنده نوع روباتی است که نباید به صفحه دسترسی داشته باشد و dissallow برای اینکه به خزنده ها بگوید ورود به این مکان ها غیرقانونی است (دستور Disallow به ربات‌ها می‌گوید که چه فولدرهایی از سایت شمارا نباید بررسی کنند). علاوه بر ورودیهای “user-agent:” و “disallow:”، میتوانید خطوطی را به صورت کامنت اضافه کنید. (با قرار دادن علامت # را در ابتدای خط)

برای مثال اگر مایل نیستید موتورهای جستجو، تصاویر سایت شمارا ایندکس کنند، می‌توانید تمام تصاویر سایت را درون یک پوشه در هاستینگ خود قرار دهید و از دسترس موتورهای جستجو خارج سازید. فرض کنیم که تمام این تصاویر را به درون فولدر “Photos” منتقل کرده‌اید. برای آنکه به موتورهای جستجو بگویید که این تصاویر را ایندکس نکند، باید دستوری مانند زیر را بنویسید:

User-agent: *
Disallow: /photos

دستور Allow به شما امکان می‌دهد تا به ربات گوگل بگویید که اجازه مشاهده یک فایل، در فولدری که Disallowed شده را دارد. برای درک بهتر این دستور، اجازه بدهید که از مثال قبلی استفاده کنیم :

تصور کنید درون پوشهٔ photos ما که در هاستینگ سایت قرار دارد، تصویری به نام seo.png وجود دارد که می‌خواهیم Googlebot آن را ایندکس کند. با استفاده از دستور Allow می‌توانیم به ربات گوگل بگوییم که این کار را انجام دهد:

* :User-agent
Disallow: /photos
Allow: /photos/seo.png

برای عدم دسترسی روبات ها به تمام محتویات سایت از کاراکتر / استفاده میکنیم :

Disallow: /

برای عدم دسترسی به یک فولدر یا دسته از سایت نام آن را وارد کنید :

Disallow: /blog/

توجه داشته باشید که فایل robots.txt نسبت به بزرگ و کوچک بودن حروف انگلیسی حساس بوده و آدرس صفحات باید به دقت وارد شوند.

هنگامی که شما شروع به ساخت فایل های پیچیده، یعنی شما تصمیم می گیرید که به عامل های مختلف کاربر دسترسی داشته باشید مشکلات می توانند شروع شوند، اگر شما توجه خاصی به تله های یک فایل robots.txt نداشته باشید. اشتباهات رایج شامل اشتباهات و دستورالعمل های متناقض است.

موتور جستجوی گوگل چندیدن نوع روبات مخصوص بخود دارد که معروفترین آنها با نام Googlebot شناخته می شود و وظیفه بررسی و ایندکس صفحات وب را برعهده دارد. روبات Gogglebot-image نیز مسئول بررسی تصاویر سایت ها و ایندکس کردن آنها می باشد.

مثالی از یک فایل robots.txt :

User-agent: *
Disallow: /temp/
User-agent: Googlebot
Disallow: /images/
Disallow: /temp/
Disallow: /cgi-bin/

با توجه به نحو ساده ی یک فایل robots.txt، شما همیشه می توانید آن را بخوانید تا ببیند آیا همه چیز خوب است یا خیر، اما می توانید از این سایت اعتبار سنج robots.txt استفاده کنید.

در این موارد، هنگامی که یک فایل robots.txt پیچیده دارید، به عنوان مثال شما دستورالعمل های مختلفی برای عوامل مختلف کاربر ارائه می دهید و یا لیستی از دایرکتوری ها و زیر شاخه ها را در اختیار ندارید، نوشتن فایل به صورت دستی می تواند یک درد واقعی باشد. اما نگران نباشید ابزارهایی وجود دارند که فایل را برای شما ایجاد می کنند.