شروع ثبت نام دوره “امنیت شبکه های کامپیوتری” 

خزش یا کراول (Crawl) چیست؟

فهرست مطالب

خزش یا کراول (Crawl) چیست؟

نوبت به خزیدن صفحات رسید تا برایتان توضیح دهیم که از کجا شروع کنید، چه کارهایی را انجام دهید. خزیدن برای هر سایت بزرگ و کوچکی ضروری است اگر خزشی در محتوا و صفحات سایت شما صورت نگیرد شانس دیده شدن در گوگل را نخواهید داشت. برایتان شاید سوال پیش بیاید که چگونه خزیدن را بهینه کنیم و محتوا و سایت خود را در معرض دید کاربران قرار دهید با ما همراه باشید تا صفر تا صد این موضوع را آموزش ببینید.

خزش یا کراول (Crawl) چیست؟

در زمینه سئو، خزیدن فرآیندی است که در آن ربات‌های موتور جستجو به طور سیستماتیک محتوای یک وب‌سایت را کشف می‌کنند. این ممکن است متن، تصاویر، ویدیوها یا انواع فایل‌های دیگری باشد که برای ربات‌ها قابل دسترسی است.

ایندکس پذیری (indexability) چیست؟

ایندکس پذیری (indexability) یک صفحه از سایت به این معنی است که موتورهای جستجو (مانند گوگل) می‌توانند صفحه را به فهرست خود برای دیده شدن آن صفحه اضافه کنند.

فرایند افزودن یک صفحه از سایت به فهرست را نمایه سازی (indexing) می‌نامند . این بدان معناست که گوگل، صفحه و محتوای آن را تجزیه و تحلیل می‌کند و آن را به پایگاه داده میلیاردها صفحه (به نام فهرست گوگل) اضافه می‌کند.

تفاوت بین خزش و ایندکس شدن در چیست؟

یکی از جنبه‌های مهم بهینه سازی موتورهای جستجو (SEO) برای درک خزیدن (crawl) در مقابل نمایه سازی (index) است. خزیدن زمانی اتفاق می‌افتد که گوگل یا موتور جستجوی دیگر، رباتی را به یک صفحه از سایت شما می‌فرستد و در صفحه شما کراول می‌کند. این همان چیزی است که Google Bot یا سایر خزنده‌ها آنچه را که در صفحه سایت شما وجود دارد را مشخص می‌کنند. اجازه ندهید این با ایندکس شدن آن صفحه اشتباه گرفته شود. خزیدن اولین بخش از این است که یک موتور جستجو صفحه شما را شناسایی کرده و آن را در نتایج جستجو نشان می‌دهد. با این حال، خزیدن صفحه شما لزوماً به این معنی نیست که صفحه شما ایندکس شده است (یا خواهد شد).  برای یافتن صفحه سایت خود در serp گوگل یا هر موتور جستجو دیگر، ابتدا باید صفحه خزیده شود و سپس ایندکس شود.

آیا قابلیت خزش برای سئو سایت اهمیت دارد؟

هم خزیدن و هم شاخص‌پذیری برای سئو بسیار مهم هستند. ابتدا گوگل صفحه را می‌خزد. سپس آن را ایندکس می‌کند. تنها در این صورت می‌تواند صفحه را برای عبارت‌های جستجوی مرتبط رتبه بندی کند.

به عبارت دیگر: بدون اینکه ابتدا خزیده و ایندکس شود، صفحه توسط گوگل رتبه بندی نمی‌شود. بدون رتبه = بدون ترافیک جستجو.

برای افزایش crawling سایت چه کنیم؟

لینک‌های داخلی

لینک‌های داخلی تاثیر مستقیمی بر خزیدن و ایندکس شدن سایت شما را دارند. به یاد داشته باشید که موتورهای جستجو از ربات‌ها برای خزیدن و کشف صفحات سایت شما استفاده می‌کنند. لینک‌های داخلی به عنوان یک نقشه راه عمل می‌کنند و ربات‌ها را از یک صفحه به صفحه دیگر در وب سایت شما هدایت می‌کنند.

لینک‌های داخلی خوب سبب آسان‌تر شدن کار ربات‌های موتورهای جستجو برای پیدا کردن صفحات سایت شما است.

Robots.txt

robots.txt یک فایل در وب سایت شما است که به ربات‌های موتور جستجو می‌گوید که به کدام صفحات می‌توانند دسترسی داشته باشند.

اجزای robots.txt

  • User-agent: * : این خط مشخص می‌کند که قوانین برای همه ربات‌های موتور جستجو اعمال می‌شود.
  • Allow: /blog/ : این دستورالعمل به ربات‌های موتور جستجو اجازه می‌دهد تا صفحات را در فهرست “/blog/” بخزند. به عبارت دیگر، تمام پست‌های وبلاگ مجاز به خزیدن هستند.
  • Disallow: /blog/admin/ : این دستورالعمل به ربات‌های موتور جستجو می‌گوید که در قسمت اجرایی وبلاگ اجازه خزش را ندارند.

هنگامی که موتورهای جستجو ربات‌های خود را برای بررسی وب سایت شما می‌فرستند، ابتدا فایل robots.txt را بررسی می‌کنند تا محدودیت‌ها را بررسی کنند.

XML Sitemap

XML Sitemap شما، نقش مهمی در بهبود خزیدن و فهرست‌بندی وب‌سایت شما دارد. تمام صفحات مهم سایت شما، که می‌خواهید خزیده شوند و ایندکس شوند، به ربات‌های موتور جستجو نشان داده می‌شود.

کیفیت محتوا

ربات‌های موتور جستجو محتوای باکیفیت را دوست دارند. هنگامی که محتوای شما به خوبی نوشته شده، آموزنده و مرتبط با کاربران باشد، می‌تواند توجه بیشتر موتورهای جستجو را به خود جلب کند.

موتورهای جستجو می‌خواهند بهترین نتایج را به کاربران خود ارائه دهند. بنابراین آنها خزیدن و فهرست بندی صفحات با محتوای درجه یک را در اولویت قرار می‌دهند.

مسائل فنی

مشکلات فنی می‌تواند مانع از خزیدن و ایندکس شدن وب سایت شما توسط ربات‌های موتور جستجو شود.

اگر وب سایت شما در زمان بارگذاری صفحه کند باشد، لینک‌های شکسته یا redirect loops داشته باشد، می‌تواند مانع از توانایی ربات‌ها برای حرکت در وب سایت شما شود.

مشکلات فنی همچنین می‌تواند مانع از ایندکس صحیح صفحات سایت شما توسط موتورهای جستجو شود.

به عنوان مثال، اگر وب سایت شما دارای مشکلات محتوای تکراری است یا از برچسب‌های متعارف به طور نامناسب استفاده می‌کند، موتورهای جستجو ممکن است برای درک اینکه کدام نسخه از یک صفحه را فهرست بندی و رتبه بندی کنند مشکل داشته باشند.

چنین مسائلی برای خزش موتورهای جستجوی در سایت شما مضر است. این مشکلات را در اسرع وقت شناسایی و برطرف کنید.

اصطلاحات مربوط به خزش یا کراول

در این میان به اصطلاحات مربوط به خزش یا کراول هم اشاره کرده‌ایم که به چند مورد از آن‌ها به همراه توضیحات پرداخته‌ایم.

کراولر (crawler)

کراولر یا همان خزنده، ربات‌هایی هستند که به صفحات سایت شما مراجعه و خزش را انجام داده و سبب ایندکس شدن صفحه می‌شود.

بودجه خزش (crawl budget)

بودجه خزش بازه زمانی است که کراولرها به صفحه‌هایی از یک سایت مراجعه می‌کنند و خزش را در آن صفحه‌ها انجام می‌دهند.

ایندکسینگ (indexing)

ایندکسینگ به بیان ساده، معرفی و انتشار یک صفحه از سایت شما به گوگل است.

خزنده‌ها چطور کار می‌کنند؟

اینترنت دائماً در حال تغییر و گسترش است. ربات‌های خزنده وب از یک seed یا لیستی از URL های شناخته شده شروع می‌کنند. آنها ابتدا در صفحات سایت شما که URL آن‌ها شناخته شده است، می‌خزند. همانطور که آنها در صفحات سایت شما می‌خزند، لینک‌هایی که به URL های دیگر (صفحات دیگر) داده‌اید را پیدا می‌کنند، و آنها را به لیست صفحاتی اضافه می‌کنند تا در مرحله بعدی خزیده شوند.

چطور از کراولرها رتبه بگیریم؟

اگر خزنده‌ها، یک وب‌سایت را بررسی نکنند و در آن خزشی صورت نگیرد، نمی‌توانند آن را ایندکس کنند و در نتایج جستجو نشان بدهند. به همین دلیل، اگر می‌خواهید وب سایت شما ترافیک ارگانیک را از نتایج جستجو دریافت کند، بسیار مهم است که ربات‌های خزنده وب را مسدود نکرده باشید.

خزنده‌های مشهور

ربات‌های موتورهای جستجو اصلی عبارت است از:

گوگل: googlebot که به دو خزنده تقسیم بندی می‌شوند:

  • جستجوهای دسکتاپ (googlebot desktop)
  • جستجوهای موبایل (googlebot mobile)

بینگ: bingbot

داک داک گو (duckduckgo): داک داک بات (duckduckbot)

یاهو جستجو: slurp

یایدو: Baiduspider

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *