हमारे बारे में

संपर्क करें

Technology robots.txt क्या है इसे कैसे सेटअप करना चाहिए

robots.txt क्या है इसे कैसे सेटअप करना चाहिए

Search engines जैसे गूगल या बिंग एक किस्म के Program का उपयोग करते हैं जो इंटरनेट पर मौजूद Websites पर जाकर जरूरी Information collect करता है और एक वेबसाइट से दूसरी वेबसाइट में जाता रहता है। इस तरह के Programs को Web callers, Spears, Bots या Robots कहा जाता है हाय मै हू अनिल और आज हम जानेगें की robots.txt क्या है इसे कैसे सेटअप करना चाहिए।

इतिहास

इंटरनेट के एकदम शुरुआती दौर में जब Computing power और मेमोरी दोनों काफी Costly होती थीं । कुछ Websites owners उस समय के Search engines के इन Callers से बहुत परेशान हुए क्योंकि तब वेबसाइट्स कम होती थीं और ये Callers या Robots बार बार वेबसाइट को विजिट करते थे जिससे उनके सर्वर असली इन्सानी Visitors को वेबसाइट नहीं दिखा पाते थे और वेबसाइट के Researchers खत्म हो जाते थे।

इस संकट से निपटने के लिए कुछ लोगों ने robots.txt का आइडिया दिया जो Search engine या किसी भी टाइप के Callers और Web robots को ये Instruction देगी कि वेबसाइट के मालिक उन्हें वेबसाइट के किस हिस्से को विजिट करने की अनुमति दे रहे हैं या किसे सही नहीं दे रही हैं । robots.txt टेक्स्ट फाइल्स होती हैं जो वेबसाइट के रूट फोल्डर में होती हैं। हम एक डोमेन Examination लेते हैं https://www.tanvish.in। जब भी कोई Search engine या Robot इस वेबसाइट को Visit करेगा तो वो सबसे पहले https://www.tanvish.in/robots.txt टेक्स्टबुक को ढूंढेगा अगर फाइल नहीं मिलती है

तो कोई दिकत नहीं है वो Robot पूरी वेबसाइट को Visit करके उसके किसी पार्ट को अपने हिसाब से Index करेगा या Information Store कर लेगा अगर उसे https://www.tanvish.in/robots.txt टेक्स्ट पर फाइल मिलती है तो उसे पढ़ेगा अपने Technically उसके Instruction को Follow करेगा। बड़े Real word में डाटा Aggregators या इमेल गेदर करने वाले Bots, Hackers के बनाए हुए Search box इस Section को ठेंगा दिखाकर आगे बढ़ जाते हैं तो यहीं पर हमें कुछ बातें क्लियर हो जाती हैं

  1. नंबर एक robots.txt एक Text फाइल होती है।
  2. नंबर दो robots.txt हमेशा वेबसाइट के Main root folder में होती है किसी परिसर के अंदर नहीं होती है।
  3. नंबर 3 इसका नाम हमेशा robots.txt ही होता है ये robot.txt नहीं हो सकता है ये Capital में नहीं हो सकता है नाम हमेशा के संवेदनशील होगा।
  4. नंबर 4 किसी भी वेबसाइट की Robots text file को आप उसके Domain name के आगे robots.txt लगाकर देख सकते हैं।
  5. नंबर 5 इस फाइल में दिए हुए Instructions को कोई Robot मानेगा या नहीं मानेगा इस बात की कोई गारंटी नहीं है।
  6. बड़े सर्च इंजन Companies जैसे गूगल, बिंग, याहू इन Instructions का पालन करती हैं।

robots.txt फाइल कैसे सेटअप करना चाहिए

ये है robots.txt फाइल का एक मिनिमम Content अगर आप सभी Search engine Robots को अपनी वेबसाइट के सभी Pages तक जाने देना चाहते हैं तो आपकी robots.txt फाइल में सिर्फ इतना ही होना चाहिए एक Text file की जो पहली पंक्ति में User-agent:* ये स्टार का मतलब है कि सभी टाइप के सर्च इंजन Robots के लिए Instructions हैं। Normal web technologies में स्टार का मतलब वाइल्ड कार्ड होता है। इसके बाद दूसरी लाइन में Disallow: इसमें Disallow के आगे कुछ भी नहीं है तो इसका मतलब हुआ कि किसी भी तरह के सर्च इंजन Robots के लिए वेबसाइट का कोई भी हिस्सा Disallow यानी कि प्रतिबन्ध नहीं है। अगर यही Disallow के आगे (/) फॉरवर्ड स्लैश लगा हुआ हो तो उसका मतलब हो गया कि Root directory की सारी फाइल्स Disallow हैं।

पर किसी भी वेबसाइट के डोमेन में Forward लाने के बाद ही हम किसी पेज का लिंक बना पाते हैं एवं होम पेज भी Forward/ के बाद index.html या index.php होती है ब्राउजर उसे Show नहीं करते यह अलग बात है लेकिन अगर आप Disallow:/ लगा देते हैं तो आप अपनी वेबसाइट की सभी फाइल्स को Search engines के लिए Block कर रहे हैं।

अगर आप किसी खास सर्च इंजन को ही अपनी वेबसाइट पर ब्लॉक करना चाहते हैं तो इस फाइल की जो पहली लाइन User-agent:* यहां पर स्टार यानि कि वाइल्ड कार्ड की जगह उस Search bots का नाम दे सकते हैं और फिर अपना Instruction नीचे लिख सकते हैं सारे मेजर Search engines bot का User name या User agent अलग होता है जिसे गूगल का है Google bot, Yahoo का Wrestler या Microsoft search का है Msnbot अगर आप सारे यूजर्स की लिस्ट देखना चाहते हैं तो इस बोरिंग से पेज पर जाकर देख सकते हैं

robots.txt SEO में क्या फायदा होता है

अभी वर्तमान के लिए इंडिया में गूगल वेब ट्रैफिक का 98% से भी ज्याद Handle करता है तो हम गूगल ही बात करते हैं । गूगल हर वेबसाइट को एक Crawl बजट Allot करता है जो ये तय करता है कि गूगल का Robot आपकी वेबसाइट को कितनी बार Visit करेगा ये Crawl budget दो चीजों पर निर्भर करता है।

  • नंबर 1 आपका सर्वर Crawl करते समय Slow तो नहीं हो रहा ऐसा तो नहीं होता कि जब गूगल का रोबोट आपकी वेबसाइट को Visit करता है तो उस समय वेबसाइट की जो Real visitor हैं उनके लिए आपकी वेबसाइट Slow हो जाए।
  • नंबर 2 आपकी वेबसाइट कितनी पॉपुलर है। ज्यादा पॉपुलर Websites पर जिन ज्यादा Content होता है उन्हें गूगल जल्दी Visit करना चाहता है ताकि वह Content के साथ अपने आपको Update रख सकें।

यह भी पढ़े: T-SERIES दुनिया के सबसे बड़े YOUTUBE चैनल

इसलिये अगर आप चाहते हैं कि आपकी वेबसाइट गूगल के Scroll budget का सही इस्तेमाल करे तो आप robots.txt से अपनी वेबसाइट के अन्य जरूरी Pages को ब्लॉक कर सकते हैं जैसे लॉगिन पेज, इंटरनेट यूज के Documents वाला फोल्डर या पेज, पुराने Duplicate content वाले Pages इन सभी को Google bot Disallow करके आप अपने Crawl बजट को Important pages के लिए बचाकर रख सकते हैं।

robots.txt से आप अपनी वेबसाइट के Under Maintenance वाले पार्ट को भी Temporary index होने से रोक सकते हैं अगर आपकी वेबसाइट में कोई ऐसा हिस्सा है जो आपकी कंपनी के कर्मचारियों के लिए ही है जिसे आप सार्वजनिक रूप से Search में नहीं दिखाना चाहते हैं आप उसे भी robots.txt में अब ब्लॉक कर सकते हैं । For exam मान लेते हैं कि आपकी वेबसाइट tanvish.in और उसमें फोल्‍डर है Sample और उसका एक पेज है Sample.html तो इस Sample फोल्डर की सारी फाइल्स को Search engines से छुपाने के लिए आप robots.txt में ये का इस्तमाल करेंगे और Sample.html को छुपाने के लिए इस कोड को इस्तमाल करेंगे।

इसके अलावा robots.txt फाइल से आप Search robots को अपनी वेबसाइट के Site map का लिंक भी दे सकते हैं जिसके लिए आपको सिर्फ ये लाइन जोड़नी होगी।

robots.txt फाइल DelayTimers

अभी हम थोड़ी देर पहले बात कर रहे थे की कैसे Search engines के Bots की Crawling के वजह से वेबसाइट Normal visitor के लिए थोड़ी Slow हो सकती है और अगर आपकी वेबसाइट Use traffic attract कर दिया तो ये ढीले आपके लिए Costly हो सकता है जिसके लिए आप अपनी robots.txt फाइल में एक Delay timer भी लगा सकते हैं जिसे सर्च इंजन Robots एक पेज को Crawl करने के बाद दूसरे पेज को Crawl करने से पहले कुछ देर Wait करेंगे।

ये Timer या Crawl का Delay, By default received seconds में तय किया जा सकता है । इसके लिए आपको ये कोड अपनी robots.txt फाइल में देना होगा Crawl-delay: 10 एंड जो भी जितने मिली सेकेंड का Wait time देना चाहते हैं आप दे सकते हैं उदाहरण के लिए हमने 10 दे दिया है तो इस 10 का मतलब हुआ कि Crawler एक पेज को Crawl करने के बाद 10 मिली सेकेंड रुकेगा और फिर दूसरे पेज पर जाएगा जिससे आपके सर्वर को एक Breathing room मिल जाएगा और आपकी साइट से Suddenly slow नहीं होगी।

अभी हाल ही में एक जुलाई को गूगल ने ये घोषणा किया कि वो robots.txt फाइल में मौजूद जो No index request होती थीं उनको भाव देना बंद कर रहे हैं और इस पर Microsoft bing ने भी Reaction दिया कि हम तो कभी उसे फॉलो करते नहीं थे।

No index, Disallow से अलग है Disallow request पेज को Crawl न करने देने का Instruction देती है और No index, Crawl करने से मना नहीं करती है लेकिन Index करने से मना करती है No index का कोई Return rule अभी तक नहीं था लेकिन गूगल उसे 98% cases में उसको फॉलो करी रहा था पर अब Webmaster को अपने पेज में No index tag लगाना होगा।

इससे पहले कि आज हम इस लेख को खत्म करें कुछ Common websites के robots.txt फाइल को हम देखते हैं।

  1. ये हैं facebook.com की रोबोट फाइल सबसे पहली लाइन में ही Warning मौजूद है और काफी लंबी लिस्ट है।
  2. ये हैं Google.com की रोबोट फाइल
  3. ये है Flipkart की रोबोट फाइल सबसे विचित्र रोबॉट फाइल है।
  4. पेंटियम robots.txt की टोटल 5626 लाइन्स मौजूद हैं।

ऐसे में मैं उमीद करता हू की ये लेख आपको अपनी वेबसाइट की robots.txt फाइल को Maintain करने में और उसे सही से उपयोग करने में आपकी मदद करेगी और अगर कोई Point में भूल गया हूं तो कमेंट जरूर बताइए मैं Reply जरूर दूंगा।

Anil Srivastava
नमस्कार, मैं Anil Srivastava, TanvisH का Technical Author & Co-Founder हूँ! मुझे नयी नयी Technology से सम्बंधित चीज़ों को सीखना और दूसरों को सिखाने में बड़ा मज़ा आता है. मेरी आपसे विनती है की आप लोग इसी तरह हमारा सहयोग देते रहिये और हम आपके लिए नईं-नईं जानकारी उपलब्ध करवाते रहेंगे!

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Subscribe to our newsletter