बॉटमास्टर लैब्स द्वारा आयोजित, नियोजित नहीं। कोई समय नहीं है, प्रतियोगिता के लिए वीडियो की आवश्यकता है, एक नई प्रवृत्ति के रूप में, हालांकि अच्छे स्क्रीनशॉट (मेरे IMHO) के साथ सब कुछ समझाना आसान है, और मैं वास्तव में कुछ भी शूट नहीं करना चाहता। बहुत कम लाभदायक विषय बचे हैं, गूंगा स्पैम अब बिल्कुल भी नियम नहीं है, यहाँ आपको सोचने की ज़रूरत है और कोई भी विषय को शूट नहीं करेगा, यदि केवल अप्रचलित इसे एक सुंदर रैपिंग और थोड़ा पाउडर में डालने का प्रयास करें। :) लेकिन यह हमारे बारे में नहीं है। सामान्य तौर पर, ये 3 "नहीं", मुझे लगता है, मूल रूप से अधिकांश संभावित प्रतिभागियों के लिए प्रतियोगिता में भाग लेने के लिए बाधाएं बन गईं। यह तीन में से एक कार की मरम्मत की तरह है: सस्ते, उच्च गुणवत्ता वाले, तेज - सेवा में वे एक ही समय में केवल 2 शर्तों को पूरा कर सकते हैं। बैठो और चुनें कि आपके करीब क्या है। :) प्रतियोगिता के साथ भी ऐसा ही है: मेरे पास समय है, मैं एक वीडियो बना सकता हूं, लेकिन कोई विषय नहीं है, या मैं एक वीडियो बना सकता हूं, मेरे पास एक विषय है, लेकिन मेरे पास बिल्कुल समय नहीं है, या है खाली समय और एक छोटा सा विषय है, लेकिन वीडियो डराता है। लेकिन यह अच्छा है अगर एक ही समय में 2 शर्तें पूरी हों। ठीक है, चलो गीत छोड़ देते हैं। मैं अपने आप को जारी रखूंगा। मैंने योजना नहीं बनाई थी, इसलिए मैं प्रतियोगिता में भाग लूंगा, मैंने यह भी चुना कि मैं किस लेख को वोट दूंगा। कहो कि आपको क्या पसंद है, लेकिन Doz सॉफ़्टवेयर को बहुत अच्छी तरह से जानता है और इसे बहुत समझदारी से उपयोग करना जानता है। लेकिन आज मुझे पता चला कि प्रतियोगिता में साज़िश दिखाई दी। यह पता चला है कि मैं वोट नहीं कर पाऊंगा, लेकिन केवल शुरुआती लोग जिन्होंने 2011 में सॉफ्टवेयर खरीदा था और प्रतियोगिता उनके लिए डिज़ाइन की गई है, वे इसे कर सकते हैं। मैं थोड़ा हैरान था, लेकिन मालिक एक सज्जन व्यक्ति हैं। प्रतियोगिता एक विज्ञापन अभियान है और सिकंदर बेहतर जानता है कि इसे कैसे संचालित किया जाए। सामान्य तौर पर, मैंने तब एक लेख पोस्ट करने का फैसला किया, यह लिखना कुछ आसान है जब यह स्पष्ट है कि किसके लिए, वास्तव में, पूरे सामूहिक खेत के लिए ऐसा करना असंभव है।
लंबा परिचय समाप्त हो गया है, अब मुद्दे पर।
एक शुरुआत करने वाले को क्या चाहिए जब उसने ऐसा सुपर-हारवेस्टर हासिल कर लिया है, जो कि Xrumer + Hrefer कॉम्प्लेक्स है? यह सही है, इस पर काम करना सीखें और इस भ्रम को दूर करें कि स्पैम शीट शुरू करके आप पैसे कमा सकते हैं। अगर आप ऐसा सोचते हैं, तो तुरंत अपना पैसा चैरिटी में दान कर दें। आपको यह सीखने की ज़रूरत है कि कॉम्प्लेक्स के टूल्स का उपयोग कैसे करें, अधिमानतः इसे अपने लिए तेज करें। "अधिक लेना - अधिक फेंकना" का समय समाप्त हो गया है। मात्रा गुणवत्ता का रास्ता देती है। तो हम अपने लिए आधार इकट्ठा करेंगे, यह न सीखें कि इसे कैसे करें - आप ट्रेन के पीछे पड़ जाएंगे। बेशक, ख्रेफर इसमें हमारी मदद करेंगे। यदि आप Google पर अपने संसाधनों को बढ़ावा देने की योजना बना रहे हैं, तो हमें Google के माध्यम से दाता साइटों की तलाश करने की भी आवश्यकता है। मुझे लगता है कि यह समझने योग्य और तार्किक है। लेकिन ताँबे के पहाड़ की मालकिन होने के नाते गूगल अपनी दौलत सबको नहीं देता। इसके लिए एक दृष्टिकोण की जरूरत है। मैं तुरंत कहना चाहूंगा कि यह आशा न करें कि जनता में आपको जो संकेत मिलते हैं, उसके अनुसार आप कुछ इकट्ठा कर पाएंगे। इसलिए वे सार्वजनिक रूप से उपलब्ध हैं क्योंकि वे बेकार हैं। मैं इस विषय को और आगे नहीं बढ़ाऊंगा। आपको यह बताना बेहतर है कि इसे सही तरीके से कैसे इकट्ठा किया जाए ताकि आप परिणाम देखें, बाकी आप खुद को अंतिम रूप देंगे, मुख्य बात सिद्धांत को समझना है। हमें आवश्यक विशिष्ट इंजनों के संकेतों के अनुसार सही के अनुसार एकत्र करना आवश्यक है, न कि सामान्य रूप से मंचों के संकेतों के अनुसार। शुरुआती लोगों की यह मुख्य गलती है - किसी विशेष चीज़ पर ध्यान केंद्रित करने के लिए नहीं, बल्कि हर चीज को समग्र रूप से कवर करने का प्रयास करना। और फिर भी, यदि आप अधिक या कम सामान्य आधार को पार्स करना चाहते हैं, तो प्रश्नों में ऑपरेटरों का उपयोग करने से इनकार करें। नहीं "inurl:", "साइट:", "शीर्षक" आदि। Google आप जैसे खोजकर्ताओं को तुरंत प्रतिबंधित कर देगा। इसलिए, हम ध्यान से उन इंजनों का अध्ययन करते हैं जिनके साथ Chrumer वर्तमान में काम कर रहा है:
php-Fusion द्वारा संचालित
Chrumer संस्करण 7.07 में, कार्यक्रम को कई नए इंजनों के साथ प्रशिक्षित किया गया है:
फ़ोरम.बिज़, फ़ोरमब.बिज़, 1फ़ोरम.बिज़, 7फ़ोरम.बिज़, आदि।
phpBB-fr.com, सोलारिस phpBB विषय
और नई चीजें सीखने का सिलसिला लगातार चलता रहता है।
सामान्य तौर पर, हमें ख्रेफर द्वारा पार्सिंग के लिए सही प्रश्न तैयार करने की आवश्यकता होती है। एक उदाहरण के रूप में फोरम dizhok लेते हैं। एसएमएफ फ़ोरम. और हम इसे पार्सिंग के लिए भागों में अलग करना शुरू कर देंगे। हमारा प्रिय Google इसमें हमारी सहायता करेगा। Google क्वेरी दर्ज करना एसएमएफ फ़ोरम- इश्यू में ढेर सारा कचरा, कुछ 13वें पेज पर रिवाइंड करें और कोई भी लिंक चुनें। मैं इस पर आया: http://www.volcanohost.com/forum/index.php?topic=11.0। आइए इसे खोलें और एक्सप्लोर करें। हमें उस पृष्ठ पर कुछ विशेषता खोजने की आवश्यकता है जिसे इस इंजन पर अन्य पृष्ठों की खोज पर लागू किया जा सके। पाद लेख में हम निम्नलिखित शिलालेख देखते हैं एसएमएफ द्वारा संचालित 1.1.14, हम इसे उद्धृत करते हैं और इसे Google में दर्ज करते हैं, यह हमें दिखाता है कि इस अनुरोध के लिए यह लगभग 59 मिलियन विकल्प जानता है। हम लिंक के माध्यम से स्किम करते हैं, इस कीवर्ड में कुछ और विकल्प जोड़ते हैं, उदाहरण के लिए, "एसएमएफ 1.1.14 द्वारा संचालित" चिनारया एसएमएफ द्वारा संचालित 1.1.14 वियाग्रा. हम आश्वस्त हैं कि अनुरोध केवल फ़ोरम जारी करने में ठाठ है और आपके लिए लगभग कोई कचरा नहीं है।
इसके अलावा, हम मात्रा में नहीं, बल्कि गुणवत्ता में रुचि रखते हैं, जैसा कि मैंने ऊपर कहा। आगे बढ़ो। उसी मंच से हम पाद लेख से एक और वाक्यांश लेते हैं: , इसे भी उद्धृत करें और इसे Google को खिलाएं। जवाब में, उसने खुलासा किया कि वह 13 मिलियन से अधिक परिणाम जानता है। फिर से, हम आउटपुट के माध्यम से स्किम करते हैं, अतिरिक्त शब्द जोड़ते हैं और उनके साथ आउटपुट की जांच करते हैं। हम सुनिश्चित करते हैं कि अनुरोध उत्कृष्ट है और लगभग कोई कचरा भी नहीं है। सामान्य तौर पर, पहले से ही 2 लोहे के अनुरोध हैं। मेरा सुझाव है कि पहले फ़ोरम को अभी के लिए अकेला छोड़ दिया जाए और अन्य फ़ोरम से अनुरोध एकत्र करना जारी रखें। सौभाग्य से, Google अनुरोध पर खुला है 2006-2008 साधारण मशीनें एलएलसी. हम इस मुद्दे से, उदाहरण के लिए, इन मंचों को लेते हैं: http://www.snowlinks.ru/forum/index.php?topic=1062.0 और http://litputnik.ru/forum/index.php?action=printpage; विषय = 380.0 पादलेखों में हम उनसे निम्नलिखित अनुरोध लेते हैं: "SMF 1.1.7 द्वारा संचालित" और "SMF 1.1.10 द्वारा संचालित" (मैं हमेशा आपको खरेफर के लिए उद्धरणों में अनुरोध करने की सलाह देता हूं, क्योंकि हमें पहले गुणवत्ता की आवश्यकता होती है सब)। मुझे लगता है कि यह स्पष्ट है कि हम क्या कर रहे हैं, अंत में हमारे पास एसएमएफ इंजन पर फ़ोरम खोजने के लिए प्रश्नों का एक निश्चित डेटाबेस होगा (इसे एक उदाहरण के रूप में चुना गया था, बाकी इंजनों के साथ यह समान है)।
यह कुछ इस तरह दिखेगा:
एसएमएफ द्वारा संचालित 1.1.2
एसएमएफ द्वारा संचालित 1.1.3
SMF 1.1 RC2 . द्वारा संचालित
एसएमएफ द्वारा संचालित 1.1.4
एसएमएफ द्वारा संचालित 1.1.8
एसएमएफ द्वारा संचालित 1.1.7
"2006-2008, सिंपल मशीन्स एलएलसी"
और अभी यह समाप्त नहीं हुआ है। इंजन के संस्करण एकत्रित करते समय, हम कुछ SMF मंचों पर पाद लेख में "2001-2006, लुईस मीडिया" को ओवरहांग पाते हैं। हम इस अनुरोध की जांच करते हैं, यह हमें पूरी तरह से संतुष्ट भी करता है। हमें एक समान क्वेरी मिलती है: "2001-2005, लुईस मीडिया"। पादलेखों को आगे चलाने पर हमें निम्नलिखित अनुरोध मिलता है: "A.M.A द्वारा SMFone डिज़ाइन, SMF 1.1 में पोर्ट किया गया"। इसे देखें - बढ़िया। आदि। आधे घंटे का काम और आपके पास इंजन पर प्रश्नों का एक अद्भुत डेटाबेस है, और इन प्रश्नों के लिए Google बहुत कम बार प्रतिबंध लगाएगा, यदि आप उनमें ऑपरेटरों का उपयोग करते हैं। और साथ ही, यदि आप "index.php?topic=" जैसे प्रश्नों का उपयोग करते हैं तो आपका डेटाबेस बहुत साफ होगा, क्योंकि यहां Google न केवल हमें आवश्यक फ़ोरम देगा, बल्कि बहुत सारे बाएं संसाधन भी देगा जहां यह संभव था फोरम विषय के लिए एक लिंक छोड़ दें। आप बहस कर सकते हैं, वे कहते हैं, इसमें गलत क्या है? दूसरों ने एक लिंक छोड़ा है, इसलिए हम कर सकते हैं। परंतु! लिंक न केवल ह्यूमर द्वारा, बल्कि अन्य कार्यक्रमों द्वारा भी छोड़ा जा सकता है। इसके अलावा, उन्हें एक निश्चित संसाधन, तथाकथित अत्यधिक विशिष्ट सॉफ़्टवेयर में टिप्पणियां छोड़ने के लिए विशेष रूप से तेज किया जा सकता है, साथ ही ऐसे लिंक हाथ से छोड़े जा सकते हैं। फिर, मैं दोहराता हूं, यह जंक की मात्रा नहीं है जो हमारे लिए महत्वपूर्ण है, लेकिन गुणवत्ता, हम वैसे भी सही अनुरोधों के साथ आधार एकत्र करेंगे। इस पद्धति का लाभ यह है कि आपको व्यावहारिक रूप से कॉन्फ़िगर करने की आवश्यकता नहीं होगी चलनी फिल्टर
, इसे आसानी से बंद किया जा सकता है, क्योंकि Google व्यावहारिक रूप से आपको कचरा नहीं देगा।
मुझे लगता है कि प्रारंभिक चरण में Chrefer का सही उपयोग करना सीखना बहुत महत्वपूर्ण है, क्योंकि इसे सीखने के बाद, आप हमेशा Chrumer के लिए एक उपयोग ढूंढ सकते हैं, चाहे स्थिति कैसे भी बदल जाए। सुरक्षा अधिक जटिल होती जा रही है, और अगर कुछ प्रकार के इंजनों पर सुरक्षा को मजबूत किया गया है और ख्रुमर इस समय इसका सामना नहीं कर सकते हैं, तो इन लिंक्स को इकट्ठा करने पर संसाधनों को बर्बाद करने का कोई मतलब नहीं है, और फिर ख्रुमर के साथ काम करने पर, यह जो परिणाम देता है उस पर ध्यान देना बेहतर है। और साथ ही, यदि बॉटमास्टर लैब्स टीम ने क्रोमर को कुछ नया सिखाया है, तो आप जल्दी से एक नए रोगी को विच्छेदित कर सकते हैं और रोगी के अभी भी गर्म होने पर क्रोमर का आधार तैयार कर सकते हैं। समय पैसा है, जब आप आधार खरीदते हैं तो संसाधन प्रासंगिक नहीं रह सकता है। किसी के द्वारा एकत्र किया गया। इसके अलावा, अपने लिए आधारों का सही संग्रह ख्रुमेर के "सफेद" उपयोग का विस्तार करता है। और यही वह जगह है जहां सब कुछ चल रहा है, हम इसे पसंद करते हैं या नहीं, लेकिन सफेद या भूरे रंग की प्रक्रिया चल रही है। हर चीज के लिए काली चादरें जो आप अतीत में जा सकते हैं।
अन्य सभी, पहले से ही Hrefer के साथ काम करने के तकनीकी पहलुओं को मदद में देखा जा सकता है और उन पर ध्यान देने का कोई मतलब नहीं है, सभी लक्ष्य-बिंदु-सेकंड प्रत्येक कार के लिए व्यक्तिगत रूप से अनुभवजन्य रूप से निर्धारित किए जाते हैं।
एक बोनस के रूप में, मैं यहां चीनी खोज इंजन Baidu को पार्स करने के लिए एक टेम्पलेट पोस्ट करूंगा, जिस दिन मुझसे इसके बारे में पूछा गया था, इसलिए मैंने इसे बीच-बीच में किया, क्षमा करें। :)
होस्टनाम=http://www.baidu.com
प्रश्न=एस?डब्ल्यूडी=
लिंक्समास्क=
टोटलपेज=100
अगला पृष्ठ =
अगलापृष्ठ2=
CaptchaURL=
कैप्चा इमेज =
कैप्चाफिल्ड =
मैंने उन्हें पार्स करने की कोशिश की, कोई प्रतिबंध नहीं था, ख्रेफर ने जल्दी से संसाधन एकत्र किए, पार्सिंग के सभी अनुरोध Google के समान थे, लेकिन चीनी संसाधनों का एक समुद्र था, और एक उच्च पीआर के साथ, और इसके अलावा, एक यूरोपीय कई जगहों पर पैर नहीं रखा था। चीनी अनुरोधों के साथ विश्लेषण करना बेहतर है। Google अनुवाद इसमें मदद करेगा, रूसी में कीवर्ड की एक सूची टाइप करें और इसे चीनी में अनुवाद करें। सच्चाई शब्दों"Chrefer के शब्दों को चीनी में एक साथ नहीं रखा जा सकता है, उन्हें फिर से लिखा जाना चाहिए।
चीनी के बजाय:
- वियाग्रा
- गिटार
- आराम
- बीमा
इन्हें बदलने के लिए इन कोड को Words फ़ाइल में रखें:
%E4%BC%9F%E5%93%A5
%E5%90%89%E4%BB%96
%E5%85%B6%E4%BB%96
%E4%BF%9D%E9%99%A9%E5%85%AC%E5%8F%B8
यदि आप किसी बीमा साइट का प्रचार कर रहे हैं, तो अपने प्रोफ़ाइल में एक विषयगत (!) पर एक लिंक पोस्ट करके यहां तक कि अनुरोध पर एक चीनी मंच भी मिला " फोरम एसएमएफ"बहुत अच्छा होगा।
अंत में, मैं यह कहना चाहूंगा कि मैंने उन लोगों को कभी नहीं समझा जिन्होंने शिकायत की थी कि ख्रेफर्स खराब थे या पार्सिंग नहीं कर रहे थे, मैं हमेशा यह कहना चाहता था, आप बस उन्हें खाना बनाना नहीं जानते। एक भी पार्सर रेफ़रलकर्ता से बेहतर नहीं है, इसे केवल सही होने की आवश्यकता है। Hrefer एक कार है: अच्छी, ठोस, जर्मन में बनी, लेकिन एक व्यक्ति इसे नियंत्रित करता है और यह सब इस बात पर निर्भर करता है कि इसे कितनी समझदारी से चलाया जाता है, आप कार को एक ही समय में दाएं और बाएं जाने के लिए मजबूर नहीं कर सकते।
एक अलग विषय आधारों की सफाई है, मैं पिछली प्रतियोगिता के लिए 3 साल पहले एक बार। सब कुछ अभी भी वहां से अधिक प्रासंगिक है, लेकिन अब आप 200 ओके की जांच करने से इनकार कर सकते हैं, मुझे वास्तव में यह प्रक्रिया पसंद नहीं थी, त्रुटियां बहुत बड़ी थीं, बहुत सारे अनावश्यक को फ़िल्टर किया गया था। अब यह क्रोमर के काम के दौरान लगभग स्वचालित रूप से किया जा सकता है, हालांकि यह प्रक्रिया "200 ओके" की जांच का पूर्ण एनालॉग नहीं है। सामान्य तौर पर, इस बिंदु पर: बहुत पहले नहीं, ख्रुमेर में एक अद्भुत अवसर दिखाई दिया - परियोजना चलाने के समय संसाधनों से जानकारी लूटने के लिए। यह इस तरह दिख रहा है। आप एक टेम्पलेट में ड्राइव करते हैं जिसे कार्य के दौरान संसाधित किया जाएगा, और टेम्पलेट के अनुसार एकत्र की गई जानकारी को लॉग्स फ़ोल्डर में xgrabbed.txt फ़ाइल में दर्ज किया जाएगा। आप इस फ़ंक्शन का उपयोग किसी भी चीज़ के लिए कर सकते हैं, कल्पना की उड़ान बहुत बड़ी है। मैं "समाप्त" कामकाजी डेटाबेस से लिंक हटाने के लिए सप्ताह में एक बार इस फ़ंक्शन का उपयोग करता हूं। यह कोई रहस्य नहीं है कि इस तरह के संसाधनों से आधार को साफ करने के लिए फ़ोरम हर दिन मर जाते हैं और "ऑटोग्रैबिंग" टूल इस मामले में हमारी मदद करेगा।
आखिरकार, आपको स्वीकार करना होगा, अक्सर टाइपिंग, उदाहरण के लिए, http://www.laptopace.com/index.php, हम देखते हैं कि यह डोमेन पहले से ही है, उदाहरण के लिए, गौड़्या, लेकिन वहां कोई मंच नहीं है। तो, इस धातुमल को आधार से बाहर फेंकने के लिए, हम लूटेंगे। :) हम पृष्ठ का स्रोत कोड खोलते हैं और वहां यह प्रविष्टि देखते हैं:
अब गौदद्दी के सभी "मृत" हमें नाम से ही जानेंगे।
यहां "ऑटोग्रैबिंग" टूल के लिए एक छोटा चयन दिया गया है, यदि आप विभिन्न "एक्सपायर्ड" डोमेन से डेटाबेस को साफ करना चाहते हैं: