Организирано од Botmaster Labs, не планирано. Нема време, видеото е потребно за натпреварот, како нов тренд, иако е полесно да се објасни се со добри слики од екранот (мојот IMHO), а јас навистина не сакам да снимам ништо. Значи останаа многу малку профитабилни, веќе ич не владее глупавиот спам, тука треба да размислите и никој нема да ја запали темата, ако само застарените се обидат да бутнат и да истурат малку во убава обвивка. :) Но, ова не е за нас. Генерално, овие 3 „не“, мислам, во основа станаа бариери за учество на натпреварот за мнозинството потенцијални учесници. Тоа е како поправка на автомобил од три: евтин, квалитетен, брз - услугата може да исполни само 2 услови истовремено. седнете и одберете што е поблиску до вас. :) Конкуренцијата е иста: имам време, можам да правам видеа, но немам тема, или можам да снимам видео, имам тема, но воопшто немам време, или јас имам слободно време и имам малку темка, ама видеото е страшно. Но, добро е ако се исполнети 2 услови истовремено. Па, во ред, да ги оставиме текстовите. Ќе продолжам во себе. Не планирав, што значи дека учествував на натпреварот, дури избрав за која статија ќе гласам. Кажете што сакате, но Доз многу добро го знае софтверот и знае како да го користи многу разумно. Но, денес дознав дека на натпреварот се појавила интрига. Излегува дека нема да можам да гласам, но само почетниците кои го купиле софтверот во 2011 година и конкурсот е дизајниран за нив ќе можат да го направат тоа. Малку се изненадив, ама сопственикот е мајстор. Натпреварот е рекламна кампања и Александар подобро знае како да го спроведе. Во принцип, решив тогаш да објавам статија, малку е полесно да се напише кога е јасно за кого, за целата колективна фарма всушност е невозможно да се направи ова.
Долгиот вовед е завршен, сега на поентата.
Што му е потребно на почетник кога се здобил со таков супер-жетвар, а тоа е комплексот Xrumer + Hrefer? Така е, научете како да работите на тоа и отфрлете ја илузијата дека со тоа што ќе почнете да спамувате со листови, можете да заработите пари. Ако мислите така, веднаш донирајте ги парите во добротворни цели. Треба да научите како да ги користите алатките на комплексот, по можност со тоа што ќе го острите за себе. Помина времето „земи повеќе - фрли повеќе“. Квантитетот му отстапува место на квалитетот. Така, ние ќе ја собереме основата за себе, не учи како да го правиш ова - ќе заостанеш зад возот. Секако дека во ова ќе ни помогне Хрефер. Ако планирате да ги промовирате вашите ресурси на Google, тогаш треба да бараме и донаторски страници преку Google. Мислам дека ова е јасно и логично. Но Гугл како сопственик на бакарната планина не го подарува своето богатство на сите. Потребен ви е пристап кон тоа. Веднаш би сакал да кажам дека не се надевајте дека ќе успеете да соберете нешто врз основа на знаците што ги наоѓате во јавноста. Затоа се достапни во јавноста, бидејќи се безвредни. Нема да ја развивам темата понатаму. Подобро да ви кажам како правилно да го склопите за да го видите резултатот, остатокот ќе го завршите сами, главната работа е да го разберете принципот. Неопходно е да се собираат на правилна основа врз основа на специфични мотори што ни се потребни, а не врз основа на форуми воопшто. Ова е главната грешка што ја прават почетниците - да не се концентрираат на специфичното, туку да се обидат да опфатат сè во целост. А сепак, ако сакате да анализирате повеќе или помалку нормална база, одбијте да ја користите во барањата на операторот. Нема „inurl:“, „сајт:“, „наслов“ итн. Google веднаш ќе ги забрани пребарувачите како вас. Затоа, внимателно ги проучуваме моторите со кои работи Хрумер во моментов:
Овозможено од php-Fusion
Во верзијата Hrumer 7.07, програмата е обучена за неколку нови мотори:
forumi.biz, forumb.biz, 1forum.biz, 7forum.biz, итн.
phpBB-fr.com, Соларис phpBB тема
И процесот на учење нови работи продолжува континуирано.
Во принцип, треба да ги подготвиме точните барања за парсирање од Hrefer. Да земеме за пример форумски џок. SMF форуми... И да почнеме да го расклопуваме на делови за парсирање. Во тоа ќе ни помогне нашиот сакан Google. Внесување барање во Google SMF форуми- има многу ѓубре во резултатите од пребарувањето, премотуваме на некоја 13-та страница и избираме која било врска. Налетав на овој: http://www.volcanost.com/forum/index.php?topic=11.0. Го отвораме и го испитуваме. Треба да најдеме нешто карактеристично на страницата што може да се примени за пребарување на други страници на овој мотор. Во подножјето го забележуваме следниот натпис Овозможено од SMF 1.1.14, го цитираме и внесуваме во Google, ни покажува дека за ова барање знае околу 59 милиони опции. Брзо ги разгледуваме врските, додаваме уште неколку или две опции на овој клучен збор, на пример, „Напојувано од SMF 1.1.14“ тополаили „Напојувано од SMF 1.1.14“ вијагра... Убедени сме дека барањето е прекрасно, во резултатите има само форуми и речиси и да нема ѓубре за вас.
Дополнително, не не интересира квантитетот, туку квалитетот, како што кажав погоре. Продолжи понатаму. Од истиот форум земаме уште една фраза од подножјето: , ние исто така го цитираме и го даваме на Google. Како одговор, тој открива дека знае повеќе од 13 милиони резултати. Повторно, ги прелистуваме резултатите од пребарувањето, додаваме дополнителни зборови и ги проверуваме резултатите со нив. Се грижиме дека барањето е одлично, а исто така речиси и да нема ѓубре. Во принцип, веќе има 2 барања за железо. Предлагам да го оставиме првиот форум сам засега и да продолжиме да собираме барања за други форуми. За среќа, Google е отворен на барање 2006-2008, Simple Machines LLC... Од резултатите ги земаме, на пример, овие форуми: http://www.snowlinks.ru/forum/index.php?topic=1062.0 и http://litputnik.ru/forum/index.php?action=printpage; topic=380.0 во нивните подножја ги земаме следните прашања: "Powered by SMF 1.1.7" и "Powered by SMF 1.1.10" (секогаш советувам да се вози во наводници за Hrefer, бидејќи пред се ни треба квалитет). Мислам дека е јасно што правиме, на крајот ќе имаме одредена база на прашања за пребарување на форуми на SMF моторот (се избира на пример, со останатите мотори е исто).
Ќе изгледа отприлика вака:
„Напојувано од SMF 1.1.2“
„Напојувано од SMF 1.1.3“
„Напојувано од SMF 1.1 RC2“
„Напојувано од SMF 1.1.4“
„Напојувано од SMF 1.1.8“
„Напојувано од SMF 1.1.7“
"2006-2008, Simple Machines LLC"
И тоа не е се. При собирањето на верзиите на моторите, на некои SMF форуми во подножјето го наоѓаме надвисот „2001-2006, Lewis Media“. Ние го проверуваме ова барање, исто така целосно не задоволува. Наоѓаме слично барање: „2001-2005, Lewis Media“. Преминувајќи низ подножјето, го наоѓаме следното барање: „SMFone design by A.M.A, пренесен на SMF 1.1“. Проверуваме - одлично. итн. Половина час работа и имате прекрасна база на барања за моторот, а Google ќе биде баниран за овие прашања многу поретко отколку ако користите оператори во нив. И во исто време, вашата база на податоци ќе биде многу почиста отколку ако користите прашања како „index.php? Topic =", бидејќи тука Google ќе ги даде не само форумите што ни се потребни, туку и многу оставени ресурси каде што успеавме да заминеме линк до темата на форумот. Може да се расправате, велат тие, што не е во ред со тоа? Други го оставија линкот, што значи дека можеме. Но! Линкови може да остават не само Хрумер, туку и други програми. згора на тоа, тие можат да бидат специјално заострени за да остават коментари во одреден ресурс, таканаречениот високо специјализиран софтвер, плус таквите врски може да се остават рачно. Пак ќе повторам дека не ни е важно количеството ѓубре, туку квалитетот, базата со правилни барања и така ќе собираме. Предноста на овој метод е што практично не треба да конфигурирате во Hrefer сито - филтер
, можете едноставно да го исклучите, бидејќи Google практично нема да ви даде ѓубре.
Верувам дека е многу важно да научите како правилно да го користите Hrefer во почетната фаза, бидејќи откако го научивте ова, секогаш можете да најдете употреба за Hrumer, без разлика како се менува ситуацијата. Заштитите стануваат покомплицирани, и ако на некои типови мотори заштитата е зајакната и Хрумер не може да се справи со тоа во моментот, тогаш нема смисла да се трошат ресурси за собирање на овие врски, а потоа и за работа на нив со Хрумер , подобро е да се фокусираме на она што го дава резултатот ... И во исто време, ако тимот на Botmaster Labs го научи Хрумер нешто ново, можете брзо да сецирате нов пациент и да подготвите база за Хрумер додека пациентот е сè уште млак. Времето е пари, ресурсот можеби повеќе не е релевантен кога ја купувате основата. собран од некого. Покрај тоа, правилната колекција на бази за себе значително ја проширува „белата“ употреба на Хрумер. И токму тука сè се движи, сакале ние или не, и продолжува процесот на белење или побелување. Црните чаршафи се минато.
Сите останати, веќе техничките аспекти на работата со Hrefer, може да се видат во помошта и нема смисла да се задржуваме на нив, сите цели-поени-секунди се поставени емпириски за секој автомобил поединечно.
Како бонус, ќе постирам овде шаблон за парсирање на кинескиот пребарувач Baidu, пред некој ден ме прашаа за тоа, па го направив тоа во меѓувреме, извинете за игра на зборови. :)
Име на домаќин = http://www.baidu.com
Барање = s?Wd =
Маска за врски =
Вкупно страници = 100
Следна страница =
Следна страна2 =
CaptchaURL =
CaptchaImage =
CaptchaField =
Пробав да ги анализирам со тест, немаше забрана, Хрефер живо ги собираше ресурсите, сите барања за парсирање беа слични на оние на Гугл, но кинеските ресурси беа море и со висок ПР, а освен тоа имаше многу места каде што Европското стапало не отиде. Подобро е да се анализираат со кинески барања. Ова ќе му помогне на Google да преведе, да напише список со клучни зборови на руски и да го преведе на кинески. вистината во " зборови„Хрефер зборовите не можат да се додадат на кинески, треба да се прекодира.
Наместо кинески:
伟哥 - вијагра
吉他 - гитара
其他 - одмор
保险公司 - осигурување
Ставете ги овие кодови за да ги замените во датотеката Word:
% E4% BC% 9F% E5% 93% A5
% E5% 90% 89% E4% BB% 96
% E5% 85% B6% E4% BB% 96
% E4% BF% 9D% E9% 99% A9% E5% 85% AC% E5% 8F% B8
Ако промовирате веб-локација за осигурување, тогаш со поставување на врска во вашиот профил на тематски (!) Дури и кинески форум пронајден по барање " Форум SMF „保险公司ќе биде многу убаво.
Како заклучок, би сакал да кажам дека никогаш не ги разбрав луѓето што се жалеа дека Креферите се лоши или не се чкртани, отсекогаш сакав да го кажам ова, едноставно не знаете како да ги готвите. Подобро од hrefer, ниту еден парсер не знае како да собира резултати, само барањата мора да бидат точни. Хрефер е кола: добра, цврста, направена на германски, но ја вози човек и се зависи од тоа колку паметно се вози, не можеш истовремено да ја тераш колата да оди десно и лево.
Посебна тема е чистењето на базите, еднаш направив пред 3 години за претходниот натпревар. Со повеќе, сè е сè уште релевантно таму, но сега можете да одбиете да проверите за 200 ОК, навистина не ми се допадна овој процес, грешките беа многу големи, многу непотребни работи беа филтрирани. Сега ова може да се направи речиси автоматски во процесот на работата на Хрумер, иако овој процес не е целосен аналог на проверка на „200 OK“. Во принцип, до точка: не толку одамна се појави прекрасна можност во Хрумер - да се ограбат информациите од ресурсите во моментот на извршување на проектот. Изгледа вака. Возите во шаблон, кој ќе биде обработен во процесот, а информациите собрани од шаблонот ќе бидат внесени во датотеката xgrabbed.txt во папката Logs. Можете да ја користите оваа функција за сè, летот на имагинацијата е огромен. Ја користам оваа функција еднаш неделно за да ги отстранам „истечените“ врски од работната база на податоци. Не е тајна дека форумите изумираат секој ден за да се исчисти базата од такви ресурси и алатката „Автоматско грабање“ ќе ни помогне во овој случај.
На крајот на краиштата, мора да признаете, често пишувајќи, на пример, http://www.laptopace.com/index.php, гледаме дека овој домен е веќе, на пример, гадијад, но таму нема форум. Значи, за да ја исфрлиме оваа згура од основата, ќе ограбуваме. :) Отворете го изворниот код на страницата и видете го овој запис таму:
Сега сите „мртви“ од гудади ќе ни бидат познати по име.
Еве мал избор за алатката „Автоматско грабање“, доколку сакате да ја исчистите базата на податоци од различни „истечени“ домени: