Miky. Дневник дорвейщика


Путь программиста-самурая в нелегком черном деле..

Статика vs. Динамика

Июнь 28, 2008

Доргены можно условно разделить на статические и динамические. Условно – потому что для поисковиков все равно, каким способом сделан дорвей, это лишь удобство для дорвейщиков :)

Статичные
Это – самый простой способ. Дорген сразу создает страницы дорвея, которые остается просто залить по фтп. Ну или дорген сам заливает. В чем плюсы? Во первых, работает на фрихостах (типа народа), да и вообще, не требует каких то настроек хостинга/сервера, не загружает память, процессор и т.д. Во вторых – это не вызывает сложностей, то есть все просто – только html страницы, не надо заботиться о мускуле, установке и т.д. Но, есть и минусы. Во первых, отсутствие динамического изменения (поставить редирект к примеру) – но это легко решается яваскриптом, подключаемым с основного сайта. Или, к примеру, подробную статистику собирать сложнее, но это опять решается яваскриптом, или же создание .php страниц с инклудом (как сделал я, мне проще это сделать, чем изучать яваскрипт). Во вторых, статичные дорвеи имеют простую структуру, которая не меняется со временем (к примеру, там не сделать постепенный постинг). Гугл, к примеру, обожает проверять сайт на обновление, а тут – никакого движения… Не то, чтобы он сильно обижается, но наверняка немного расстраивается) И в третьих, хоть он и не грузит сервер, но занимает много места, это иногда сильно затрудняет работу.

Динамичные
Собственно, динамичные доры почти всегда делают серверными. Фактически, все плюсы вытекают из минусов статичных, и наоборот :) На совсем фрихостах обычно не работает. Если дорген более-менее сложный, то нужно отдельно настраивать и подключать модули на хостинге. Так же много доров могут вызвать существенную нагрузку на сервер (как и прочие часто посещаемые сайты) – что вынуждает использовать VDS и собственные серверы (хотя, для начала они не нужны). Можно широко управлять дорвеем – менять шаблон, коды рекламы/редиректа, добавлять новые страницы и т.д. (все зависит от доргена и собственно системы управления дором, CMD блин :-D).

Динамичные доры – более гибкие, их можно сделать действительно похожими на сайты для людей, и они даже могут там найти что-то полезное (если будет такая цель стоять при создании дорвея). Статичные же – простые, как черенок от лопаты, но это отнють не мешает генерировать их сотнями и тысячами, и получить лавину трафика :)

Я, к примеру, делаю дорвеи модифицированным доргеном от Egis’a (полгода назад где то купил), он генерирует странички на лету, причем текст на страницах каждый раз разный :-D Гугля это палит и не индексирует, Яндекс после проспамки просто фильтр накладывает, а Рамблеру, видимо, как то пофиг, трафик он дает)) Плюсы – занимает очень мало места, не надо ничего особо настраивать.. Минусы – загружает сервер, гугля не любит, поэтому сейчас думаю, как сохранять тексты… Но это в принципе не так сложно, поэтому, гугля, держись))))

Вообще, без разницы, каким молотком пользоваться – главное уметь гвозди забивать, чем то лучше, чем то хуже, но молоток – не главное. Образно конечно, но думаю, вы поняли мысль.

——————-

Решил собрать базу кейвордов для себя, парсить постоянно директ как то надоедает ( А на пастухова денег пока нет, хотя сейчас это был бы идеальный вариант, пока вручную делаю доры. Поэтому я запасся бесплатными мусорными базами (здесь и здесь, а так же свои наработки). В итоге получилось ~7 миллионов нефильтрованных кеев, сейчас их импортирую в mysql базу, что занимает дикое количество времени ((( выборки то быстро получается сделать, а вот проверять на дубли (а потом еще и по всей базе проходить и высчитывать количество упоминаний…) – нагружают комп по самое не хочу. 100к кеев несколько часов добавляется, я наверно всю неделю буду импортировать(( Придется включать ноутбук в режим “Йа маленький сервер!” – оставлять сутками включенным, на ночь убирать подальше (чтобы не шумел), отрубать режим сна и импортировать, импортировать, импортировать….ЫЫыы, как Пастухов орудует 60-миллионными базами?)

——————-

Anatol22 написал пост о видах дорвеев. Неплохая идея насчет Short Url – дополнительное шифрование, но это работает только при передаче постеителя без кейворда и реферер инфо (к примеру, адалт смс-партнерки).

Toxic_Cat сделал виджет для показа доходов в умаксе. Классно, надо бы тоже распарсивать ричклик, да и вообще расширять информация в сайдбаре по своим дорам :)

Дорген v.2.0 beta

Июнь 11, 2008

Да, нефигово я так задержал создание доргена (( Планировал еще недели три назад закончить, но не получилось… Дней пять назад полностью собрал и запустил, вот с тех пор занимаюсь отладкой. Самое фиговое, что дорген включает в себя достаточно много функций, и если по отдельности они все более-менее работают, то все вместе – ни в какую(( Причем ошибки начались еще до собственно нажимания кнопки “Бабло” – я тупо забыл сделать форму :-D Но, если синтаксические и немного-логические ошибки я быстро исправил, то вообще логические до сих пор не получается.. Особенно много проблем доставило FTP, ” ftp_login() expects parameter 1 to be resource, boolean given”, да еще и vds пришлось настраивать и подключать модули..

Сам инсталлятор выглядит так:

dorgen.gif

Я заранее оставил места под будущие модули, но пока что все отрублено :) Дорген частично работает, частично нет, и почему что именно происходит я точно не знаю. Плюс несколько фатальных недоработок типа пустого главного домена (генерируются только поддомены), даются ссылки на несуществующие разделы и страницы и т.д. Время работы вполне приемлимое – дор на 1200 кейвродов генерировался 25 минут, причем значительное количество времени – парсинг кейвордов (прокси еще не подключил), еще треть – парсинг текста (зайти в яндекс, зайти на первые 10 сайтов, слить контент), остальное – заливка по ФТП (тут тоже надо оптимизировать, чтобы один раз открыть коннект, напарсить, сгенерировать, залить и только потом закрыть. Сейчас для каждой страницы приходится открывать/закрывать соединение).

Сам я в принципе доволен, исправлять еще нужно многое, дорабатывать – еще больше, простор для деятельности) Но генерировать пока нельзя в полную силу.

Насчет продажи.. Лично я считаю, что если продают скрипт, который должен приносить бабло – то либо скрипт хреновый, либо нужны деньги. Иных причин я не вижу, если дорген делает отличные дорвеи, так и нужно их делать дорвеи, а не сидть сложа руки продавая скрипт. А если скрипт хреновый, то продавать его тем более нельзя. Поэтому я не буду не продавать, ни просто так отдавать скрипт, разве что когда сделаю третью версию (постоянно работающий сервак, генерирующий автоматом все что угодно, с полной поддержкой WebMoney для покупки доменов/снятия средств с партнерок, с анализом раскрутки дорвеев и соответсвующей корректировки схем генерирования. Естественно, нужен будет еще и немалый начальный взнос на домены).

Мои доры
К моему удивлению, последний дор начал получать трафик с Яндекса, к тому же неплохо проиндексирован. Достаточно неплохой эффект получился с однобаксовой прогонки по каталогам (автоматом), посмотрим сколько будет жить этот дор). В остальном все как обычно, без прироста дорвеев трафик не появится. Хотя гугл понемного фильтрует мои дорвеи, с него все меньше и меньше трафика.

Раздача шестизнаков
Не думал, что так много халявщиков)) Сосбственно, ссылку я получил нормальную только одну (спасибо Kalimdor’у), еще две – с только что созданных блогов, остальные были отданы просто так. Хотя, мне в принципе не жалко, я нашел как минимум еще одного знакомого, который шарит по дорам, но все равно.. С одной стороны, мне не жалко отдать номер дорвейщику, они мне не нужны. С другой стороны, правила есть правила, а шестизнаки все таки стоят от 2$ за штуку, и отдавать потому что кому-то “очень хочется” мне тоже не интересно.. Пока что осталось две штуки.

PS. Сейчас опять потер весь дор и заново генерирую, может что получше нагенерирует мне)))

Идем дальше..

Май 13, 2008

Последние несколько дней немного отстал от графика кодинга – не хватает времени и настроя.. В доргене, если его практически с нуля делать, самое главное – заставить хоть как то работать – потом уже гораздо проще его модифицировать и дописывать. Сечас я как раз собираю и унифицирую функции для работы доргена. В одном файлике – общие функции (транслитеризация, перекодирование, очистка кода от html и т.д., никогда бы не подумал, что их нужно так много), во втором – собственно функции “доргенные” – генерация и парсинг текста, генерация, регистрация и прописывание домена и т.д. Причем все нужно заставить работать нормально и стабильно, без всякого кода на соплях, непонятно как работающего… И это еще только половина работы, надо еще само “ядро” доргена написать, которое собственно и объединяет всё и генерирует. Вобщем, работы непочатый край (( Перекинул всего 7 функций.

Сегодня к блогу прикрутил “статистику дорвеев” – выборку из своей системы: количество дорвеев, индексацию, трафик. Можете посмотреть, я подобного ни у кого еще не видел :) Размещается справа, в сайдбаре. Теперь и вы можете анализировать – к примеру, дола рамблера в трафике уже половина, причем для попадания в индекс ничего кроме аддурла не надо (для зоны .ru естественно).

С первого дорвея (которому уже две недели, и который на фиговом доргене сделан) идет трафик уже 50-100 в день, сегодня повесил на него ссылку на фид, может какой толк будет. Львиная доля индексаций – именно с этого дора (яндекс и рамблер). Гугля правда пока я настраивал скрипт забанил IP, поэтому заместо гордых 25 страниц он показывает тупо ноль, но надеюсь к вечеру разбанится и будет нормально показывать.

Для меня пока остается открытым вопрос о раскрутке.. Покупные ссылки – хорошо конечно, но явно недостаточно (да и траты немалые получаются). Спам по гестам и форумах видимо уже не работает, во всяком случае в небольших дозах, да и старо это.. Надо что-то другое.

В следующем посте (про автоматизацию) выложу опять три скрипта – парсинг текста, добавление в рамблер и сорее всего подбор домена (если доделаю). Видимо, аудитории нравятся халявные скрипты для автоматизации))

PS. Вчера наткнулся на блог GTAlex, некоторые старые посты просто офигенные) К примеру, Настройка выделенного сервера (я вообще в консоли нуб полный, но иногда vds вообще весь висит, только по SSH доступен..), регистрация доменов через klik и est (конечно, не готовая функция на блюдечке, но достаточно чтобы самому нужное дописать), распознавание капчи phpbb2 (я вообще думал, что подобных скриптов в открытом доступе нет, оказалось что есть) и т.д. Вобщем, зачитался)

Автоматизируй это!

Май 10, 2008

Как я уже писал, дорвей – это автоматически создаваемый сайт. А это значит, что в идеале абсолютно все операции должны быть автоматизированы – начиная от выбора тематики и регистрации домена и заканчивая настройкой TDS и подсчета денег в партнерке. Конечно, до идеала мне далековато, но первые шаги я уже начал делать.

Добавление доменов и поддоменов
Чтож, начнем с самого начала… Регистрацию доменов пока опустим (все таки пока что объем не такой большой), а вот добавление доменов и поддоменов на хостинг – это да, занятие трудоемкое, особенно если поддоменов штук 40, и каждый надо добавлять.. Так как я пока что держку свои дорвеи у firstvds (не сочтите за рекламу, просто мне там пока удобно. Кога найду что-то более лучшие – перейду к другим), то панель управления – ISPmanager. Поэтому я взялся за изучение их API.. Честно говоря, думал, что все гораздо сложнее – придется несколько часов искать нужные функции, параметры, доступ и т.д., но все оказалось гораздо проще, и через полчаса я уже наваял готовую функцию:

isp_createdomain.php.txt

Пользоваться очень легко – настраиваете конф (некоторые значения придется взять из самой панельки), потом просто вызываете функцию в любом месте :) Если чуток почитать мануал, можно реализовать любую операцию (удаление доменов, добавление mysql, e-mail и т.д.). Внимание! Для работы функции нужен curl (на локальном сервере может не работать).

Заливка на FTP
Что нужно сделать потом? Залить на хостинг конечно! Неважно, сколько файлов заливать – один или тридцать тысяч, все равно это нужно автоматизировать. Иногда так же нужно сменить права доступа к файлу (для инсталляторов). В php все функции для работы уже встроены, осталось только совместить их и всё. Я не стал оформлять в виде функции – все равно по одному файлу не загружают, скрипт придется интегрировать в дорген.

ftp.php.txt

Я показал пример заливки файлов и смены прав. Остальные функции можно найти в справочниках, они стандартны.

Парсинг кейвордов
Да, опять Яндекс.Директ :) На этот раз я научился пользоваться и серверными вариантами парсеров (чтобы IP не банили, достаточно поставить задержку 5-10 секунд):

parser.php.txt

Но из-за этой самой задержки оперативно кейворды не напарсишь, поэтому я решил парсить до начала генерации… То есть берется ключевое слово (телевизор), парсится первая страница, все кеи записываются. Затем обходятся эти 49 кеев, полученные кеи записываются и т.д., пока не кончатся. Скрипт то я написал, но вот заставить его запускаться раз таки не получилось – крон тупит (( отправил в саппорт, может разрулю. При непрерывной работе получается около 70к кеев в сутки, если слегка подхимичить с настройками – то все 400, а если еще добавить лист проксей… Хотя, с дургой стороны – зачем так много кеев :)

Пока что всё. В планах еще парсинг текста (берем выдачу яндекса, первые 10 страниц парсим, обрабатываем), регистрация доменов (gTld и ру), генерация имен доменов по тематике (и поддоменов тоже).

—————————-

Мои дорвеи пока фигово поживают… Боты вовсю посещают, но в индекс не запихивают ( Трафа, соответсвенно – 5-10 на всех поддоменах. Гугл гад, без ссылок не индексирует домен вообще – для эксперимента два поддомена только в аддурл запихал, рамблер сожрал – гугль нет. Сейчас готовлю вторую версию доргена, автоматизированную, поддоменов этак на 40.. Попробую их между собой перелинковать (до этого только внутри дорвея перелинковка была), и раскручивать только основной домен, с которого уже боты будут переходить на поддомены. Для чистоты эксперемента сделаю две штуки, на .ru и .com домене, может гуглю больше второй понравится (рамблеру точно не понравиться).

—————————-

PS. Хороший дорвейщик – ленивый дорвейщик) Даешь кнопу бабло!

Дорвей – имитатор контент-сайта

Май 8, 2008

Итак, дорвей.. Что должен видеть бот, когда он заходит на дорвей? Правильно, он должен видеть обычный сайт, каких миллионы. Ничего не должно его беспокоить, сайт должен быть выше некоторого порога “фиговых сайтов”. От этого и надо делать концепцию дорвея.

Я пока что вижу два пути. Первый – создание дорвеев не-сайтов, максимально оптимизированные в ущерб всему. Думаю, они должны получать много трафика, но при этом быстро банится. Второй – имитировать нормальный сайт, который максимально похож на обычный, без перебарщивания с оптимизацией (ведь стандартный сайт не сильно оптимизирован). Первые два дорвея были именно первого типа (хотя они и не получают много трафика – из-за моих кривых рук), хотя я стремился сделать их немного похожими на нормальные сайты. Думаю, надо идти и дальше в этом направлении. Первым кроликом будет стандартный, обыденный контент-сайт на чем то типа DLE или Drupal, которых очень и очень много на самые разные тематики. Можно было бы поставить собственно сам скрипт и уде с ним взаимодействовать, но это во первых возникнут сложности с установкой и настройкой, а во вторых – нужно еще немало разобраться в самой CMS. Поэтому будем просто имитировать работу подобного сайта.

Я выделил несколько особенностей подобных сайтов, которые нужно реализовать:
1. Постепенный постинг.
К примеру, раз в 30-60 минут будет вполне достаточно для имитации средне-популярного сайта. Я пока не работал с кроном, но думаю смогу его заставить запусать скрипт раз в 10 минут для проверки времени постинга (четких рамок не должно быть, все рандом в некоторых пределах).

UPDATE: Я подумал, а зачем определенное количество постов в день? Ведь сайт по идее новый, поэтому в начале можно только один-два поста добавить, потом постепенно наращивать количество постов в день, у математиков это как то по умному называется. Ведь так и должно происходить. Так сказать, рост индекса “популярности” сайта.

2. RSS
Ну это понятно, каждый сайт должен выдавать RSS )) Наличие сего положительно влияет на карму сайта + дает трафик с RSS-поисковиков.

3. Разделы
То есть такое же постепенное создание разделов, в каждом из которых отображаются анонсы постов, постраничное разбиение. Причем главная – это один общий раздел… Яндекс кстати достаточно часто проверяет главную на обновления – стоит ему помочь в нелегком деле.

4. Сами посты
Тут все сложнее.. Нужно разнообразие – поэтому посты могут быть текстовые, картиночные, смешанные (можно еще видео добавить, но я опять таки ни разу с ним не работал). Плюс для каждого поста нужно хранить дату постинга, количество просмотров и т.д. И можно добавить версию для печати, которая иногда гораздо сильнее оптимизирована и не вызывает подозрений. И нужен исходный материал – то бишь по тематике изображения (можно парсить где ни будь). Пока не знаю где брать контент, мусор генерировать вряд ли будет наиболее хорошим вариантом.

5. Наличие зарегистрированных пользователей
В основном у контентных сайтов есть зарегистрированные пользователи.. Значит, у дорвея тоже они должны быть – 1-3 администратора, постепенное увеличивающиеся количество авторов (каждый постит по определенной тематике + немного общих), более сильно увеличивающиеся количество комментаторов, которые собственно должны комментировать понравившиеся записи (с ростом мнимой “популярности” – все более и более активно). Можно даже регистрацию открытой сделать) Для комментаторов разумеется. Так же из-за пользователей появляется многочисленные профили, и некоторым пользователям можно привязать ссылки на свой сайт (другой контент-сайт или дорвей :) ) Пока что это остается самой сложной частью…

6. Живые комментарии
Так как нужны комментарии, надо генерировать максимально хорошие комментарии. Большинство комментариев легко сгенерировать (“+1!”, “первый нах!”, “боян” и т.д.), некоторые – по шаблону (“%автор%, спасибо за пост/статью/информацию”), или более сложным шаблонам, в том числе цитированию статьи и других комментариев, споры и т.д. (надо поискать генераторы форумов, в них кажется были заложены некоторые подобные функции).

В принципе всё, можно садиться кодить )) Придется использовать БД естественно, столько инфы в файлах держать попросту неудобно и невыгодно. По началу конечно все реализовать не получится, но постепенно можно добавлять все новые и новые функции (сложное комментирование в первый версии делать совсем необязательно).

Хотя, я тут подумал.. С такой системой делать дорвеи – как из автомата по тараканам (еще не ракетой, но уже не тапком).. Можно немного додумать контент (парсинг, синонимайзинг, подборка из разных источников) и получится то, к чему и стремились – относительно обычный контент сайт, заходя на который пользователи не будут отплевываться, а может даже будут подписываться на RSS и регистрироваться) Но для этого надо очень, очень постараться..

Подобные задумки есть и по блогам, в частности WordPress (этот блог например относительно быстро проиндексировался и стал получать поисковый трафик). Так называемый “Робоблоггер”) Но о нем как нибудь попозже..

—————————–

Так, что там с нашими тапками… Первый дорвей на своем доргене доделал, все 8 поддоменов.. Раскрутка разная, два – просто аддурл, один – 5 пиаристых ссылок, один – 50 мелких ссылок, остальные – 1-2 пиаристые и десяток средних. Хоть какой то трафик есть только на одном поддомене, боты побывали на всех – яндекс на двух поддоменах (главная уже в индекса), рамблер – на 6, гугл на всех, в индексе пока что 1-3 страниц, жду апа. Если какой то трафик будет получаться – буду дорабатывать тапок (хотя дорабатывать в любом случае буду) в сторону автоматизации (разом все поддомены).

Первый дорвей был вычеркнут из индекса гугла, но продолжает получать трафик с яндекса и рамблера (<10 хостов).

——————————

На блоге кстати сменил шаблон.. Вначале думал, что стильный темный дизайн подойдет для “дорвейных дел мастера”, но потом понял – что тупо неудобно читать. Сейчас гораздо более приятная тема. Так же добавил контакты (e-mail – miky@miky.ru, ICQ – 675-285, если кому то надо).

PS. Подобные посты с десятком ссылок на последние посты блоггеров (лишь бы трекбек) начинают бесить..