SEO-ламерство и манимейкинг

Как преобразовывать интренет в личный доход

Грабим blogger.com (blogspot.com)

Рубрика: php
Метки:
Понедельник, 8 февраля 2010 г.
Просмотров: 909
Подписаться на комментарии по RSS

Сегодня наткнулся на phpQuery. Отличная библиотека для работы с DOM.

На ее основе начал делать граббинг блогов с blogspot.com ( blogger.com ).

Как то яуже пытался использовать другую библиотеку для работы с DOM. вроде бы называлась она simple_html_dom.

Начал юзать ее для предыдущего грабера. Но потом отказался  от нее. Были какие то глюки, она теряла (не закрывала тег). В итоге получалась какая-то кривая разметка. И было решено использовать оригинальный php dom. Я это осилил. Но приходилось писать много кода. С phpQuery очень все просто. поглядим, не будет ли эта библиотека глючить.


B так, что же сегодня сделал...


Разбирался с разметкой страницы, как выводятся посты, дата, заголовки и т.д.

В итоге получился пока что следующий габбер:

вводим url блога (либо адрес конкретной страницы )

есть чекбокс, который позволяет следовать по всем предыдущим записям (страницам )

Жмем кнопку "Получить" и получаем текстовые файлы с содержимым.


Немного допилю скрипт и буду делать соответствующий плагин для Maxsite CMS.

Оставьте комментарий!

Не регистрировать/аноним

Используйте нормальные имена.

Если вы уже зарегистрированы как комментатор или хотите зарегистрироваться, укажите пароль и свой действующий email.
(При регистрации на указанный адрес придет письмо с кодом активации и ссылкой на ваш персональный аккаунт, где вы сможете изменить свои данные, включая адрес сайта, ник, описание, контакты и т.д.)



grin LOL cheese smile wink smirk rolleyes confused surprised big surprise tongue laugh tongue rolleye tongue wink raspberry blank stare long face ohh grrr gulp oh oh downer red face sick shut eye hmmm mad angry zipper kiss shock cool smile cool smirk cool grin cool hmm cool mad cool cheese vampire snake excaim question

(обязательно)