Грабим blogger.com (blogspot.com)
Метки: blogspot blogger граббинг
Понедельник, 8 февраля 2010 г.
Просмотров: 909
Подписаться на комментарии по RSS
Сегодня наткнулся на phpQuery. Отличная библиотека для работы с DOM.
На ее основе начал делать граббинг блогов с blogspot.com ( blogger.com ).
Как то яуже пытался использовать другую библиотеку для работы с DOM. вроде бы называлась она simple_html_dom.
Начал юзать ее для предыдущего грабера. Но потом отказался от нее. Были какие то глюки, она теряла (не закрывала тег). В итоге получалась какая-то кривая разметка. И было решено использовать оригинальный php dom. Я это осилил. Но приходилось писать много кода. С phpQuery очень все просто. поглядим, не будет ли эта библиотека глючить.
B так, что же сегодня сделал...
Разбирался с разметкой страницы, как выводятся посты, дата, заголовки и т.д.
В итоге получился пока что следующий габбер:
вводим url блога (либо адрес конкретной страницы )
есть чекбокс, который позволяет следовать по всем предыдущим записям (страницам )
Жмем кнопку "Получить" и получаем текстовые файлы с содержимым.
Немного допилю скрипт и буду делать соответствующий плагин для Maxsite CMS.

Оставьте комментарий!