Парсер сайтов и автонаполнение Maxsite CMS
Метки: maxsite cms | парсинг
Пятница, 22 января 2010 г.
Просмотров: 907
Подписаться на комментарии по RSS
Ну вот практически закончил писать парсер. Парсер получился не универсальный :( , а узконаправленный. Парсер состоит из 2х частей: 1 часть парсит адрес и пишет каждую статью в отдельный файл, 2 часть зачитывает данные из файла и импортирует их в базу.
Главный недостаток в том, что для первой части необходима страница с полными статьями. Парсер надо запускать раз в 12 часов для лучшего эффекта, чтобы не пропустить новые статьи на сайте.
Если надо парсить старые записи, то необходимо как то подсунуть нужный url страницы.
Вся напарсеная инфа кладется в базу. Сайт работает на Maxsite CMS.
Пока что данные заносятся прямым доступом в таблицы.
В планах сделать плагин для Maxsite CMS и запускать все это дело по крону.
Сделать кнопку для ручного парсинга и заноса в базу.
А так же еще какие-нибудь возможности.

Комментариев: 2
Реализовали такой плагин? Интересно было бы посмотреть...
все это давно работает и наполняет мне в районе 10 сайтов
но почти для каждого сайта мне приходится изменять процедуру парсинга (ну там теги, разная разметка и т.д.)
плагин поглядеть так не получится, делаю только на заказ