SEO-ламерство и манимейкинг

Как преобразовывать интренет в личный доход

php

Подписаться на эту рубрику по RSS

phpQuery - незаменимая вещь!

Рубрика: php
Дата: 19/08/2010 03:43:57

Понравился мне сабж. Очень удобно с его помощью писать парсеры. До него пробовал разные методы:

  • сам через DOM парсил страницу, нужные тэги
  • через регулярки меня вообще не проперло
  • SimpleHTMLDom - впринципе тоже удобно, но там какой то баг был или руки у меня кривые

В итоге остановился на phpQuery.

Далее...

cURL + http proxy

Рубрика: php
Дата: 04/08/2010 13:19:10

Наконец-то у меня эта связка заработала на работе, где используется прокси (squid), а я не админ.

Долго мучался, когда писал парсер. Приходилось или дома тестировать, или через ssh на vds. Править файлы на работе по фтп проблематично - прокси кеширует. :(

До дома тоже ждать долго. Приходилось пользоваться вторым вариантом через putty. Но это жутко неудобно. Да и потом, когда напарсено много инфы в базу, надо ее причесать, реструктуризовать. Приходилось пользоваться phpMyAdmin на vds. Это тоже как то не очень удобно.

Я уже пытался заставить работать cURL через proxy, как-то у меня это получалось, а потом перестало.

Сегодня опять решил попробовать cURL через прокси.

Сначала сделал так в функции получения страницы:

curl_setopt($curl, CURLOPT_HTTPPROXYTUNNEL, 1);  
curl_setopt($curl, CURLOPT_PROXY, 'user:password@proxy:3128');  

Нифига не работает, выдало отлуп: Received HTTP code 403 from proxy after CONNECT

Полез искать информацио о этой ошибке.

Оказывается, эта строка ненужна:

curl_setopt($curl, CURLOPT_HTTPPROXYTUNNEL, 1); 

Закомментировал ее и все заработало!

Хотя раньше у меня тоже работало. Я эту строчку не писал, а потом перестало. Может чего с паролем было, он ведь у меня замудренный со спец символами. Может, когда я его в строку передавал, то что-то у curl'a глючило.

Кароче хз, пока работает, буду парьсить....

Сделал плагин для Maxsite CMS, который может граббить блоги на blogger.com ( blogspot.com )

Блоги грабит на стандартных шаблонах, либо немного переделанных. Таких блогов большинство.

Хотя встречаются блоги на нестандартных шаблонах. Некоторые из них плагин не берет.

Далее...

Грабим blogger.com ( часть 2 )

Рубрика: Разное | php
Дата: 09/02/2010 21:03:47

В продолжение темы про граббинг blogger.com прикрутил еще пару плющек к скрипту.

Далее...

Грабим blogger.com (blogspot.com)

Рубрика: php
Метки:
Дата: 08/02/2010 20:50:21

Сегодня наткнулся на phpQuery. Отличная библиотека для работы с DOM.

Далее...