php
Подписаться на эту рубрику по RSS
Понравился мне сабж. Очень удобно с его помощью писать парсеры. До него пробовал разные методы:
- сам через DOM парсил страницу, нужные тэги
- через регулярки меня вообще не проперло
- SimpleHTMLDom - впринципе тоже удобно, но там какой то баг был или руки у меня кривые
В итоге остановился на phpQuery.
Наконец-то у меня эта связка заработала на работе, где используется прокси (squid), а я не админ.
Долго мучался, когда писал парсер. Приходилось или дома тестировать, или через ssh на vds. Править файлы на работе по фтп проблематично - прокси кеширует. :(
До дома тоже ждать долго. Приходилось пользоваться вторым вариантом через putty. Но это жутко неудобно. Да и потом, когда напарсено много инфы в базу, надо ее причесать, реструктуризовать. Приходилось пользоваться phpMyAdmin на vds. Это тоже как то не очень удобно.
Я уже пытался заставить работать cURL через proxy, как-то у меня это получалось, а потом перестало.
Сегодня опять решил попробовать cURL через прокси.
Сначала сделал так в функции получения страницы:
curl_setopt($curl, CURLOPT_HTTPPROXYTUNNEL, 1); curl_setopt($curl, CURLOPT_PROXY, 'user:password@proxy:3128');
Нифига не работает, выдало отлуп: Received HTTP code 403 from proxy after CONNECT
Полез искать информацио о этой ошибке.
Оказывается, эта строка ненужна:
curl_setopt($curl, CURLOPT_HTTPPROXYTUNNEL, 1);
Закомментировал ее и все заработало!
Хотя раньше у меня тоже работало. Я эту строчку не писал, а потом перестало. Может чего с паролем было, он ведь у меня замудренный со спец символами. Может, когда я его в строку передавал, то что-то у curl'a глючило.
Кароче хз, пока работает, буду парьсить....
Граббинг блогов с blogger.com ( blogspot.com )
Рубрика: Разное | phpМетки: плагины блоги
Дата: 12/02/2010 18:09:06
Грабим blogger.com (blogspot.com)
Рубрика: phpМетки: blogspot blogger граббинг
Дата: 08/02/2010 20:50:21
