Форум: Форум PHPФорум ApacheФорум Регулярные ВыраженияФорум MySQLHTML+CSS+JavaScriptФорум FlashРазное
Новые темы: 0000000
PHP на примерах (2 издание). Авторы: Кузнецов М.В., Симдянов И.В. Объектно-ориентированное программирование на PHP. Авторы: Кузнецов М.В., Симдянов И.В. PHP 5. На примерах. Авторы: Кузнецов М.В., Симдянов И.В., Голышев С.В. Самоучитель PHP 5 / 6 (3 издание). Авторы: Кузнецов М.В., Симдянов И.В. Программирование. Ступени успешной карьеры. Авторы: Кузнецов М.В., Симдянов И.В.
ВСЕ НАШИ КНИГИ
Консультационный центр SoftTime

Форум Регулярные Выражения

Выбрать другой форум

 

Здравствуйте, Посетитель!

вид форума:
Линейный форум Структурный форум

тема: Выражение для поиска IP-адресов прокси
 
 автор: amigo62   (23.05.2008 в 15:15)   письмо автору
 
 

Здравствуйте, форумчане! Требуется Perl-совместимое выражение, которому будут соответствовать URI вида:

118.98.176.132:3128
200.133.15.2:80
201-27-69-94.dsl.telesp.net.br:3128
mail.mitamins.cn:3128
dialbs-213-023-227-194.static.arcor-ip.net:8080

пробовал вот так:

/[[:alnum:]]{1,3}\.[[:alnum:]]{1,3}\.[[:alnum:]]{1,3}\.[[:alnum:]]{1,3}\:/

с различными поправками, но видимо, знаний не хватает:)
не определяются даже те, что содержат только числа:)

   
 
 автор: AcidTrash   (23.05.2008 в 21:48)   письмо автору
 
   для: amigo62   (23.05.2008 в 15:15)
 

>Выражение для поиска IP-адресов прокси
Вашему выражению, из примера все соответствует кроме портов. Можно поподробнее в чем задача?

P.S.
Скажем так вот это
201-27-69-94.dsl.telesp.net.br:3128
mail.mitamins.cn:3128
dialbs-213-023-227-194.static.arcor-ip.net:8080
ну ни как не IP-адреса.

   
 
 автор: amigo62   (24.05.2008 в 10:44)   письмо автору
 
   для: AcidTrash   (23.05.2008 в 21:48)
 

Подробнее:) :
порты, собственно, и не нужны, и вот почему. Требуется создать бот, который будет собирать с известных заранее источников IP-адреса прокси-анонимок, и заносить их в базу (допустим, ежесуточно), чтобы исключить возможность накрутки с использованием таких прокси.

>P.S.
>Скажем так вот это
>201-27-69-94.dsl.telesp.net.br:3128
>mail.mitamins.cn:3128
>dialbs-213-023-227-194.static.arcor-ip.net:8080
>ну ни как не IP-адреса.

здесь, я так понимаю, в переменную REMOTE_ADDR пойдут значения 213.023.227.194 и 201.27.69.94, а вот со вторым - неясно. Видимо, придется еще и проверять как-то:(

   
 
 автор: BinLaden   (24.05.2008 в 19:03)   письмо автору
 
   для: amigo62   (24.05.2008 в 10:44)
 

> не определяются даже те, что содержат только числа:)
Странно, на Ваш первый у меня IP-адреса находятся. Однако есть пара замечаний:
- Вместо [[:alnum:]] лучше использовать \d.
- Символ ":" (двоеточие) не является управляющим в PCRE и его не стоит экранировать.

Можно использовать такой шаблон: /(([a-z0-9_-]+\.)+[a-z0-9_-]+):\d+/i
Или даже просто /([a-z0-9_.-]+):\d+/i (такой будет находить и адреса вида "px.....com:8080")

   
 
 автор: amigo62   (24.05.2008 в 20:47)   письмо автору
 
   для: BinLaden   (24.05.2008 в 19:03)
 

Спасибо, но... Не работает:( попробуйте:
<?php
$a
=file_get_contents("http://www.cybersyndrome.net/pla4.html");
preg_match("/(([a-z0-9_-]+\.)+[a-z0-9_-]+):\d+/i",$a,$b);
for(
$i=1;$i<count($b);$i++)
{
echo 
$b[$i].'<br>';
}
?>

<?php
$a
=file_get_contents("http://www.cybersyndrome.net/pla4.html");
preg_match("/([a-z0-9_.-]+):\d+/i",$a,$b);
for(
$i=1;$i<count($b);$i++)
{
echo 
$b[$i].'<br>';
}
?>

в первом случае почему-то находит только один адрес, во втором - вообще ничего...

   
 
 автор: BinLaden   (24.05.2008 в 23:34)   письмо автору
 
   для: amigo62   (24.05.2008 в 20:47)
 

preg_match() находит только первое вхождение. Для полного поиска всех строк, подходящих под шаблон используют preg_match_all().

Попробуйте это:
<?php
$a 
file_get_contents('http://www.cybersyndrome.net/pla4.html');

preg_match_all('/([a-z0-9_.-]+):\\d+/i'$a$matches);

for(
$i 0$i count($matches[1]); $i++)
{
    echo 
$matches[1][$i], '<br />';
}
?>


Кстати, в PHP первый элемент массива начинается с 0, а не с 1.

P.S. Для адресов типа mail.mitamins.cn:3128 используйте gethostbyname().

   
 
 автор: amigo62   (24.05.2008 в 20:51)   письмо автору
 
   для: BinLaden   (24.05.2008 в 19:03)
 

>>Странно, на Ваш первый у меня IP-адреса находятся. Однако есть пара замечаний:
- Вместо [[:alnum:]] лучше использовать \d.
- Символ ":" (двоеточие) не является управляющим в PCRE и его не стоит экранировать.


а с в какой функции Вы его применяли? У меня - ничего..

   
 
 автор: amigo62   (25.05.2008 в 16:38)   письмо автору
 
   для: amigo62   (24.05.2008 в 20:51)
 

Работает... Но что-то не везде и не очень охотно:) А как исправить выражение, чтобы определялись ТОЛЬКО IP? Что то вроде этого: /[[:alnum:]]{1,3}\.[[:alnum:]]{1,3}\.[[:alnum:]]{1,3}\.[[:alnum:]]{1,3}/ . Этого, думаю, было бы достаточно, да и на некоторых страницах списки выстроены в таблицы, где порт идет отдельной колонкой, без предворяющего :

>>Кстати, в PHP первый элемент массива начинается с 0, а не с 1.
В первом элементе preg_match вернет исходный текст:)

   
Rambler's Top100
вверх

Rambler's Top100 Яндекс.Метрика Яндекс цитирования