Форум: Форум PHPФорум ApacheФорум Регулярные ВыраженияФорум MySQLHTML+CSS+JavaScriptФорум FlashРазное
Новые темы: 0000000
C++. Мастер-класс в задачах и примерах. Авторы: Кузнецов М.В., Симдянов И.В. MySQL на примерах. Авторы: Кузнецов М.В., Симдянов И.В. Социальная инженерия и социальные хакеры. Авторы: Кузнецов М.В., Симдянов И.В. PHP на примерах (2 издание). Авторы: Кузнецов М.В., Симдянов И.В. Самоучитель PHP 5 / 6 (3 издание). Авторы: Кузнецов М.В., Симдянов И.В.
ВСЕ НАШИ КНИГИ
Консультационный центр SoftTime

Разное

Выбрать другой форум

 

Здравствуйте, Посетитель!

вид форума:
Линейный форум Структурный форум

тема: Как робот Сапе видит свои теги?
 
 автор: Владимир55   (29.03.2010 в 14:27)   письмо автору
 
 

Для определения границ индексирования, роботу Сапе устанавливаются соответствующие теги в коде клиентской страницы. Например, так:
echo '77577<sape_index>';

Цифры я добавил для упрощения поиска, и эти цифры я вижу. А вот тега <sape_index> нет даже в коже страницы!

Тогда как же его находит робот Сапе?

  Ответить  
 
 автор: cheops   (29.03.2010 в 14:38)   письмо автору
 
   для: Владимир55   (29.03.2010 в 14:27)
 

Хм... вообще говоря странно, тэг должен бы присутствовать, а чем код страницы просматриваете?

  Ответить  
 
 автор: Владимир55   (29.03.2010 в 14:42)   письмо автору
 
   для: cheops   (29.03.2010 в 14:38)
 

Смотрел всеми доступными средствами: ИЕ и ФФ в режиме исходного кода, ФронтПейджем (прямо в сети), сохранял как HTML и как текстовый файл - нет там такого тега! А робот находит.

Из чистого любопытства хочется понять, в чем тут фокус!?

  Ответить  
 
 автор: AlexSol   (29.03.2010 в 14:52)   письмо автору
 
   для: Владимир55   (29.03.2010 в 14:42)
 

ie точно должен показать, а вот ff мог сумничать и не отобразить неизвестный ему тег. осоебенно если он нарушает структуру сртаницы

  Ответить  
 
 автор: cheops   (29.03.2010 в 15:04)   письмо автору
 
   для: Владимир55   (29.03.2010 в 14:42)
 

Хм... у меня тоже, если честно, подозрение, что просмоторщики скрывают неизвестный им HTML-тэг. Попробуйте сохранить файл и поискать тэг средствами PHP (strpos() наверняка должны найти) - в конце-концов именно так поступает робот.

  Ответить  
 
 автор: Владимир55   (29.03.2010 в 15:17)   письмо автору
 
   для: cheops   (29.03.2010 в 15:04)
 

Как раз к этому моменту я почти что это и проделал.

Открываю страницу через file_get_contents, смотрю результат через echo htmlspecialchars

И... нет этого тега!

Для эксперименнта на странице вывожу код
echo '<sape_index><sss_index>'; 


Вот это sss_index - есть, а вот этого sape_index нету!

В sape большие мастера!

  Ответить  
 
 автор: Trianon   (29.03.2010 в 15:21)   письмо автору
 
   для: Владимир55   (29.03.2010 в 15:17)
 

Это на локалхосте или на сервере?
Может на сервере стоит какой-то прокси, выкусывающий эти теги из потока http?

  Ответить  
 
 автор: Владимир55   (29.03.2010 в 15:47)   письмо автору
 
   для: Trianon   (29.03.2010 в 15:21)
 

Я пробовал и так, и эдак. Нет разницы.

Припоминаю, что где-то писалось о том, что sape научился прятать свои теги от поисковиков. Вероятно, какая-то хитрость заключена именно в этом.

  Ответить  
 
 автор: cheops   (29.03.2010 в 15:54)   письмо автору
 
   для: Владимир55   (29.03.2010 в 15:47)
 

Мистика... нет такой возможности скрыть тэг на удаленной машине - в чем-то другом дело, PHP-код везде одинаков - если ваш не видит и другие не увидят.

  Ответить  
 
 автор: oliss   (29.03.2010 в 15:36)   письмо автору
7 Кб
 
   для: Владимир55   (29.03.2010 в 15:17)
 

Всё есть

  Ответить  
 
 автор: Владимир55   (29.03.2010 в 15:44)   письмо автору
 
   для: oliss   (29.03.2010 в 15:36)
 

А Вы клиент sape?

  Ответить  
 
 автор: oliss   (29.03.2010 в 15:47)   письмо автору
 
   для: Владимир55   (29.03.2010 в 15:44)
 

Нет ,а что ,это отражается на вывод парсера браузера?

  Ответить  
 
 автор: Владимир55   (29.03.2010 в 15:48)   письмо автору
 
   для: oliss   (29.03.2010 в 15:47)
 

Похоже, что так.

  Ответить  
 
 автор: oliss   (29.03.2010 в 15:50)   письмо автору
44.5 Кб
 
   для: Владимир55   (29.03.2010 в 15:48)
 

Покажите любую страницу (не обязательно вашу ,просто нет времени искать )где присутствуют ссылки сапы)

  Ответить  
 
 автор: oliss   (29.03.2010 в 16:25)   письмо автору
28.2 Кб
 
   для: oliss   (29.03.2010 в 15:50)
 

И ещё хитро замаскированная

  Ответить  
 
 автор: oliss   (29.03.2010 в 16:32)   письмо автору
38.9 Кб
 
   для: oliss   (29.03.2010 в 16:25)
 

А вот в снипете гугла

  Ответить  
 
 автор: Владимир55   (29.03.2010 в 16:27)   письмо автору
 
   для: oliss   (29.03.2010 в 15:50)
 

http://www.stroyfirm.ru/expo/expoview.php?id=381
http://www.vserinki.ru/prod_3718.html
http://on56.ru/dir/interier/?l=593&page=3

На каждой странице эти теги есть по ЧЕТЫРЕ раза. Но ни одного не видно.

  Ответить  
 
 автор: AlexSol   (29.03.2010 в 18:45)   письмо автору
 
   для: Владимир55   (29.03.2010 в 16:27)
 

а в конце страницы нету инклуда php-кода от sape? на странице только их теги?

  Ответить  
 
 автор: Владимир55   (29.03.2010 в 19:10)   письмо автору
 
   для: AlexSol   (29.03.2010 в 18:45)
 

В конце дополнительных кодов нет, но в самом начале есть вот такой хитренький код:
<?php    if (!defined('_SAPE_USER')){
        
define('_SAPE_USER''eeda00faf');
    }
    require_once(
$_SERVER['DOCUMENT_ROOT'].'/'._SAPE_USER.'/sape.php');
    
$sape_context = new SAPE_context();
    
ob_start(array(&$sape_context,'replace_in_page'));

eeda00faf - идентификатор пользователя.

  Ответить  
 
 автор: oliss   (29.03.2010 в 19:37)   письмо автору
 
   для: Владимир55   (29.03.2010 в 19:10)
 

Этот код скорее всего для маскировки саповских ссылок (квери стринга),а теги возможно сначала были ,но когда сапой проиндексировали (всё что между ними) их убрали

А у кого есть рефер саповского робота?

  Ответить  
 
 автор: Владимир55   (29.03.2010 в 21:25)   письмо автору
 
   для: oliss   (29.03.2010 в 19:37)
 

Лично я откровенно не понимаю, что делает этот код. Коды, используемые в Сапе, вообще понять очень сложно. Там высококлассные специалисты, которые пишут коротко и непонятно. Полторы закрючки - и вот вам полноценный сервис!

Но в данном случае что-то мне подсказывает, что этот код делает нечто большее...

  Ответить  
 
 автор: cheops   (29.03.2010 в 21:38)   письмо автору
 
   для: Владимир55   (29.03.2010 в 21:25)
 

sape.php на вашем сервере?

  Ответить  
 
 автор: Владимир55   (29.03.2010 в 22:34)   письмо автору
27.4 Кб
 
   для: cheops   (29.03.2010 в 21:38)
 

Да.

Что характерно, редактор этот файл не открывает. Уж как этого достигли, не знаю, но я его могу посмотреть только блокнотом. И там видна функция замены слов. Похоже, что она же и трет теги. А бот, естественно, их видит.

Вот как оно получилось...

  Ответить  
 
 автор: oliss   (29.03.2010 в 23:09)   письмо автору
 
   для: Владимир55   (29.03.2010 в 21:25)
 

Простите ,ошибся ,нужен User-Agent саповского робота ,что в логах сервера.
Notepad++ помогает?

  Ответить  
 
 автор: Владимир55   (30.03.2010 в 00:18)   письмо автору
 
   для: oliss   (29.03.2010 в 23:09)
 

Как раз сегодня была переиндексация:
62.122.208.176 - - [29/Mar/2010:21:42:29 +0400] "GET HTTP/1.0" 200 6571 
"Mozilla/5.0 (Macintosh; U; PPC Mac OS X 10.4; ru; rv:1.9.2.2) Gecko/20100316 
Firefox/3.6.2 sputnik 2.1.0.18"


Но это не контролер.

  Ответить  
 
 автор: oliss   (30.03.2010 в 00:45)   письмо автору
 
   для: Владимир55   (30.03.2010 в 00:18)
 

попробуйте установить у себя https://addons.mozilla.org/ru/firefox/addon/59 и вбить туда юзер агент робота сапе ("GET HTTP/1.0" 200 6571
"Mozilla/5.0 (Macintosh; U; PPC Mac OS X 10.4; ru; rv:1.9.2.2) Gecko/20100316
Firefox/3.6.2 sputnik 2.1.0.18") и зайти под ним

сам адрес бота вроде 217.107.36.*
поищите в логах SAPE.BOT is watching you!

  Ответить  
 
 автор: Владимир55   (30.03.2010 в 12:13)   письмо автору
 
   для: oliss   (30.03.2010 в 00:45)
 

А для какой цели?

  Ответить  
 
 автор: oliss   (30.03.2010 в 12:27)   письмо автору
 
   для: Владимир55   (30.03.2010 в 12:13)
 

Чтобы с имитировать робота и зайти на свой ресурс и посмотреть насчёт работы саповских скриптов

  Ответить  
 
 автор: Trianon   (29.03.2010 в 23:42)   письмо автору
 
   для: Владимир55   (29.03.2010 в 19:10)
 

Это обработчик выходного потока.
Он, собственно, все коррективы и вносит.

  Ответить  
Rambler's Top100
вверх

Rambler's Top100 Яндекс.Метрика Яндекс цитирования