|
|
|
| Такая проблема - получаю содержимое различных страниц через сокеты примерно вот таким образом
$fp = fsockopen($p_host, 80, $errno, $errstr, 30);
if (!$fp) {
echo "$errstr ($errno)<br />\n";
} else {
$out = "GET ".$p_path." HTTP/1.1\r\n";
$out .= "Host: ".$p_host."\r\n";
$out .= "User-Agent: ".get_agent()."\r\n";
$out .= "Connection: Close\r\n\r\n";
fwrite($fp, $out);
while (!feof($fp)) {
$cont.=fgets($fp);
}
fclose($fp);
|
соответственно подставляются юзер-агент, хост, ну и т.д, все как надо. И содержимое страницы удается получить. Но!
Содержимое это все время немного отличается от того, что есть на самом деле.
Например: получая содержимое вот этого сайта alhimik.ru, любой из его страниц, скрипт показывает, что title выглядит так
<title> Какой-то заголовок 1000</title>
|
Хотя никакой "1000" там и в помине нет.
Или на этом же сайте, или на других, в различных местах полученного кода возникают непонятные комбинации символов типа 102e,2d,109b,84b8 и так далее в том же духе.
Иногда бывает, что такие символы возникают совершенно в неожиданных местах, например вместо тега <script> получается что-то типа такого, точно не помню:
Что это вообще за глюк такой может быть? | |
|
|