Форум: Форум PHPФорум ApacheФорум Регулярные ВыраженияФорум MySQLHTML+CSS+JavaScriptФорум FlashРазное
Новые темы: 0000000
MySQL 5. В подлиннике. Авторы: Кузнецов М.В., Симдянов И.В. C++. Мастер-класс в задачах и примерах. Авторы: Кузнецов М.В., Симдянов И.В. PHP на примерах (2 издание). Авторы: Кузнецов М.В., Симдянов И.В. Самоучитель MySQL 5. Авторы: Кузнецов М.В., Симдянов И.В. PHP 5. На примерах. Авторы: Кузнецов М.В., Симдянов И.В., Голышев С.В.
ВСЕ НАШИ КНИГИ
Консультационный центр SoftTime

Форум PHP

Выбрать другой форум

 

Здравствуйте, Посетитель!

вид форума:
Линейный форум (новые сообщения вниз) Структурный форум

тема: SS, Поиск и вывод картинок

Сообщения:  [1-10]    [11-20]  [21-23] 

 
 автор: cheops   (28.01.2005 в 00:18)   письмо автору
 
   для: SS   (27.01.2005 в 22:07)
 

У нас уже опять длинная тема :))) - давайте переместимся в новую

http://www.softtime.ru/forum/read.php?id_forum=1&id_theme=1815

   
 
 автор: SS   (27.01.2005 в 22:07)   письмо автору
 
   для: SS   (26.01.2005 в 03:57)
 

Извиняюсь за навязчивость, но Вы не смотрели еще мой вопрос? Или не получается?

   
 
 автор: SS   (26.01.2005 в 03:57)   письмо автору
 
   для: SS   (25.01.2005 в 15:08)
 

Я имею ввиду - НЕ ВНОСИТ ВООБЩЕ НИЧЕГО, ни старых файлов, ни новых, ни в URL, ни в BASE.
Не уверен, но проверьте, пожалуйста, это место:

          $path_parts = pathinfo($file);
          if(!in_array($path_parts["extension"], $ext)) continue;
          // Проверяем файл на предмет повторной индексации - если
          // он уже проиндексирован - пропускаем цикл
          if(!in_array($dirname."/".$file, $url_alredy)) continue;
          // Записываем имя файла в url.txt
          fwrite($fd, "$i $dirname/".$file."/\n");

   
 
 автор: SS   (25.01.2005 в 15:08)   письмо автору
 
   для: cheops   (25.01.2005 в 00:34)
 

Проверил новый scan - ничего не вносит ни в BASE ни в URL.

   
 
 автор: SS   (25.01.2005 в 02:28)   письмо автору
 
   для: cheops   (25.01.2005 в 01:44)
 

Если это возможно, то оставить их только для слов, работающих с датой:
в.
вв.
г.
гг.
н.
э.
нач.
кон.
сер.
ок.
Однако, я сейчас проверил - сейчас их поиск не находит, например, запрос "I в." или "I в. до н.э." не находит, хотя в BASE.TXT таких файлов полно.

   
 
 автор: cheops   (25.01.2005 в 01:44)   письмо автору
 
   для: SS   (25.01.2005 в 01:12)
 

Да, вообще-то, я как-то не подумал об предметной области... точка с запятой и точки используется в поиске? их бы с точки зрения безопасности исключить нужно...

   
 
 автор: SS   (25.01.2005 в 01:12)   письмо автору
 
   для: cheops   (25.01.2005 в 00:34)
 

Здесь специфика сайта не позволяет... Ключевое слово "Рим" состоит из 3-х букв, потом есть такая богиня Ио, а поскольку это раздел Античного искусства и страницы содержат также и информацию о дате, то будет не найти картинку по дате, поскольку в начале нашей эры дата могла состоять из двух или даже из одной цифры.
Смотря статистику текстовых поисковиков, диву даешься, что пытаются искать...

   
 
 автор: cheops   (25.01.2005 в 00:34)   письмо автору
 
   для: SS   (24.01.2005 в 19:18)
 

1-3) Постарался учесть...
4) Это уже давайте завтра - подумать нужно... может здесь лучше регулярными выраженями... зачем психически здоровым людям искать точки и запятые... давайте ограничим поиск словами, число символов в которых не меньше 4 (это обычная практика).

   
 
 автор: SS   (24.01.2005 в 19:18)   письмо автору
 
   для: cheops   (24.01.2005 в 00:14)
 

Вот тебе и последний штрих :) Ляпнул, не подумав. Cheops, спасибо Вам за долготерпение! Но никак не могу пройти мимо некоторых досадных мелочей:

1. Если ALT пустой или = "ИСТОРИЯ ДРЕВНЕГО РИМА" - картинку индексировать не надо. Дело в том, что баннеры не только idr88x31b.GIF, есть и другие и сканер проиндексировал даже с idr88x31.GIF (он смотрит по относительному пути, но у каждого уровня свой относительный путь к файлу, в ту или другую сторону).

2. URL.XTX - не выводить другие файлы, кроме htm, html, php (простейший пример - у нас сейчас ок.1000 картинок, на каждую есть превьюшка и htm-документ, итого получается 1000*3=3000 файлов, из 2000 - ненужная информация.). Сейчас удалены вручную.

3. Сейчас страницы проиндексированы, приписываются ключевые слова для каждой картинки в теге примечаний, чтобы не выводились в результатах поиска, труд немалый, скажем, жалко потерять при переиндексации. И вручную вносить обновления - тоже не лучший вариант, особенно, если учесть, что загружает их несколько человек, - накладки неизбежны. Поправьте, пожалуйста, чтобы при повторной индексации проиндексированные картинки не индексировались, т.е. если есть такая картинка по такому адресу - то ничего не записываем, если нет - то прибавляем 1 к максимальному номеру ссылки в файле URL.TXT и делаем запись. Что-то в этом духе.

4. Возможность стоп-листа. Сейчас набираешь любой предлог или знак препинания - и поисковик рад стараться, выводя все страницы. Допишите, пожалуйста, чтобы перед началом поиска сначала проверить содержимое файла, напр., STOP.TXT и если там нет такого знака или слова, то тогда ищем, если есть - то ругаться.

   
 
 автор: cheops   (24.01.2005 в 00:14)   письмо автору
 
   для: SS   (24.01.2005 в 00:06)
 

У баннера название наверное не меняется? Тогда его можно игнорировать примерно следующим образом:
<?php
          
if(isset($out[0]))
          {
            for(
$j 0$j<6$j++) 
            {
              if(isset(
$out[$j]))
              {
                
$out[$j][1] = str_replace("\r\n","",$out[$j][1]);
                
$out[$j][1] = str_replace("\n","",$out[$j][1]);
                if(
$out[$j][2] != "../../../../site/idr88-31b.GIF")
                
fwrite($fb,"$i ".$out[$j][2]." ".$out[$j][1]."\n");
              }
            }
          }
          else
          {
            
$patern "|<img[\s]*src[^\"]*\"([^\"]*)\"[^a]*alt[^\"]*\"([^\"]*)|i";
            
preg_match_all($patern$buffer$outPREG_SET_ORDER);
            
// Вместо 6 поставьте максимальное число изображений на
            // на странице
            
for($j 0$j<6$j++) 
            {
              if(isset(
$out[$j]))
              {
                
$out[$j][2] = str_replace("\r\n","",$out[$j][2]);
                
$out[$j][2] = str_replace("\n","",$out[$j][2]);
                if(
$out[$j][1] != "../../../../site/idr88-31b.GIF")
                
fwrite($fb,"$i ".$out[$j][1]." ".$out[$j][2]."\n");
             }
            }
          }
?>

   

Сообщения:  [1-10]    [11-20]  [21-23] 

Форум разработан IT-студией SoftTime
Rambler's Top100
вверх

Rambler's Top100 Яндекс.Метрика Яндекс цитирования