Форум: Форум PHPФорум ApacheФорум Регулярные ВыраженияФорум MySQLHTML+CSS+JavaScriptФорум FlashРазное
Новые темы: 0000000
MySQL на примерах. Авторы: Кузнецов М.В., Симдянов И.В. PHP на примерах (2 издание). Авторы: Кузнецов М.В., Симдянов И.В. PHP. Практика создания Web-сайтов (второе издание). Авторы: Кузнецов М.В., Симдянов И.В. MySQL 5. В подлиннике. Авторы: Кузнецов М.В., Симдянов И.В. Самоучитель MySQL 5. Авторы: Кузнецов М.В., Симдянов И.В.
ВСЕ НАШИ КНИГИ
Консультационный центр SoftTime

Форум PHP

Выбрать другой форум

 

Здравствуйте, Посетитель!

вид форума:
Линейный форум Структурный форум

тема: Создание поискового движка: индексация
 
 автор: antf   (01.06.2006 в 16:31)   письмо автору
 
 

Здравствуйте. Собираюсь создать универсальный поисковый движок. Элемент, с которого нужно начать - это индексатор. У меня есть несколько вопросов по его реализации:

1) Какие слова не нужно индексировать? У меня на примете теги, слова короче двух букв.
2) Где хранить результат? Я предполагаю использовать для этого массив, где будут храниться слова и их координаты.

$words[0] = array('news', $id_news, $word)

news - имя sql-таблицы
id_news - id новости
$word - слово

Заранее спасибо

   
 
 автор: Squadron   (01.06.2006 в 16:52)   письмо автору
 
   для: antf   (01.06.2006 в 16:31)
 

Второй Яндекс мастеришь? )

   
 
 автор: antf   (01.06.2006 в 17:25)   письмо автору
 
   для: Squadron   (01.06.2006 в 16:52)
 

Яндекс в любом случае быстрее будет :). А вот универсальный поисковичок для маленьких и средних сайтов не помешает. Уж очень мне не нравятся ограничения like и особенности полнотекстового поиска в бд.

   
 
 автор: Boss   (01.06.2006 в 18:08)   письмо автору
 
   для: antf   (01.06.2006 в 17:25)
 


особенности полнотекстового поиска в бд


А что именно вам ненравиться?

   
 
 автор: cheops   (02.06.2006 в 00:13)   письмо автору
 
   для: Boss   (01.06.2006 в 18:08)
 

Они ищут в записи, а не по всей странице, а страница может состоять из нескольких записей... В этом случае сложно обрабатывать запросы И, когда часть запроса в одной записи, а часть в другой...

   
 
 автор: Boss   (01.06.2006 в 18:07)   письмо автору
 
   для: antf   (01.06.2006 в 16:31)
 

1) Какие слова не нужно индексировать? У меня на примете теги, слова короче двух букв.

ihmo: Можно не индексировать все html теги, кроме title, keyword, description

   
 
 автор: Squadron   (01.06.2006 в 21:16)   письмо автору
 
   для: antf   (01.06.2006 в 16:31)
 

Посоветую тут скрипты поглядеть и мож че надумаешь hotscripts.com

   
 
 автор: Саня   (01.06.2006 в 21:38)   письмо автору
 
   для: antf   (01.06.2006 в 16:31)
 

Посмотрите на manlix search http://www.manlix.ru/zipped/manlix_search_v1_3.zip. И попытайтесь разобраться.

   
 
 автор: antf   (01.06.2006 в 21:50)   письмо автору
 
   для: Саня   (01.06.2006 в 21:38)
 

>>Полнотекстовой поиск: А что именно вам не нравится?
1) Нельзя искать сразу по нескольким таблицам.
2) Режим IN BOOLEAN MODE появился только недавно и далеко не все версии mysql его поддерживают.
3) Нельзя искать слова, которые содержат менее 4 символов: zip, rss, wap.

А выдержал бы такой поисковичок работу с LiteForum в его сегодняшних размерах? Я имею в виду версию, установленную на сайте Softtime. Или все же база быстрее будет. Что-то мне подсказывает, что размер файла с массивом будет больше 16м (распространенный предел, на ресурсы памяти, устанавливаемый хостером)

PS Я Самоделкин, мне хочется самому сделать. Здесь php и STL меня не ограничивает в творчестве.

   
 
 автор: Loki   (01.06.2006 в 23:09)   письмо автору
 
   для: antf   (01.06.2006 в 21:50)
 

1) можно
2) с 4 версии вроде как... а сейчас уже пятая
3) можно см. п2

   
 
 автор: cheops   (02.06.2006 в 00:14)   письмо автору
 
   для: antf   (01.06.2006 в 21:50)
 

3) Можно, но настраивать это нужно в my.ini, который к сожалению не всегда доступен.

   
 
 автор: cheops   (02.06.2006 в 00:16)   письмо автору
 
   для: antf   (01.06.2006 в 16:31)
 

1) Обычно выбирают всё-таки 3 символа, а не два, но составляют словарь ходовых трёх-буквенных слов (C++, sms и т.п.) - MySQL как раз сейчас по этому пути идёт...

   
Rambler's Top100
вверх

Rambler's Top100 Яндекс.Метрика Яндекс цитирования