| |
|
|
| | Здравствуйте. Собираюсь создать универсальный поисковый движок. Элемент, с которого нужно начать - это индексатор. У меня есть несколько вопросов по его реализации:
1) Какие слова не нужно индексировать? У меня на примете теги, слова короче двух букв.
2) Где хранить результат? Я предполагаю использовать для этого массив, где будут храниться слова и их координаты.
$words[0] = array('news', $id_news, $word)
|
news - имя sql-таблицы
id_news - id новости
$word - слово
Заранее спасибо | |
| |
|
|
| |
|
|
| |
для: antf
(01.06.2006 в 16:31)
| | | Второй Яндекс мастеришь? ) | |
| |
|
|
| |
|
|
| |
для: Squadron
(01.06.2006 в 16:52)
| | | Яндекс в любом случае быстрее будет :). А вот универсальный поисковичок для маленьких и средних сайтов не помешает. Уж очень мне не нравятся ограничения like и особенности полнотекстового поиска в бд. | |
| |
|
|
| |
|
|
| |
для: antf
(01.06.2006 в 17:25)
| | |
особенности полнотекстового поиска в бд
|
А что именно вам ненравиться? | |
| |
|
|
| |
|
|
| |
для: Boss
(01.06.2006 в 18:08)
| | | Они ищут в записи, а не по всей странице, а страница может состоять из нескольких записей... В этом случае сложно обрабатывать запросы И, когда часть запроса в одной записи, а часть в другой... | |
| |
|
|
| |
|
|
| |
для: antf
(01.06.2006 в 16:31)
| | | 1) Какие слова не нужно индексировать? У меня на примете теги, слова короче двух букв.
ihmo: Можно не индексировать все html теги, кроме title, keyword, description | |
| |
|
|
| |
|
|
| |
для: antf
(01.06.2006 в 16:31)
| | | Посоветую тут скрипты поглядеть и мож че надумаешь hotscripts.com | |
| |
|
|
| |
|
|
| |
для: antf
(01.06.2006 в 16:31)
| | | Посмотрите на manlix search http://www.manlix.ru/zipped/manlix_search_v1_3.zip. И попытайтесь разобраться. | |
| |
|
|
| |
|
|
| |
для: Саня
(01.06.2006 в 21:38)
| | | >>Полнотекстовой поиск: А что именно вам не нравится?
1) Нельзя искать сразу по нескольким таблицам.
2) Режим IN BOOLEAN MODE появился только недавно и далеко не все версии mysql его поддерживают.
3) Нельзя искать слова, которые содержат менее 4 символов: zip, rss, wap.
А выдержал бы такой поисковичок работу с LiteForum в его сегодняшних размерах? Я имею в виду версию, установленную на сайте Softtime. Или все же база быстрее будет. Что-то мне подсказывает, что размер файла с массивом будет больше 16м (распространенный предел, на ресурсы памяти, устанавливаемый хостером)
PS Я Самоделкин, мне хочется самому сделать. Здесь php и STL меня не ограничивает в творчестве. | |
| |
|
|
| |
|
|
| |
для: antf
(01.06.2006 в 21:50)
| | | 1) можно
2) с 4 версии вроде как... а сейчас уже пятая
3) можно см. п2 | |
| |
|
|
| |
|
|
| |
для: antf
(01.06.2006 в 21:50)
| | | 3) Можно, но настраивать это нужно в my.ini, который к сожалению не всегда доступен. | |
| |
|
|
| |
|
|
| |
для: antf
(01.06.2006 в 16:31)
| | | 1) Обычно выбирают всё-таки 3 символа, а не два, но составляют словарь ходовых трёх-буквенных слов (C++, sms и т.п.) - MySQL как раз сейчас по этому пути идёт... | |
| |
|
|