|
|
|
| Подскажите, как реализовать граббер новостей с 10 источников или более. Чтобы новости заносились в базу данных.
Заранее спасибо. | |
|
|
|
|
|
|
|
для: kis-kis
(28.02.2008 в 17:57)
| | А что именно нужно. Формат сайты итог??? | |
|
|
|
|
|
|
|
для: mihdan
(28.02.2008 в 18:42)
| | Думаю лучший пример - Яндекс.Новости )) | |
|
|
|
|
|
|
|
для: kis-kis
(28.02.2008 в 21:15)
| | Уточнение, нужно будет использовать RSS-потоки. | |
|
|
|
|
|
|
|
для: kis-kis
(29.02.2008 в 10:14)
| | Возможно, окажутся полезными мои статьи:
Грабим RSS гисметео
Как правильно грабить сайты
Если что - обращайтесь.
[поправлено модератором] | |
|
|
|
|
|
|
|
для: mihdan
(28.02.2008 в 18:42)
| | Допустим, граббер я сделал. А как можно избежать дублирования новостей?
Спасибо. | |
|
|
|
|
|
|
|
для: kis-kis
(07.03.2008 в 09:43)
| | Можно просто брать md5 код каждой новости (или заголовка). Если они совпадают, то новость та же самая. Правда, есть момент: один лишний пробел в тексте и md5 не совпадут.
Если это не устраивает, то милости просим написать систему, являющуюся по сути, искусственным интеллектом, которая смогла бы понимать текст и сравнивать его смысл со смыслом другого текста:) Думаю, много денег заработаете на такой системке) | |
|
|
|
|
|
|
|
для: SHAman
(07.03.2008 в 10:07)
| | А если поступить так: брать время последнего посещения сайта источника, и если время новостей больше этого времени - то брать новости, иначе нет. Как такой вариант? | |
|
|
|
|
|
|
|
для: kis-kis
(07.03.2008 в 10:11)
| | Можно поступить немного иначе.
Находишь 24 тематических сайта, раз в час парсишь определенный сайт из этого списка.
Сравнивать новости можно по заголовку. | |
|
|
|
|
|
|
|
для: Night_Charter
(07.03.2008 в 10:31)
| | А почему именно 24? И раз в час? )) | |
|
|
|
|
|
|
|
для: kis-kis
(07.03.2008 в 10:41)
| | Да... Забыл дописать )
Присваиваем сайтам ключ часа в массиве.
Ставим на крон, и система готова. | |
|
|
|
|
|
|
|
для: Night_Charter
(07.03.2008 в 10:46)
| | А если сравнивать время, то в каком формате лучше? | |
|
|
|
|
|
|
|
для: kis-kis
(07.03.2008 в 11:04)
| | timestamp | |
|
|
|
|
|
|
|
для: mihdan
(07.03.2008 в 11:58)
| | ок, спасибо. Новости хранятся в базе, время в формате timestamp, как можно выбрать самую свежую новость по времени? | |
|
|
|
|
|
|
|
для: kis-kis
(07.03.2008 в 12:20)
| | То есть, проверка идет не по контенту, а по обновлению? Хе, ну тут все проще:) Я думал на разных сайтах могут новости повторяться - типа копипаст. Если так, то все гораздо сложнее. | |
|
|
|
|
|
|
|
для: kis-kis
(07.03.2008 в 12:20)
| | Так, почему-то, выводит неправильно -
$query_last_date = "SELECT ndate as lastdate FROM news_db order by id asc limit 1";
|
| |
|
|
|
|
|
|
|
для: kis-kis
(07.03.2008 в 13:15)
| | Никто не подскажет? | |
|
|
|
|
|
|
|
для: kis-kis
(07.03.2008 в 13:15)
| | В чём выражается "неправильность" вывода? | |
|
|
|
|
|
|
|
для: cheops
(07.03.2008 в 15:15)
| | Все, работает, это я тормозил. ))
А как вырезать из импортированных новостей это <![CDATA[]]>
<![CDATA[Состоится online-конференция "Новинки летнего туристического сезона - 2008"]]>
|
| |
|
|
|
|
|
|
|
для: kis-kis
(18.03.2008 в 18:08)
| | Никто не подскажет? | |
|
|
|
|
|
|
|
для: kis-kis
(07.03.2008 в 13:15)
| |
<?
$query_last_date = "SELECT ndate as lastdate FROM news_db order by id desc limit 1";
?>
|
| |
|
|
|