|
|
|
| В случае, если нужно одновременно с трех-четырех источников спарсить информацию - есть три известные мне варианта - pcntl, multi_curl и запуск дочерних фоновых скриптов через exec.
Третий вариант мне понятен и я имею возможность проверить его нагрузку.
Но первые два я и не понимаю, так как ни разу не применял пока, и не имею возможности проверить их нагрузку.
Так вопрос, собственно, в этом и состоит: Сколь различна нагрузка при использовании того или иного варианта? Нужно ли ковырять pcntl или multi_curl , если цель - снижение нагрузки? Или они вовсе не легковеснее фоновых скриптов?
Нагрузка велика не из-за тяжести выполняемых задач, а из-за количества обращений. | |
|
|
|
|
|
|
|
для: Shorr Kan
(31.03.2007 в 08:31)
| | Нагрузка на сеть у всех будет одинаковая, нагрузка на процессор будет определяться алгоритмом разбора страницы, который тоже у всех, как я понимаю одинаков? | |
|
|
|
|
|
|
|
для: cheops
(31.03.2007 в 13:49)
| | Разбор - да, одинаков... xml, плюс короткий цикл по текстовому массиву.
Иначе говоря - нет смысла менять текущий вариант (порождение дочерних процессов)?
Дочерний процесс: curl-считывание данных, и сразу же - их запись в файл.
Родитель потом уж пробегается по всем файлам, размышляет... То есть, разбор осуществляет родитель, после того, как отпрыски скачают данные. | |
|
|
|