Форум: Форум PHPФорум ApacheФорум Регулярные ВыраженияФорум MySQLHTML+CSS+JavaScriptФорум FlashРазное
Новые темы: 0000000
Социальная инженерия и социальные хакеры. Авторы: Кузнецов М.В., Симдянов И.В. Самоучитель MySQL 5. Авторы: Кузнецов М.В., Симдянов И.В. PHP. Практика создания Web-сайтов (второе издание). Авторы: Кузнецов М.В., Симдянов И.В. PHP на примерах (2 издание). Авторы: Кузнецов М.В., Симдянов И.В. PHP 5. На примерах. Авторы: Кузнецов М.В., Симдянов И.В., Голышев С.В.
ВСЕ НАШИ КНИГИ
Консультационный центр SoftTime

Форум PHP

Выбрать другой форум

 

Здравствуйте, Посетитель!

вид форума:
Линейный форум Структурный форум

тема: Вывести количество и суммарный размер всех файлов сайта (за вознаграждение $!)
 
 автор: Nicole Neumann   (01.12.2006 в 18:11)   письмо автору
 
 

Задание!

Определить и вывести количество и суммарный размер всех файлов сайта, не являющихся HTML-документами и рисунками. Вывести их список. Сайт: http://www.ssau.ru

Нужно обязательно сделать с использованием сокетов!!!

ТОМУ, КТО СДЕЛАЕТ, ЗАПЛАЧУ 6WMZ (или вместо денег отдам номерок аськи 8558577 !!!)

Сделать нужно как можно быстрее!

Гарантией оплаты могут служить следующие темы (там и задания похожие были и уже разобраны):
http://softtime.ru/forum/read.php?id_forum=1&id_theme=26737&page=1

Особенно интересует заинтересованность Ярового Романа, который мне в прошлый раз помог! Жду ответа! Я думаю, для пхп-гуру задание не очень сложное и понятное!

   
 
 автор: kasmanaft   (01.12.2006 в 18:43)   письмо автору
 
   для: Nicole Neumann   (01.12.2006 в 18:11)
 

А что там считать? вроде ничего и нету кроме хтмл+картинки ...

   
 
 автор: Nicole Neumann   (01.12.2006 в 18:46)   письмо автору
 
   для: kasmanaft   (01.12.2006 в 18:43)
 

Вот в этом одна из сложностей... на фтп там есть файлы... лежат.

Еще лучше если скрипт будет более-менее универсальным и для других сайтов. В расчет берите сайты со статическими урлами.

   
 
 автор: Nicole Neumann   (01.12.2006 в 18:47)   письмо автору
 
   для: kasmanaft   (01.12.2006 в 18:43)
 

Напоминает это задание: http://softtime.ru/forum/read.php?id_forum=1&id_theme=26797&page=1

Только надо реализовать его для http-протокола!

   
 
 автор: kasmanaft   (01.12.2006 в 19:07)   письмо автору
 
   для: Nicole Neumann   (01.12.2006 в 18:47)
 

Что-то общее есть, конечно, но тут надо паука писать!
По сравнению с тем заданием это горааааздо сложнее ...

А вообще, семестровую счас допишу свою и, если не засну, помучаю немного ...

>> на фтп там есть файлы... лежат.
а ссылки на них есть где-нить?

и вообще, чтоб зря не стараться ... что именно нужно сделать? посчитать сколько "рары-зипы" весят, лежащие именно на данном сайте?

   
 
 автор: Nicole Neumann   (01.12.2006 в 20:24)   письмо автору
 
   для: kasmanaft   (01.12.2006 в 19:07)
 

1. Ссылки на файлы есть в примере фтп-сканера. Они там настоящие.
2. Определить и вывести количество и суммарный размер всех файлов сайта, не являющихся HTML-документами и рисунками. Вывести их список. ИМЕННО ТАК! зипари, рары, мпеги и прочие, все что не относится к заданным...

   
 
 автор: ЯR   (02.12.2006 в 04:26)   письмо автору
 
   для: Nicole Neumann   (01.12.2006 в 20:24)
 

чет я не понял: надо ссылки взять с сайта? или с FTP?

   
 
 автор: Nicole Neumann   (02.12.2006 в 07:44)   письмо автору
 
   для: ЯR   (02.12.2006 в 04:26)
 

с сайта! работаем только с http-протоколом!

   
 
 автор: Nicole Neumann   (02.12.2006 в 14:06)   письмо автору
 
   для: ЯR   (02.12.2006 в 04:26)
 

+ надо сделать так чтоб это все хозяйство работало для сайта http://www.ssau.ru, а уж для остальных не так важно. т.е. если универсальный написать слишком долго и сложно, то хрен с ним...

надеюсь на понимание проблемы. тому кто поможет буду очень благодарен, потому что сроки поджимают!

   
 
 автор: Nicole Neumann   (03.12.2006 в 15:12)   письмо автору
 
   для: ЯR   (02.12.2006 в 04:26)
 

короче я понял, что ты имел ввиду=)

но выдает по-прежнему вот это:

Всего:
размер: 0 байт
файлов: 0

Список:


(тестил и по диалапу и на выделенке)

   
 
 автор: Nicole Neumann   (02.12.2006 в 22:30)   письмо автору
 
   для: Nicole Neumann   (01.12.2006 в 20:24)
 

ЯR и kasmanaft! Оветьте хоть ченить! Как вообще реально для вас такое сделать?

   
 
 автор: ЯR   (03.12.2006 в 02:30)   письмо автору
 
   для: Nicole Neumann   (02.12.2006 в 22:30)
 

ща сделаю, если получится

   
 
 автор: ЯR   (03.12.2006 в 03:36)   письмо автору
 
   для: ЯR   (03.12.2006 в 02:30)
 

Попробуй это:

ЗЫ
ещё не поздно?

   
 
 автор: Nicole Neumann   (03.12.2006 в 11:35)   письмо автору
 
   для: ЯR   (03.12.2006 в 03:36)
 

Время еще терпит...

А скрипт выполняется слишком долго... (в конце - пустая страница) даже на маленьких сайтах, где есть ссылки на файлы... хотя я в коде глянул вроде должно работать. хз, короче, чего ему не хватает. и время работы скрипта увеличивал...

   
 
 автор: ЯR   (03.12.2006 в 13:02)   письмо автору
 
   для: Nicole Neumann   (03.12.2006 в 11:35)
 

где он не работает?
на josiefans.ru (вроде так) работает

   
 
 автор: Nicole Neumann   (03.12.2006 в 13:28)   письмо автору
 
   для: ЯR   (03.12.2006 в 13:02)
 

Не... не хочет... проверил еще раз... (сайт, кстати, http://www.josiefans.com). Надо чтоб работало в превую очередь для сайта http://www.ssau.ru

Долго грузится страница, а потом просто пусто...

   
 
 автор: ЯR   (03.12.2006 в 13:52)   письмо автору
 
   для: Nicole Neumann   (03.12.2006 в 13:28)
 

вот работающий на josiefans.
а ssau видимо просто очень большой, надо на широком канале тестировать

   
 
 автор: Nicole Neumann   (03.12.2006 в 14:06)   письмо автору
 
   для: Nicole Neumann   (03.12.2006 в 13:28)
 

ок. действительно на josiefans.com все теперь выводит как надо. насчет ssau.ru - просто возвращает 0 байт (страница загружается, скрипт отрабатывает)

   
 
 автор: ЯR   (03.12.2006 в 14:15)   письмо автору
 
   для: Nicole Neumann   (03.12.2006 в 14:06)
 

там просто ещё надо функцию getlinks изменять для каждого сайта (там где (substr($value, 0, 7) != 'http://' и т.п.)

   
 
 автор: Nicole Neumann   (03.12.2006 в 14:52)   письмо автору
 
   для: ЯR   (03.12.2006 в 14:15)
 

функцию getlinks! ты ж сам сказал, что ее надо править! я ж деньги за сделанную работу предлагаю, мне, к сожалению (наверное), делать некогда... пойми меня правильно! я поэтому за помощью на этот форум и обратился! ;-)

   
 
 автор: ЯR   (03.12.2006 в 15:07)   письмо автору
 
   для: Nicole Neumann   (03.12.2006 в 14:52)
 

вроде исправил всё:

   
 
 автор: Nicole Neumann   (03.12.2006 в 16:10)   письмо автору
 
   для: Nicole Neumann   (03.12.2006 в 14:52)
 

а чего пробовать? вопрос чтоль там задать? там точно не помогут!

   
 
 автор: Nicole Neumann   (03.12.2006 в 15:13)   письмо автору
 
   для: ЯR   (03.12.2006 в 14:15)
 

короче я понял, что ты имел ввиду=)

но выдает по-прежнему вот это:

Всего:
размер: 0 байт
файлов: 0

Список:


(тестил и по диалапу и на выделенке)

   
 
 автор: ЯR   (03.12.2006 в 15:38)   письмо автору
 
   для: Nicole Neumann   (03.12.2006 в 15:13)
 

попробуй на http://forum.ssau.ru/

   
 
 автор: Nicole Neumann   (03.12.2006 в 16:36)   письмо автору
 
   для: Nicole Neumann   (03.12.2006 в 15:13)
 

Самое что интересное, по логике ВСЕ ДОЛЖНО РАБОТАТЬ И НА ssau.ru
Ведь я понял что ты и где подправил... Блин, но такое ощущение, что он просто на сайт не заходит и все...

   
 
 автор: ЯR   (03.12.2006 в 18:32)   письмо автору
 
   для: Nicole Neumann   (03.12.2006 в 16:36)
 

а ты уверен, что там есть ссылки на нехтмл-файлы

   
 
 автор: kasmanaft   (03.12.2006 в 21:42)   письмо автору
 
   для: ЯR   (03.12.2006 в 18:32)
 

да, есть... через поиск нашел какие-то отчеты в xls и zip ..
нужно рекурсивно вызывать getpage и getlinks для всех найденных ссылок и запоминать куда-нубудь уже обработанные ... а то у тебя получается, что обрабатываются ссылки только с главной страницы

   
 
 автор: Nicole Neumann   (03.12.2006 в 23:17)   письмо автору
 
   для: ЯR   (03.12.2006 в 18:32)
 

kasmanaft может ты доделаешь??? а то я и не знаю...

   
 
 автор: kasmanaft   (04.12.2006 в 10:30)   письмо автору
 
   для: Nicole Neumann   (03.12.2006 в 23:17)
 

Доделал ... но скрипт, хоть и переписан основательно, начинал все-таки ЯR ... пока выкладывать не буду :)
Вот результат:


Всего файлов: 12, общим размером 10319535 байт

Список: 
1) http://ssau.ru/files/info/continfo/phonebook_2005_7.xls -- 312832 байт
2) http://ssau.ru/files/info/continfo/phonebook_2005_al.xls -- 71168 байт
3) http://ssau.ru/files/science/conferences/2006_06_21/conf_2006_06_21.doc -- 601088 байт
4) http://ssau.ru/files/science/conferences/2006_06_21/conf_2006_02_02.doc -- 0 байт
5) http://ssau.ru/files/science/reports/report_nid_2004.zip -- 236753 байт
6) http://ssau.ru/files/science/reports/report_nid_2005.xls -- 167936 байт
7) http://ssau.ru/files/resources/oep/oep.zip -- 29906 байт
8) http://ssau.ru/files/resources/sotrudniki/zabolotnov/zabolotnov_toau_lab.zip -- 475271 байт
9) http://ssau.ru/files/resources/sotrudniki/zabolotnov/zabolotnov_mc.zip -- 343408 байт
10) http://ssau.ru/files/editions/vestnik/vestnik2002.pdf -- 3302147 байт
11) http://ssau.ru/files/editions/vestnik/vestnik_2_2002.pdf -- 3903359 байт
12) http://ssau.ru/files/editions/vestnik/vestnik2003_2.pdf -- 875667 байт

Всего скачано страниц: 1607
Скрипт работал 1974 секунд

Мда ... результат впечатляет =)) Для эксперименту надо замерить сколько он тафика сожрал

Также на маил.ру найден еще " http://corp.mail.ru/images/banner.zip -- 5713 байт "
А на яндексе около тысячи xml'ек (с новостями ... правда скрипт у них размер не определил)

   
 
 автор: Nicole Neumann   (04.12.2006 в 17:38)   письмо автору
 
   для: kasmanaft   (04.12.2006 в 10:30)
 

пришли скрипт на мыло artronas@mail.ru

протестирую и сделаю окончательные выводы.

   
 
 автор: kasmanaft   (04.12.2006 в 18:42)   письмо автору
 
   для: Nicole Neumann   (04.12.2006 в 17:38)
 

Отправил

пс ... если что увеличь число в set_time_limit

   
 
 автор: kasmanaft   (04.12.2006 в 19:24)   письмо автору
 
   для: kasmanaft   (04.12.2006 в 18:42)
 

Хм ... если не считать потраченный трафик, то скрипт работает значительно быстрее.
Попробуй закоментируй 73-ю строку:

// $GLOBALS['totalsize'] += strlen($text) / 1024;

   
 
 автор: Nicole Neumann   (03.12.2006 в 19:11)   письмо автору
 
   для: Nicole Neumann   (03.12.2006 в 15:13)
 

Попробовал еще на этих сайтах:

http://company.yandex.ru
http://corp.mail.ru

На 1 находит но не то, что нужно и размер не выдает... а жаль...
На 2 значительно лучше и пишет:

Всего:
размер: 6581723 байт
файлов: 5

Список:
1. http://www.corp.mail.ru/mailru_presentation.zip -- 6581723 байт
2. http://www.corp.mail.ru/history.htmlmovie/tv.mpg -- байт
3. http://www.corp.mail.ru/brandbook.htmlimages/mailru-logo2.ai -- байт
4. http://www.corp.mail.ru/brandbook.htmlimages/mailru-logo3.ai -- байт
5. http://www.corp.mail.ru/brandbook.htmlimages/mailru-logo43.ai -- байт


Кстати, ведь должен был вывести в строчках по типу http://www.corp.mail.ru/images/mailru-logo43.ai (это уже к разговору о некоей желаемой универсальности). Неужели я много хочу? ;-)

   
 
 автор: ЯR   (04.12.2006 в 11:50)   письмо автору
 
   для: Nicole Neumann   (03.12.2006 в 19:11)
 

Ща доделаю

   
 
 автор: ЯR   (04.12.2006 в 12:47)   письмо автору
 
   для: ЯR   (04.12.2006 в 11:50)
 

вот скрипт, если не работает, то убей меня ап стену и возьми скрипт касманафта

   
 
 автор: Nicole Neumann   (04.12.2006 в 17:36)   письмо автору
 
   для: ЯR   (04.12.2006 в 12:47)
 

Список:
1. http://www.ssau.ru/info/continfo//files/info/continfo/phonebook_2005_7.xls -- байт
2. http://www.ssau.ru/info/continfo//files/info/continfo/phonebook_2005_al.xls -- байт
3. http://www.ssau.ru/science/reports//files/science/reports/report_nid_2004.zip -- байт
4. http://www.ssau.ru/science/reports//files/science/reports/report_nid_2005.xls -- байт
5. http://www.ssau.ru/editions/vestnik//files/editions/vestnik/vestnik2002.pdf -- байт
6. http://www.ssau.ru/editions/vestnik//files/editions/vestnik/vestnik_2_2002.pdf -- байт
7. http://www.ssau.ru/editions/vestnik//files/editions/vestnik/vestnik2003_2.pdf -- байт
Всего:
размер файлов: 0 байт
файлов: 7
страниц: 2253

выполнялся 11 минут. размеры не определяет...

   
 
 автор: ЯR   (05.12.2006 в 05:10)   письмо автору
 
   для: Nicole Neumann   (04.12.2006 в 17:36)
 

Исправлю как только доберусь до компа (я знаю где ошибка :)

   
 
 автор: ЯR   (05.12.2006 в 10:12)   письмо автору
 
   для: ЯR   (05.12.2006 в 05:10)
 

проверь это:

   
 
 автор: Nicole Neumann   (03.12.2006 в 14:19)   письмо автору
 
   для: Nicole Neumann   (03.12.2006 в 14:06)
 

а ты ее щас можешь подправить? у меня щас будет возможность на широком канале потестировать...

   
 
 автор: ЯR   (03.12.2006 в 14:44)   письмо автору
 
   для: Nicole Neumann   (03.12.2006 в 14:19)
 

что подправить?

   
 
 автор: Nicole Neumann   (05.12.2006 в 17:25)   письмо автору
 
   для: ЯR   (03.12.2006 в 14:44)
 

Давайте так! Помогли вы мне оба!

Отдам вам каждому по 3 WMZ! Идет?

П.С. Напишите ваши кошельки!

   
 
 автор: kasmanaft   (05.12.2006 в 17:33)   письмо автору
 
   для: Nicole Neumann   (05.12.2006 в 17:25)
 

гг, идет, конечно :)
другого вряд ли удастся придумать ...
Главное не деньги, давай общие результаты, отработал хоть скрипт? плюсы, минусы ;)

Z322301351950

   
 
 автор: Nicole Neumann   (05.12.2006 в 22:15)   письмо автору
 
   для: kasmanaft   (05.12.2006 в 17:33)
 

Твой отработал (на канале от 100Кб/с). Скрипт ЯR по-прежнему не определяет размер... и не все ссылки на файлы находит...

П.С. Денюжку отправил. Спасибо за ваши труды!

p.ps. ЯR а у тебя какой номер кошелька?

   
 
 автор: ЯR   (06.12.2006 в 15:05)   письмо автору
 
   для: Nicole Neumann   (05.12.2006 в 22:15)
 

А можно посмотреть скрипт Касманафта?

ПС
вышлю кошелёк на мыло

   
 
 автор: Nicole Neumann   (08.12.2006 в 18:00)   письмо автору
 
   для: ЯR   (06.12.2006 в 15:05)
 

отправил на мыло!

   
Rambler's Top100
вверх

Rambler's Top100 Яндекс.Метрика Яндекс цитирования