Форум: Форум PHPФорум ApacheФорум Регулярные ВыраженияФорум MySQLHTML+CSS+JavaScriptФорум FlashРазное
Новые темы: 0000000
PHP Puzzles. Авторы: Кузнецов М.В., Симдянов И.В. Объектно-ориентированное программирование на PHP. Авторы: Кузнецов М.В., Симдянов И.В. Социальная инженерия и социальные хакеры. Авторы: Кузнецов М.В., Симдянов И.В. C++. Мастер-класс в задачах и примерах. Авторы: Кузнецов М.В., Симдянов И.В. MySQL на примерах. Авторы: Кузнецов М.В., Симдянов И.В.
ВСЕ НАШИ КНИГИ
Консультационный центр SoftTime

Форум PHP

Выбрать другой форум

 

Здравствуйте, Посетитель!

вид форума:
Линейный форум Структурный форум

тема: Поиск русских страниц в китайской части Интерент
 
 автор: Ivan   (07.12.2005 в 06:14)   письмо автору
 
 

Задача:
Обнаружить максимум сайтов в Интернет, на которых используется китайский язык (то есть нужны китайские сайты), и затем вычленить из них те, где есть страницы на русском. Желательно, конечно, еще и по зонам искать, в первую очередь .cn и далее.

Вопросы:
1) возможно ли это сделать с помощью PHP, или только частично?
2) какой примерно должен быть алгоритм действий?
3) может, есть уже готовое (или почти) решение?

   
 
 автор: Shorr Kan   (07.12.2005 в 09:14)   письмо автору
 
   для: Ivan   (07.12.2005 в 06:14)
 

Я бы сделал так - запрос в поисковики ".cn" - это бы дало много сайтов. На каждый сайт заходим, вычленяем все ссылки, выясняем язык на этом сайте, потом идем по каждой ссылке, которые вытащили, выясняем язык уже там, и так далее. Но масштабность этого скрипта - приближается к yandex,google,yahoo .

   
 
 автор: Алекс   (07.12.2005 в 09:56)   письмо автору
 
   для: Shorr Kan   (07.12.2005 в 09:14)
 

Да, и еще надо не забыть что Гугл например запрещает обращение к себе автоматом и наверняка забанит такой скрипт, так что туда еще надо воткнуть еще и перебор анонимных прокси )

   
 
 автор: cheops   (07.12.2005 в 13:59)   письмо автору
 
   для: Алекс   (07.12.2005 в 09:56)
 

>Да, и еще надо не забыть что Гугл например запрещает
>обращение к себе автоматом и наверняка забанит такой скрипт,
>так что туда еще надо воткнуть еще и перебор анонимных
>прокси )
Можно обойти подделав реферер http://www.softtime.ru/forum/read.php?id_forum=1&id_theme=8931

   
 
 автор: Ivan   (07.12.2005 в 18:19)   письмо автору
 
   для: cheops   (07.12.2005 в 13:59)
 

Н-да, думаю... Как же новый поисковик-то назвать? :)
Если серьезнее, то сколько может стоить создание подобной программы?

   
 
 автор: cheops   (08.12.2005 в 01:48)   письмо автору
 
   для: Ivan   (07.12.2005 в 18:19)
 

Да сделать-то это можно, вот только в Google не дураки сидят и новый поисковик не проработатет и месяца - его вычислят и запретят по IP-адресу. Тут нужно с Google договариваться, как mail.ru.

   
 
 автор: Ivan   (08.12.2005 в 15:07)   письмо автору
 
   для: cheops   (08.12.2005 в 01:48)
 

Не совсем понял Ваше последнее высказывание, уважаемый cheops, - что можно сделать? И почему запретят?
Может быть, я изначально не совсем точно обрисовал вопросы, которые были заданы {мне моим непосредственным начальством :) }.
Первичная задача: Требуется вычленить максимальное количество "Китайских Сайтов", которые имеют версию на русском языке. Это почти дословно. Остальное я уже сам конкретизировал.
Я подразделяю эту задачу на две.
1) Найти max сайтов на китайском.
2) Определить, на каких из имеющегося списка есть странички с русским текстом.

Фирма готова рассмотреть и любые коммерческие предложения, если таковые имеются :)

   
 
 автор: cheops   (09.12.2005 в 01:03)   письмо автору
 
   для: Ivan   (08.12.2005 в 15:07)
 

А меня смутило слово поисковик (у меня мысль от изначального вопроса ушла)... Вообще если серьёзно, то задача вполне реальна - нужно взять китайский поисковик - китайский Google и искать в них русский текст, т.е. построить словарик наиболее распространённых русских слов (у вас наверное имеются и предпочтения) и искать в китайской части, а дальше уже дело регулярных выражений (ну плюс снять защиту по рефереру).

PS Коммерческое обсуждение приветствуется по электронной почте и для цифр мало деталий, например, по запросу "Россия" Google выдал в китайской части 19000 ссылок - вам они все нужны? Это одно слово и китайский Интренет развивается гиганскими темпами - базу какого объёма вы сможете освоить?

   
 
 автор: Void   (07.12.2005 в 18:21)   письмо автору
 
   для: cheops   (07.12.2005 в 13:59)
 

А логичнее отписать разработчикам. Скорее всего просто заставят разместить рекламу у себя на сайте (Просто ссылки) и разрешат пользоваться поисковиком. Я бы подстраховался.

   
 
 автор: Ivan   (07.12.2005 в 18:35)   письмо автору
 
   для: Void   (07.12.2005 в 18:21)
 

Допустим, разрешат.
Но его ж потом не подстроишь под вторую часть задачи.
Или можно как-нибудь извернуться?

Что касается встраивания поисковиков в сайт, вроде как Google щедрый был.

   
Rambler's Top100
вверх

Rambler's Top100 Яндекс.Метрика Яндекс цитирования