|
|
|
| Задача:
Обнаружить максимум сайтов в Интернет, на которых используется китайский язык (то есть нужны китайские сайты), и затем вычленить из них те, где есть страницы на русском. Желательно, конечно, еще и по зонам искать, в первую очередь .cn и далее.
Вопросы:
1) возможно ли это сделать с помощью PHP, или только частично?
2) какой примерно должен быть алгоритм действий?
3) может, есть уже готовое (или почти) решение? | |
|
|
|
|
|
|
|
для: Ivan
(07.12.2005 в 06:14)
| | Я бы сделал так - запрос в поисковики ".cn" - это бы дало много сайтов. На каждый сайт заходим, вычленяем все ссылки, выясняем язык на этом сайте, потом идем по каждой ссылке, которые вытащили, выясняем язык уже там, и так далее. Но масштабность этого скрипта - приближается к yandex,google,yahoo . | |
|
|
|
|
|
|
|
для: Shorr Kan
(07.12.2005 в 09:14)
| | Да, и еще надо не забыть что Гугл например запрещает обращение к себе автоматом и наверняка забанит такой скрипт, так что туда еще надо воткнуть еще и перебор анонимных прокси ) | |
|
|
|
|
|
|
|
для: Алекс
(07.12.2005 в 09:56)
| | >Да, и еще надо не забыть что Гугл например запрещает
>обращение к себе автоматом и наверняка забанит такой скрипт,
>так что туда еще надо воткнуть еще и перебор анонимных
>прокси )
Можно обойти подделав реферер http://www.softtime.ru/forum/read.php?id_forum=1&id_theme=8931 | |
|
|
|
|
|
|
|
для: cheops
(07.12.2005 в 13:59)
| | Н-да, думаю... Как же новый поисковик-то назвать? :)
Если серьезнее, то сколько может стоить создание подобной программы? | |
|
|
|
|
|
|
|
для: Ivan
(07.12.2005 в 18:19)
| | Да сделать-то это можно, вот только в Google не дураки сидят и новый поисковик не проработатет и месяца - его вычислят и запретят по IP-адресу. Тут нужно с Google договариваться, как mail.ru. | |
|
|
|
|
|
|
|
для: cheops
(08.12.2005 в 01:48)
| | Не совсем понял Ваше последнее высказывание, уважаемый cheops, - что можно сделать? И почему запретят?
Может быть, я изначально не совсем точно обрисовал вопросы, которые были заданы {мне моим непосредственным начальством :) }.
Первичная задача: Требуется вычленить максимальное количество "Китайских Сайтов", которые имеют версию на русском языке. Это почти дословно. Остальное я уже сам конкретизировал.
Я подразделяю эту задачу на две.
1) Найти max сайтов на китайском.
2) Определить, на каких из имеющегося списка есть странички с русским текстом.
Фирма готова рассмотреть и любые коммерческие предложения, если таковые имеются :) | |
|
|
|
|
|
|
|
для: Ivan
(08.12.2005 в 15:07)
| | А меня смутило слово поисковик (у меня мысль от изначального вопроса ушла)... Вообще если серьёзно, то задача вполне реальна - нужно взять китайский поисковик - китайский Google и искать в них русский текст, т.е. построить словарик наиболее распространённых русских слов (у вас наверное имеются и предпочтения) и искать в китайской части, а дальше уже дело регулярных выражений (ну плюс снять защиту по рефереру).
PS Коммерческое обсуждение приветствуется по электронной почте и для цифр мало деталий, например, по запросу "Россия" Google выдал в китайской части 19000 ссылок - вам они все нужны? Это одно слово и китайский Интренет развивается гиганскими темпами - базу какого объёма вы сможете освоить? | |
|
|
|
|
|
|
|
для: cheops
(07.12.2005 в 13:59)
| | А логичнее отписать разработчикам. Скорее всего просто заставят разместить рекламу у себя на сайте (Просто ссылки) и разрешат пользоваться поисковиком. Я бы подстраховался. | |
|
|
|
|
|
|
|
для: Void
(07.12.2005 в 18:21)
| | Допустим, разрешат.
Но его ж потом не подстроишь под вторую часть задачи.
Или можно как-нибудь извернуться?
Что касается встраивания поисковиков в сайт, вроде как Google щедрый был. | |
|
|
|