|
|
|
| Поле текст - 255 символов. Оно обозначает местечко, откуда начинаются нужные цифры для моего скрипта. Так вот, столкнулся с такой ситуацией - все эти символы у разных полей, идентичны. Иными словами, парсер не знает откуда парсить. Где таких дубликатов не встречается - работает замечательно.
Есть какие-нибудь выходы, кроме того который нашел я? А я нашел такой - начальными символами обозначать ВСЕ символы на странице до нужной мне цифры... Кажется, поле BLOB для этого нужно... Если этот вариант единственный, то что человек должен вводить туда? То, что выдает страничка, т.е., без заголовков, и так далее, верно? Исключительно то, что видно в браузере через "Вид -> В виде HTML", да? | |
|
|
|
|
|
|
|
для: Shorr Kan
(27.03.2005 в 19:06)
| | Как-то с места в карьер... не очень понятно. А зачем вообще хранить в базе эти 255 символов? Перечитал - не могу понять проблемы - может конкретный примерчик? | |
|
|
|
|
|
|
|
для: cheops
(27.03.2005 в 22:24)
| | Хорошо. Представьте - существуют сайты, на которых вы можете указать, какую валюту на какую вы хотите поменять... И вам выводится список обменых пунктов. С их курсами обмена по этой валютной паре, и с резервами этих валют. Ну, чтобы человек мог выбрать из списка наиболее приемлемый курс. Естественно, там везде партерские программы, и человек-владелец этого списка обменников - получает процент с операций людей, которые пришли на обменники через него.
Но к чему это ведет? Сайт этого человека... Со списком обменников... Должен всегда содержать обновленную информацию по:
а) резервам всех валют конкретного обменника.
б) курсах каждой валютной пары.
Посему, это дело надо считывать откуда-то. Откуда? С сайта самого обменника. Поэтому, администратор сего скрипта закидывает энное количество символов, которое парсером будет искаться.... и после этого в переменную все считывается до конечного символа. Который администратор тоже вводит. И тогда в переменной оказывается цифра. Естественно, что за цифра - зависит от места парсинга... Итак, представим...
<table ....... ><tr><td ...... >WMZ остаток:</td><td>234.76</td></tr></table>
Если мы парсеру забьем начальные символы "<table ....... ><tr><td ...... >WMZ остаток:</td><td>" , а конечный - "<", то парсер и получит цифирку 234.76. И если парсер будет частенько запускаться, то цифра будет всегда актуальная. Но! Проблема в том, что
<table ....... ><tr><td ...... >WMZ остаток:</td><td>
это будет на конкретном, удобном обменнике. А если обменники и без этого четкого WMZ остаток - как-нибудь заковыристо... ну тот же http://exchange.net.ua - попробуйте спарсить курс WMZ - E-gold .... Как?? | |
|
|
|
|
|
|
|
для: Shorr Kan
(27.03.2005 в 23:15)
| | Хм... а может просто регулярным выражением привязаться? Они позволят обойти и повторы и повысить надёжность парсинга? | |
|
|
|
|
|
|
|
для: cheops
(28.03.2005 в 02:05)
| | А как это можно сделать? На словах хотя бы... даже с литературной стороны программирования, я не могу представить условия... Ну разве что что-то вроде: "Если почуял цифирку, и где-то неподалеку есть запах именно этой валюты - предполагай, что это именно та, нужная цифирка". | |
|
|
|
|
|
|
|
для: Shorr Kan
(28.03.2005 в 02:18)
| | Нет... ну можно попробовать привязаться к чему-нибудь, хотя бы к валюте - или у всех оформление разное? | |
|
|
|
|
|
|
|
для: cheops
(28.03.2005 в 02:27)
| | Абсолютно разное.
Ну а если взять конкретный список обменников? Ну вот влоб, три:
http://exchange.net.ua/
http://eroticana.ru/index.php
https://www.interobmen.ru/ | |
|
|
|