Форум: Форум PHPФорум ApacheФорум Регулярные ВыраженияФорум MySQLHTML+CSS+JavaScriptФорум FlashРазное
Новые темы: 0000000
Самоучитель MySQL 5. Авторы: Кузнецов М.В., Симдянов И.В. MySQL на примерах. Авторы: Кузнецов М.В., Симдянов И.В. PHP 5. На примерах. Авторы: Кузнецов М.В., Симдянов И.В., Голышев С.В. C++. Мастер-класс в задачах и примерах. Авторы: Кузнецов М.В., Симдянов И.В. MySQL 5. В подлиннике. Авторы: Кузнецов М.В., Симдянов И.В.
ВСЕ НАШИ КНИГИ
Консультационный центр SoftTime

Форум PHP

Выбрать другой форум

 

Здравствуйте, Посетитель!

вид форума:
Линейный форум Структурный форум

тема: текст из pdf
 
 автор: kosta_in_net   (13.01.2011 в 01:42)   письмо автору
 
 

Не нашел соответствующих тем, хотя, полагал, вопрос уже поднимался. Как можно выдрать текст из PDF-файлов на сайте, работающем на php? Это возможно средствами одного пхп, или нужны иные средства? Есть, кто в курсе?
Нужно сделать поиск по пдф-файлам. Я думаю, вытаскивать из них текст (вероятно, при загрузке файла на сервер - это деталь не существенная), и класть текст в SQL-базу. Из поисковой формы поиск будет проводиться по базе, а затем даваться ссылка на пдф-документы, соответствующие записям с найденым текстом.
Вопрос в том, как получить текст из PDF. А может можно искать как-то еще?

  Ответить  
 
 автор: mihdan   (13.01.2011 в 02:40)   письмо автору
 
   для: kosta_in_net   (13.01.2011 в 01:42)
 

[поправлено модератором]

  Ответить  
 
 автор: kosta_in_net   (17.01.2011 в 14:35)   письмо автору
 
   для: mihdan   (13.01.2011 в 02:40)
 

Приводимый там в качестве примера "Парус" обрабатывается. А вот реальный файл http://www.snr.com.ru/pdf_snr_catalogue/eng/gencat_bore.pdf выдает сплошные квадратики. Другие файлы (испробовал несколько штук) вообще не выдают ничего.
Что же касается упомянутой там утилиты pdftotext, то, судя по всему, она вовсе не на всех серверах есть. Да и shell_exec не везде разрешен :(

  Ответить  
Rambler's Top100
вверх

Rambler's Top100 Яндекс.Метрика Яндекс цитирования