dikayasobaka | (no subject)

You're viewing

dikayasobaka's journal
Create a Dreamwidth Account Learn More

Reload page in style: site light

Ребята, кто-нибудь в Wiki-технологиях разбирается? У нас тут стоит MediaWiki на Линуксе, и я уже который день не могу в ней наладить поиск по тексту внутри PDF-файлов. Если кто в курсе как с этим зверем бороться - подскажите, буду весьма признателен.

Flat | Top-Level Comments Only

From: (Anonymous)

ОТВЕТ НА ОБЩИХ ОСНОВАНИЯХ
(не влезал в медиа-вики)

... скорее всего через pdftotext который насколько я помню приходит как часть xpdf (то ли даже самого ghostscript ??).

Это command-line converter PDF файлов в обычный текст - который уже можно скормить индексатору для поисковика.

Обычно в поисковых индексаторах предусмотрены options для программы-фильтра такого рода, которая превращала бы doc, pdf, ps, ... в txt.

На линуксе xpdf всегда часть вашей distribution; вообще такие программы ищутся на www.freshmeat.net

From:

dikayasobaka.livejournal.com

pdftotext, естесвенно, есть. Спасибо, но это-то мы уже прошли. Вопрос, как это к остальному коду привязать.

From:

nedzumi-rat.livejournal.com

Если линух redhat-based, то понадобится libpdf, ghostscript-devel.
(MediaWiki на федоре ими пользуется)

From:

dikayasobaka.livejournal.com

Спасибо. Если Вы к тому, что надо из PDF-а текст достать, то для этого дела у нас уже есть pdftotext. Тут проблема как это с MediaWiki синтегрировать...

Мне пока между делом предложили вот такого монстра: Lucene, но это все же, похоже, перебор, и этого хотелось бы избежать по причине ненужной сложности и громоздкости.