dikayasobaka: (Default)
[personal profile] dikayasobaka
Ребята, кто-нибудь в Wiki-технологиях разбирается? У нас тут стоит MediaWiki на Линуксе, и я уже который день не могу в ней наладить поиск по тексту внутри PDF-файлов. Если кто в курсе как с этим зверем бороться - подскажите, буду весьма признателен.

Date: 2007-09-29 05:06 am (UTC)
From: (Anonymous)
ОТВЕТ НА ОБЩИХ ОСНОВАНИЯХ
(не влезал в медиа-вики)

... скорее всего через pdftotext который насколько я помню приходит как часть xpdf (то ли даже самого ghostscript ??).

Это command-line converter PDF файлов в обычный текст - который уже можно скормить индексатору для поисковика.

Обычно в поисковых индексаторах предусмотрены options для программы-фильтра такого рода, которая превращала бы doc, pdf, ps, ... в txt.

На линуксе xpdf всегда часть вашей distribution; вообще такие программы ищутся на www.freshmeat.net

Date: 2007-10-01 07:28 pm (UTC)
From: [identity profile] dikayasobaka.livejournal.com
pdftotext, естесвенно, есть. Спасибо, но это-то мы уже прошли. Вопрос, как это к остальному коду привязать.

Date: 2007-09-30 01:52 pm (UTC)
From: [identity profile] nedzumi-rat.livejournal.com
Если линух redhat-based, то понадобится libpdf, ghostscript-devel.
(MediaWiki на федоре ими пользуется)

Date: 2007-10-01 07:31 pm (UTC)
From: [identity profile] dikayasobaka.livejournal.com
Спасибо. Если Вы к тому, что надо из PDF-а текст достать, то для этого дела у нас уже есть pdftotext. Тут проблема как это с MediaWiki синтегрировать...

Мне пока между делом предложили вот такого монстра: Lucene, но это все же, похоже, перебор, и этого хотелось бы избежать по причине ненужной сложности и громоздкости.

Profile

dikayasobaka: (Default)
dikayasobaka

May 2024

S M T W T F S
   1234
567891011
12131415161718
192021222324 25
262728293031 

Style Credit

Expand Cut Tags

No cut tags
Page generated Jul. 16th, 2025 04:18 pm
Powered by Dreamwidth Studios