(no subject)
Sep. 28th, 2007 04:02 pm![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Ребята, кто-нибудь в Wiki-технологиях разбирается? У нас тут стоит MediaWiki на Линуксе, и я уже который день не могу в ней наладить поиск по тексту внутри PDF-файлов. Если кто в курсе как с этим зверем бороться - подскажите, буду весьма признателен.
no subject
Date: 2007-09-29 05:06 am (UTC)(не влезал в медиа-вики)
... скорее всего через pdftotext который насколько я помню приходит как часть xpdf (то ли даже самого ghostscript ??).
Это command-line converter PDF файлов в обычный текст - который уже можно скормить индексатору для поисковика.
Обычно в поисковых индексаторах предусмотрены options для программы-фильтра такого рода, которая превращала бы doc, pdf, ps, ... в txt.
На линуксе xpdf всегда часть вашей distribution; вообще такие программы ищутся на www.freshmeat.net
no subject
Date: 2007-10-01 07:28 pm (UTC)no subject
Date: 2007-09-30 01:52 pm (UTC)(MediaWiki на федоре ими пользуется)
no subject
Date: 2007-10-01 07:31 pm (UTC)Мне пока между делом предложили вот такого монстра: Lucene, но это все же, похоже, перебор, и этого хотелось бы избежать по причине ненужной сложности и громоздкости.