Формат DjVu(ДеЖаВю)

Msha · 8 Июн 2006

Подскажите мне ещё такую вещь. Как быстро и, главное, удобно поменять страницы местами в djvu документе? В djvuEditor'e я не нашёл ничего похожего, приходится хватать страницу мышкой и тащить к нужному месту. Периодически старница при этом ''срывается''. Кроме того, чтобы тащить вниз нужно всё время вести мышку вниз. В общем жутко неудобно, когда страницу надо переместить на 700 позиций вниз. А мне надо полкниги так скомпоновать.

Msha · 14 Июн 2006

Очередной вопрос.

. Есть ПДФ файл, в котором поверх отсканированой картинки наложен текст. Есть ли возможность перевести это в djvu сохранив OCR?

okun · 14 Июн 2006

Есть, Document Express Ent.

Msha · 15 Июн 2006

okun, а как? Я попробовал, напрямую у меня не переводит. А если ставить галочку ''perform OCR'', то это уже получается не напрямую, а с повторным распознаванием.

---
Кстати, у меня облегчённая версия, без OCR модуля. Кто-нибудь необходимые файлы может выложить?

okun · 15 Июн 2006

Msha, использую полную версию Ent.

Raster Profile - documenttodjvu (Default)
PDF Profile - Electronic PDF - Default

OCR слой в полученном djvu проверяю в djvu_Browser Plugin

Размер полного дистрибутива Ent. в архиве - 196 Мб. Размер папки IRIS_OCR в установочном каталоге - 43 Мб в архиве.

Временно ограничен в выкладывании, но на Как увидеть ссылки? | How to see hidden links? вроде ссылки были.

Msha · 15 Июн 2006

Полный вариант раздобыл, спасибо.

---
В облегчённой версии пробовал именно такие настройки. Выдаёт какую-то ошибку. Попробую в полной версии, если опять будет ошибка напишу.

Msha · 15 Июн 2006

okun сказал(а):
Raster Profile - documenttodjvu (Default)
PDF Profile - Electronic PDF - Default

OCR слой в полученном djvu проверяю в djvu_Browser Plugin

Вот так и сделал. Галочку напротив OCR не ставил. Документ получился без OCR.

И самое главное, такое впечатление будто программа его пережимает не как черно-белое изображение. а там ч/б. Если поставить именно ч/б профиль, то пережимается раз в 10 где-то. А с профилем documenttodjvu получается тот же самый размер.

Вот файл над которым я ломаю голову:

Как увидеть ссылки? | How to see hidden links?

точнее это фрагмент на 500 кб.

---
Можно ли как-то заставить программу использовать для временных файлов не системный диск? Проблемы со свободным местом, а книжка на 900 страниц...

okun · 16 Июн 2006

По накатонному пути тоже ничего не вышло. Начал "копать".

Вот выдержка из раздела справки Ent:
PDFtoDjVu Known Issues

Text from OCR Layer Not Readable
PDF documents that contain text extracted from an OCR layer can not expose this text to the current version of pdftodjvu. No text is extracted. However, the hidden text layer can easily be regenerated in DjVu using djvujoin or djvubundle (standard tools in DocumentExpress Enterprise Edition) with the ocr option.

И действительно - установив галку OCR, в полученном djvu текст появился.

Далее опытном путем выяснилось:
не сохраняется слой OCR при кодировке в djvu у тех документов pdf, у которых текст расположен ПОД изображением. У тех где НАД, всё нормально. Как поменять такой порядок размещения в документе pdf, не выяснил.

Далее, даже если текст расположен в pdf ПОД изображением, можно его сделать видимым в djvu путем установки его заливки черным (или любым) цветом (свойства текста-кнопка Заливка). По умолчанию на кнопке стоит знак вопроса. Но текст при этом начинает немного двоиться. Пока всё.

По поводу Временных папок - попробуй все переменные Temp (и пользовательские и системные) перенаправить на другой раздел, ну и файл подкачки тоже. Или разбить исходный pdf на несколько файлов и перекодировать их в djvu по-отдельности, собрав потом в единый файл.

Msha · 16 Июн 2006

Далее, даже если текст расположен в pdf ПОД изображением, можно его сделать видимым в djvu путем установки его заливки черным (или любым) цветом (свойства текста-кнопка Заливка). По умолчанию на кнопке стоит знак вопроса. Но текст при этом начинает немного двоиться. Пока всё.

Т.е. в исходном ПДф файле я заливаю текст чёрным и затем спокойно конвертирую в djvu?

okun · 16 Июн 2006

Msha сказал(а):
Т.е. в исходном ПДф файле я заливаю текст чёрным и затем спокойно конвертирую в djvu?

Да, такую заливку можно сделать в Adobe Acrobat, но тут начинается двоение текста, получается, что слой "заливаемого" текста становится на место текста, который расположен НАД изображением - отсюда и двоение (два слоя текста НАД и ПОД). Но, вроде нашел способ как от этого избавиться

По крайней мере в представленном файле.

Открываем исходный pdf в Acrobat, Меню Просмотр->Вкладки навигации->Содержимое. На вкладке Содержимое раскрываем Страницу, выделяем объект Текст и в его свойствах ставим заливку черным цветом. Далее на вкладке Содержимое удаляем Путь доступа и получаем на выходе чистый текст без слоя Изображения. Такой файл легко кодируется в djvu с сохранением OCR.

Вобщем, думаю надо детально изучить вопрос о составляющих Содержимое PDF документа. Работа со слоями текста и изображения, пути доступа и т.д.

Vadimir · 16 Июн 2006

Msha

Очередной вопрос. . Есть ПДФ файл, в котором поверх отсканированой картинки наложен текст. Есть ли возможность перевести это в djvu сохранив OCR?

А может не напрямую, старым дедовским способом? Перераспознать в ФР 7,0 и утилитой от Генчо вставить в djvuку. Все же в автоматическом режиме, запустил и делай дела. Потом (если часто придется такое делать), есть так называемый конвейр (набор скриптов), который заточен на такие дела, но я про него только краем уха слышал, но народ активно пользуется.

Msha · 17 Июл 2006

Я вопрос решил просто распознав по новой в Documents Express. Не охота было долго возится, да и получилось вполне приемлемо - скан хороший, текст распознался вполне нормально.

Вот появилось у меня пара книг, найти вариантов нормальных мне не удалось, только громадные сканы. Думаю их выложить, может у кого получится привести их в нормальный вид ).

Вот одна книга:

Как увидеть ссылки? | How to see hidden links? 28.37 MB
Как увидеть ссылки? | How to see hidden links? 28.28 MB
Как увидеть ссылки? | How to see hidden links? 28.40 MB
(картинки в формате tiff g4, 600 dpi)

"Munson B.R., Young D.F., Okiishi T.H. Instructor's Manual to Accompany Fluid Mechanics 4th ed."

Wiley, 2001
1305s

У меня при сжатии в djvu в таком разрешении книга получается размером 56 Мб, многова-то. Сделал в 300 dpi - плучил 28 Мб. Может я чего-то не так делал, если у кого получится картинки в 600 dpi сжать посильнее, было бы здорово.

Как увидеть ссылки? | How to see hidden links? 28.99 MB

вот что получилось у меня (300 dpi)

---
Над второй книгой сейчас издеваюсь.

.

Msha · 17 Июл 2006

Как увидеть ссылки? | How to see hidden links? 15.68 MB
Как увидеть ссылки? | How to see hidden links? 47.68 MB
Как увидеть ссылки? | How to see hidden links? 47.68 MB
Как увидеть ссылки? | How to see hidden links? 47.68 MB

Horowitz, Hill. The Art Of Electronics

В книге около 1100 страниц, скан серый, судя по всему файл собран из jpeg, разрешение 600 dpi. Книга в неплохом виде, но уменя собранный djvu файл смтрится не очень...

e-lena · 3 Окт 2006

Мне очень нравится этот формат, сама часто им пользуюсь. Сканирую разные книги-журналы. Очень маленькие файлы получаются по сравнению с Jpeg.

RainMan2704 · 27 Ноя 2006

вопрос: а в windjvu поиск нормально работает?

Формат DjVu(ДеЖаВю)

Msha

ex-Team ITcluB

Msha

ex-Team ITcluB

okun

Турист

Msha

ex-Team ITcluB

okun

Турист

Msha

ex-Team ITcluB

Msha

ex-Team ITcluB

okun

Турист

Msha

ex-Team ITcluB

okun

Турист

Vadimir

Турист

Msha

ex-Team ITcluB

Msha

ex-Team ITcluB

e-lena

Турист

RainMan2704

Турист