DjVu - графический формат, оптимизированный для хранения отсканированных документов. В частности он идеально подходит для создания электронных книг. Существует два традиционных способа хранения отсканированной книги: для энтузиастов это распознавание (OCR) с последующей подготовкой полноценного текстового электронного документа, менее терпеливые люди выкладывают непосредственно "сканы" - отсканированные картинки, часто собранные в pdf документ. В первом случае требуется прорва работы, во втором получаются файлы размером в десятки и даже сотни мегабайт.
Отныне существует компромиссный вариант - перевод отсканированных картинок в формат DjVu (дежа-вю). При этом текст и контрастные рисунки сохраняются с разрешением 300dpi, все остальное считается фоном и сохраняется с пониженным разрешением. Это позволяет хорошо сжать электронный документ без потери его читаемости. В DjVu размер файла отсканированной книги оказывается в пределах нескольких мегабайт, что вполне приемлемо.
Особое значение этот формат приобретает для переноса в сеть математической и вообще технической литературы, где обилие схем и формул делает распознавание и перевод в текстовый формат практически невыполнимым. В настоящее время формат DjVu становится фактическим стандартом для электронных библиотек. Файлы с расширением DjVu, перестают быть экзотикой на просторах сети.
DjVu: Краткое техническое введение
Несмотря на растущую важность Интернета, большая часть знаний в виде культурного и образовательного материала уже существующего сегодня, всё ещё доступна лишь в бумажной форме. Внедрение данного информационного богатства в цифровую область, в схожем с оригиналом виде, с лёгким доступом и поиском, является основным шагом к созданию Всемирной Интернет Библиотеки.
DjVu (произносится как "дэжа вю") это технология сжатия, файловый формат и универсальная платформа специально спроектированная для создания цифровых библиотек на основе печатного, сканированного или цифрового материала. Так например для сканированного документа, размер DjVu файла обычно в 3-10 раз меньше чем чёрно-белый TIFF или PDF и в 5-10 чем цветной JPEG.
Обычная страница из книги, журнала или древней рукописи отсканированная в цвете и 300dpi содержит порядка 8 миллионов пикселей и занимает 24MB в несжатом виде. Традиционные технологии сжатия такие как JPEG обладают следующими минусами:
• Типичные размеры JPEG файла на страницу находятся в рамках между 400KB и 2MB в лучшем качестве, что является абсолютно непригодным для удалённого доступа.
• Острые грани (в символьных структурах) - причина многочисленных потраченных впустую бит и/или неприятных артефактов.
• Большие изображения очень медленно рендрятся, требуя объёмный буфер памяти для распаковки в клиенте, а ещё их проблематично увеличить или распечатать в существующих браузерах.
• Текст обычно не отделяется от изображения и по этому не может быть подвергнут OCR, индексированию и поиску.
• Ничего не сделано для многостраничных документов, потому приходиться формировать изображения в контейнерный формат типа PDF, ещё больше теряя в эффективности.
DjVu избавляет от этих проблем обрабатывая двутональные документы, низкоцветовые (индексированные) изображения, изображения с непрерывным спектром тонов (фотографии и т.д), сканированные цветные и чёрно-белые документы, цифровые документы (например в Postscript или формате PDF).
Двутональные документы закодированы методом JB2 который формирует сжатую библиотеку из повторяемых форм в документе (например символов) и кодирует их место появление на каждой странице. Низкоцветовые изображения сжаты аналогичным путём, с добавлением цветовой палитры и цветового индекса для каждой формы. Изображения с непрерывным спектром тонов сжаты прогрессивным "wavelet-based" методом IW44, равным JPEG-2000 в отношении шумового коэффициента, но чей декодер/рендер более эффективен, занимает меньше памяти и оптимизирован для более быстрой работы (в 3 раза быстрей чем быстрый режим JPEG-2000). Внутренние кодеры обширно используют новый бинарный адаптивный арифметический кодер, названный "Z-coder".
Цветной отсканированный документ разбивается на передний и фоновый план. Передний план содержит текст, линии и кривые сжатые как двутональное или низкоцветовое изображение с максимальным разрешением (используется JB2), сохраняя резкость и удобочитаемость текста. Фоновый план содержит изображения и бумажные текстуры сжатые в уменьшенном разрешении с IW44. Фоновый план, находясь под приоритетными компонентами, сглаживается для уменьшения размера. Сегментатор переднего и фонового плана сначала обнаруживает объекты резко противопоставленные их окружению и затем классифицирует их в передний или фоновый план используя несколько критериев, типа их цветовой однородности, геометрии и веса.
Цифровые PDF и PostScript документы превращаются в список команд рисования нижнего уровня, используя популярный инструментарий GhostScript. Далее этот список транслируется в список форм которые впоследствии классифицируются в передний или фоновый слой используя эвристический анализ. Затем слои сжимаются как сканированные документы.
Двутональные DjVu документы обычно занимают 5-30KB на страницу в 300dpi, что в 3-8 раз меньше чем Group 4 (используемый в Fax машинах, в TIFF файлах и в PDF). Низкоцветовые изображения, например иконки, обычно в 2 раза меньше чем GIF, но могут быть и в 10 раз меньше если содержат много текста. Фотографии в 2 раза меньше чем JPEG и схожи по размеру с JPEG-2000 в быстром режиме для SNR. Интересный аспект "wavelet" кодер-декодера IW44 - то, что он позволяет оперативную декомпрессию/рендеринг области видимой в окне на экрана дисплея (и не больше), если например пользователь увеличивает какие-то фрагменты и балуется с панорамированием. Это позволяет сохранять изображения в сжатой форме в оперативной памяти клиентской машины и отображать больше изображения без требования чрезмерных объёмов памяти. Сканированные цветные и чёрно-белые документы в DjVu обычно занимают 30-100KB на страницу в 300dpi, что в 5-10 раз меньше чем JPEG и около 2-3 раз меньше чем MRC/T.44 или TIFF/FX. Цифровые документы с большим объёмом текста обычно в 1-3 меньше чем PDF или сжатый gzip'ом PostScript в 300dpi, но могут быть и значительно меньше если документ содержит изображения.
DjVu документы могут быть отображены через вэб браузер с помощью очень маленького plug-in'а (доступного для всех основных платформ). Всё в дизайне DjVu было оптимизировано чтобы уменьшить задержку между решением пользователя рассмотреть страницу и её отображением на экране. Многопоточная программная архитектура с умным кэшированием позволяет индивидуальным компонентам документа быть загруженными и преддекодированными по требованию. Страницы загруженные по требованию, дают произвольный доступ без предшествующей загрузки полного документа. Компоненты страницы (передний план, фоновые куски) загружаются последовательно и рендрятся отдельным потоком как только загрузка считается завершённой. Всё это даёт прогрессивный рендеринг и улучшает качество изображения. Страница, которая следует за страницей, в настоящее время отображаемой, предзагружена, преддекодирована и кэширована, посредством чего автоматически уменьшается задержка между перелистыванием страниц. Просмотрщик DjVu файлов обладает своим "независимым" графическим интерфейсом пользователя который позволяет быстро изменять масштаб изображения, панорамирование и зеркальное отражение страницы одним кликом мыши или нажатием клавиши на клавиатуре.
Передний слой может быть подвергнут OCR, а результат внедрён назад в файл DjVu как доступный для поиска уровень "скрытого текста". Существует и соответствующий инструментарий для извлечения такого текста и перевода его в ряд форматов, которые включают каждое слово с координатами его ограничивающего прямоугольника на странице. Форматы также включают структуру документа (страницы, столбцы, параграфы, строки, слова). Гиперссылки, аннотации, эскизы страниц и другие метаданные тоже могут быть внедрены в документы DjVu.
DjVu может рассматриваться как основная открытая платформа для обмена документами так как библиотека DjVu, включая многопоточный декодер/рендер, кодер IW44, кодер палеттизированного изображения, а также кодеры простых двутональных и цветных документов теперь являются свободным программным обеспечением доступным под GNU GPL и могут быть использованы как платформа для разработки новых кодеков, схем сегментации, механизмов передачи данных, интерфейсов просмотрщика и систем контент-анализа.
• Бумаги, примеры, тесты и цели доступы на
Как увидеть ссылки? | How to see hidden links?.
• Исходные коды доступы на
Как увидеть ссылки? | How to see hidden links?.
• Plug-in'ы, компрессоры, SDK и коммерческое программное обеспечение может быть найдено на
Как увидеть ссылки? | How to see hidden links?.
• Сервера которые способны конвертировать почти любой формат в DjVu доступы на
Как увидеть ссылки? | How to see hidden links?,
Как увидеть ссылки? | How to see hidden links? и
Как увидеть ссылки? | How to see hidden links?.
DjVu как формат состоит как бы из целых четырёх технологий сжатия:
• DjVuPhoto (то есть IW44): это как вы уже наверное поняли как раз таки сжатие с потерей качества. Потери ощутимые и артефакты присутствуют, правда здесь главное найти золотую середину в настройках и тогда действительно можно получить изображение в несколько раз меньшее чем аналог в JPEG, да и опять же не забывайте про такие вещи как zooming, быструю загрузку (помните сжатое изображение в RAM?) всякое там разное сглаживание.
• DjVuBitonal (это JB2): здесь красота разумеется уже другая, красота жёстких линий, китайских иероглифов и индексированного изображения. И всё это удаётся сжать до невероятных размеров. Здесь выигрыш у PDF огромный.
• DjVuDocument: сам документ действительно делится на передний и задний слой. Передний как несложно догадаться JB2, а задний IW44.
• BZZ: это обычное подобие bz2 для "скрытого текста", очень полезная вещь.
Любопытное чудо в виде DjVuDocument которое бы мне вам хотелось показать наглядно на примере карты Ирака.
Именно так выглядит обычный Багдад на обычной карте Ирака, в необычном DjVuDocument файле. Что собственно необычного? Ну мы же с вами проходили, помните? Передний план, фоновый план, а вот как это выглядит на деле.
Несложно догадаться где передний, а где фоновый. Передний (первое изображение) сжат JB2 и содержит всё основное, фоновый (второе изображение) сжат IW44 и ничего важного не содержит. Более того, если вы обратили внимание он очень сильно сглажен/сжат, в общем то сделано это специально, для уменьшения размера. На обычном изображении где передний план накладывается на фоновый, данное сглаживание/сжатие не очень то и бросается в глаза, а вот если бы его не было, размер файла вырос бы в два, а то и три раза. Более того обратите внимание как DjVu самостоятельно определил где у изображения важные детали, а где второстепенные. Все эти его хваленные анализы действительно работают, чёрт побери, да ещё как работают. Ни одного названия, или даже символа не уехало на фоновый план.
При подготовке информаци использованы открытые источники сети Интернет.
На мой взгляд лучшая на сегодняшний день программа для просмотра книг в djvu формате WinDjView-0.5 (русская версия)
Как увидеть ссылки? | How to see hidden links?
А здесь находится архив в котором:
- Вышеописанные сведения (в формате PDF)
- Сведения по созданию книг в формате DjVu (в формате PDF)
- Пособие по Сканкромсатору (в формате PDF)
- Мануал по Сканкромсатору (в формате PDF)
- Инструкция ScanAndShare 1.07 с примерами (в формате PDF)
- ScanKramsator v 5.81 rus
- Office2DjVu (небольшое дополнение в Office 2007, позволяющее сохранять документы напрямую из Word в DjVu)
Как увидеть ссылки? | How to see hidden links?
Как увидеть ссылки? | How to see hidden links?
Lizardtech DjVu Document Express Editor Pro 6.0.1 Build 1320 & Rus
Одна из наиболее распространенных и корректно работающих программ для создания и просмотра DjVu-документов от правопреемника самого стандарта DjVu компании LizardTech - Document Express Editor. В Document Express Editor, можно открывать и конвертировать файлы следующих форматов: DjVu (*.djvu, *.djv), BMP (*.bmp), GIF (*.gif), JPEG (*.jpeg, *.jpg), PNM (*.pnm, *.ppm, *.pgm, *.pbm), TIFF (*.tiff, *.tif), PICT (*.pict). При сохранении файла программа предложит выбрать настройки: распознавать ли текст; профиль; разрешение (от 100 до 600 dpi); качество текста (возможны 5 уровней от «агрессивного», т.е. со значительной потерей качества до «без потери»), сохранять изображения каждое в отдельном или в виде единого файла. Имеется семь профилей настройки где пользователь сам выбирает тип документа, а программа автоматически подстраивается под этот тип изображения: «Нормальный»; «Электронный»; «Фото»; «Битональный»; «Рукопись» и «Карта». Этими настройками, как правило, можно добиться вполне приемлемого результата. После того, как настройки заданы, необходимо выбрать место на локальном диске для сохранения файла в формате DjVu. Программа Document Express Editor 6.0.1 умеет распознавать около 100 языков, в том числе и русский.