Кто делал электронные книги?

Serg104 · 11 Ноя 2005

Если есть штатив, то можно попробовать фотик, у меня на 5М получалось, правда несколько страниц делал, правда с освещением надо экспериментировать. Зато по скорости экономия в разы. Но со сканером и привычнее и освещение всегда одинаковое.

lohness · 25 Янв 2006

Сам сканил очень много книги и журналы.
Сканеры были разные - от ручного до А3 планшетки
В большинстве случаев обработка FineReaderom (прошел от 3-й версии до 8-й)
И проверка на ошибки WORD-ом. С последующим переводом в HTML для таблиц и картинок. по крайней мере размеры всегда удобоваримые.
Раньше то не было гигушных хардов.
Фотиком ни разу ни делал - не было приличного.

Estarriol · 27 Янв 2006

Я сделал несколько книжек, 2 "Кокологии", к примеру, сейчас обдумываю что сделать с 900-страничной "Историей атеизма" -- то ли в РТФ, то ли в ПДФ, при этом надо не потерять юникод, поскольку есть сноски на французском.

Как-то фотографировал книги в библиотеке ИГП РАН, до сих пор лежат. К распознаванию, к сожалению, вроде бы не пригодны, однако читать легко.

tranvask · 4 Фев 2006

Поделитесь, пожалуйста, какими программами делaют .djvu, и как в этом формате можно текст распознавать?

Vadimir · 4 Фев 2006

Vish666

Не знаю сколько весит DjVu вместе с OCR, т.к. сохранить вместе не удалось

Весит как любой текст 2-3 кб на страницу, ежели текс не мелкий.
А загнать распознаный текс проще простого, распознаем сканы, которые жали в джавю, в файнридере в пакетном режиме (нужен 7 версии, в 8 изменился формат), сохраняем пакет, а затем с помощью замечательной утилиты от Генчо (ищем, это не сложно) в 5 минут несколькими кликами мыши и все проблемы

.

OnThink · 6 Фев 2006

tranvask сказал(а):
Поделитесь, пожалуйста, какими программами делaют .djvu, и как в этом формате можно текст распознавать?

Дежавю - аналог PDF, только ПДФ на основе формата TIFF, а дежавю - на основе джипега. Поэтому распознаётся намного хуже. О том, чтобы сохранять в дежавю текст, я ещё не слышал.

Vadimir · 6 Фев 2006

tranvask

Поделитесь, пожалуйста, какими программами делaют .djvu, и как в этом формате можно текст распознавать?

для начала может сойти Dcument Editor Express (1514201 bytes)
Как увидеть ссылки? | How to see hidden links?
Для распознования в djvu нужна полная версия, порядка 200 метров.
Но лучше всего с этим не связываться, а распозновать по старинке в файнридере.
для вставки распознонго текста есть удобная утилита от Генчо
DjvuOCR_2.0_pre.rar (1227416 Bytes)
Как увидеть ссылки? | How to see hidden links?

Ognev · 12 Фев 2006

Всем доброго времени суток. Если кто-нибудь пользовался утилитой pdftodjvu, подскажите, что нужно для ее работы. А то то, что у меня есть не желает работать ни в какую. А еще лучше, если кто-нибудь выложит рабочий набор, а то не хочется ради такой мелочи ставить полный Document Express.

peps · 27 Мар 2006

В свое время делал для друзей сканы журналов по радиоэлектронике.
Расшивал журнал, сканировал все страницы прямо в DJVueditorpro 4, благо у него есть поддержка TWAIN - источников.
Почему DJVu? Да просто журналы содержат большое количество схем, чертежей и по этому проще выводить их в графическом формате .djv .
Вот Вам и ответы на все вопросы - нет однозначно лучшего формата.
Для текста - лучше .chm или .txt/
Для журналов со схемами и чертежами, а также где не важно качество графики, но ее много - .djv .
Ну, а уж журнал "Плей бой" - лучше смотреть в - .pdf .
Всем Удачи.

iggalp · 5 Апр 2006

Вообще при переводе книг в электронный формат не делать OCR это преступление. С современным алгоритмами распознавания это совсем не трудно, зато проявляется уважение к обществу и своему труду. Если картинок нет (или их мало), то результат должен быть txt ли html (если есть картинки). Если картинок много или нужно кровь из носа максимально сохранить форматирование базового источника, то результат лучше всего выгружать в pdf

iggalp · 5 Апр 2006

Вопрос размера файла все больше и больше уходит в прошлое. Вот станет широкополосный интернет общим местом и будет в этом вопросе последняя точка. Видоизменения Ворда как нельзя лучше иллюстрируют такую тенденцию (размер doc-файла уже первосходит все разумные пределы и ничего, пипл хавает). В этой связи djvu это тупиковая ветвь, которая должна умереть. Проблемы с распространимостью очевидны, а преимуществ глобальных нет.

2Vish666
ИМХО не распознавать отсканированную книгу - это не уважать ни себя ни других. Исключения - математика, Там формул много, а они пока не распознаются

lohness · 5 Апр 2006

Не скоро еще станет общим местом широкий инет (по крайней мере у нас в России)
А занимаются сканами обычно энтузиасты-бессеребренники
А по диалапу выкладывать большие файлы очень даже тяжко.
По себе сужу если бы не "халявный" инет на работе не удалось бы поддерживать свою страничку и выкладывать для людей такое количество литературы.
Причем могу выкладывать только на зоне РУ, так как рапида для нашей конторы уже не бесплатная и соответственно получу по шапке если с ней свяжусь.
Отсюда же и выкладывание в формате djvu - размер меньше.
А отсканить детскую книжку или журнал какой нибудь с переводом в текст или html не выйдет - слишком много графической информации.
Обычные книги (для взрослых) это да не понимаю почему люди не делают OCR
и выкладывают PDF по 100 метров

Serg104 · 6 Апр 2006

ИМХО если уж распознал, так и сохрани в Ворд, или txt, а djvu с полураспознанным подслоем это сомнительное удовольствие, выдирать текст оттуда никто не станет - отсутствует смысл самой djvu`хи, а с экрана читать - не нужен OCR, исключение pdf - значительно уменьшается размер, и качество становится несоизмеримо выше, да и пятен лишних нет.

xolms · 8 Апр 2006

вопрос - как исправить плохой скан ? можно-ли это сделать фотошопом?

OnThink · 10 Апр 2006

вопрос - как исправить плохой скан ? можно-ли это сделать фотошопом?

нет. К сожалению, время упущено. Аборт делают только на ранней стадии беременности.

Кто делал электронные книги?

Делали ли вы электронные книги?

Да

Нет

Да, и не одну!

Нет такой возможности...

Serg104

Турист

lohness

Гость

Estarriol

Турист

tranvask

Гость

Vadimir

Турист

OnThink

Гость

Vadimir

Турист

Ognev

ex-Team ITcluB

peps

Турист

iggalp

Турист

iggalp

Турист

lohness

Гость

Serg104

Турист

xolms

Турист

OnThink

Гость