Наши преимущества

Кто делал электронные книги?

  • Автор темы Egoizte
  • Дата начала

Делали ли вы электронные книги?


  • Всего проголосовало
    186
Статус
Закрыто для дальнейших ответов.
Если есть штатив, то можно попробовать фотик, у меня на 5М получалось, правда несколько страниц делал, правда с освещением надо экспериментировать. Зато по скорости экономия в разы. Но со сканером и привычнее и освещение всегда одинаковое.
 
Сам сканил очень много книги и журналы.
Сканеры были разные - от ручного до А3 планшетки
В большинстве случаев обработка FineReaderom (прошел от 3-й версии до 8-й)
И проверка на ошибки WORD-ом. С последующим переводом в HTML для таблиц и картинок. по крайней мере размеры всегда удобоваримые.
Раньше то не было гигушных хардов.
Фотиком ни разу ни делал - не было приличного.
 
Я сделал несколько книжек, 2 "Кокологии", к примеру, сейчас обдумываю что сделать с 900-страничной "Историей атеизма" -- то ли в РТФ, то ли в ПДФ, при этом надо не потерять юникод, поскольку есть сноски на французском.

Как-то фотографировал книги в библиотеке ИГП РАН, до сих пор лежат. К распознаванию, к сожалению, вроде бы не пригодны, однако читать легко. ;)
 
Поделитесь, пожалуйста, какими программами делaют .djvu, и как в этом формате можно текст распознавать?
 
Vish666
Не знаю сколько весит DjVu вместе с OCR, т.к. сохранить вместе не удалось
Весит как любой текст 2-3 кб на страницу, ежели текс не мелкий.
А загнать распознаный текс проще простого, распознаем сканы, которые жали в джавю, в файнридере в пакетном режиме (нужен 7 версии, в 8 изменился формат), сохраняем пакет, а затем с помощью замечательной утилиты от Генчо (ищем, это не сложно) в 5 минут несколькими кликами мыши и все проблемы :).
 
tranvask сказал(а):
Поделитесь, пожалуйста, какими программами делaют .djvu, и как в этом формате можно текст распознавать?

Дежавю - аналог PDF, только ПДФ на основе формата TIFF, а дежавю - на основе джипега. Поэтому распознаётся намного хуже. О том, чтобы сохранять в дежавю текст, я ещё не слышал.
 
tranvask
Поделитесь, пожалуйста, какими программами делaют .djvu, и как в этом формате можно текст распознавать?
для начала может сойти Dcument Editor Express (1514201 bytes)
Как увидеть ссылки? | How to see hidden links?
Для распознования в djvu нужна полная версия, порядка 200 метров.
Но лучше всего с этим не связываться, а распозновать по старинке в файнридере.
для вставки распознонго текста есть удобная утилита от Генчо
DjvuOCR_2.0_pre.rar (1227416 Bytes)
Как увидеть ссылки? | How to see hidden links?
 
Всем доброго времени суток. Если кто-нибудь пользовался утилитой pdftodjvu, подскажите, что нужно для ее работы. А то то, что у меня есть не желает работать ни в какую. А еще лучше, если кто-нибудь выложит рабочий набор, а то не хочется ради такой мелочи ставить полный Document Express.
 
В свое время делал для друзей сканы журналов по радиоэлектронике.
Расшивал журнал, сканировал все страницы прямо в DJVueditorpro 4, благо у него есть поддержка TWAIN - источников.
Почему DJVu? Да просто журналы содержат большое количество схем, чертежей и по этому проще выводить их в графическом формате .djv .
Вот Вам и ответы на все вопросы - нет однозначно лучшего формата.
Для текста - лучше .chm или .txt/
Для журналов со схемами и чертежами, а также где не важно качество графики, но ее много - .djv .
Ну, а уж журнал "Плей бой" - лучше смотреть в - .pdf .
Всем Удачи.
 
Вообще при переводе книг в электронный формат не делать OCR это преступление. С современным алгоритмами распознавания это совсем не трудно, зато проявляется уважение к обществу и своему труду. Если картинок нет (или их мало), то результат должен быть txt ли html (если есть картинки). Если картинок много или нужно кровь из носа максимально сохранить форматирование базового источника, то результат лучше всего выгружать в pdf
 
Вопрос размера файла все больше и больше уходит в прошлое. Вот станет широкополосный интернет общим местом и будет в этом вопросе последняя точка. Видоизменения Ворда как нельзя лучше иллюстрируют такую тенденцию (размер doc-файла уже первосходит все разумные пределы и ничего, пипл хавает). В этой связи djvu это тупиковая ветвь, которая должна умереть. Проблемы с распространимостью очевидны, а преимуществ глобальных нет.

2Vish666
ИМХО не распознавать отсканированную книгу - это не уважать ни себя ни других. Исключения - математика, Там формул много, а они пока не распознаются
 
Не скоро еще станет общим местом широкий инет (по крайней мере у нас в России)
А занимаются сканами обычно энтузиасты-бессеребренники
А по диалапу выкладывать большие файлы очень даже тяжко.
По себе сужу если бы не "халявный" инет на работе не удалось бы поддерживать свою страничку и выкладывать для людей такое количество литературы.
Причем могу выкладывать только на зоне РУ, так как рапида для нашей конторы уже не бесплатная и соответственно получу по шапке если с ней свяжусь.
Отсюда же и выкладывание в формате djvu - размер меньше.
А отсканить детскую книжку или журнал какой нибудь с переводом в текст или html не выйдет - слишком много графической информации.
Обычные книги (для взрослых) это да не понимаю почему люди не делают OCR
и выкладывают PDF по 100 метров
 
ИМХО если уж распознал, так и сохрани в Ворд, или txt, а djvu с полураспознанным подслоем это сомнительное удовольствие, выдирать текст оттуда никто не станет - отсутствует смысл самой djvu`хи, а с экрана читать - не нужен OCR, исключение pdf - значительно уменьшается размер, и качество становится несоизмеримо выше, да и пятен лишних нет.
 
вопрос - как исправить плохой скан ? можно-ли это сделать фотошопом?
 
вопрос - как исправить плохой скан ? можно-ли это сделать фотошопом?

нет. К сожалению, время упущено. Аборт делают только на ранней стадии беременности. ;)
 
Статус
Закрыто для дальнейших ответов.
Верх