Booker сказал(а):
Порядка 1200 книг не просто пролистать, а оценить отсутствие страниц (при условии, что при сканировании номера зачастую отрезаются) - т.е. ПРОЧИТАТЬ, вылавливая лакуны. Как оценивать отсутствие фронтисписов, индексов, и пр.?
Для начала можно указывать только те книги, которые попались на глаза, как сказал Great_Babai. И потом, не обязательно ЧИТАТЬ. Число страниц можно просто посчитать (собственно, акробат пишет их общее число, а учтя "неинформативные" страницы, можно прикинуть, полная ли это книга, или в ней чего-то нехватает). И учитывать только обложки, страницы с собственно текстом книги и цветные вкладки с комментариями к ним. Страницами с выходными данными, инфой об авторах, черно-белой копией обложки и комментариями на немецком и фр. языках можно пренебречь.
Ну, и оценить качество сканирования - это круто . Например, как оценивать сканирование двух страниц на лист?
Нет, я имел в виду только читаемость текста и возможность разглядеть не очень крупные детали на рисунках и фото. В указанных мною книгах текст практически нечитаем. А книги AoA 023 и 028 отсканированы в режиме B&W, что дало совершенно непотребное качество черно-белых фото. При этом текст в них вполне приличного качества и легко читаем.
Положим, на каждую книгу 10 минут. Итого 12 000 минут - 200 часов непрерывного просмотра. Гы-ы-ы, пресловутый человеко-месяц при 8-часовом рабочем дне. Т.е. смело можно умножать на 3-4, учитывая, что нужно же делать записи, поясняющие суть претензий к данному скану.
Специально этим заниматься не стоит. Только если попалось на глаза. А вообще я все "новинки" сразу бегло просматриваю и оцениваю. Это занимает пару минут, но дает возможность понять, все ли с книжкой в порядке, или чего-то нехватает. Так, я долго не мог найти приемлемый по качеству вариант AoA 013, но, в конце концов, нашел.
А как учитывать вкусовщину? Допустим, кто-то считает, что в OCR пережаты фотографии? А кому-то это неважно, был бы текст?
Никак не учитывать. Особенно если имеется не-OCR вариант, из которого каждый желающий может сделать собственный вариант OCR.