• Мнения
  • |
  • Обсуждения
Дебютант

Как быстро отсканировать книгу в формат PDF (используя ClearScan)

Как быстро отсканировать книгу в формат PDF (используя ClearScan)

ВВЕДЕНИЕ

В этом кратком пособии я бы хотел поделиться своим мыслями о сканировании книг в формат PDF и впечатлениями о технологии ClearScan, доступной в Adobe Acrobat начиная с версии 9.0. На мой взгляд, это замечательная технология, делающая (наконец-то!) формат PDF подходящим для отсканированного текста.

Фактически, при деструктивном сканировании (книга разрывается на листы и используется листовой сканер), процесс сканирования → чистки → перевода в PDF → OCR можно выполнить за тройку часов для чёрно-белой книги среднего размера. Если же вы «стекольщик», то есть у вас достаточно терпения сканировать книгу на стекле сканера, сканирование, очевидно, займёт дольше.

Надо сказать что хорошо отсканировать цветную книгу сложнее чем чёрно-белую: сканер портит цвета, и на их исправление в графическом редакторе уходит время и требуется определённый навык. Можно представить себе такую шкалу сложности, в начале которой находятся самые простые для сканирования книги с чёрно-белым текстом без иллюстраций; постепенно, иллюстраций становится всё больше, прибавляется цвет, так что на другой стороне этой шкалы находятся самые сложные для сканирования книги у которых каждая страница — цветная иллюстрация.

Технология ClearScan, о которой я расскажу, рассчитана на текст. Она никак не влияет на иллюстрации, чёрно-белые или цветные. Если вы захотите узнать о сканировании подробнее, и/или вы собираетесь сканировать книги с большим количеством цветных иллюстраций и хотите уметь исправлять их цвета, то я могу дать ссылку на пособие по сканированию книг в высоком качестве, размещённое в библиотеке Twirpx.com, которое также включает в себя инструкции по работе с программой Photoshop:

www.twirpx.com/file/1437636/

Моя задача скромнее. Я предполагаю у вас наличие книги, где основные страницы — текст. Это может быть учебник или документ, художественная литература или техническая, но не детская книжка с картинками, не книжка-фоторепортаж. Я рассчитываю что вы хотите перевести такую книгу в PDF и получить приличное качество и небольшой размер файла.

КАК СКАНИРУЕТ НАЧИНАЮЩИЙ

Если есть сканер, то хочется что-нибудь отсканировать! И слава Богу. Посмотрите на обилие электронных библиотек. Спасибо всем кто отсканировал и выложил это для других.

Сканеры сегодня продаются с пакетом программ, среди которых есть и программа по преобразованию в PDF. В теории (и в рекламных проспектах) это выглядит так: заложи в сканер листы, получи их на выходе в электронном виде, в формате PDF! И это иногда правда. Есть большое количество разных бумаг (количеством 1, 2, … 10 листов) с которыми я так и поступаю. А чего с ними чикаться? Видно — будет. А большее и не нужно. Но вот книга… да ещё для тех, кто любит книги… разве можно назвать получившуюся косую дрянь с полосами, пятнами, чёрными точками, с разорванным шрифтом книгой? Где же зарыта собака? Какую опцию надо выставить, какой рычажок покрутить, чтобы всё это стало похоже на оригинал?

В том-то и дело что нет такого одного рычажка. Есть четырёхступенчатый процесс, каждая ступень которого требует некоторых оптимальных решений от оператора. Пакет программ для сканера, работающий по типу «одним махом всех побивахом», скрывает этот четырёхступенчатый процесс, делая из него одну операцию: бумажный лист → электронный эквивалент. Но о том что на самом деле происходит что-то сложное, всё же можно догадаться. Например, сканер уже закончил сканировать, а компьютер ещё не готов продолжать; на нём открываются и закрываются какие-то программы; мигает лампочка доступа к жёсткому диску… Чтобы отсканировать книгу качественно, надо самому пройтись по ступеням этого процесса: сканирование, чистка, перевод в нужный формат и распознавание текста (OCR).

1. СКАНИРОВАНИЕ

Задача этой ступени перевести бумажные страницы книги в соответствующие им файлы в формате TIFF с разрешением как минимум 300 dpi. Это разрешение достаточно для книжного текста обычного («читабельного») размера. Мелкий шрифт или желание передать мелкие детали иллюстраций может потребовать большего разрешения. Покопайтесь в настройках своего сканера. На выходе, вам нужно получить графические файлы, в формате TIFF. Один лист — один файл. И никаких многостраничных TIFF-ов (где в одном TIFF файле несколько страниц)! Никаких PDF-ов! Никаких OCR-ов (распознаваний текста)!

На этой ступени также нужно принять решение о сканировании книге в цвете (color) или в оттенках серого (grayscale). Обычно не рекомендуется сканировать книгу в строго чёрно-белом варианте (b&w), даже если книга чёрно-белая, так как сканер должен будет тогда решать что делать чёрным, а что белым. Скажем, изгиб на странице может быть передан чёрным и создаст чёрные полосы и пятна, а ещё того хуже, эти пятна закроют чёрный же текст. Вычистить потом такое «чёрное на чёрном» невозможно. Если же пятно (полоса, другой дефект) серого (или другого, при цветном сканировании) цвета, а текст чёрного (отличного от дефекта) цвета, то дефект можно будет убрать на стадии чистки путём удаления из изображения цвета пятна. Поэтому книжки с пожелтевшими страницами хорошо сканировать в цвете, чтобы иметь возможность убрать жёлтый цвет из получившегося скана. Бывает также, строго чёрно-белое сканирование утоньшает и разрывает линии и шрифт (то есть когда буква, скажем, «d» выглядит как «cl»). Поэтому, для качественного сканирования, не стоит сканировать в строго чёрно-белом варианте (b&w). Никто не запрещает перевести страницу в чёрно-белое изображение потом, когда изображение почищено, если такой перевод нужен. Как мы увидим, для технологии ClearScan такой перевод не требуется: ClearScan прекрасно работает с текстом в оттенках серого и с большим разрешением.

Для моего листового сканера, сканирование начинается с отрезания обложки. Обычный кухонный нож с коротким лезвием и удобной ручкой вполне подойдёт. Для мягкой обложки, нож просовывается между обложкой и первой страницей (при закрытой обложке) и обложка отрезается. Если у книги твёрдая обложка, то при открытой обложке из неё вырезается сама книга. Страницы потом либо отрываются по одной, либо отрезаются. Рваные края потом можно будет удалить с помощью программы на стадии чистки. Главное, чтобы рваные края не залезали на текст.

Пишу эти строки, а в голове звучит стихотворение Маршака:

У Скворцова Гришки
Жили-были книжки —
Грязные, лохматые,
Рваные, горбатые…

У меня есть книжки, ещё из детства, которые я люблю и не буду резать. Но часто приходится сканировать пособия, часто компьютерные, часто толстые, и макулатура — лучшее место для них. И времени своего на сканирование «на стекле» жаль тратить.

Ещё раз о базовых настройках сканера. Разрешение — 300 dpi или больше, цветовой режим «оттенки серого» (grayscale) или «цветной» (color). Формат файла — TIFF. Измерив страницу книги в миллиметрах, можно задать длину и ширину. Конечно, «на стекле» это можно сделать лишь приблизительно, так как точно положить книгу на стекло невозможно. А листовой сканер будет засасывать листы с ровной стороны (либо сверху/снизу либо, если сбоку, надо положить ровной стороной) и тут всё будет точно вплоть до миллиметра. На своём листовом сканере я, последнее время, из-за врождённой лени, выбираю опцию «улучшить текст» (text enhancement), которая «ужирняет» и «учерняет» текст и портит цветные иллюстрации (сгущает краски) и опцию «выравнять изображения» (deskew) так как ровные листы легче потом обработать. Но можно вообще никаких других опций кроме dpi и цвета не выбирать, и оставить всё остальное на стадию чистки.

2. ЧИСТКА

Задача этой ступени — получить на выходе файлы с чистыми, красивыми страницами в том же формате TIFF и в том же количестве. Это «набор» будущей электронной книги. Нечего и говорить, что обрабатывать нужно все (вернее почти все) изображения по группам, т. е. в «пакетном режиме» (batch processing). Кроме обложек и некоторых других неординарных страниц, возиться с каждым изображением страницы отдельно в графическом редакторе практически невозможно (представьте 700 страниц текста!) да и не нужно.

Для чистки, я раньше пользовался программой ScanKromsator v5.9. Её можно найти в интернете.

Ссылки на описание этой программы:

ru.wikipedia.org/wiki/ScanKromsator
www.djvu-soft.narod.ru/kromsator/
www.twirpx.com/file/394016/

Программа, особенно для начинающего, сложная из-за непривычного интерфейса, большого количества опций и плохой документации. Не всегда понятно какой же результат будет в конце. Последнее время, я пользуюсь комбинацией программ Photoshop и Scan Tailor. Scan Tailor не пытается быть графическим редактором как ScanKromsator, но из-за этого им проще пользоваться. Объединив же возможности программ Photoshop и Scan Tailor, набирается внушительный инструментарий для выправления сырых сканов. Документация к Scan Tailor есть здесь:

sourceforge.net/apps/mediawiki/scantailor/index.php?title=Main_Page

Какая бы программа не использовалась, нужно

убрать наклон страниц (deskew)
отрезать неровные края
выравнять освещённость (убрать тени от неравномерной освещённости)
убрать точки и другой мусор (despeckle)
отдельно проверить/выправить иллюстрации (включая обложку)

Можно поправить такие дефекты на станицах как заметки на полях (если конечно, нет цели их сохранить), стереть карандашные линии, подчёркивающие текст (будут мешать программе OCR, которая примет их за графику), убрать полосы, пятна, а иногда и задний фон. Я однажды сканировал книжку с синими буквами на голубом фоне; фон вышел безобразно, и я его просто убрал, т. е. поменял на белый, благо он был чуть светлее текста и от него можно было избавиться, убрав его цвета.

Из вышесказанного ясно, что чистка — это самая технически сложная ступень. Если вы не работали раньше с графическими редакторами, то нечего и думать сделать всё с первого раза на сто процентов. Не отчаиваетесь! Даже чуть облагороженный файл — это шаг вперёд на пути к лучше отсканированной книге! В другой раз будет ещё лучше. А потом, русские просто обожают чистку! К сожалению, мы даже любим вычищать наше собственное население. Или, как говорят теперь, «зачищать». Было вычищено столько народу, что если б от этого действительно зависело продвижение на пути в рай, мы давно жили б в раю. Как тут не вспомнить Сергея Мироновича Кирова:

«ЧК-ГПУ — это орган, призванный карать, а если попросту изобразить это дело, — не только карать, а карать по-настоящему, чтобы на том свете был заметен прирост населения, благодаря деятельности нашего ГПУ.»

На том свете, стало быть прибыло, а на этом убыло. Но они ж все плохие были, те которые убыли… чего их не расстрелять за плохоту? Простите за отступление, просто в нашем стремлении к крайностям мы иногда вычищаем самих себя. Потом удивляемся: «почему у нас режим авторитарный?» Потому что хочется быстрых, кардинальных, простых решений для сложных проблем. Посмотрите сколько людей мыслят в русле «да взять их всех да и [способ вычищения]», и вы согласитесь что никакого другого режима, кроме авторитарного, т. е. который способен «всех взять за … и …» нам не светит.

3. ПЕРЕВОД В КОНЕЧНЫЙ ФОРМАТ

Итак… переводим книгу в нужный формат. Я здесь рассматриваю только формат PDF как единственно простое, быстрое, кардинальное решение «форматного вопроса»… стойте. Где-то я уже это говорил. Ах, да. Ну, хорошо, есть много форматов в которые можно перевести книгу, в том числе «текстовые», то есть такие где распознанный текст отделяется от книги и публикуется без неё. Программа по распознаванию текста ошибается, и такому отделённому тексту нужна хорошая вычитка. Но нравится вам вычитывать книгу — вычитывайте. Только уж вычитывайте как следует, а то скачаешь с интернета книжку в текстовом формате — там опечаток море.

Я же объясню как сделать книгу в PDF, причём используя технологию ClearScan. ClearScan — передовая технология. Если сам по себе формат PDF не идеален для хранения отсканированного текста (получается либо большого размера файл, либо, если сжать побольше, некачественное изображение) то при применении ClearScan, этот формат приближается к идеальному.

На самом деле, принципиальных вариантов что делать с отсканированной книгой не так много. Можно просто оставить её в TIFF файлах. Кстати, эти файлы можно оставить в любом случае. Как уже было сказано, TIFF файлы — «набор» книги. Из них потом можно лепить другие форматы. Мне лень их хранить, но потом не раз я покусал локотки из-за того что оригиналов уже не было. Однако, TIFF файлы не удобны для обмена. Они занимают много места, и смотреть их надо в графическом редакторе. Можно перевести TIFF файлы в формат JPEG, так они займут меньше места. Но формат JPEG не лучший вариант для чёрно-белого текста, особенно когда его несколько сот страниц.

Можно перевести книгу в текстовой или смешанный формат: TXT, RTF, DOC наконец, или в HTML-ные и XML-ные EPUB и FB2. Но это — отделить текст и переиздать книжку заново. И возможно, потерять всё или часть оформления книжки при переиздании. Нужно ли это, если книжка уже издана? Конечно, решать вам. Если оформления немного, то можно и переиздать. А если много и его хочется сохранить? Да и просто не хочется терять время на переиздание? Тогда остаётся либо «хлопнуть» книгу в DJVU, либо в PDF (кто-то «хлопает» и в PowerPoint, но это уж, простите, «ваще»).

В теории, до появления технологии ClearScan, формат DJVU больше подходил для отсканированных книг чем PDF, так как файлы получались меньше. Но на практике, PDF куда более распространён (это факт), а программы позволяющие читать PDF куда более привлекательны (это моё мнение) чем-то что создано для DJVU, что для меня выбор был ясен даже до появления технологии ClearScan. А теперь-то уж…

Суть технологии ClearScan состоит в замене изображений букв на стадии OCR на настоящий шрифт. Этот шрифт не является каким-либо готовым (системным) шрифтом более-менее похожим на оригинальный шрифт, а специальным шрифтом изготавливаемым программой Acrobat «на лету» под конкретную букву текста.

В результате, вместо страницы книги в графическом формате, появляется страница с (почти) настоящим текстом, по форме (почти) таким же как и оригинальный.

Ссылка на статью на английском языке о технологии ClearScan:

blogs.adobe.com/acrolaw/2009/05/better_pdf_ocr_clearscan_is_smal/

Как сказано в этой статье и проверенно на практике, самые лучшие результаты получаются при высоком разрешении оригинала (600dpi) и отсутствии на оригинале побочных помех (мусора, артефактов).

Где же взять Adobe Acrobat 9.0 и выше? В голове тут же начинает крутиться одно [нехорошее слово]. Но зачем мне учить вас нехорошим словам? Вы их знаете и без меня. Поэтому, как экзотический альтернативный способ, я придумал зайти на какой-нибудь аукцион, скажем E-bay, набрать adobe acrobat 9 pro и посмотреть можно ли получить то что хочется по разумной цене. Допустим — можно. И Acrobat у вас.

Запустив Acrobat, выбираем все TIFF-ы получившиеся после чистки. Для этого жмём на File → Combine → Merge Files into a Single PDF. Открывается окошко в котором мы справа вверху выбираем опцию Single PDF (она скорей всего и так выбрана). Нажимаем Add Files → Add Files и добавляем все TIFF-ы. Чтобы добавить все файлы сразу, нажимаем мышкой на первый файл, потом держим клавишу Shift и нажимаем на последний файл. Нажимаем Combine Files и терпеливо ждём результата — одного файла в формате PDF.

4. OCR С ОПЦИЕЙ CLEARSCAN

Это самая простая для нас ступень. Bo-первых, распознать текст (OCR) нужно для того, чтобы заменить изображения букв на шрифт (ClearScan). Во-вторых, если текст распознан, появляется возможность поиска по ключевым словам. Это удобно в учебниках, справочниках, да возможно и в художественной литературе. OCR не работает на сто процентов, и распознаёт текст не совсем верно. Но нам-то этого и не нужно. Мы не собираемся отделить этот распознанный текст от книги и опубликовать только его — это дело тех, кто выбрал текстовой формат. Аккуратность нам нужна только для поиска по ключевым словам, а для этой цели аккуратности OCR обычно хватает. Представьте себе какой-нибудь раздел в учебнике. Скажем, про постоянный ток. Сначала пойдёт заглавие — «постоянный ток». Потом определение постоянного тока. Потом свойства постоянного тока. Комбинация слов «постоянный ток» встретится в этом разделе много раз, и даже если OCR ошибётся однажды, второй случай употребления не останется незамеченным, и ваш поиск по ключевым словам «постоянный ток» приведёт в нужный раздел.

Что ж, запускаем OCR в том же Adobe Acrobat. Для этого делаем Document → OCR Text Recognition → Recognize Text Using OCR и в открывшимся окне нажимаем Edit в разделе Settings. Выбираем

Primary OCR Language — надо указать основной язык документа
PDF Output Style — ставим ClearScan
Downsample Images — обычно можно Low (300dpi)

Эта последняя настройка отвечает за заключительное разрешение нераспознанных изображений. Допустим, что вы отсканировали книгу в 600 dpi чтобы текст после ClearScan выглядел наилучшим образом. Но у вас в книге есть не только текст, но и иллюстрации. Они тоже оказались отсканированы в 600 dpi. Допустим также, что вы не хотите такого высокого разрешения для иллюстраций, так как вашим конкретным иллюстрациям это не нужно, а места при разрешении 600 dpi они будут занимать много. Выставив настройку Downsample Images, у вас есть возможность понизить разрешение иллюстраций в документе.

Ждём ещё терпеливей прежнего, а лучше идём отдыхать. На выходе получается искомый PDF. Найдите в нём какую-нибудь буковку и начните увеличивать. Эта буковка должна оставаться чёткой при любом увеличении.

Готово. Не забываем сохранить файл.

И вот что ещё… Не надо дожимать-пережимать этот файл в Acrobat-е ради экономии места на диске. Я даже не буду рассказывать как это сделать. Не надо портить качество файла, да и на мобильных устройствах, где процессор послабее, и программа для просматривания PDF не такая умная, смотреть такую пережатую книжку — мученье.

Попробуйте закинуть вашу книжку на мобильное устройство — для меня это будет iPad с читалкой iBooks. Как хорошо она выглядит! Как быстро можно листать страницы! Есть поиск по ключевым словам! Студенты! Отсканируйте свои учебники! Мамы и папы! Пожалуйста, отсканируйте хорошие детские книжки с картинками!

И, не забудьте выложить их в электронной библиотеке.

написал товарищ Кузнецов, Иван Иванович,
со слов товарища Петрова Филиппа Фёдоровича,
который услышал всё это от серой мышки.
2012 — 2014 г.

Статья опубликована 17.05.2012
Обновлено 21.07.2020

Комментарии (6):

Чтобы оставить комментарий зарегистрируйтесь или войдите на сайт

Войти через социальные сети:

  • Евгений Чупринин Читатель 15 марта 2017 в 06:02 отредактирован 23 мая 2018 в 17:23 Сообщить модератору

    Статья конечно полезная, но рвать книгу чтобы ее сканировать я бы не хотел. Я ее еле как в бумажном варианте достал, а в интернете электронных версий вообще нет. Попробую сканирую без "расчленения", в фотошопе доработаю. Долго, но за то останется в целости книга.

  • Хорошая статья. До сих пор полезна и актуальна. Но я бы её назвал не "Как быстро..." а "Как тщательно и максимально точно.... )))" и не только отсканировать, но и распознать книгу. А если хотите быстро то используйте ФР. Там все на много более автоматезировано, если наловчиться и отработать методику то 1-3 часа на сканирование (в зависимости от книги) + 10- 60 мин на проработку (хотя опять же все зависит от книги + 10- 30 мин на распознание и сохранение (это уже зависит от мощности ПК) Так что очень быстро не получится. Тем не менее в ФР это более удобно и автоматизировано.
    Люба Мельник - тут надо помнить что в пдф можно всунуть что угодно - картинку, текст или картинку с текстом. Конечно есть софт который идет со сканером но как правило он на много хуже специализированных програм

  • Артём Иванов Читатель 15 июня 2013 в 09:01 отредактирован 27 мая 2018 в 19:39 Сообщить модератору

    Спасибо тебе, браток! Отличная статья!

  • Вроде бы сканеры, ориентированные на народ, имеют специальную кнопку для не то что быстрого, а очень быстрого изготовления пдфок.

  • Михаил Чудаев Читатель 5 января 2013 в 00:20 отредактирован 27 мая 2018 в 20:04 Сообщить модератору

    Присоединюсь к последнему пожеланию


    хорошая статья!