Форум » Милитера (militera.lib.ru) » какое программное обеспечение используется для сканирования текстов? » Ответить

какое программное обеспечение используется для сканирования текстов?

TA44250: Я хочу отсканировать этот заголовок: Повреждения кораблей от артиллерии и борьба за живучесть Поэтому я могу загружать его. Какое программное обеспечение используется?

Ответов - 5

Hoax: TA44250 Просмотр djvu: https://sourceforge.net/projects/windjview/

sventof: TA44250 пишет: п. 1. какое программное обеспечение используется для сканирования текстов? п. 2. Я хочу отсканировать этот заголовок: Повреждения кораблей от артиллерии и борьба за живучесть п. 3. Поэтому я могу загружать его. п. 4. Какое программное обеспечение используется? Откровенно говоря, судя по таким фразам, лично мне понятно, что человек вообще не имеет понятия, что такое "графическое изображение", "текстовый файл", что делается при сканировании, какие бывают форматы графических файлов, что такое OCR-распознавание текстов и для чего это нужно. Начнем по пунктам. п. 1. какое программное обеспечение используется для сканирования текстов? Ответ: любое, которое позволяет запустить конкретный сканер, соединенный с конкретным компьютером. Точнее говоря, используется то программное обеспечение, которое находится в поставке со сканером. Если сканер куплен на базаре (по цене бутылки - было со мной такое однажды), то соответствующее ПО под ЭТОТ сканер скачивается из Интернета. Еще точнее: в поставке со сканером может находиться несколько программ: - TWAIN-драйвер, - Простенькая программа обработки графических текстов (в форматах jpg, tiff и т.д.), - Простенькая программа OCR-распознавания текстов, - Или одна большая программа по работе со сканером, в которой реализованы вышеперечисленные функции (таким любит увлекаться HP), - Также может быть в комплекте программа управления графическими файлами на компьютере (типа: Picasa, XnWiew). - Кроме того, существуют программы преобразования графических файлов в чертежные форматы типа dwg. Ну и существуют "сторонние" программы обработки графики (например: Photoshop, Corel Draw и т.д.) Из моего опыта: лично мне хватает установки соответствующего TWAIN-драйвера под конкретный сканер. Если таковой существует и установлен, то сканировать можно в любой программе обработки графики, в которой есть функция обращения к сканеру. Моя любимая - старенький Photo Editor. Подходят и другие класса Adobe Photoshop. Особое замечание по сканерам НР: у меня было несколько раз общения со сканерами НР с одним и тем же результатом: "нуегонафиг общаться со сканерами НР". Проблема в том, что в тех НР-сканерах не было TWAIN-драйвера, а работа предлагалась только в специальной НР-программе, которая требовала кучу излишних действий и клацаний кнопками, при этом либо без запоминаний адресов папок и настроек, либо с требованием создавать настроечные файлы и т.д. Короче - расчет на каких-то дебилов, которые вообще ничего не понимают в процессе сканирования. п. 1. какое программное обеспечение используется для сканирования текстов? Ответ с другой стороны: сканирование и текстов, и картинок выполняется одинаково. Только предварительно надо понимать, какие последующие действия должны выполняться с отсканированным файлом? (Для чего требуется выполнить сканирование?). От этого зависят настройки процесса. Процесс может выполняться в двух принципиальных отличиях: - в цвете, - в оттенках серого. Если сканируется цветная картинка, которую потом будут использовать как картинку, то надо установить (выбрать) настройку "в цвете". Если сканируется картинка в оттенках серого или черно-белый текст, то выбирается настройка "в оттенках серого". Опыт показывает, что многие не видят этой разницы и часто сканируют черно-белые изображения в цвете. При этом не понимая, что цветная картинка как минимум будет занимать в три раза больше места. При сканировании в оттенках серого на одну точку ("пиксел") выделяется один байт (8 битов). При цветном сканировании - как минимум ТРИ байта (24 бита). А есть сканеры и под 48 битов на одну точку (6 байт). Есть разница: 1 байт или 3 (или 6) на одну точку? Подумайте. Следующим важным показателем настроек сканирования - разрешение (Resolution). Обычно выбирается одно из нескольких: - 100 dpi (точек_на_дюйм), - 200, - 300, - 400. (Есть и другие варианты). Разница: - если с полученным файлом ничего делаться не будет, то достаточно и 100 дпи. Но есть угроза получить "муар" - особенно при сканировании изображений из журналов, газет, которые отпечатаны "точками". Раскрываете книгу по программированию, видите там картинки с экрана с "муаром" - понятно, что авторы ничего не понимали в сканировании. Чтобы получить качественный файл после сканирования, бывает полезно сканировать с бОльшим разрешением, но потом уменьшить картинку, "гуляясь" изменением разрешения и размера. Дело в том, что если меняется разрешение в программе обработки графики, то при этом в другую сторону меняется габарит картинки. Например: отсканировали картинку шириной 5 см в 300 дпи. В программе поменяли разрешение на 100 дпи. При этом ширина картинки увеличилась в три раза (стала 15 см). После чего можно задействовать уменьшение размера (Resample). Причем, несколькими разами (например, несколько раз уменьшая размер на 70%, а не один раз на 33%). Вот при таких действиях муар и уходит. Но есть еще один нюанс: я столкнулся с ситуацией, когда при изменении размера качество изображения в разных программах (по крайней мере в "старых") отрабатывается по-разному (в смысле в одной программе хуже, в другой лучше). Возможно в новых этой проблемы уже нет.

sventof: Следующая настройка: "размер сканирования". У меня был случай: получаю по электронной почте сканы фотографий. В виде: ВСЕ изображение внутренностей сканера (21 см х 29 см), в углу которого лежало фото 9 см х15 см. Т.е. человек открывал сканер, ложил в его угол фото 9 х 15, закрывал крышку и сканировал по тем настройкам, какие там были (а были настройки отсканировать ВСЮ площадь сканера 210 мм х 297 мм). Тут возможны варианты: или сразу заказать примерно требуемую зону сканирования (перед ним), или сделать обрезку после сканирования. Могут быть другие настройки, но они уже менее важны (яркость, глубина и т.п. - это уже подбором или по состоянию бумажного оригинала, хотя все эти действия можно сделать и потом после сканирования). ======= Следующий важный момент: формат записи полученного файла. Сейчас широко используется JPG. Меньше (реже) - TIFF. Когда-то я слышал от издателей такое правило: "- Никаких JPG-ов! Только TIFF!!". Какая разница? Разница в том, что формат JPG позволяет делать архивирование. Пример: в картинке есть полоса одного цвета и тона шириной 6 см. Как ее записать? Можно записать ВСЕ точки на ширину этих 6 см с указанием одного и того же значения цвета. А можно записать как-то иначе, скажем: "на ширину 6 см - цвет точек такой-то". Внешне JPG и TIFF могут показаться одинаковыми. Однако, если потребуется выполнить разные манипуляции с такой картинкой, то просто с набором точек на всю ширину (TIFF) сделать это будет легче без потери качества. Лично я из опыта вынес следующее правило: файл JPG без потери качества можно записывать в оттенках серого не менее 50% качества, цветные - не менее 80% качества.


sventof: п. 1. - п. 4 С третьей стороны: любой текст сканируется так же, как и любая картинка - точками (пикселами). Т.е. после сканирования любая буква будет записываться в файл набором точек по ширине и высоте. Текстовый файл отличается от такого тем, что в нем запись идет не наборами точек по каждой букве, а кодами букв. В первую очередь по ASCII-кодовой таблице. Т.е. чтобы отсканированный текст можно было бы открыть в текстовом редакторе (типа WORD), после сканирования надо выполнить оптическое распознавание символов (OCR). Это уже функция не сканирования, а последующего преобразования. OCR-программ существует много. Широкую известность получила программа FineReader (ABBYY FineReader). Вот там есть и функция сканирования и распознавания (а также проверки и переноса полученного распознанного текста в WORD). Чтобы сканировать в этой программе, достаточно установить соответствующий TWAIN-драйвер конкретного сканера. И для такой работы есть правило сканирования: не менее 300 дпи в оттенках серого. Если текст мелкий, то полезно сканировать в 400 дпи.

sventof: И последнее: графические файлы (jpg, pdf, tiff и т.д.) нет смысла сжимать архиваторами. Мне попадались случаи: кем-то создается pdf-файл (один), затем он сжимается rar-архиватором и в таком виде выкладывается в Интернете. И автор таких действий даже не поинтересовался, насколько rar-файл стал меньше? Как правило не более чем на 1%. Т.е. pdf-файл можно было бы выкладывать сразу в таком виде без архивации - уменьшения размера в разы не будет. В разы уменьшение размера возможно лишь текстовых файлов. Ну а использовать rar-архивацию имеет смысл для собирания в один файл НЕСКОЛЬКИХ графических файлов. Например, для отправки по электронной почте. Если некий текст имеет внутри себя картинки и файл получается большим, то для пересылки по электронной почте можно сделать такую операцию: картинки записать отдельно в jpg-формате. В тексте сделать на них ссылки в нужных местах. После чего файл с текстом сжать архиватором. А потом этим же архиватором собрать сжатый текст с файлами картинок в один файл для пересылки. Ну или воспользоваться форматом DjVu - варианты тоже могут быть разные, их можно посмотреть в Гууугле по фразе поиска: "создать djvu из jpg" Как сделать (создать) djvu файл ... Конвертировать JPG в DJVU онлайн... Как самому сделать DjVu-книгу (Краткая схема) - DJVU-программы... Создаём электронные книги в формате djvu и pdf ... И т.д.



полная версия страницы