Форум » Милитера (militera.lib.ru) » проблемы OCR » Ответить

проблемы OCR

Snarka: Очень нужен мастер-класс по OCR. Я впервые этим занялась, у меня естессно тьма вопросов, и мне как-то неудобно грузить этим делом форум. То есть я могу, конечно, эти вопросы задать, ну начать по-крайней мере. Но 100% каждый ответ вызовет еще вопрос, и т.п. В связи с этим: 1) есть ли где хороший (душевный :) ФАК по ОКРу? 2) может быть какая нть добрая душа согласится поконсультировать меня в личной переписке? Пока что первый вопрос самый простой. Где бы взять нормальный Finereader, или может быть другую подобную программу. Собсно у меня был замечательный, восхитительный ФР 3.0 - 20 мегов места занимает, памяти практисски не жрет, а пашет как трактор. И языки все понимает, даже такой интересный (и самый полезный!) язык как «русско-английский». Но увы, оказалось что он плохо крякнут, и когда у него вышел срок, он начал резать строки через одну при попытке сейвить файлы. Фот, комп у меня старый, диск весь забит, новую тяжеленную версию 7 ставить реально некуда (да и зачем, если 3 вполне годится). Кроме того, другие версии, боюсь, тоже будут криво крякнуты, ибо ABBYY славится отличной защитой. В общем, дайте плиз совет: какой программой/версией вы пользуетесь и где ее взять? Я собсно и купить могла бы лицензионную, раз уж на то пошло - но они ессно предлагают огроменного слонища 7.0, который просто раздавит своей тушей весь мой скромный компик :(. А всё кроме 7.0 «политика компании» им продавать запрещает. Прикиньте, я им позвонила, описала проблему, так они решили сделать исключение и пойти навстречу: лично мне продать версию 4.0 за $129 :). Фот, такая грустная история.. И это только первый из вопросов... А зато. Если вы мне поможете, то я вам начну материалы давать :). У меня уже куча мечтаний, что я хотела бы поокрить, было б чем...

Ответов - 49, стр: 1 2 All

S.N.Morozoff: И все равно: таблица - это беда...

S.N.Morozoff: Не, они работают, если сломаны грамотно. Тут вся проблема изначально была в этом. Сейчас работает 4.0 и все нормально вроде как. Просто бывают Дистрибутивы и дистрибутивы...

assaur: ------› Мятишкину Андрей! Прошу поделиться с обществом своей технологией работы. Лично у меня проблема такая: есть сканы (tiff, серый, - разворот весит около 8 Мб). На винте вся книга около 4 Гб. Хранить все на винчестере не хочу, писать на RV в tiff тоже не устраивает (для меня это много и еще боюсь запутаться при делении на куски для записи). Как перевести все это пакетом в Djvu (способ нащупал, но не знаю какие характеристики нужно вводить, чтобы получить хорошее качество)? Имиджей 20 я перевел, получил пакет в том числе и с файлом directory, вроде то что надо, но уж слишком долго все это конвертируется. Подскажите, пожалуйста, что нибудь для ускорения процесса. А еще лучше приведите всю технологическую цепочку, хотя бы кратко. На amyat.narod.ru подробностей не нашел. Вот еще что: в книге много схем и картинок (почти на каждой странице). Перевод в djvu лишает возможности обработать ее в FotoShop? Всего доброго. Петр.


amyatishkin: Имеются ввиду сканы книг? Сканиться в серый ТИФФ 300дпи (ну или по потребности – мелкий шрифт лучше в 400). Края страниц при этом обрезаются. Если есть желание сохранить такое на СД, то конвертится в JPG, качество 92 в 100-бальной шкале. Т.е. я при таком качестве потерь не вижу, и потому так сохраняю. Ес-но, это только сохранение файлов – работать-то надо все равно с ТИФФ. Конвертится через ACDSee. Картинки загоняются в Файнридер, причем без разрезания страниц, но с переводом в ч/б. Далее для приготовления сканов может оказаться несколько вариантов содержания и качества материала: 1)Просто текст + схемы без штриховки 2)Схемы со штриховкой, гравюры, т.п. 3)Фотографии Первый вариант – картинки из Файнридера сохраняются как ТИФФы, единственная проблема – черная полоса по сгибу. Полоску ручками убираем в Фотошопе – желательно вытащить пару кнопок (или клавиш), чтобы можно было выделить – одним кликом очистить – одним кликом сохранить и закрыть. Заодно можно почистить мелкие помарки. В принципе это автоматизируется, но ручками проще и надежней. Проблемы получаются, когда Файнридеру не удается самостоятельно выделить текст - приходиться ручками переводить в Фотошопе. Брать серый исходник и, отрегулировав яркость/контрастность/кривые, перевести в ч/б (там вариант должен быть «50%уровень черного»). В результате получается то, что должен был выдать Файнридер, только ручками. Штриховка/гравюры – Файнридер их портит, но не всегда. Можно сделать по первому варианту, но страницы с такими гравюрами проверить и при неудачной обработке сделать вручную. (Ес-но, выбирать тут надо из количества этих гравюр) А можно автоматически сделать пакетный перевод Фотошопом из серого в ч/б. Надо выбрать несколько страниц, на них протестировать действие перевода в ч/б (можно и регулировку яркости добавить), а потом обработать весь пакет. Потом опять таки – полоска сгиба убирается, помарки чистятся. Но это более сложный вариант получается, поэтому через Файнридер в ч/б предпочтительней. Далее – через пакетирование Фотошопом режем ч/б картинки пополам, т.е. делаются два действия, которые отрезают левую и правую половинку. Сохранение идет в разные директории. Потом ACDSee переименовываем файлы с левой страницей в *1, а с правой в *2, сливаем в одну директорию и делаем нормальную нумерацию соответственно номерам страниц. Резать лучше через Фотошоп, т.к. он реже обрезает текст, чем резка страниц в Файнридере. Далее – можете учесть такой момент, что при добавлении страницы в пакет Файнридера делается выравнивание страниц. (Ес-но, в схемы, чертежи и т.п. вещи это вносит искажения. Ваше дело – учитывать это при работе или нет – можно все делать в обход Файнридера). Лично я считаю выравнивание оч. полезным делом и после получения одиночных страниц еще раз прогоняю через Файнридер, чтобы он их попробовал выровнять. Т.е. сделать еще пакет – добавить страницы – сохранить изображения. На выходе получаем скан в ч/б в ТИФФ без сжатия, примерно 500 кб на страницу. Перевод в DjVu. Кидаем одну страницу в DjVu Solo, потом через Edit – Insert Pages добавляем остальные (все сразу, комп тщательно думает). Бывает путаница между первой и последней добавленной страницами, надо проверять. Потом сохраняем в DjVu, на вопросы отвечаем «Bundled» (одним файлом) и «Bitonal». Сохраняется (точнее пакует) долго. Получается файл DjVu ч/б, одним куском. Если надо что-то из него вытащить – приходиться сохранять по одной странице в BMP. Если нужен просто файл для работы, без эстетических претензий – можно существенно упростить, сразу Файнридер и в DjVu. Ну и книжка с фотами. DjVu эти фоты шибко портит, так что ценные желательно давать отдельно. Несколько фот можно с проблемами воткнуть в DjVu, не ухудшив качество получаемой книги, но, если их много – проще сделать книгу по второму варианту (фоты выйдут как при ксероксе), а фотографии дать отдельно. А)сделать страницы с фотами в сером. Делается из серых ТИФФ, в DjVu Solo отвечать вместо Bitonal - Scanned. Минусы такие, что фон страницы практически всегда получается серым, размываются буквы текста, и – может при сжатии ошибиться с буквой – например вместо И будет Н. Б)Муторный способ – берется вариант страницы в ч/б и в сером. Фота выделяется по границам и копируется в ч/б вариант (конечно, вначале ч/б переводиться в оттенки серого, чтобы нормально вставилось). И в DjVu переводиться из такого файла. Я обычно делаю отдельно DjVu файл в ч/б и в сером (с отдельными страницами). Потом они сливаются и страницы в сером загоняются на нужные места.

assaur: Большое спасибо. Петр.

amyatishkin: Да, в обновлении на сайте было про вытаскивание из фйла DjVu страниц - через XnView вполне работает. Вообще, этот XnView очень неплохая програмулина, единственно, что было хуже, чем в ACDSee - сортировка по размеру изображения. Сейчас это есть.

Смолянин: amyatishkin пишет: цитатаПеревод в DjVu. Кидаем одну страницу в DjVu Solo, потом через Edit – Insert Pages добавляем остальные (все сразу, комп тщательно думает). Бывает путаница между первой и последней добавленной страницами, надо проверять. Потом сохраняем в DjVu, на вопросы отвечаем «Bundled» (одним файлом) и «Bitonal». Использовал DjVu Solo 3.1 Страницы изначально были отсканированы в tiff bitmap 300dpi. При создании djvu на некоторые страницы Solo ругалось: «Invalid G4/MMR Data». Пробовал картинку слегка подправить в фотошопе, ничего не меняется. Как с этим бороться?

amyatishkin: По моему, это так ругается на сжатые страницы. Возможно, часть тифф была в варианте WIN или МАС. Я в таких случаях делаю дополнительное конвертирование в ACDSee - вариант TIFF без сжатия и 300 dpi. Полученное обычно съедобно. Еще м.б. бага с пустыми страницами - но Solo по другому тогда ругается.

Hoaxer: ---› Смолянин ›Страницы изначально были отсканированы в tiff bitmap 300dpi. При создании djvu на некоторые страницы Solo ›ругалось: «Invalid G4/MMR Data». Пробовал картинку слегка подправить в фотошопе, ничего не меняется. Как с ›этим бороться? Так обычно происходит, когда человек пытается вогнать в DjVu Solo имиджи из пакета Файнридера, особенно старых версий. ФР как-то хитро их сжимает, тифы. Раньше я поступал просто -- пропускал пакет через Фотошоп (делал простенькую action -- типа открыть, перевести в серый, закрыть и сохранить), а потом они без проблем грузились в Solo. Сейчас вместо бесплатного Solo сделан весьма и весьма платный DocumentExpress. Вроде бы он у меня есть. И еще мне прислали несколько новых программ, надо разобраться... Ещё см. http://www.cqham.ru/djvu_print.htm



полная версия страницы