Форум » Милитера (militera.lib.ru) » Для занимающихся цифровкой книг » Ответить

Для занимающихся цифровкой книг

amyatishkin: Ознакомился с одной многообещающей программой для ловли ошибок в текстах. Она не для вычитки, а для проверки слов, которые могут быть неудачно распознаны, но при этом есть в словаре (танки-тапки). Проверка идет по несколько параноидальному списку Змия. Проверять надо уже готовый текст. Форматы - rtf, txt, но rtf несколько упрощенный, так что лучше проверять один файл, а правку призводить в другом в Ворде. Отсюда можно скачать программу: OcrCleaner Вот форумы, где она обсуждается: the-ebook.org OCR форум Пользование: автор: -------------- Сама программка небольшая (~100кб). Но я на вский случай сделал полный установочный пакет, включив туда все библиотеки. Поэтому пакет получился 2.1 мб ... Работать с программкой просто. Она при открытии сразу же лоадит файл со Змиевыми словами. А тебе надо только загрузить книгу и нажать "check". С остальными опциями, думаю, сам разберешься: они вроде бы очевидные. Но если что-то будет непонятно - спрашивай. Если захочешь делать свои файлы с плохими словами, надо соблюдать два правила. 1. Каждое слово должно быть на своей строке. 2. Кодировка - windows-1251. Новые файлы с плохими словами рекомендуется помещать в поддиректорию SpellCheckFiles: если пользователь нажал "load" (это загрузка своих файлов с плохими словами), то программа показывает эту поддиректорию. Ну вроде бы все. Надеюсь, что программка поможет в твоем нелегком труде на благо ебучной комьюнити. ---------------

Ответов - 37

vlad: Ув. amyatishkin ! я тут начал переписку с Hoaxer-om на предмет его "любимой" книги Paul Leverkuehn. Задержка вышла с адресом вашего ftp-servera, куда можно бы положить материал. Hoaxer обешал, но так и Не прислал, видимо по причине зaнятости. Может вы узнаете..при случае.. "как быть и что делать" с ftp ?

amyatishkin: фтп вообще накрылся. Книжка сильно объемная, или что? Если проблем для Вас с закачкой нет, можете куда-нибудь на http://zalil.ru/ и сылку выслать.

vlad: ну да..после скана в .bmp- файли первые 10 разворотов уже на 5 МB потянули. у меня нету soft-a, преобразуешего результати скана в техтовые файли (полагаю здесь происходит большая редукция) я не знаю стоит ли 'закачивать' в исходном виде..


Michail Tz: vlad пишет: цитатау меня нету soft-a, преобразуешего результати скана в техтовые файли (полагаю здесь происходит большая редукция)Да, редукция действительно происходит... <offtop>Плохо все-таки жить в Буржуйляндии - и софта не найти, и денег за него хотят... Приезжал ко мне году в 99-м старый знакомый, уехавших в восьмидесятых в Америку: увидев коллекцию сидюков с софтом, аж с лица сбледнел. А когда я ему эти сидюки подарил (мне не жалко, возле метро еще куплю:) - сначала обрадовался, а потом задумался про таможню... Но ничего, провез и пользовал. Может, и до сих пор пользует...</offtop>

vlad: ну да: "и знаем, и любим, и пользуемся". У меня тоже есть небольшая "коллекция", только совсем по другому "профилю". Все эти ..Photoshopi, Freemakeri i Textwriteri.. я никогда Не использовал- Не нужны были.. бывает же Такое

Michail Tz: vlad - ну тогда ладно... Finereader'a бы Вам... Но ведь двести мегов, собака - у меня нет такого ftp...

Энциклоп: vlad пишет: цитатаВсе эти ..Photoshopi Зачем Вам Фотошоп? Для того что-бы конвертнуть изображение из *.bmp в *.jpg достаточно программ для просмотра, типа ACDSee.

amyatishkin: vlad Поясните, что за качество в книге? А вообще, вы знаете, как сканировать?

vlad: amyatishkin пишет: цитатаА вообще, вы знаете, как сканировать? ну да, казалось бы, положил в сkанер, подкрутил разрешение чтоб еще читалось да и готово. Нo, вообще я уж с месяц назад (или более) посилaл пример страници Hoaxer-u; он сказал: пойдет. Я решил продолжать в томже направлении. ОК, я могу все слить..думаю с десяток файлов "набежит" на 50 MB.. Только как для вас: не "сложно" ли будет забирать ? amyatishkin пишет: цитатаПоясните, что за качество в книге? Готический шрифт Michail Tz пишет: цитатаFinereader'a бы Вам... Но ведь двести мегов, собака - у меня нет такого ftp... У меня тоже, уви

S.N.Morozoff: vlad И все-таки, параметры сканирования? dpi, сколько цветов. Если цвета два, то TIFF с LZW хорошо сожмет. Сканер мне сканит лист формата А4 размером в 1,12Mb при 300dpi. Это TIFF без LZW. После конвертации в TIFF с LZW на выходе имеется тот же файл, но размером 372kb.

vlad: Параметри такие: resolution: 300 dpi , 2 цвета, (bmp-fail) на разворот А4 набегает.. между 200 и 300 кB. Но!- есть фотки, 25 штук на книгу, те. на десяток разворотов прим. 1 фотка. Tк. сканирую с копий (сканер Не плоский) то делаю со 128-бит, т.е. виход получается тянет на 2 MB (с хвостиком) Ну вот, в результате и набегает под 5 MB на 10 разворотов

Энциклоп: vlad пишет: цитатаbmp-fail Это самый "тяжелый" формат. Переводите или в JPG или TIFF с LZW-компрессией.

vlad: спасибо, вы могли б присоветовать еще какую програмку типa.. Viewer.. для конвертирования. Я видел наверху ACDSee; буду искат Осликом, но ежли не найдет, что есче есть ?

S.N.Morozoff: vlad пишет: цитатаЯ видел наверху ACDSee; буду искат Осликом, но ежли не найдет, что есче есть ? ACDSee могу выслать на мыло вместе с ломалкой или даже проще - дам скачать. Весить будет мега полтора-два. Версия 2.42, не 7.0, но в LZW конвертит.

vlad: положите на http://zalil.ru/ , please и напишите ссилку; или ссилка где у вас лежит кстати стaндартний MS Imaging конвертит (Оказивается) в .tif из .bmp но редукция при етом копеечная

vlad: thanks ! кстати, инструкцию можно стереть наверное- ужe скопировал

vlad: попробовал конвертировать.. да эффект имеется: в 3 раза редуцирует! v .tif-format s LZW..

S.N.Morozoff: vlad пишет: цитатапопробовал конвертировать.. да эффект имеется: в 3 раза редуцирует! Примерно так и должно быть, зависит от содержимого файла. Хорошо работает только на двухцветных сканах. На картинках в серой шкале или в индексированных цветах эффекта не будет. Но хоть текст сожмете. :)

vlad: Всеже JPEG лучше чем TIFF даже с LZW. Я сканирую фотки с 8-Бит grey-scale разрешением. Так что на виходе получайу гиганские bmp-файли по 2-5 MB. Если я для компрессии пользуюсь TIF с LZW, то получаю где-то половинную редукцию. Ежли беру JPEG с установкой качества гдето 50%.. то редукция получается около 5-6 раз. Разница есть. Насколько я понимаю в "колбасе" в JPEG уже входит и LZW, и Другие програмние штучки, но .. кроме качества Viever позволяет установит есче другие параметри, типа.. Optimized huffman code, smooothing Ето только так, для "красоты", или ?

S.N.Morozoff: Когда в серой шкале делаешь, LZW не так оптимистичен, как для bitmap. Но основное отличие TIFF с LZW от JPEG в том, что у первого при сжатии не теряется качество. Алгоритм сжатия в JPEG устроен так, что выбрасывает из изображения всякие мелочи и за счет этого сокращает размер файла. Очень похоже на сжатие в mp3 звука. LZW сжатие из файла ничего не выбрасывает.

vlad: а вот как он теряет качество: вот что интересно.. Я- то думал, он просто "прореживает" картинку, вибрасывая сколько-там, пикселей. Но выходит что Нет: посмотрел на bmp-оригинал и jpeg-копию-пиксели одни и теже, но "обший вес" сильно оличаeтся

S.N.Morozoff: vlad пишет: цитатаbmp-оригинал и jpeg-копию-пиксели одни и теже, но "обший вес" сильно оличаeтся А mp3 в 320 kbps на слух сильно отличается от wav-файла? Сколько помню, одна из особенностей алгоритма JPEG сжатия в том, что несколько близких по цвету пикселей объявляются пикселями одного цвета, что позволяет кодировать информацию о четырех соседних пикселях как об одном. На глаз это действительно не очень заметно, но что-то все же пропадает. С учетом того, что WEB-публикация убьет качество намного сильнее, думаю, что можно делать и JPEG.

vlad: да, в етом слысле LZW-компрессия наиболее "чистый" метод. Алгоритм в общем неплохо описан.. и понятен. Но к сожалению катинки после него все равно большие остаются. А так .. JPEG.. я распечатал: разобрать еще можно

Энциклоп: Двухбитовый TIF не имеет антиальязинг (сглаживание), поэтому мелкий шрифт может сильно искажаться, что плохо для автораспознавания текста.

S.N.Morozoff: Энциклоп пишет: цитатамелкий шрифт может сильно искажаться А насколько мелкий?

vlad: в моем представлении "чистый" ТIF - это растровая графика, но информация запоминается не по-элементно, а будто бы блоками. Т.е. "ухищрений и трюков" вроде .. smoothing , anti-aliasing .. в нем нету. Другое дело- JPEG , который по-сути является одним из способов компрессии,

S.N.Morozoff: Вот тут по форматам. JPEG там довольно подробно описан, чуть ли не математически дан алгоритм Дискретно Косинусоидального Преобразования. http://edu.internet-academy.org.ge/courses/introduction_to_speciality_2/com_gr/graphics/formats/

vlad: можно немного иронии по поводу статьи ? : ) Судя по super-заумному описанию, JPEG - просто преобразование Фурье, при котором массив пикселей раскладивается в ряд по синусам/kосинусам.. но при этом запоминают толко Фурье -коэффициенты. Ясно теперь как регулируется качество: путем ограничение на число коэффициентов. По-этому и получается..что после применения алгоритма в прямом и обратном направлении, полученое изображение Вообще Не будет сoвпадать с исходним. Известний эффект.. в теории сигналов, к примеру, когда 2-х кратное применение Фурье преобразования дает ..автокорреляционную функцию заместо исходного сигнала. Так что вообще-то фотка записанная в формате JPEG.. и просмотренная из этого формата будет слегка отличатся от оригинала.. но это- так, лирика

S.N.Morozoff: vlad пишет: цитатаСудя по super-заумному описанию, JPEG - просто преобразование Фурье, Ну что Вы! Ну что это такое - "преобразование Фурье", смеетесь что ли?.. Это ж второй курс института, если не первый. Это не по взрослому. А вот "Дискретно Косинусоидальное Преобразование." (все слова с больших) - эт да! Эт я понимаю! :))

vlad: ну да, "энергия пикселей"

S.N.Morozoff: Таки да! А какая у пикселя может быть энергия - вот вопрос! По идее в растровой графике энергия может быть только потенциальная. А вот в векторной!!! :))))

vlad: да уж.. про векторную.. даже Стррашно подумать

vlad: ув amyatishkin ! Я отсканировал примерно половину книги: хочу вам послать- пусть Хоахер поглядит- может что переделать надо. "Вес" этой половину где-то 12 MB , думаю разбить на порции по 5-6 MB это нормально ?

amyatishkin: vlad Мне посылать пока ничего не надо, лучше Хоаксеру - когда он свяжется с вами. Для просмотра качества можно кусочек в мегабайт заслать мне или на тот же http://zalil.ru/ положить.

vlad: ОК, ловите 1MB-fail тестовый: http://slil.ru/22510049

amyatishkin: Вроде нормально. Но я эту готику не понимаю. М.б. кто лучше разбирается? А так делайте дальше, если Хоаксеру будут интересны полкнижки - он сам свяжется. ЗЫ. Не знаю, какой программой жали, но ACDSee в формате TIFF Group 4 размер делает меньше в 1,5 раза.

vlad: этим и жал: TIFF+ LZW-compression а да, попробовал поменять опцию на Group 4- действительно в 1.5 раза меньше !- thanks



полная версия страницы