Форум » Милитера (militera.lib.ru) » PDF vs DjVu » Ответить

PDF vs DjVu

sashen: Перенос разговора из темы Книги в электронных библиотеках. Диоген пишет: [quote]Книга В.Бешанова «Красный блицкриг» (формат djvu, размер файла 2.8 Мб) на Turbo Upload: http://d.turboupload.com/d/1219918/redblitz.djvu.html [/quote] Чё за файл. У меня ни WORD ни Adobe Reader его не отккрывают. Подскажите чайнику!

Ответов - 79, стр: 1 2 All

Steps: sashen За что-то любимый "книжниками" дебильнейший растровый формат, единственное достоинство — жмёт хорошо. Читается либо утилиткой, либо в браузере с соответствующим плагином. http://www.djvu-inf.narod.ru/#Programs

sashen: Steps Большое спасибо!

Steps: S.N.Morozoff, я может и плохое слово, но формат дурацкий не поэтому. В нем предусмотрена теоретическая возможность сохранения текстового (редактируемого) слоя, но я не видел НИ ОДНОЙ книги, в которой это было бы реализовано. А полноценный ПДФ позволяет… Даже СНМ, прости Господи, и то лучше этого угробища!


S.N.Morozoff: sashen пишет: S.N.Morozoff, я может и плохое слово, но формат дурацкий не поэтому. В нем предусмотрена теоретическая возможность сохранения текстового (редактируемого) слоя, но я не видел НИ ОДНОЙ книги, в которой это было бы реализовано. Да она, по моему, и не теоретически предусмотрена. Просто на бесплатных программах не реализуется. А ими народ в основном и жмет. И потом: если уж тебя хватило распознать текст - зачем после этого жать в DjVu образы страниц? Кстати, скажи: какая примерно разница в размере между простым PDF и PDF с текстовым слоем?

Steps: S.N.Morozoff Да в том-то и дело, что в инет-библиотеках не распознают, а сразу жмут в дежавю! А на кой ляд, спрашивается, электронная книга, из которой нельзя процитировать абзац? Про ПДФ скажу точно в понедельник — на моем буке это займет вечность Дело в том, что когда ты делаешь ПДФ текст у тебя ВСЕГДА можно редактировать. Подозреваю, что увеличение будет где-то на размер файла шрифта+текст в тхт. В ПДФе-то основная проблема в том, что он издательский, а стало быть графика высокого разрешения. Можно зато даунсэмплить, к примеру инет-версия моей газетенки укладывалась (с графикой) в 3 мега… Сейчас, всё-таки попробую (но не обещаю) поразвлекаться с книжками.

Steps: S.N.Morozoff Вот смотри, лежат у меня две издательские книжки. Одна 300 страниц в ПДФе, весит чуть больше 5 метров. Вторая — 500 в дежавю, весит 14… Количество картинок в них примерно одинаковое. Разница в качестве (не в пользу дежавю) ЧУДОВИЩНАЯ! Итого, что мы видим: если книга сделана правильно, то ПДФ всегда будет меньше — не может даже пустой сжатый лист РАСТРА весить меньше сжатого ВЕКТОРА. Вся разница именно что в качестве иллюстраций — при одинаковом заданом объеме в ПДФ они будут более высокого качества… А еще Файн ДеЖаВю не признаёт, приходится извращаться. Я так "Распутина" делал. PS А зачем ты меня с sashenом перепутал?

S.N.Morozoff: Steps пишет: Да в том-то и дело, что в инет-библиотеках не распознают, а сразу жмут в дежавю! Это прежде всего быстрее. Скан - распознавание - сжатие или скан - сжатие, есть разница? А на кой ляд, спрашивается, электронная книга, из которой нельзя процитировать абзац? Абзац - можно и перепечатать. А вообще книга нужна, чтобы ее читать. В этом смысле электронная книга просто заменяет бумажную. Количество картинок в них примерно одинаковое. Дежавю исходно заточен под текст, а не под картинки. Во всяком случае, так утверждеют авторы. Вот ты знаешь, если брать газетный лист в черно-белом исполнении (2 цвета), то я потому и ушел от PDF, что у меня в среднем DjVu меньше PDF. Исключение - если есть большие фото, и то не всегда. И это при том, что PDF я делал 150dpi, а DjVu делаю - 300.

Steps: Вот в следующий раз приеду, и покажу как это делается! Нет, если в ПДФ страницы книги заталкивать как КАРТИНКУ (есть у меня и такое непотребство), то можно и до гига дорасти… А насчет цитировоть — неправда Ваша. Мне на работе, к примеру, перепечатывать пару-тройку абзацев нерентабельно — рабочее место шефа точно за спиной! А на копипэйст времени надо реально меньше, поверь на слово!

vlad: я уже кажется писал когда-то про Latex. Если у вас есть некий текст (в ворде или что) его можно пропустить через простенькую програмку и загнать выход в pdf. Думаю что и размер ужметься по сравнению DjVu.

Steps: Да чего там пропускать, ставишь в систаму драйвер печати в ПДФ и всё. А у нас на Маках и этого не надо…

vlad: понятно, имеется в виду если хочешь изменить форматирование по смоему усмотрению, рационально разместить картинки и тд.. Идательский тул !

Steps: Да, кстати, предлагается все-таки считать электронными именно распознанные книги — тот же ДеЖаВю на КПК "это что-то особенного! (с)". А с монитора читать не всегда сподручно, даже в случае ноута. Не знаю, под текст затачивался дежавю или не под текст, но текстовых книг в нем я не видел ни одной! Чтобы выдернуть, скопировать, переслать там…

S.N.Morozoff: Steps пишет: Вот в следующий раз приеду, и покажу как это делается! Нет, если в ПДФ страницы книги заталкивать как КАРТИНКУ (есть у меня и такое непотребство), то можно и до гига дорасти… Не вопрос. Покажи на газетном листе. Не знаю, под текст затачивался дежавю или не под текст, но текстовых книг в нем я не видел ни одной! Чтобы выдернуть, скопировать, переслать там… Ты не понял. Речь идет о скане страницы с текстом, т.е. о голимом растре. Скан такой же по размеру страницы, но с картинкой весить будет больше. И чем больше занимает картинка по отношению к тексту, тем заметнее.

Steps: S.N.Morozoff Я как раз всё понял! Понимаешь, можно же и в Ворд вставлять сканы на 1200 dpi, но это не будет являться ТЕКСТОВЫМ документом! А с твоей газетой скорее всего дело именно в алгоритме. Я-то про редактируемые тексты толкую, распознаные, а они ВСЕГДА будут компактнее…

assaur: Steps пишет: Да, кстати, предлагается все-таки считать электронными именно распознанные книги Несколько раз пытался получить распознанный текст в djvu -- ничего не получилось. Как это делается? Какие нужны программы?

S.N.Morozoff: Steps пишет: Я-то про редактируемые тексты толкую, распознаные, а они ВСЕГДА будут компактнее… Дык оно понятно. Но см. выше: "скан - сжатие" быстрее, чем "скан-распознавание-проверка-сжатие". assaur пишет: Несколько раз пытался получить распознанный текст в djvu -- ничего не получилось. Как это делается? Какие нужны программы? Плагин позволяет сохранять сжатую страницу в BMP формат до 600dpi. Для этого при просмотре щелкнуть правой кнопкой на образе, выбрать "File", "Export to file".

vlad: кстати, да, я только сейчас заметил: читалка не позволяет копировать текст, а также может ехпортировать только в bmp. Ето что недостатки бесплатного плагина, или общая проблема DjVu ? Если второе, нахрена его использовать для электронных книг, если нельзя скопировать ?

Steps: Так я о том и толкую — какая это, к чёрту, читалка, если она картинки кажет?

vlad: те. такой формат, что не позволяет текстовое копирование , так ?

Steps: Теоретически — позволяет, практически — см. мои посты выше. Никто этим просто не заморачивается, а в таком варианте единственный плюс дежавю — многостраничность. Джпегом можно и сильнее сплющить…

amyatishkin: Имеющиеся сейчас программы сжатия в дежавю позволяют добавить текстовый слой из пакета Файнридера, но не позволяют при этом использовать правленный (в том числе в ФР) текст.

S.N.Morozoff: Steps пишет: Никто этим просто не заморачивается, Наконец-то! Джпегом можно и сильнее сплющить… И JPEG я пробовал. DjVu лучшее. amyatishkin пишет: Имеющиеся сейчас программы сжатия в дежавю позволяют добавить текстовый слой из пакета Файнридера, но не позволяют при этом использовать правленный (в том числе в ФР) текст. Что значит "правленный"? Поясните. Я текст распознал, естественно будут ошибки. Получается, если я правлю ошибки прямо в Ридере, я не могу такой "правленный" текст пристегнуть в качестве текстового слоя в DjVu-файл? И, кстати, программулину не подкинете, если это не DjVu Solo 3.1?

Steps: А что "наконец-то"? Если формат, якобы заточенный под текст делает по умолчанию картинки, это хорошая разработка, да? В ПДФе чтобы перевести текст в картинку (когда нормальный документ делаешь, естественно) надо совершить неочевидные поступки, по умолчанию он БУДЕТ текстовый!!!!! Вот если бы для впихивания картинок в дежаве надо было бы как с ПДФом вошкаться, у меня и вопросов бы не было!

amyatishkin: S.N.Morozoff пишет: Что значит "правленный"? Поясните. Я текст распознал, естественно будут ошибки. Получается, если я правлю ошибки прямо в Ридере, я не могу такой "правленный" текст пристегнуть в качестве текстового слоя в DjVu-файл? Да, программа привязывает буквы к месту и при правке усё съезжает. Подробно можно вот тут качнуть руководство в 0,5 мб Slawa-614 4u4undr. Руководство для сканирования и создания DJVU-файлов научно-технических книг (pdf, v.1.03) [6.06.06] Руководство: http://download.nextmail.ru/3/v/a1730a77946b0842f3a784e58f73f485/tech.rar с NataHaus Steps пишет: А что "наконец-то"? Если формат, якобы заточенный под текст делает по умолчанию картинки, это хорошая разработка, да? В ПДФе чтобы перевести текст в картинку (когда нормальный документ делаешь, естественно) надо совершить неочевидные поступки, по умолчанию он БУДЕТ текстовый!!!!! Вот если бы для впихивания картинок в дежаве надо было бы как с ПДФом вошкаться, у меня и вопросов бы не было! Вы, кажется, плохо поняли - формат ДежаВю заточен на аутентичное представление документов. А не каких-то книг, которые можно читать в текстовом виде. Если его использовать для электронного представления книг, то он обеспечивает в несколько раз лучшее сжатие, чем однобитный ТИФФ. В библиотеках он обычно используется для тех книг, где распознавание еще невозможно или невыгодно. Это могут быть книги, которые имеют большую техническую составляющую, в которых надо править каждую формулу, и этих формул несколько на страницу; книги, которые сканирующему некогда выправить и он отдает их для дальнейшей работы (как в этом случае); книги узкоспециальные, которые в лучшем случае могут потребоваться единицам, типа собрания сочинения Крупской; книги, где необходимо иметь уверенность в каждой точку и запятой, это и техническая литература, и академические ПСС классиков. Во всех этих случаях ПДФ может выдать или файл бОльшего в разы размера, или потребует на два порядка больше времени для изготовления, или даст искаженный образ книги. Я некоторую часть книг делаю в ДежаВю, но при этом не делаю текстового слоя, т.к. считаю 1) недостаточно распространены программы для его чтения и 2) есть неготовность пользователей для его использования. Вместо этого я часть книг (для которых текст еще имеет некторый смысл) снабжаю неправленным текстом. Кто-то это использует, кто-то нет.

vlad: просто надо посмотреть преобразование типа..bmp-> txt , может такое и есть. По крайней мере через .pdf точно есть !

S.N.Morozoff: Steps пишет: Если формат, якобы заточенный под текст делает по умолчанию картинки, это хорошая разработка, да? Вы, товарищ, сядьте на пол, Вам, товарищ, все равно. Ну где, где я говорил, что он заточен под текст, понимаемый как "распознанный текст"?! Объясняю в очередной раз. DjVu заточен, как правильно выразился выше Андрей: amyatishkin пишет: формат ДежаВю заточен на аутентичное представление документов. Verstehen? Сканированный документ! Растр голимый, но с текстом, а не с картинкой! Без распознавания!!! Поскольку в документах большей частью предполагается текст или схемы, постольку именно такие документы DjVu жмет лучше всего. Под картинки какой-то другой аналог разработан, не помню как называется. Двоюродный брат DjVu, заточенный именно под сканированные картинки. amyatishkin пишет: Подробно можно вот тут качнуть руководство в 0,5 мб Ага, спасибо. vlad пишет: просто надо посмотреть преобразование типа..bmp-> txt , может такое и есть. Есть. Файнридер называется. :)

Steps: Вы мне, верстальщику, голову-то не морочьте! Текстовый документ это документ, в котором текст можно изменять. Всё. ЧТО на картинке — по…всёравно, это КАРТИНКА. Насчет аутентичности где-то соглашусь, где-то не особо… Отстойность дежавю компенсируется ИСКЛЮЧИТЕЛЬНО многостраничностью, "компрессоров" море. Аутентичнось… Оно бы если бы всё так, да только именно эту составляющую, боюсь, ув. amyatishkin только и видит, а остальным нужен ТУПОЙ МНОГОСТРАНИЧНЫЙ КОМПРЕССОР. СкриншотикоФФ накидать?

vlad: Все графические форматы должны быть аутентичны, иначе, ето брак. Ошибка может быть исключительно в железе, те. в сканере, ИМХО. Другое дело, что попытка передалать картинку в текст несет в себе вероятность ошибки, так что.. если хотите железной надежности, нужно сохранять картинку, а не текст.

S.N.Morozoff: Steps пишет: Текстовый документ это документ, в котором текст можно изменять. Всё. ЧТО на картинке — по…всёравно, это КАРТИНКА. Да. Но DjVu заточен под сжатие сканов документов, СОДЕРЖАЩИХ ТЕКСТ. Если исходник такого документа, содержащий исключительно текст, называется не текстовым, то я не знаю, как еще объяснять. Steps пишет: Отстойность дежавю компенсируется ИСКЛЮЧИТЕЛЬНО многостраничностью, "компрессоров" море. Еще раз. Газеты эта штука жмет существенно лучше, чем PDF. Многостраничные документы я не делаю. Так что не один Андрей. остальным нужен ТУПОЙ МНОГОСТРАНИЧНЫЙ КОМПРЕССОР. Я уже сказал же: это - быстрее. В конце концов, так все же лучше, чем вообще никак.

vlad: S.N.Morozoff пишет: vlad пишет: цитата: просто надо посмотреть преобразование типа..bmp-> txt , может такое и есть. Есть. Файнридер называется. :) вообше есть много бесплатных программ под задачу image-> txt. Здесь к прим: http://www.cfar.umd.edu/%7Ekia/ocr-faq.html потом всякие GOCR, jOCR , from GNU-project.. я правда не пользовался.

Steps: У нас в стране все программы бесплатные… А Файнридер — лучшая из них.

S.N.Morozoff: vlad пишет: вообше есть много бесплатных программ под задачу image-> txt. Я имел в виду ФР, как представитель класса. Иначе я не представляю, как это еще сделать, если не набивать вручнуя. Завтра возьму страницу чего-нибудь, м.б. газеты A3 или книжки какой-нибудь и сделаю со скана PDF, DjVu, JPG и GIF в равном разрешении.

vlad: Steps пишет: У нас в стране все программы бесплатные… А Файнридер — лучшая из них. ну так, Россия впереди планеты всей !

Диоген: Steps пишет: единственный плюс дежавю — многостраничность. Джпегом можно и сильнее сплющить… Только что провел эксперимент. 99 страниц книжного текста, B&W, 400 dpi. Суммарный размер исходных tiff-файлов - 78,177 мБ. Размер rar-архива при сжатии best - 9,296 мБ. Размер djvu-файла - 0,725 мБ. Ни один jpeg с подобной степенью сжатия (1/108) нормально читаться не будет.

S.N.Morozoff: Так. Анонсированные примеры. 1. Методика. а) Исходный текст - Microsoft Word, 1 страница. б) Исходный текст - Microsoft Word, 27 страниц. Для вариантов а) и б) делался: - PDF: прямо из Word через Adobe Acrobat 6.0 с возможностью поиска текста; - PDF: распечатка на принтере (HP LJ1100), сканирование в 300 dpi (Acer 3300U) и далее - кодирование образа (Adobe Acrobat 6.0); - DjVu: распечатка на принтере (HP LJ1100), сканирование в 300 dpi (Acer 3300U) и далее - кодирование образа (DjVu Solo 3.1). Для варианта а) делался дополнительно: - JPEG с качеством "0", 72 dpi (Adobe Photoshop CS); - GIF 8-ми цветный, 72 dpi (Adobe Photoshop CS). 2. Результаты. Вариант а) (одна страница): Страница в Microsoft Word (3023 знаков с пробелами) - 24,6 Kb PDF с возможностью поиска текста - 103,7 Kb PDF без возможности поиска текста (образ) - 78,2 Kb DjVu без возможности поиска текста - 9,6 Kb JPEG с качеством 0, 72 dpi - 47,8 Kb GIF (8 цветов), 72 dpi - 52,6 Kb Вариант б) (27 страниц): Текст в Microsoft Word (75938 знаков с пробелами) - 256,0 Kb PDF с возможностью поиска текста - 442 Kb PDF без возможности поиска текста (образ) - 1937,9 Kb DjVu без возможности поиска текста - 212,9 Kb

S.N.Morozoff: И другой пример. Сканированная глава из книги (16 разворотов). PDF с возможностью поиска текста - 498,4 Kb DjVu без возможности поиска текста - 235,1 Kb В данном случае я просто распознал главу в ФР с сохранением всех атрибутов, перекинул в MS Word и дал команду сваять PDF. Вычитыванием и правкой, естественно, не заморачивался, специальных настроек Acrobat'у не давал - решил подождать, пока Steps приедет и покажет.

vlad: на мой дилетанский взгляд Ворд там "балуется" когда делает .pdf: уж больно растет размер: от 25 К исходника до прим 100 К pdf.

S.N.Morozoff: vlad пишет: на мой дилетанский взгляд Ворд там "балуется" когда делает .pdf: уж больно растет размер: от 25 К исходника до прим 100 К pdf. Возможно. Я тоже удивился. Steps'а подождем, он уже тут как тут.

Steps: Вот второй пример интереснее, нес па? ИНДЕКСИРУЕМЫЙ документ и гАлимая картинка (накидаю скриншотов, будешь спорить!)

S.N.Morozoff: Steps пишет: Вот второй пример интереснее, нес па? А первый чем тебе не интересен? ИНДЕКСИРУЕМЫЙ документ и гАлимая картинка (накидаю скриншотов, будешь спорить!) Галимая, ага. Только ни распознавать, ни вычитывать, ни править не надо. А возьми машинописный текст - как с ним быть? Примеров тоже могу накидать.



полная версия страницы