Форум » Милитера (militera.lib.ru) » PDF vs DjVu » Ответить

PDF vs DjVu

sashen: Перенос разговора из темы Книги в электронных библиотеках. Диоген пишет: [quote]Книга В.Бешанова «Красный блицкриг» (формат djvu, размер файла 2.8 Мб) на Turbo Upload: http://d.turboupload.com/d/1219918/redblitz.djvu.html [/quote] Чё за файл. У меня ни WORD ни Adobe Reader его не отккрывают. Подскажите чайнику!

Ответов - 79, стр: 1 2 All

S.N.Morozoff: Ну вот. Подгоняю DjVu с врезанным текстовым слоем. Все та же глава из книги: PDF с возможностью поиска текста - 420,5 Kb DjVu с возможностью поиска текста - 314,1 Kb Попросил Acrobat сделать "Reduce File Size" под Acrobat Reader 5.0 - куда-то пропало 70 Kb.

S.N.Morozoff: Ну и, наконец, сводные уточненные результаты по первому примеру. Смотреть внимательно: DjVu с поиском текста включен в список. 2. Результаты. Вариант а) (одна страница): Страница в Microsoft Word (3023 знаков с пробелами) - 24,6 Kb PDF с возможностью поиска текста - 71,4 Kb PDF без возможности поиска текста (образ) - 78,2 Kb DjVu с возможностью поиска текста - 13,5 Kb DjVu без возможности поиска текста - 9,6 Kb JPEG с качеством 0, 72 dpi - 47,8 Kb GIF (8 цветов), 72 dpi - 52,6 Kb Вариант б) (27 страниц): Текст в Microsoft Word (75938 знаков с пробелами) - 256,0 Kb PDF с возможностью поиска текста - 392,4 Kb PDF без возможности поиска текста (образ) - 1937,9 Kb DjVu с возможностью поиска текста - 314,9 Kb DjVu без возможности поиска текста - 212,9 Kb

S.N.Morozoff: И между прочим, Steps, привязать текстовый слой к DjVu-образу газетного листа я смог легко: http://oldgazette.ru/temp/probe1/25061941-1.djvu Размер по сравнению с исходной "гАлимой картинкой" увеличился примерно на 20 Kb и весит 396,5 Kb. PDF-образ той же страницы без текстового слоя при том же разрешении весит 771,5 Kb - http://oldgazette.ru/temp/probe1/25061941-1.pdf А вот как сделать из газетного листа PDF с текстовым слоем и всеми прибабахами - не знаю.


AZ: День добрый, панове! Бросьте вы спорить из-за ерунды. Отдайте Богу Богово, а кесарю - кесарево. Что DjVu, что Acrobat суть разные ИНСТРУМЕНТЫ для решения разных ЗАДАЧ. Кто книжки просто читает, и только читает, тому дежавю просто в кайф. А кто книжки и читает, и слушает, или "режет" из них текст, тому дежавю поперек горла. Сразу видать, что Steps текстовик. Мне тоже нужен распознанный текст для Говорилки (зрение, пардон, беречь приходится). Всех благ

S.N.Morozoff: AZ пишет: Бросьте вы спорить из-за ерунды. Да разве ж это спор? Мы когда спорим (особенно очно) - таки пух и перья летят и нас растаскивать приходится. А это мы так, культурно общаемся.

assaur: amyatishkin пишет: Slawa-614 4u4undr. Руководство для сканирования и создания DJVU-файлов научно-технических книг (pdf, v.1.03) [6.06.06] Руководство: http://download.nextmail.ru/3/v/a1730a77946b0842f3a784e58f73f485/tech.rar с NataHaus Я не эстет, но мне очень понравился результат. Жалко, что я 7-ю версию FineReider удалил. Там еще программка для распознавания есть, но для 7-й, а я совсем недавно 8-ю поставил.

Steps: S.N.Morozoff www.elementmoscow.ru — возьми там ЛЮБОЙ майско-июньский номер. 16 полос А3, включая полноцвет, 3,5 мб. С РЕДАКТИРУЕМЫМ текстом. Качество картинок, конечно, не 300 дпи, но если в дедмишиной книжке 300, то мои 72 круче будут!

amyatishkin: Это можно сделать. Но это будет долго, дорого и фигово сделано (c) анекдот. Дайте ему кто-нибудь скан книжки этак 1939 года страниц на 500 - пусть пдф делает.

S.N.Morozoff: Steps пишет: www.elementmoscow.ru — возьми там ЛЮБОЙ майско-июньский номер. 16 полос А3, включая полноцвет, 3,5 мб. С РЕДАКТИРУЕМЫМ текстом. Качество картинок, конечно, не 300 дпи, но если в дедмишиной книжке 300, то мои 72 круче будут! Еще раз. Меня больше всего интересует номер газеты "Социалистическое земледелие" от 25 июня 1941г. (4 полосы A2), переведенный в PDF с возможностью поиска текста. Редактирование не нужно. В DjVu это будет весить около 1,3-1,5 Mb с текстом. Желаешь заняться? Steps, ты никак не хочешь понять, что мир не состоит из одних только верстальщиков, как бы тебе этого не хотелось. Это раз. У людей в миру есть еще масса дел, кроме того, чтобы делать заново макет уже изданной на бумаге книжки. Это два. И три: если оно тебе так надо: почему ты сам этим не займешься? amyatishkin пишет: Дайте ему кто-нибудь скан книжки этак 1939 года страниц на 500 - пусть пдф делает. Да не вопрос. Думаю, "Справочник по иностранным самолетам", издание ЦАГИ, 1939 год о 503 страницах вполне подойдет. Там и картинки, и таблицы, и схемы, и текст.

Steps: Мир состоит из людей, которые (в идеале) если что-то делают, то лучше бы делали хорошо, а не "удобно" или "быстро". Кроме того, у меня нет в твердых копиях того, что СТОИТ переводить в электронку. Исключение — первый Жуков. Отсканируешь — займусь… Вот вы на меня набросились, право слово!

S.N.Morozoff: Steps пишет: Мир состоит из людей, которые (в идеале) если что-то делают, то лучше бы делали хорошо, а не "удобно" или "быстро". Слово "хорошо" имеет много значений и оттенков. Например, "хорошо" - это оптимальный вариант для конкретного человека между быстротой и качеством или удобством. Кроме того, у меня нет в твердых копиях того, что СТОИТ переводить в электронку. Так займись электронными, какие проблемы? Возьми нужную тебе книжку в DjVu и переведи в PDF. Хоть бы и Дедмишину. Сделай "хорошо", а не абы как. Исключение — первый Жуков. Отсканируешь — займусь… Я? А давай мы как раз и проведем эксперимент: ты и отсканируешь, и сверстаешь, э? Вот вы на меня набросились, право слово! Но ведь это ты сказал: Steps пишет: За что-то любимый "книжниками" дебильнейший растровый формат, единственное достоинство — жмёт хорошо. а не мы.

Steps: Тогда ждите вечность, мой MUSTEC быстрее не отсканирует. Э? А дедмишина книжка сохранена в роскошном, качественном, превосходящем всё и вся дежавю (видишь — исправился!) так, что вместо картинок без потери информативности можно ставить самую известную картину Малевича. Э?

S.N.Morozoff: Steps пишет: А дедмишина книжка сохранена в роскошном, качественном, превосходящем всё и вся дежавю (видишь — исправился!) так, что вместо картинок без потери информативности можно ставить самую известную картину Малевича. Э? Ну, фото в книжке в бумажном варианте не лучше, чем в газетах того времени, о котором книжка. Зато текст можно будет искать и даже редактировать.

assaur: Steps пишет: А дедмишина книжка сохранена в роскошном, качественном, превосходящем всё и вся дежавю (видишь — исправился!) так, что вместо картинок без потери информативности Как то забывается Вами, что таких роскошных возможностей по скачиванию из интернета какие имеются у вас, лишены очень многие. Конечно это дело времени, но сейчас обязательно нужны форматы с приемлимым "весом".

Steps: assaur А у меня на работе вообще нет возможности… Разговор аккурат про то и идет, что ТЕКСТ меньше ЛЮБОЙ картинки. Иллюстрации — отдельно.

S.N.Morozoff: Steps пишет: А у меня на работе вообще нет возможности… Разговор аккурат про то и идет, что ТЕКСТ меньше ЛЮБОЙ картинки. Иллюстрации — отдельно. Ты на первый пример внимательно смотрел? Для одностраничного документа DjVu образ (хоть с поиском, хоть без) меньше того вордовского файла, из которого он сделан. Мы ведь не txt-файл рассматриваем, нам еще и оформление важно. Кроме того, сжатый DjVu 27-страничный текст отчета (с поиском) меньше, чем сделанный из ворда PDF, а без поиска - меньше самого исходного Вордовского файла. Так что текст не всегда меньше картинки, не всегда. Но может, я чего в PDF не понимаю? Хочешь, я тебе doc-файл с отчетом выложу, сам PDF сделаешь.

Steps: Ворд избыточен… Если сравнивать, то с РТФ… В общем, давай до приезда отложим, а то мы как тот слепой еврей в анекдоте, про лебедя!

S.N.Morozoff: Steps пишет: Ворд избыточен… Если сравнивать, то с РТФ… РТФ говоришь? А как ты отнесешься к тому, что конвертированный в РТФ все тот же текст отчета начал весить 372,6 Kb против 256,0 Вордовских? Тады картинка DjVu даже с текстом меньше. В общем, давай до приезда отложим, Давай.

vlad: елы-палы, да надо просто выложить где-нить рядом с книгой..FAQ, где между прочим написать: если хотите поиск DjVu делай то-то. Ехпорт в .bmp потом такой-то тул... я могу на досуге опробовать что-нит из GNU-project.

Hoax: Кстати, т.к. в новой Милитере будет довольно-таки активно использоваться формат DjVu (с распознанным текстом), неплохо было воспользоваться случаем (этой темой) и определиться с лучшими -- вьювером, плугинами, конвертером, редактором, утилитами и т.д. Определить, т.с. полный комплект программ. Я последний год с djvu имел дело без его редактирования/преобразования, потому отстал от веяний.

O'Bu: К вопросу о соотношении разных форматов неожиданно нашёлся концентрированный аргУмент со с. 159 любезно предоставленной ув. Диогеном книги Переслегина «Вторая мировая война между реальностями»: Даже в июне Г. Гот жаловался, что русские фунтовые факты непригодны для колесных машин французского производства. 2 Steps Вас этот «фунтовый факт» не убеждает в том, что лучше уж иметь точное изображение страницы без возможности поиска по тексту и цитирования двумя кнопками (особенно, если книга не новодел, а осталась от тех времён, когда редакторы/корректоры ещё не вымерли как динозавры), чем бороться по ходу чтения с глюками распознавания/вычитывания? С наилучшими пожеланиями, O’Bu.

Steps: Да как Вам сказать… Где-то соглашусь, где-то нет. Скажем, в предельном случае лучше иметь дежавю, чем не иметь ничего вообще, особенно касаемо старых книг, но для новоделов-то! А про тексовый слой… Помните классическое "сделай вещь, которой может пользоваться любой дурак и только дураки ей пользоваться и будут!" Я ж не спорю, что в дежавю можно встроить текст, просто по умолчанию сия опция неактивирована, а следовательно, НИКТО НЕ ПАРИТСЯ! Для меня вообще вон долгое время fb2 был предпочтительнее всего, и что?

Volxov: Народ вопрос. Отсканил сейчас сборники (Терра) Ставка 1941 и 1942 г. одий 400 стр. другой 600 стр. создаю в FR многостраничный тифф (300dpi ч/б ) и в DjVu Solo 3.1 пытаюсь пережать в DjVu, но Solo падает не создавая файл Что делать, раньше у меня получалось например я делал сборник ГШ 1941 http://www.alex800511.pochta.ru/GSH41

анватыч: скорее Соло не переваривает большой объем импорта сразу, я такой объем делю на 2 операции

amyatishkin: Volxov пишет: создаю в FR многостраничный тифф (300dpi ч/б ) Вот это надо делать без сжатия, и можно одностраничными файлами попробовать. Мб не сразу упадет :)

Volxov: Получилось!!! Сборник экспортировал в тиф 4-я кусками, а потом в по кускам в солло... файл получился 2,9 мБт

assaur: Volxov пишет: Получилось!!! Сборник экспортировал в тиф 4-я кусками, а потом в по кускам в солло... файл получился 2,9 мБт Как-то это все непонятно. Я думаю, что при такой степени сжатия, получатель может этот сборник только прочитать. Но сам сделать с ним уже ничего не сможет. Я иногда такие вещи скачиваю с целью перевода в Ворд. Но распознать не удается именно из-за большого сжатия. Хорошая вещь и упорная работа обесцениваются из-за невозможности поиска в тексте и копирования.

amyatishkin: У меня обычно без проблем распознается. Ес-но, надо в djvu 300 дпи и так же передать. На мелких шрифтах только баги есть.

Volxov: http://www.alex800511.pochta.ru/svgk1941.djvu assaur пишет: Хорошая вещь и упорная работа обесцениваются из-за невозможности поиска в тексте и копирования. будет вам ворд когда будет время... Но в ходе следственного эксперимента установлено, что экспортированные страницы из дэжавю прекрастно распознаются в файнридере

Steps: Угу, один человек сканит, чистит, жмёт в дежавю, выкладывает, потом другой качает, распознает, правит, экспортирует, перевыкладывает, потом еще FB2 делать… Есть в этом что-то неправильное. Не-не, лучше дежавю, чем вообще ничего, но мне, к примеру, из него перегонять практически невозможно, файн в эмуляторе не работает совсем… Был бы текстовый слой — можно было бы по запросам FB2 наделать, если кому надо, а вот распознавать не могу… А дежавю на КПК (как и PDF, впрочем) — такая жесть!

анватыч: жесть, не жесть, а 700 стр. в 300 dpi отсканненых в 7,6 Мб загоняет и ето дело ЗЫ я готов сканить с распознованием, но дико лениво и в ближайшем рассмотрении нафиг никому ненадо в любительских целях пока ничего лучше djvu не придумано

assaur: Volxov пишет: будет вам ворд когда будет время... Но в ходе следственного эксперимента установлено, что экспортированные страницы из дэжавю прекрастно распознаются в файнридере Спасибо за работу. Насчет файнрийдера несколько раз нарывался и было очень обидно. А если Ваш распознается, то спасибо еще раз.

Steps: а 700 стр. в 300 dpi отсканненых в 7,6 Мб загоняет и ето дело Загоняет-незагоняет, а читать на КПК невозможно никак совершенно совсем вовсе…

Demon: Дык фанридер и ПДФ неплохо распознает... Да и распознать, сформатировать, воткнуть картинки в ворде по объему куда экономичнее будет

O'Bu: Вопрос к знатокам формата Djvu: А со страницей, напечатанной в два краско-оттиска, он может справиться так, что останутся только эти два цвета (в моём случае чёрный и синий)? Если да, то каким образом? С наилучшими пожеланиями, O'Bu.

amyatishkin: У Ершова на форуме это разбиралось. Много возни в Фотошопе и прога DjVu Printer? типа того, в обчем.

Steps: Возвращаясь к нашим баранамформатам. У ABBYY на сайте написано, что ABBYY FineReader Engine 8.1 понимает djvu. Где сие чудо скачать можно, а то в djvu что-то много накопилось, надо в FB2 перегонять… Гугловые ссылки на простой Файн ведут…

анватыч: прально там написано: FineReader Engine и FineReader - это разные продукты, ИМХО

Steps: Это я понимаю, скачать гиде?



полная версия страницы