Выравнивание последней строки на странице

Автор Adriano, 8 марта 2021, 19:28

0 Пользователи и 1 гость просматривают эту тему.

Adriano

Приветствую форумчан!
Хочу максимально приблизить OCR к оригиналу. Возникла проблема с последней строкой на странице, которая упорно не выравнивается по правому краю, как в оригинале. Что можете подсказать?




economist

Shift + Enter в нужном месте справа.

На рисунке в топике - как раз все получилось как надо. Но сама задача кажется очень странной. После OCR - в 100 страничной книге будет ~10 ошибок, которые фиг найдешь, кроме как внимательно прочесть 5-6 раз. Вот на что нужно тратить силы.

Если нужно обеспечить идентичность строк - в OCR-проге настройками вставляют переносы строки вместо абзацев, и потом ручками правят сами абзацы. Еще можно подобрать шрифт максимально точно метрически, для этого есть онлайн-сервисы (ссылки не знаю).   
Руб. за сто, что Питоньяк
Любит водку и коньяк!
Потому что мне, без оных, -
Не понять его никак...

Adriano

Благодарю. Попробую с этим вариантом. Мысль была — вставить разрывы страниц и затем на каждой странице только то, что относится к этой странице. К сожалению, не получается так из-за отступа на последней строке справа.
Все для того, чтобы получить в электронном текстовом виде (в пдф) идентичный печатному текст. Причем полностью идентичный сделать сложно, из-за большого количества ручной работы по расстановке переносов как в оригинале. Так что хотелось бы просто сохранять абзацы на своих страницах.
В книге бывают комментарии с номерами на каждой странице. Нужно их сохранять на своих страницах. Также при цитировании бумажной книги, приводится номер страницы, и в электронной версии нужно сохранить номера страниц и соответствующий текст, как в оригинале.

kompilainenn

Поддержать разработчиков LibreOffice можно тут, а наш форум вот тут

Adriano

Переношу некоторые книги по истории науки в электронный формат.

Adriano

Вот что получилось:


Почти похоже и шрифт подошел, только маленькое несоответствие есть.
Пришлось обойтись без разрывов, как страницы так и строки. Разрыв страницы нарушает выравнивание абзаца справа, а разрыв строки, напротив, сдвигает символы направо.

kompilainenn

Цитата: Adriano от  9 марта 2021, 18:57
Переношу некоторые книги по истории науки в электронный формат.
И какова цель сохранения исходного форматирования один в один?
А вы знаете, что читать с экрана шрифт с засечками труднее, чем шрифт без засечек?
А размер шрифта в 12 кегль, который еще читаем с бумаги, с экрана не очень-то виден.
Вы подумайте над форматированием электронного документа.
Ибо сомневаюсь я, что книги кто-то из ПДФ будет печатать. Будут их читать (если будут вообще) с экрана.
Поддержать разработчиков LibreOffice можно тут, а наш форум вот тут

Adriano

Цитата: kompilainenn от  9 марта 2021, 22:03И какова цель сохранения исходного форматирования один в один?
Целей две: 1. Цитировать с сохранением нумерации страниц. 2. Сохранение комментариев на «своих» страницах.

Цитата: kompilainenn от  9 марта 2021, 22:03А вы знаете, что читать с экрана шрифт с засечками труднее, чем шрифт без засечек?
Спорно. По мне так  все очень хорошо читается.

При обработке сканов книг столкнулся с тем, что приходится заново расставлять иллюстрации, плюс убегают комментарии. Все это в итоге не очень красиво выходит. Так что пробую первый экземпляр. Но вижу много ручной работы.

kompilainenn

Цитата: Adriano от 10 марта 2021, 19:58Но вижу много ручной работы.
Стили спасут вас

Цитата: Adriano от 10 марта 2021, 19:582. Сохранение комментариев на «своих» страницах.
о каких комментариях речь?
Поддержать разработчиков LibreOffice можно тут, а наш форум вот тут

kompilainenn

Поддержать разработчиков LibreOffice можно тут, а наш форум вот тут

Adriano

#10
Цитата: kompilainenn от 10 марта 2021, 20:20о каких комментариях речь?
Об этих

Здесь номера комментариев на каждой странице идут по новой. Если делать не один к одному то комментарии «убегают» относительно номера страницы. И обратите внимание на первую сноску в которой ссылка на другую сноску на определенной странице. Эта ссылка потеряет смысл в электронной версии при не соблюдении формата «один к одному».

kompilainenn

Цитата: Adriano от 12 марта 2021, 18:53Эта ссылка потеряет смысл в электронной версии при не соблюдении формата «один к одному».
не потеряет. Вы все равно в тексте вставляете сноску, а в теле сноски делаете поле со ссылкой на страницу, где расположена другая сноска (см.вложение)
Поддержать разработчиков LibreOffice можно тут, а наш форум вот тут

kompilainenn

Тут мне идея пришла в голову, а зачем распознавать текст вообще?! Отсканируйте и оставьте, как PDF. Все будет аутентично оригиналу
Поддержать разработчиков LibreOffice можно тут, а наш форум вот тут

economist

Распознать невидимым слоем для поиска по словам может бесплатный и брошенный PDFXChange-Viewer

https://www.tracker-software.com/product/pdf-xchange-viewer/download?fileid=446

PDF останется внешне тем же, появится лишь возможность Ctrl+F

Если он не понравится (всему заводу - нравится) - есть пяток навсегда бесплатных скриптов на Python, которые можно запустить прямо из LO. Они распознают текст с NLP и нейросетями - очень "чотко", и уложат его невидимым слоем поверх PDF.
Руб. за сто, что Питоньяк
Любит водку и коньяк!
Потому что мне, без оных, -
Не понять его никак...

Adriano

Цитата: kompilainenn от 12 марта 2021, 20:09не потеряет. Вы все равно в тексте вставляете сноску, а в теле сноски делаете поле со ссылкой на страницу, где расположена другая сноска (см.вложение)
Да, неплохо.