LibreOffice Writer Python

Автор Ципихович Эндрю, 2 января 2024, 09:22

0 Пользователи и 1 гость просматривают эту тему.

Ципихович Эндрю

ost - я зарегился на этом форуме, несколько дней назад, то что мне нужно, написать на питоне - 20 минут времени, вот естественно хотелось зная питон быстро перенести

ost

Если нет необходимости постоянно взаимодействовать из кода с открытым файлом, то, возможно, проще просто иметь дело только с Python? Не в коем случае не настаиваю, но у меня с таблицами (ods/csv и пр.) именно так и получается.

Ципихович Эндрю

ost, всё было так:
жил я не тужил и заметил, что файлы обрабатываемые питоном лагают (файлы htm скачаны с Консультант+)
то есть у файлов неправильно очищаются htm теги с помощью питона: from bs4 import BeautifulSoup
и сколько я не боролся - всё было бестолку и я вспомнил, что Консультан+ к тому же часто меняет свои правила кодировки и понял, что нужно в корне менять всё, выбор пал на Ворд, но он не открывал мои htm файлы из-за  =Chr(160), и пришлось осваивать либру
а вы не в курсе как с питона программно запустить файл либры и выполнить нужный макрос с нужными параметрами?

ost

#33
Я не знаю специфики ваших htm-файлов, и не понимаю каким образом вы обрабатываете эти файлы.
Не представляю, конечно, и ожидаемых результатов, но представляется, что выбор в пользу BS4 был правильным. Уверен, что BS4 справится с парсингом htm куда лучше любого офисного пакета.

Запускать LO из Python не приходилось.

Возможно, что-нибудь найдете для себя здесь:
https://github.com/Amourspirit/python_ooo_dev_tools
https://python-ooo-dev-tools.readthedocs.io/en/latest/#


Ципихович Эндрю

ost, спасибо, посмотрю

economist

В К+ жму Ctrl+W, прекрасно отрендеренный  документ открывается в LO Writer. Дальше его можно пересохранить в 20+ форматов. Зачем Python пускать по html, который добавляет сложности?

Если речь о парсинге табличных документов и форм К+ - универсального решения нет, но стоит попробовать pandas, она заточена на это (в т.ч. чтение html).

Во многих К+ документах есть варианты скачать формы в форматах Excel, PDF, которые тоже корректно парсятся не с BS, а более простыми либами.
Руб. за сто, что Питоньяк
Любит водку и коньяк!
Потому что мне, без оных, -
Не понять его никак...

Ципихович Эндрю

economist, у меня приоритеты такие:
в первую очередь от К+ мне нужны файлы в формате htm
качать файл в нескольких форматах, если их 50 - неохота
и тогда отталкиваться нужно от того, что я имею только файлы htm, и Python так как из того чем я владею относительно моих скилов он самый быстрый, макросы в Ворде и Либре определённо проигрывают Python