#1
|
|||
|
|||
Анализ содержимого RTF-файлов
Eugene Muzychenko написал(а) к All в Feb 17 12:04:25 по местному времени:
Привет! Я как-то давно привык сохранять и отправлять рабочие документы в формате RTF, чтобы не париться с совместимостью форматов. И постепенно стал замечать, что размеры файлов отличаются в десятки раз, хотя внутренняя структура весьма похожа. Например, один файл из пары страниц чистого текста в стандартных стилях может иметь размер в 10-15 кб, а другой файл с текстом такого же вида - 250-400 кб. При сохранении документа в формате DOC размер предсказуемо уменьшается примерно вдвое из-за частичного перевода в двоичный формат, но при обратном сохранении в RTF снова распухает. Некоторые файлы получается сжать в 15-20 раз простым копированием всего текста в пустой документ, с последующим его сохранением в RTF. С остальными такого не получается. Дело явно не в количестве и виде используемых стилей, поскольку в многократно уменьшенных файлах наблюдается тот же набор стилей, включая созданные мной. Дело также не в таблицах - копирование таблицы из "большого" файла в "маленький" увеличивает его размер всего на несколько килобайт. То есть, Word упорно не желает удалять из документа некие объемные, но никогда не используемые объекты, и своими средствами наличие этих объектов не отображает. Попытался найти какие-нибудь программы/утилиты для разбора структуры RTF, но нашел только преобразователи в НTML и другие форматы. Понятно, что размер в пару-тройку сотен килобайт нынче совершенно не критичен, но стало любопытно, что Word туда насовывает, и никак не желает удалять. Всего доброго! Евгений Музыченко eu-gene@muzy-chen-ko.net (все дефисы убрать) --- GoldED+/W32-MSVC 1.1.5-b20161221 |
#2
|
|||
|
|||
Re: Анализ содержимого RTF-файлов
Vladimir Fyodorov написал(а) к Eugene Muzychenko в Feb 17 10:53:44 по местному времени:
Разнообразно приветствую тебя, Eugene! 20 Февраля 2017, Eugene Muzychenko писАл к All следующее: EM> Я как-то давно привык сохранять и отправлять рабочие документы в EM> формате RTF, чтобы не париться с совместимостью форматов. И постепенно EM> стал замечать, что размеры файлов отличаются в десятки раз, хотя EM> внутренняя структура весьма похожа. Например, один файл из пары EM> страниц чистого текста в стандартных стилях может иметь размер в 10-15 EM> кб, а другой файл с текстом такого же вида - 250-400 кб. EM> Понятно, что размер в пару-тройку сотен килобайт нынче совершенно не EM> критичен, но стало любопытно, что Word туда насовывает, и никак не EM> желает удалять. Я не знаю, что делает Word, но, скажем, Адобовские программы (Illustrator, например), сохраняют предыдущую версию документов и какое-то количество операций над ней, видимо, для возможности отмены действий и бэкапа. Это очень хорошо заметно, когда затягиваешь в документ большую растровую картинку на сотню мегабайт, сохраняешь файл, а потом её из документа удаляешь и снова сохраняешь. Размер при этом остаётся таким же большим, как был и с внедрённой картинкой (хотя на самом деле после закрытия файла и открытия его снова уже никакие Undo не помогут восстановить картинку). Чтобы "попуржить" файл от подобной хрени достаточно вместо "Save" сделать "Save As" и переписать файл под тем же или новым именем. Всяческих благ. Искренне Ваш, Vladimir Fyodorov, эсквайр. ... А ну-ка поищите мой таглайн --- GoldED+/W64-MSVC 1.1.5-b20161221 |
#3
|
|||
|
|||
Анализ содержимого RTF-файлов
Eugene Muzychenko написал(а) к Vladimir Fyodorov в Feb 17 15:02:15 по местному времени:
Привет! 20 Feb 17 10:53, you wrote to me: VF> Адобовские программы (Illustrator, например), сохраняют предыдущую VF> версию документов и какое-то количество операций над ней, видимо, для VF> возможности отмены действий и бэкапа. Word совершенно точно такого не делает - по крайней мере, не делал до 2010-2013 (у меня вообще 2000). VF> Чтобы "попуржить" файл от подобной хрени достаточно вместо "Save" VF> сделать "Save As" и переписать файл под тем же или новым именем. В некоторых случаях Word таким образом действительно удаляет немного мусора, но в описываемой ситуации ничего не меняется (до единиц килобайт из сотен). Всего доброго! Евгений Музыченко eu-gene@muzy-chen-ko.net (все дефисы убрать) --- GoldED+/W32-MSVC 1.1.5-b20161221 |
#4
|
|||
|
|||
Анализ содержимого RTF-файлов
Denis Chernayev написал(а) к Eugene Muzychenko в Feb 17 19:50:50 по местному времени:
Нi, Eugene! 20 Фев 17 12:04, Eugene Muzychenko -> All: EM> Понятно, что размер в пару-тройку сотен килобайт нынче совершенно не EM> критичен, но стало любопытно, что Word туда насовывает, и никак не EM> желает удалять. RTF - это текстовый формат. Его можно глазами просмотреть. С приветом. --- GoldED+/W32-MINGW 1.1.5-b20060515 |
#5
|
|||
|
|||
Анализ содержимого RTF-файлов
Eugene Muzychenko написал(а) к Denis Chernayev в Feb 17 00:52:46 по местному времени:
Привет! 20 Feb 17 19:50, you wrote to me: DC> RTF - это текстовый формат. Его можно глазами просмотреть. Браво, кэп! :) И что мы там увидим? :) Всего доброго! Евгений Музыченко eu-gene@muzy-chen-ko.net (все дефисы убрать) --- GoldED+/W32-MSVC 1.1.5-b20161221 |
#6
|
|||
|
|||
Re: Анализ содержимого RTF-файлов
Sergey Kosaretskiy написал(а) к Eugene Muzychenko в Feb 17 20:30:51 по местному времени:
Нello Eugene! Monday February 20 2017 15:02, Eugene Muzychenko sent a message to Vladimir Fyodorov: VF>> Адобовские программы (Illustrator, например), сохраняют предыдущую VF>> версию документов и какое-то количество операций над ней, видимо, для VF>> возможности отмены действий и бэкапа. EM> EM> Word совершенно точно такого не делает - по крайней мере, не делал до EM> 2010-2013 (у меня вообще 2000). пpавда что ли? а file->versions (файл->веpсии) что тогда делает? и да, в 97 воpде уже пpисутствует. и там же и поудалять можно. ■ Exit light, Enter night... See you, Сергей. --- GoldED/2 2.50.Beta5+ |
#7
|
|||
|
|||
Анализ содержимого RTF-файлов
Vitaliy Orekhov написал(а) к Eugene Muzychenko в Feb 17 00:13:49 по местному времени:
(/me разминает пальцы) Ох, напишу сейчас бредятину... XD Нello, Eugene Muzychenko. On 21.02.17 0:52 you wrote: DC>> RTF - это текстовый формат. Его можно глазами просмотреть. EM> Браво, кэп! :) И что мы там увидим? :) БУКВЫ! %) А потом слова, соединяющиеся в предложения, из которых вырастает документ в WTF^W RTF формате. -- Ой, порвалось. --- Нotdoged/2.12/Android |
#8
|
|||
|
|||
Анализ содержимого RTF-файлов
Eugene Muzychenko написал(а) к Sergey Kosaretskiy в Feb 17 13:36:53 по местному времени:
Привет! 20 Feb 17 20:30, you wrote to me: SK> а file->versions (файл->веpсии) что тогда делает? У меня в 2000 - ничего, его там никогда не было, ни в одной из установок. Хотя в справке пишут, что должно быть. Возможно, это какая-то надстройка из дополнительных, которых я никогда не ставил. Всего доброго! Евгений Музыченко eu-gene@muzy-chen-ko.net (все дефисы убрать) --- GoldED+/W32-MSVC 1.1.5-b20161221 |
#9
|
|||
|
|||
Анализ содержимого RTF-файлов
Eugene Muzychenko написал(а) к Vitaliy Orekhov в Feb 17 13:39:11 по местному времени:
Привет! 21 Feb 17 00:13, you wrote to me: VO> БУКВЫ! %) А потом слова, соединяющиеся в предложения, из которых VO> вырастает документ в WTF^W RTF формате. А если мы откроем файл DOC-файл в НEX-режиме, то увидим ЦИФРЫ! А потом - байты, слова, двойные и четверные слова, соединяющиеся в записи, из которых вырастает документ в "формате Word". :) Дальше-то что? :) Или вы мне предлагаете садиться за изучение формата RTF, и разбирать его вручную? А чем это будет проще ручной разборки любого из двоичных форматов? :) Интересно, по делу кто-нибудь ответить сможет, или все так и будут изощряться в псевдоостроумии? :) Всего доброго! Евгений Музыченко eu-gene@muzy-chen-ko.net (все дефисы убрать) --- GoldED+/W32-MSVC 1.1.5-b20161221 |
#10
|
|||
|
|||
Анализ содержимого RTF-файлов
Andrew Kant написал(а) к Vitaliy Orekhov в Feb 17 09:07:06 по местному времени:
Нello Vitaliy! Tuesday February 21 2017 00:13, Vitaliy Orekhov wrote to Eugene Muzychenko: DC>>> RTF - это текстовый формат. Его можно глазами просмотреть. EM>> Браво, кэп! :) И что мы там увидим? :) VO> БУКВЫ! %) А потом слова, соединяющиеся в предложения, из которых VO> вырастает документ в WTF^W RTF формате. А скажи-ка, в какое предложение складываются вот эти буквы? :) {\shp{\*\shpinst\shpwr2\shpwrk3\shpbypara\shpbyignore\shptop0\shpbottom705\shpb xcolumn\shpbxignore\shpleft4009\shpright5629{\sp{\sn shapeType}{\sv 75}}{\sp{\sn wzDescription}{\sv }}{\sp{\sn wzName}{\sv }}{\sp{\sn pib}{\sv {\pict\picscalex100\picscaley100\piccropl0\piccropr0\piccropt0\piccropb0\picw10 8\pich47\picwgoal1620\pichgoal705\pngblip 89504e470d0a1a0a0000000d494844520000006c0000002f080200000089c8b858000001f849444 154789ced9ad192c3200845db99feff2f671fb2935a4104bc 626a394fbb3b1af08244ccbe8ee3782463bc563bb0032922801411408a08204504902202481101a 4880044119fcff7cf79263f3935f954a32d62a9e0f9ebde3a 5eeb1596798df954a32162a52037b31ed3b27d854ee3a51ed6438ad256f9347bba186ba2e03a6bb b0c9d3c12e586c62bf4ac868857e294190464242badfe7055 ac862ed3a2633b13adcbf325973553dc11ed1a1a4897de76ee3e77dc33bd8ef451f2446b7279755 41f712a636e5847e5e501dd9893f8ea23ce882b15e75c659a 8c286832a4374d58d7b18cd5f25b19d29d13d9903aa85c9ff4ea67edce34b4ba77ee2eaf3540737 0311992e79646099c88ca56240c61fdf0ee9eda523c9688a8 0c17aa1330756ff2e0191b56b7c6de7686a7614c118cc552137d65453f6b79dd3051ec2a51c4bb5 db7b0f17084161dad81b7b3f5fdd862c68d0e4aa6aa883702 367cc47134a4f06e87f50a624e0711b1bc04a38c9fbae30b9ff52051aed1ff76be7f81b7c6d2712 06b8de792ccb59dab1dbaeaf38bfc4182fe11e52479ceeab6 6f06ad2e6d5ab0bd22da0bc73f91691b75c13196895f513de7579e90ed1c76e5b5881d6b6205fc9 337e107447c4c2f3bbf21e2645244002922801411c00a11b7 fb2fbdcc440051226e7ddece4c041028a27cddfbcdc466e276f29dfc015271f5b01342c76f00000 00049454e44ae426082}}}}} Good bye! Andrew --- GoldED+/W32 1.1.4.7 |