Общие сведения о двоичных форматах файлов Office (машинный перевод)

Важно!

Данная статья переведена с помощью машинного перевода, см. Отказ от ответственности. Используйте английский вариант этой статьи, который находится здесь (Возможно, на английском языке), в качестве справочного материала.

Аннотация. Рассматриваются двоичные форматы файлов, используемые в текущей и предыдущих версиях продуктов Microsoft Office, в том числе их использование, основные структуры и ключевые концепции для программного взаимодействия с ними.

Дата последнего изменения: 9 марта 2015 г.

Применимо к: Excel 2010 | Office 2007 | Office 2010 | Office client | Open XML | PowerPoint 2010 | SharePoint Server 2010 | VBA | Word 2010

В этой статье
Что такое двоичный файл форматирования?
Какие версии Microsoft Office используется двоичный формат файлов?
Просмотр содержимого в двоичный файл Microsoft Office Format–Based-файлы
Заключение
Дополнительные ресурсы

**Относится к:**Microsoft Word | Microsoft PowerPoint | Microsoft Excel | Microsoft Outlook

Публикации:   Февраль 2011

По:  Корпорация Майкрософт

Содержание

  • Что такое двоичный файл форматирования?

  • Какие версии Microsoft Office используется двоичный формат файлов?

  • Просмотр содержимого в двоичный файл Microsoft Office Format–Based-файлы

  • Создание средства просмотра формата пользовательский двоичный файл

  • Редактирование файлов Format–Based двоичных файлов Office

  • Заключение

  • Дополнительные ресурсы

Данная статья является первой в серии статей, которые вводят формат двоичного файла, используемый Microsoft Office продуктов. В этой первой статье предоставляет обзор того, как работать с двоичными форматами Microsoft Office в целом и объясняет некоторые из общих структурных характеристик и ключевых понятий, которые имеют различные форматы общих. Другие статьи в серии содержатся более подробные сведения об отдельных форматах. Эти статьи предназначены для использования в сочетании с Office File Format Documents в MSDN.

Этой серии статей рассматриваются только четыре основные продукты Microsoft Office: Microsoft Word, Microsoft PowerPoint, Microsoft Excel и Microsoft Outlook.

Что такое двоичный файл форматирования?

Двоичный формат файла — это любой формат файлов, содержащих преимущественно двоичных данных. Сюда входят скомпилированные программы, изображения, мультимедиа и наиболее сжатые файлы и файлы, которые хранятся в виде двоичных данных, но может содержать текстовые данные. Формат двоичного файла, используемый Microsoft Office продукты соответствует этой последней категории. Не двоичных форматов могут включать текст (txt), .html, .xml и их производные и интерпретации сценариев и файлов исходного кода.

Все данные файла в формате двоичного файла Microsoft Office существует один или несколько потоков. Каждый поток содержит структуры данных для хранения метаданных, таких как пользовательские и системные данные и свойства файлов, сведения о форматировании, текстового содержимого и мультимедийного содержимого. Эти структуры данных выражаются в виде групп шестнадцатеричных чисел, программы, интерпретирует и предоставляются через пользовательский интерфейс.

В то же время организационной структуры данных зависит от внутри потока. Наиболее распространенные единица данных — это запись. Запись обычно содержит некоторые метаданные о файле в виде полей и флаги. Это включает в себя один или несколько значений смещения для указания расположения других соответствующих записей или других данных. Текст сохраняется как числовые значения, представляющие символы ANSI или Юникода. Изображения можно сохранять как ссылки на внешние файлы, так и для изображений, внедренных в своих собственных двоичными форматами, такие как .gif, .jpeg или .png в файле. Более активное содержимое, такие как смена слайдов PowerPoint, помечаются сведения, необходимые для интерпретации, такие как свойства перехода и выводятся программой.

Файл, используемый Microsoft Word, Microsoft PowerPoint, Microsoft Excel и Microsoft Outlook задокументированы, исчерпывающим образом, в библиотеке MSDN по следующему пути: Open Specifications/Data Portability/Microsoft Office File Formats/Microsoft Office File Format Documents. Отсюда можно открыть полную спецификацию формата файла непосредственно на веб-узле MSDN или в формате PDF.

Какие версии Microsoft Office используется двоичный формат файлов?

Microsoft Office двоичных форматов файлов в данной статье по большей части используются Microsoft Outlook, Microsoft Excel и более ранние версии Microsoft Word и Microsoft PowerPoint. Microsoft Office Word 2007 и Microsoft Office PowerPoint 2007 используют форматы XML-файл в качестве формата файла по умолчанию и Microsoft Excel 2010 использует более новые двоичный формат. В следующей таблице показаны двоичный файл формата файлы, относящиеся к конкретной версии Word, Excel, PowerPoint и Outlook.

Формат файлов

Версия приложения

MS-DOC

  • Microsoft Word 97

  • Microsoft Word 2000

  • Microsoft Word 2002 г.

  • Microsoft Office Word 2003

MS PPT

  • Microsoft PowerPoint 97

  • Microsoft PowerPoint 2000

  • Microsoft PowerPoint 2002 г.

  • Microsoft Office PowerPoint 2003

MS-PST

  • Microsoft Outlook 2000

  • Microsoft Outlook 2002 г.

  • Microsoft Office Outlook 2003

  • Microsoft Office Outlook 2007

  • Microsoft Outlook 2010

MS XLS

  • Microsoft Excel 97

  • Microsoft Excel 2000

  • Microsoft Excel 2002 г.

  • Microsoft Office Excel 2003

MS XLSB

  • Microsoft Office Excel 2007

Microsoft Office двоичный файл format–based файлы также используются компаниями, которые работают с файлами Microsoft Office без использования исходного узла приложения. Некоторые из наиболее распространенных применений вне Microsoft включают средства поиска между документами, восстановления данных из поврежденных файлов или чтение и запись для совместимости с другими приложениями.

Просмотр содержимого в двоичный файл Microsoft Office Format–Based-файлы

Наиболее простой способ для просмотра двоичных файлов Microsoft Office — создавшей его программы. Например с помощью Word для просмотра файла .doc или PowerPoint для просмотра PPT-файл. Этот подход показан вид пользовательского содержимого, такого как текст, форматирование и проверка состояния интерфейса пользователя.

Более структурный рисунок двоичного файла можно получить с помощью визуализатора средство Office offvis.exe. Следующая ссылка позволяет непосредственно загрузить это средство из центра загрузки: https://download.microsoft.com/download/1/2/7/127BA59A-4fe1-4acd-BA47-513CEEF85A85/OffVis.zip (Возможно, на английском языке), при загрузке любой двоичный файл Microsoft Office в визуализаторе, представленные с двумя областями. На панели навигации отображаются содержимое файла raw с каждой строки, показывающий текущее смещение, последовательность шестнадцатеричных чисел и их текстовое представление, если таковые имеются. В области результатов отображаются результаты анализа, которые состоят из имени текущей структуры данных, его значение, расположение смещения, размер и тип. На следующем снимке экрана показана часть DOC-файл, содержащий текст «Hello, world» в визуализаторе. Буква «w» выбран. В этом случае визуализатор выделите соответствующее шестнадцатеричное число и структуру данных.

На рисунке 1. HelloWorld.doc в offvis.exe

Средство визуализации Office

Создание средства просмотра формата пользовательский двоичный файл

Можно создать пользовательское средство просмотра, которое можно использовать с конкретным содержимым целевого или как способ ознакомиться с форматом файла. В окне просмотра имеет чтение данных потока, интерпретации структуры и перехода смещения для поиска текста и любые другие содержимого, которые требуется отобразить. Эти структуры данных различны для каждого типа файла, но во всех случаях процесс одинаков.

Чтобы найти содержимое в файлах двоичного файла формата

  1. Прочитайте поток файлов.

  2. Определите структуру или структуры, которые могут иметь содержимое, которое требуется найти.

  3. Найдите значение смещения, указывающий на местоположение следующего раздела, который требуется найти в первой структуры.

  4. К этому разделу в потоке.

  5. Повторите предыдущие два шага найти содержимое, которое требуется.

  6. Читать и анализировать содержимое.

В зависимости от потребностей это может занять меньше сотни строк кода для средство извлечения простого текстового-миллионы строк эмулировать исходной программы.

Редактирование файлов Format–Based двоичных файлов Office

Как правило никогда не следует пытаться напрямую редактировать двоичный файл Microsoft Office. Вместо этого используйте операции Сохранить , аналогичный способ отправить документ на принтер. При печати документа Word, например, не отправлять всю DOC-файл принтера для визуализации. Вместо этого Word создает моментальный снимок документа, отформатированную в соответствии с технические характеристики принтера. Принтер может иметь логики интерпретации шрифтов, но все сведения о структуре обрабатывается приложением-отправителем.

Аналогично при сохранении файла в двоичном формате ведущее приложение преобразует данные в памяти в указанный двоичный формат и создает файл. Если файл с таким именем уже существует, новый файл перезаписывает его.

Этот подход имеет несколько преимуществ.

  • Приложение можно хранить и управлять содержимое файла в любом формате, вы решите, что гораздо проще, чем работа с двоичными данными непосредственно.

  • Чтение исходного двоичного файла в память один раз и сразу же преобразования данных в внутреннего представления, вам избежать пересчитать несколько указателей на разные смещения позиций, которых может измениться с каждой правки.

  • После приложения имеет внутреннее представление файла в память, его можно сохранить этот файл на любой формат поддерживает приложение.

  • С помощью общего внутреннего представления приложения можно включить логику для чтения разных форматов файлов и затем работать с ними так же.

Таким образом процесс редактирования в двоичном формате файл действительно состоит из трех шагов.

Для редактирования файлов на основе формата двоичного файла

  1. Ознакомьтесь с файлом в внутреннего представления.

  2. Измените внутреннее представление в приложении.

  3. Сохраните представление в двоичном формате с тем же именем и расположением с исходным файлом.

Заключение

Знакомство и работа с двоичными форматами может оказаться сложной задачей. Надеюсь путем изучения базовых структур и экспериментов с некоторые процедуры, описанные в этой серии статей, вы будете готовы для изучения сложных реализаций с ничего, кроме открытых спецификаций документацию и некоторые загружаемые средства.

Дополнительные ресурсы

Дополнительные сведения см. в следующих документах, в которых описывается:

Примечание

Отказ от ответственности относительно машинного перевода. Данная статья была переведена с помощью компьютерной системы без участия человека. Microsoft предлагает эти машинные переводы, чтобы помочь пользователям, которые не знают английского языка, ознакомиться с материалами о продуктах, услугах и технологиях Microsoft. Поскольку статья была переведена с использованием машинного перевода, она может содержать лексические,синтаксические и грамматические ошибки.