- Главная
- Информатика
- Технологии обработки документов
Содержание
- 2. 1. Текстовая информация. Модель документа Известно, что существуют различные типы текстовых файлов (плоские, размеченные, ASCII и
- 3. Разновидности текстовых форматов Существует большое количество разнообразных текстовых редакторов, различающихся по своим возможностям, – от очень
- 4. Типы файлов для размещения документов текстовые файлы – обобщенное название для простых и размеченных текстов, ASCII-файлов
- 5. Форматы полнотекстовых документов. Модель документа Понятие модель документа охватывает аспекты создания, преобразования, хранения, поиска, передачи и
- 6. На рисунке приведен пример документа «Пояснительная записка к дипломному проекту (работе)». Здесь выделены такие базовые понятия
- 7. Макетная структура содержит описание документа в терминах физических единиц – страниц, полос, колонок, колонтитулов, рамок для
- 8. 2. Языки разметки документов В системах обработки текстов в документ включается дополнительная информация, называемая разметкой и
- 11. RUNOFF RUNOFF была первой системой форматирования текстов, которая получила значительную известность. Она была разработана в 1964г.
- 12. PostScript язык программирования, реализующий функцию описания страниц, использующийся в электронных изданиях и настольных издательских системах. Концепция
- 13. Язык SGML разработан на базе программного продукта DCF GML фирмы IBM и представляет собой метод создания
- 14. Формат DocBook DocBook – язык разметки технических документов (1991г.). Он был первоначально предназначен для того, чтобы
- 15. 4. Текстовые редакторы Редакторы, предназначенные для подготовки текстов условно можно разделить на обычные (подготовка писем и
- 16. Редактор Word Основные функции. Текстовый редактор Word реализует следующие функции: создание, открытие, закрытие, сохранение текстовых документов;
- 17. Редактор документов OpenOffice.org Writer В OpenOffice.org Writer, пользователь может создавать любые текстовые документы, составлять личные и
- 18. 5. Работа с электронными таблицами Электронная таблица — интерактивная система обработки информации, упорядоченной в виде таблицы
- 19. Основные характеристики программного продукта Excel Excel представляет собой мощный арсенал средств ввода, обработки и вывода в
- 20. Структура таблиц и основные операции: в нижней части электронной таблицы расположен алфавитный указатель (регистр), обеспечивающий доступ
- 22. Скачать презентацию
1. Текстовая информация. Модель документа
Известно, что существуют различные типы текстовых файлов
1. Текстовая информация. Модель документа
Известно, что существуют различные типы текстовых файлов
Разновидности текстовых форматов
Существует большое количество разнообразных текстовых редакторов, различающихся по своим
Разновидности текстовых форматов
Существует большое количество разнообразных текстовых редакторов, различающихся по своим
Например, в текстовом формате (плоский текст – .ТХТ) работают редактор Notepad, встроенные редакторы оболочек Norton Commander и Far Manager, в то время как Word (а также WordPad) позволяют работать с размеченными текстовыми файлами в коммуникативном (тип файла .RTF – rich text format, или «обогащенный формат текста»), внутреннем (.DOC), и текстовом (.TXT) форматах. Распространен редактор документов Adobe Acrobat, использующий коммуникативный формат .PDF (portable document format). Также широко применяются форматы разметки текстов HTML.
Наиболее развитые редакторы позволяют обрабатывать не просто тексты, а документы (тексты, содержащие встроенные или внедренные объекты или файлы других типов – табличные, графические, мультимедиа и пр.).
Типы файлов для размещения документов
текстовые файлы – обобщенное название для простых
Типы файлов для размещения документов
текстовые файлы – обобщенное название для простых
текст без разметки (планарный) – файл, содержащий только отображаемые (воспроизводимые на всех печатающих устройствах и терминалах) символы кода ASCII, а также простейшие управляющие символы: CR – возврат каретки; LF – перевод строки; TAB – символ табуляции, иногда LF – новая страница;
текст с разметкой – планарный файл, содержащий бинарную и символьную разметку, управляющую отображением информации (программно и/или аппаратно);
ASCII-файл – содержит только отображаемые коды левой части кодовой таблицы ASCII (латиница и служебные символы), обычно применяется для хранения документов с символьной разметкой (RTF, SGML, HTML).
Форматы полнотекстовых документов. Модель документа
Понятие модель документа охватывает аспекты создания, преобразования,
Форматы полнотекстовых документов. Модель документа
Понятие модель документа охватывает аспекты создания, преобразования,
Логическая структура определяет составные компоненты и их соотношения в понятиях, отвечающих взгляду на документы как смысловые структуры. Например, к основным смысловым компонентам относятся: авторские данные (имя автора, место работы), аннотация, оглавление, главы, разделы, параграфы, рисунки, сноски.
На рисунке приведен пример документа «Пояснительная записка к дипломному проекту (работе)».
На рисунке приведен пример документа «Пояснительная записка к дипломному проекту (работе)».
Макетная структура содержит описание документа в терминах физических единиц – страниц,
Макетная структура содержит описание документа в терминах физических единиц – страниц,
Подходы к моделированию документов опираются на два стандарта – ISO 8613 (ODA — Office Document Architecture — архитектура управленческой документации и ISO 8879 (SCM – Standard Generalized Markup Language — стандартный обобщенный язык разметки).
Документ в ODA представлен в виде профиля и собственно документа, организованных в форме древовидной структуры. Профиль содержит информацию о документе в целом и его прохождении; формальные признаки – дата составления, вид, регистрационный номер и т. д.
Собственно документ содержит текст и сведения о его структуре и стиле, а именно:
структуру документа – заглавие, параграфы, оглавление и т. п. (логическая структура), а также абзацы, расположение текста, шрифты (физическая структура);
архитектуру содержания – набор графических элементов, выделение определенных слов, строк и т. п.;
коммуникативный формат – способы кодирования объектов, признаков и содержания документов.
2. Языки разметки документов
В системах обработки текстов в документ включается дополнительная
2. Языки разметки документов
В системах обработки текстов в документ включается дополнительная
выделение логических элементов данного документа;
задание функций обработки выделенных элементов.
В обычных текстовых процессорах существуют встроенные команды включения/выключения шрифтов и др., аналогичные командам управления размещением информации на экране или при печати. Такой подход называется командной или процедурной разметкой.
Альтернативный способ разметки заключается в выделении части текста без указания способа обработки выделения. Затем другие команды назначают фрагментам способ обработки. Такая разметка называется описательной (дескриптивной). Она включает метки (tags, таги) начала и окончания элемента текста и указывает, как интерпретировать данный фрагмент.
Изменяя набор процедур, соответствующий описательной разметке, можно изменить внешнее представление одного и того же документа.
Основным достоинством описательной разметки является ее гибкость, поскольку фрагменты текста отмечены как «чем они являются» (а не «как они должны быть отображены).
Описательная разметка также облегчает задачу переформатирования документа при необходимости, поскольку описание формата не связано с содержанием.
В настоящее время существует множество языков разметки, например, DocBook, MathML, SVG, Open eBook, XBRL и др. В основном они предназначены для представления различных текстовых документов но специализированные языки могут использоваться во многих других областях. Наиболее хорошо известен язык разметки HTML (язык разметки гипертекста).
RUNOFF
RUNOFF была первой системой форматирования текстов, которая получила значительную известность. Она
RUNOFF
RUNOFF была первой системой форматирования текстов, которая получила значительную известность. Она
Продукт фактически состоял из пары программ:
TYPSET, который был в основном редактором документов;
RUNOFF – процессор вывода.
RUNOFF осуществлял поддержку разбиения на страницы и размещения заголовков, а также выравнивания текста.
ТеХ
ТеХ – наборная система, созданная Дональдом Нутом (Donald Knuth). Вместе с языком METAFONT для описания шрифта и Computer Modern typeface (Компьютерного Современного шрифта) он был спроектирован для двух основных целей:
представить каждому пользователю возможность создавать высококачественные книги в пределах разумных трудозатрат
чтобы такая система давала идентичные результаты на любых компьютерах как в настоящее время, так и в будущем. ТеХ – бесплатное программное обеспечение, популярное в академическом сообществе, особенно среди математиков, физиков информатиков, экономистов, и в технических сообществах.
ТеХ хорошо используется для создания и распечатки сложных математических формул и других программных средств форматирования.
PostScript
язык программирования, реализующий функцию описания страниц, использующийся в электронных изданиях и
PostScript
язык программирования, реализующий функцию описания страниц, использующийся в электронных изданиях и
Концепция языка PostScript была создана в 1976 г. Джоном Вонок (John Warnock). Данный язык систем проектирования задумывался для обработки графической информации.
PostScript скомбинировал лучшие особенности принтеров и плоттеров. Как и плоттеры, PostScript предложил высококачественную штриховую графику и единый язык управления, который мог использоваться на принтерах любых марок. Как матричные печатающие устройства, PostScript предложил простые способы генерировать страницы текста и растровой графики. Но, в отличие от обоих, PostScript мог располагать все эти данные на единой странице, что предлагало гораздо больше гибкости, чем любой принтер или плоттер.
Portable Document Format (PDF)
Переносимый формат документов – PDF – формат файла, созданный Adobe Systems в 1993 г. для использования в настольных издательских системах. Формат PDF позволяет представлять двумерные документы в форме, независимой от разрешающей способности устройств печати (или дисплеев). Каждый файл формата PDF содержит полное описание двумерного документа (с появлением Acrobat 3D – трехмерных документов), который включает текст, шрифты, изображения и двумерную векторную графику, которые образуют документ.
Формат файла формата PDF подвергся нескольким изменениям с выпуском новых версий Adobe Acrobat. Известно восемь версий формата PDF - 1.0 (1993 г.), 1.1 (1994 г.), 1.2 (1996 г.), 1.3 (1999 г.), 1.4 (2001 г.), 1.5 (2003 г.), 1.6 (2005 г.) и 1.7 (2006 г. ) которые соответствуют выпускам Adobe Acrobat от 1.0 до 8.0
Формат PDF использует следующие технологии:
подмножество языка программирования и описания страниц PostScript, чтобы генерировать размещение и графику;
систему встраивания и замены шрифтов для обеспечения перемести мости документов;
структурированную систему хранения, позволяющую связывать эти элементы в отдельный файл, с использованием сжатия данных при необходимости.
Язык SGML
разработан на базе программного продукта DCF GML фирмы IBM и
Язык SGML
разработан на базе программного продукта DCF GML фирмы IBM и
В языке SGML каждый документ имеет три части:
декларации (объявления, определения) языка SGML, привязывающие к определенным значениям параметры обработки, а также имена синтаксиса;
пролог, состоящий из деклараций о типе документа. Они определяют типы элементов, взаимосвязи между элементами и их атрибуты, а также условные обозначения, которые могут быть задействованы при разметке;
данные, которые состоят из разметки документа и собственно информации.
HTML – язык разметки гипертекста
Hypertext Markup language формулируется в терминах языка SGML.
HTML ориентирован на решение нескольких важных задач, в которых участвуют его различные конструкции и элементы:
описание структуры документа;
адресация ресурсов;
создание гипертекстовых ссылок и управление навигацией в БД локальных и WWW Internet ;
реализация интерфейсов с пользователем
.
Формат DocBook
DocBook – язык разметки технических документов (1991г.). Он был первоначально
Формат DocBook
DocBook – язык разметки технических документов (1991г.). Он был первоначально
Одно из основных преимуществ DocBook – он дает возможность пользователям создавать содержание документа в нейтральной форме, которая описывает только логическую структуру содержания, которое затем может быть отображено в разнообразных форматах, включая HTML, формат PDF, страницы руководства и помощи, не требуя от пользователей каких-либо изменений в исходном тексте.
DocBook первоначально начал существование как приложение SGML, однако затем было разработано эквивалентное приложение XML, которое заменило SGML в большинстве применений.
ODF
OpenDocument (ODF) (Открытый формат документов для офисных приложений), является форматом файла документа, используемым для того, чтобы описать электронные документы, например письма, сообщения, книги, электронные таблицы, диаграммы, презентации и файлы текстовых процессоров. Стандарт основан на формате XML, был разработан техническим комитетом OASIS (Organization for the Advancement of Structured Information Standards) и первоначально воплощен в офисном комплексе OpenOffice.org.
Основная цель таких открытых форматов: гарантировать долгосрочный доступ к данным без юридических или технических барьеров. OpenDocument является альтернативой закрытым форматам ( doc, xls и ppt).
4. Текстовые редакторы
Редакторы, предназначенные для подготовки текстов условно можно разделить на
4. Текстовые редакторы
Редакторы, предназначенные для подготовки текстов условно можно разделить на
Редактор Word
Основные функции. Текстовый редактор Word реализует следующие функции:
создание, открытие, закрытие,
Редактор Word
Основные функции. Текстовый редактор Word реализует следующие функции:
создание, открытие, закрытие,
задание параметров страниц;
набор текста (режим прописных букв, гарнитура, кегль и цвет шрифта, страница, работа с выделенным фрагментом "текста, межстрочный интервал, способы выравнивания, буфер обмена);
форматирование абзаца (задание параметров абзаца, красная строка, межстрочный интервал) ;
задание шрифтов;
установка рамки и заливки абзаца;
создание нумерованных и маркированных списков, настройка нумерованных списков;
ссылки, заголовки, оглавления;
проверка правописания, расстановка переносов;
создание, заполнение и форматирование статических таблиц; рамки, заливка. Изменение структуры таблицы (добавление и удаление строк и столбцов, объединение ячеек, изменение размеров ячеек). Преобразование текста в таблицу и наоборот;
вставка и редактирование объектов — рисунков, клипов, MIDI-файлов, математических формул;
деловая графика (построение диаграмм и графиков). Вставка рисунков, настройка положения, размера и способа обтекания рисунка (в тексте, перед текстом, за текстом и пр.) ;
работа с автофигурами (линии, фигуры, стрелки и пр.), использование WordArt;
печать текста.
Редактор документов OpenOffice.org Writer
В OpenOffice.org Writer, пользователь может создавать любые текстовые
Редактор документов OpenOffice.org Writer
В OpenOffice.org Writer, пользователь может создавать любые текстовые
OpenOffice.org реализует следующие функции:
Создание и структурирование документов;
Подготовка публикации;
Вычисления;
Создание чертежей;
Вставка изображений;
Изменяемый интерфейс приложения.
5. Работа с электронными таблицами
Электронная таблица — интерактивная система обработки информации,
5. Работа с электронными таблицами
Электронная таблица — интерактивная система обработки информации,
Основные характеристики программного продукта Excel
Excel представляет собой мощный арсенал средств ввода,
Основные характеристики программного продукта Excel
Excel представляет собой мощный арсенал средств ввода,
Структура таблицы включает нумерационный и тематический заголовки, головку (шапку), боковик (первая графа таблицы, содержащая заголовки строк) и прографку (собственно данные таблицы). На пересечении столбца и строки устанавливается графическая смысловая связь между понятием, объединяющим материал в строку, и понятием, объединяющим материал в столбец, что позволяет выявить ее без мысленного перевода в словесную форму и существенно облегчить усвоение и анализ организованных в таблицу данных
Структура таблиц и основные операции:
в нижней части электронной таблицы расположен алфавитный
Структура таблиц и основные операции:
в нижней части электронной таблицы расположен алфавитный
в режиме оформления и модификации экрана можно фиксировать заголовки строк, столбцов, оформлять рабочие листы и т. д.;
для оформления рабочих листов в табличном процессоре предусмотрены возможности: выравнивания данных внутри клетки, выбора цвета фона клетки и шрифта, изменения высоты строк и ширины колонок, черчения рамок различного вида, определения формата данных внутри клетки (например: числовой, текстовый, финансовый, дата и т. д.), а также обеспечения автоматического форматирования, когда в систему уже встроены различные варианты оформления таблиц, и пользователь может выбрать наиболее подходящий формат;
для вывода таблиц на печать предусмотрены функции, обеспечивающие выбор размера страницы, разбивку на страницы, установку размера полей страниц, оформление колонтитулов, а также предварительный просмотр получившейся страницы;
связывание данных – абсолютная и относительная адресации являются характерной чертой всех табличных процессоров. Они дают возможность работать одновременно с несколькими таблицами, которые могут быть тем или иным образом связаны друг с другом;