Информационные технологии

Алтайская академия экономики и права Кафедра математики и прикладной информатики
в экономике Информационные технологии Журенков Олег Викторович, [email protected] Барнаул, 2013

Автор: доцент, кандидат физико-математических наук О. В. Журенков Рецензент: к.т.н.,
доцент, заведующий лабораторией дистанционных образовательных технологий ААЭП О. Г. Солодкий В данном учебном пособии даются основные понятия информационных технологий, процессы при их реализации. Центральное место в пособии отводится направлениям информационных технологий, которые не рассматриваются в других дисциплинах, но, тем не менее полезны для специалистов-информатиков, работающих в экономической сфере. В частности, рассматриваются технологии обработки текстовой, графической, аудио-, видеоинформации, Интернет/интранет-технологии и технологии Data Mining. Пособие предназначено студентам, обучающимся по направлениям Прикладная информатика , Бизнес-информатика , Информационный менеджмент , может быть использовано в качестве дополнительной литературы по Информационным технологиям других направлений.

Часть I Понятие информационных технологий

Содержание 1 Основные определения 2 История ИТ Этапы развития ИТ
3 Дисциплина информационных технологий 4 Виды информационных технологий

Основные определения Определение Информационные технологии (ИТ, от information technology, IT)
широкий класс дисциплин и областей деятельности, относящихся к технологиям управления и обработки данных, в том числе, с применением вычислительной техники. В последнее время под информационными технологиями чаще всего понимают компьютерные технологии. В частности, ИТ имеют дело с использованием компьютеров и программного обеспечения для получения, передачи, преобразования, защиты, обработки и хранения информации. Определение Специалистов по компьютерной технике и программированию называют ИТ-специалистами.

Основные определения Согласно определению, принятому ЮНЕСКО, Определение ИТ это комплекс
взаимосвязанных научных, технологических, инженерных дисциплин, изучающих методы эффективной организации труда людей, занятых обработкой и хранением информации; вычислительную технику и методы организации и взаимодействия с людьми и производственным оборудованием, их практические приложения, а также связанные со всем этим социальные, экономические и культурные проблемы. 6

Основные определения Сами ИТ требуют сложной подготовки, больших первоначальных затрат
и наукоёмкой техники. Их введение должно начинаться с создания математического обеспечения, формирования информационных потоков в системах, подготовки специалистов. Отрасль информационных технологий занимается созданием, развитием и эксплуатацией информационных систем. Структура отрасли: информатика; программирование; Интернет и Всемирная паутина; веб-разработка; управление данными; обработка данных; 7

Основные определения RFID (Radio Frequency IDentiﬁcation, радиочастотная идентификация) метод автоматической
идентификации объектов, в котором посредством радиосигналов считываются или записываются данные, хранящиеся в так называемых транспондерах, или RFID-метках; Data Mining (добыча данных); хранение данных; базы данных; информационная архитектура; информационная безопасность; криптография; системная интеграция; искусственный интеллект; интеллектуальные информационные технологии. 8

История ИТ На ранних этапах истории для синхронизации выполняемых действий
человеку потребовались кодированные сигналы общения. Человеческий мозг решил эту задачу без искусственно созданных инструментов: развилась человеческая речь. Речь являлась и первым носителем знаний. Знания накапливались и передавались от поколения к поколению в виде устных рассказов. Природные возможности человека по накоплению и передаче знаний получили первую технологическую поддержку с созданием письменности. Процесс совершенствования носителей информации еще продолжается: камень кость глина папирус шёлк бумага магнитные носители (лента, диски) оптические носители (CD-ROM, DVD, Blu-ray Disc) кремний (ﬂash-память) . . . Письменность стала первым историческим этапом информационных технологий.

История ИТ Второй этап информационных технологий возникновение книгопечатания. Оно стимулировало
развитие наук, ускоряло темпы накопления профессиональных знаний. Цикл: знания наука общественное производство знания замкнулся. Спираль технологической цивилизации начала раскручиваться с большой скоростью. Книгопечатание создало информационные предпосылки роста производительных сил. Информационная революция связана с созданием ЭВМ в конце 40-х годов XX века. С этого же времени начинается эра развития информационных технологий. Весьма важным свойством информационных технологий является то, что для неё информация не только продукт, но и исходное сырье. Например, компьютерное моделирование климата требует обработки существенно большего объёма информации, чем содержит конечный результат.

История ИТ Этапы развития ИТ В развитии информационных технологий можно
выделить этапы. Каждый этап характеризуется определённым признаком. 1 На начальном этапе развития информационных технологий (1950–1960-е годы) в основе взаимодействия человека и ЭВМ лежали машинные языки. ЭВМ была доступна только профессионалам. 2 На следующем этапе (1960–1970-е годы) создаются операционные системы. Стала возможна обработка нескольких заданий, формулируемых разными пользователями; основная цель наибольшая загрузка машинных ресурсов. Появились первые информационные системы (ИС), ИТ стали доступны более широкому кругу.

История ИТ Этапы развития ИТ 3 Третий этап (1970–1980-е годы)
характеризуется изменением критерия эффективности обработки данных, основными стали человеческие ресурсы по разработке и сопровождению программного обеспечения. К этому этапу относятся распространение мини-ЭВМ. Осуществляется интерактивный режим взаимодействия нескольких пользователей. 4 Четвёртый этап (1980–1990-е годы) новый качественный скачок технологии разработки программного обеспечения. Центр тяжести технологических решений при создании программного продукта переносится на создание средств взаимодействия пользователей с ЭВМ. Ключевое звено таких информационных технологий представление и обработка знаний. 12

История ИТ Этапы развития ИТ 5 Пятый этап (1990–2000-е годы)
характеризуется стремительным распространением сети Интернет, а вместе с ней и WWW, интернет- и веб-технологий. Инвестиции в инфраструктуру и сервисы Интернет вызвали бурный рост отрасли ИТ в конце 90-х годов XX века. 6 Шестой этап (2000–2010-е годы) характерной чертой ИТ становятся сервис-ориентированная архитектура (SOA), реализованная через веб-сервисы. ИТ проникают во все сферы (образование, медицина, социальные институты). Формируется концепция электронного правительства (в РФ принимаются важные законы в ИТ-сфере, например, Федеральный закон О персональных данных от 27.07.2006 №152-ФЗ). 13

История ИТ Этапы развития ИТ 7 В настоящее время (2010–.
. . годы) активно внедряются облачные вычисления (cloud computing), создаются службы и приложения на них основанные (облачные технологии). Эволюция всех поколений ЭВМ происходит с постоянным темпом по 10 лет на поколение. Каждая смена поколений средств информационных технологий требует переобучения и радикальной перестройки мышления специалистов и пользователей, смены оборудования и создания более массовой вычислительной техники. Информационные технологии, как передовая область науки и техники определяет ритм времени технического развития всего общества. 14

Дисциплина информационных технологий В широком понимании ИТ охватывает все области
передачи, хранения, обработки и восприятия информации, т. е. не только компьютерные технологии. При этом ИТ часто ассоциируют именно с компьютерными технологиями, и это не случайно, появление компьютеров вывело ИТ на новый уровень, как когда-то телевидение, а ещё ранее печатное дело. В качестве инструментария ИТ используются программные продукты таких распространённых видов, как текстовые редакторы и процессоры, издательские системы, редакторы векторной и растровой графики, редакторы аудио и видео, электронные таблицы, системы управления базами данных, планировщики, почтовые клиенты и веб-браузеры.

Виды информационных технологий К основным видам информационных технологий относятся: ИТ
обработки данных предназначены для решения хорошо структурированных задач, алгоритмы решения которых хорошо известны и для решения которых имеются все необходимые входные данные. Эта технология применяется на уровне исполнительской деятельности персонала невысокой квалификации в целях автоматизации некоторых рутинных, постоянно повторяющихся операций управленческого труда. ИТ управления предназначены для информационного обслуживания всех работников организаций, связанных с принятием управленческих решений. Здесь информация обычно представляется в виде регулярных или специальных управленческих отчётов и содержит сведения о прошлом, настоящем и возможном будущем организации.

Виды информационных технологий ИТ автоматизированного офиса предполагают организацию и поддержку
коммуникационных процессов как внутри фирмы, так и с внешней средой на базе компьютерных сетей и других современных средств передачи и работы с информацией, призваны дополнить существующую систему связи персонала предприятия. ИТ поддержки принятия решений предназначены для выработки управленческого решения, формируемого в результате итерационного процесса, в котором участвуют система поддержки принятия решений (вычислительное звено и объект управления) и человек (управляющее звено, задающее входные данные и оценивающее полученный результат). 17

Виды информационных технологий ИТ экспертных систем основаны на использовании искусственного
интеллекта. Экспертные системы дают возможность менеджерам получать консультации экспертов по любым проблемам, о которых в этих системах накоплены знания.

Дополнительная литература I Мельников, В. П. Информационные технологии [Текст] /
В. П. Мельников. М.: Академия, 2009. 432 с. 2000 экз. ISBN 978-5-7695-6646-2. Левин, В. И. История информационных технологий [Текст] / В. И. Левин. М.: Интерент-Университет Информационных Технологий; БИНОМ. Лаборатория знаний, 2007. 336 с. (Основы информационных технологий.) ISBN 978-5-94774-677-8. 19

Дополнительная литература II Рагулин, П. Г. Информационные технологии [Текст]: Электронный
учебник / П. Г. Рагулин. Владивосток: ТИДОТ Дальневосточного университета, 2004. 208 с. 20

Часть II Основные информационные процессы при реализации информационных технологий

Содержание 5 Сбор информации 6 Обмен информацией 7 Хранение информации
8 Обработка информации Основные процедуры обработки данных 9 Выдача информации 10 Обобщённая структура базового информационного технологического процесса

Сбор информации Определение Процесс сбора информации это деятельность субъекта, целью
которой является получение сведений об интересующем его объекте. Сбор информации может производиться или человеком, или с помощью технических средств и систем аппаратно. Например, пользователь может получить информацию о движении поездов или самолетов сам, изучив расписание, или же от другого человека непосредственно, либо через какие-то документы, составленные этим человеком, или с помощью технических средств (автоматической справки, телефона и т. д.). Система сбора информации может представлять собой сложный программно-аппаратный комплекс. Как правило, современные системы сбора информации не только обеспечивают кодирование информации и её ввод в ЭВМ, но и выполняют предварительную (первичную) обработку этой информации. 23

Сбор информации Определение Сбор информации это процесс получения информации из
внешнего мира и приведение её к виду, стандартному для прикладной информационной системы. Обмен информацией между воспринимающей информацию системой и окружающей средой осуществляется посредством сигналов. Сбор и регистрация информации происходят по-разному в различных экономических объектах. Наиболее сложна эта процедура в автоматизированных управленческих процессах промышленных предприятий, фирм и т. п., где производятся сбор и регистрация первичной учётной информации, отражающей производственно-хозяйственную деятельность объекта. 24

Сбор информации Особое значение при этом придаётся достоверности, полноте и
своевременности первичной информации. На предприятии сбор и регистрация информации происходят при выполнении различных хозяйственных операций (приём готовой продукции, получение и отпуск материалов и т. п.). Сначала информацию собирают, затем её фиксируют. Учётные данные могут возникать на рабочих местах в результате подсчёта количества обработанных деталей, прошедших сборку узлов, изделий, выявление брака и т. д. Процесс сбора информации связан с переходом от реального представления предметной области к его описанию в формальном виде и в виде данных, которые отражают это представление.

Сбор информации Для сбора фактической информации производятся измерение, подсчёт, взвешивание
материальных объектов, получение временных и количественных характеристик работы отдельных исполнителей. Сбор информации, как правило, сопровождается её регистрацией, т. е. фиксацией информации на материальном носителе (документе или машинном носителе). Запись в первичные документы в основном осуществляется вручную, поэтому процедуры сбора и регистрации остаются пока наиболее трудоёмкими. В условиях автоматизации управления предприятием особое внимание придаётся использованию технических средств сбора и регистрации информации, совмещающих операции количественного измерения, регистрации, накоплению и передаче информации по каналам связи в ЭВМ с целью формирования первичного документа.

Сбор информации Источниками данных в любой предметной области являются объекты
и их свойства, процессы и функции, выполняемые этими объектами или для них. Любая предметная область рассматривается в виде трёх представлений: 1 Реальное представление предметной области. 2 Формальное представление предметной области. 3 Информационное представление предметной области. Задача сбора информации не может быть решена в отрыве от других задач, в частности, задачи обмена информацией (передачи информации). 27

Обмен информацией Обмен информацией представляет собой процесс, в ходе которого
источник информации её передаёт, а получатель принимает. В результате обмена информацией между источником и получателем устанавливается своеобразный информационный баланс , при котором в идеальном случае получатель будет располагать той же информацией, что и источник. Если источник информации относится к неживой природе, то он вырабатывает сигналы, непосредственно отражающие его свойства. Если объектом-источником является человек, то вырабатываемые им сигналы могут не только непосредственно отражать его свойства, но и соответствовать тем знакам, которые человек вырабатывает с целью обмена информацией.

Обмен информацией Необходимость передачи информации для различных социально-экономических объектов обосновывается
по-разному. Так, в автоматизированной системе управления предприятием она вызвана тем, что сбор и регистрация информации редко территориально отделены от её обработки. Процедуры сбора и регистрации информации, как правило, осуществляются на рабочих местах, а обработка в вычислительном центре. Передача информации осуществляется различными способами: с помощью курьера, пересылки по почте, доставки транспортными средствами, передачи по каналам связи.

Обмен информацией Передача по каналам связи значительно сокращает время передачи
данных. Для её осуществления необходимы специальные технические средства. Некоторые технические средства сбора и регистрации, собирая автоматически информацию с датчиков, установленных на рабочих местах, передают её в ЭВМ. Взаимодействие между территориально удаленными объектами осуществляется за счёт обмена данными. Доставка данных производится по заданному адресу с использованием сетей передачи данных.

Хранение информации Определение Хранение информации это процесс поддержания исходной информации
в виде, обеспечивающем выдачу данных по запросам конечных пользователей в установленные сроки. Процесс хранения связан с необходимостью накопления и долговременного хранения данных; комплектации первичных данных до их обработки, обеспечением актуальности, целостности, безопасности, доступности данных. Хранение информации осуществляется на машинных носителях в виде информационных массивов, где данные располагаются по установленному в процессе проектирования группировочному признаку. 31

Хранение информации Поиск данных это выборка нужных данных из хранимой
информации, он включает поиск информации, подлежащей корректировке или замене на вводимую наружную информацию. Хранение в настоящее время реализуется главным образом при использовании концепций базы данных (БД) и хранилища данных (ХД). Основные отличия ХД от БД: агрегирование данных; данные из ХД никогда не удаляются; пополнение ХД происходит на периодической основе; формирование новых агрегатов данных, зависящих от старых автоматическое; доступ к ХД осуществляется на основе многомерного куба или гиперкуба. 32

Хранение информации Альтернативой хранилищу данных (Data Warehouse) является концепция витрин
данных (Data Mart). Определение Витрины данных множество тематических БД или срез ХД, содержащий информацию, относящуюся к отдельным информационным аспектам предметной области. Витрины и хранилища данных можно сравнить с витринами магазинов и складами, соответственно.

Обработка информации Определение Обработка информации это упорядоченный процесс её преобразования
в соответствии с алгоритмом решения задачи. Процесс обработки информации состоит в получении одних информационных объектов из других информационных объектов путём выполнения некоторых алгоритмов и является одной из основных операций, осуществляемых над информацией. Можно выделить числовую и нечисловую обработку. В указанные виды обработки вкладывается различная трактовка содержания понятия данные . При числовой обработке используются такие объекты, как переменные, векторы, матрицы, многомерные массивы, константы и т. д. При нечисловой обработке объектами могут быть файлы, записи, поля, иерархии, сети, отношения и т. д.

Обработка информации Другое отличие заключается в том, что при числовой
обработке содержание данных не имеет большого значения, в то время как при нечисловой обработке нас интересуют непосредственные сведения об объектах, а не их совокупность в целом. С точки зрения реализации выделяют следующие виды обработки информации: Последовательная обработка, применяемая в традиционной (фоннеймановской) архитектуре ЭВМ, располагающей одним процессором. Параллельная обработка, применяемая при наличии нескольких процессоров в ЭВМ (или нескольких ядер в процессоре). 35

Обработка информации Конвейерная обработка, связанная с использованием в архитектуре ЭВМ
одних и тех же ресурсов для решения разных задач, причём если эти задачи тождественны, то это последовательный конвейер, если задачи одинаковые векторный конвейер. Дж. Б. Деннис в 1967 г. сформулировал принципы построения потоковых ЭВМ (конвейерных ЭВМ): Определение Для потоковых ЭВМ должны выполняться все команды, для которых есть данные, независимо от их места в программе. Другимим словами, вычислительный процесс управляется не программой, а данными. Например, алгорифмы Маркова. 36

Обработка информации Редукционная обработка, применяемая в некоторых экспертных системах. В
1971–1974 гг. исследованы принципы создания редукционных машин. Определение Редукционные ЭВМ ЭВМ, управляемые заданиями, в которых выполнение операций определяется потребностью в результате и единообразно хранятся любые объекты: данные, программы, файлы, массивы. Например, генетические алгоритмы, системы, основанные на логике высказываний, теории предикатов, нечёткой логике.

Обработка информации Основные процедуры обработки данных Cоздание данных, как процесс
обработки, предусматривает появление новых данных в результате выполнения некоторого алгоритма. Модификация данных связана с отображением изменений в реальной предметной области, осуществляемых путём включения новых данных и удаления ненужных. Контроль, ИТ!безопасность и целостность направлены на адекватное отображение реального состояния предметной области в информационной модели и обеспечивают защиту информации от несанкционированного доступа и от сбоев и повреждений технических и программных средств.

Обработка информации Основные процедуры обработки данных Поиск информации, хранимой в
памяти компьютера, осуществляется как самостоятельное действие при выполнении ответов на различные запросы и как вспомогательная операция при обработке информации. Поддержка принятия решения является наиболее важным действием, выполняемым при обработке информации. Широкая альтернатива принимаемых решений приводит к необходимости использования разнообразных математических моделей. Создание документов, сводок, отчётов заключается в преобразовании информации в формы, пригодные для восприятия как человеком, так и компьютером. С этим действием связаны и такие операции, как обработка, считывание, сканирование и сортировка документов.

Обработка информации Основные процедуры обработки данных При преобразовании информации осуществляется
её перевод из одной формы представления или существования в другую, что определяется потребностями, возникающими в процессе реализации информационных технологий. Реализация всех действий, выполняемых в процессе обработки информации, осуществляется с помощью разнообразных программных средств. 40

Выдача информации После решения задачи обработки информации результат должен быть
выдан конечным пользователям в удобной форме. Эта операция реализуется в ходе решения задачи выдачи информации. Выдача информации, как правило, производится с помощью технических устройств в виде текстов, таблиц, графиков и т. д. Многие современные информационные системы имеют встроенные генераторы отчётов, с набором шаблонов или конструктором отчётов.

Обобщённая структура базового информационного технологического процесса Определение Технологический процесс часть
информационного процесса, содержащая действия (физические, механические и др.) по изменению состояния информации. Информационные технологии базируются на реализации информационных процессов, разнообразие которых требует выделения базовых информационных процессов, характерных для любой информационной технологии. Базовый технологический процесс (см. рис. 2.1) основан на использовании стандартных моделей и инструментальных средств.

Обобщённая структура базового информационного технологического процесса Рис. 2.1: Структура базового
информационного технологического процесса Базовый технологический процесс может быть использован в качестве составной части информационной технологии. К числу операций, составляющих базовый технологический процесс, можно отнести операции сбора, передачи, хранения, обработки и выдачи информации во всех её возможных формах проявления (текстовой, графической, визуальной, речевой и т. д.). 43

Обобщённая структура базового информационного технологического процесса Таким образом, конкретные информационные
технологии содержат в качестве основополагающих компонент базовые информационные процессы, реализуемые техническими, программными и организационно-методическими средствами в соответствии с общественными потребностями.

Дополнительная литература I Рагулин, П. Г. Информационные технологии [Текст]: Электронный
учебник / П. Г. Рагулин. Владивосток: ТИДОТ Дальневосточного университета, 2004. 208 с. Мельников, В. П. Информационные технологии [Текст] / В. П. Мельников. М.: Академия, 2009. 432 с. 2000 экз. ISBN 978-5-7695-6646-2. 45

Дополнительная литература II Левин, В. И. История информационных технологий [Текст]
/ В. И. Левин. М.: Интерент-Университет Информационных Технологий; БИНОМ. Лаборатория знаний, 2007. 336 с. (Основы информационных технологий). ISBN 978-5-94774-677-8. 46

Часть III Работа с текстовой информацией

Содержание I 11 Кодирование текста Кодировки EBCDIC Кодировки ASCII Кодировки
KOI8 Кодировки ISO 8859 Кодировки Unicode Кодировка UTF-16 Кодировка UTF-8 Управляющие символы 12 Регулярные выражения Введение Синтаксис Модификаторы Редактор SED 13 Языки разметки Понятие разметки Логическая и визуальная разметки Легковесные языки разметки 48

Содержание II SGML XML Правила создания XML-документа TEX Обзор издательских
систем (ИС) L A TEX Команды в L A TEX2ε 49

Кодирование текста Для перевода текстовой информации в цифровое представление используются
так называемые кодовые страницы. Определение Кодовая страница (code page) таблица, сопоставляющая каждому значению байта некоторый символ (или его отсутствие). Исторически термин code page был введён корпорацией IBM, сменные кодовые страницы использовались для поддержки различных языков (имеющих алфавитные системы письма). 50

Кодирование текста В 1950–1960-х годах в компьютерах, производившихся в США,
применялись шестибитные кодировки. Такой размер символа позволял кодировать лишь заглавные латинские буквы, арабские цифры, несколько знаков пунктуации и иногда управляющие символы. В настоящее время используются кодировки: совместимые с EBCDIC; совместимые с ASCII; Unicode. 51

Кодирование текста Кодировки EBCDIC Определение EBCDIC (Extended Binary Coded Decimal
Interchange Code) расширенный двоично-десятичный код обмена информацией (произносится эб-си-дик ) стандартный восьмибитный код, разработанный корпорацией IBM для использования на мэйнфреймах собственного производства и совместимых с ними. EBCDIC кодирует буквы латинского алфавита, арабские цифры, некоторые знаки пунктуации и управляющие символы. Существовало по меньшей мере 6 версий EBCDIC, несовместимых между собой. Российским аналогом EBCDIC является код ДKOI8, в который добавлена кодировка кириллицы. 52

Кодирование текста Кодировки ASCII Определение ASCII (American Standard Code for
Information Interchange) американский стандартный код для обмена информацией. ASCII представляет собой 7-битную кодировку для представления 95 печатных символов (десятичных цифр, латинского и национального алфавитов, знаков препинания) и 33 управляющих символов. В компьютерах обычно используют 8-битные расширения ASCII. 53

Кодирование текста Кодировки ASCII Для кодирования текстов на русском языке
(т. е. букв кириллицы) наиболее широко применяются следующие кодовые страницы: Альтернативная кодировка, она же IBM code page 866 в системах DOS. ANSI1 Cyrillic, она же Microsoft code page 1251 (cp1251), она же Windows-1251 в ОС Windows. 1Американский национальный институт стандартов (American National Standards Institute) объединение американских промышленных и деловых групп, разрабатывающее торговые и коммуникационные стандарты. Входит в ISO и Международную электротехническую комиссию, IEC, представляя там США.

Кодирование текста Кодировки ASCII MacCyrillic на компьютерах Macintosh. Благодаря отсутствию
псевдографики и верхних управляющих символов эта кодировка включает довольно много полезных символов; кроме того, присутствуют все дополнительные буквы, необходимые для записи украинского, белорусского, македонского и сербского языков. Семейство кодовых страниц KOI8. Семейство кодовых страниц ISO 88591 на ОС UNIX. 1ISO Международная организация по стандартизации (International Organization for Standardization) организация, занимающаяся выпуском международных стандартов. 55

Кодирование текста Кодировки KOI8 Нижняя часть таблицы кодировки (латиница) полностью
соответствует кодировке ASCII. Разработчики KOI8 поместили символы русского алфавита в верхней части кодовой таблицы таким образом, что позиции кириллических символов соответствуют их фонетическим аналогам в английском алфавите в нижней части таблицы. Это означает, что если в тексте, написанном в KOI8, убрать восьмой бит каждого символа, то получается читабельный текст, хотя он и написан латинскими символами. Пример 3.1 (KOI8) Убрав старший бит во фразе Русский Текст , получим rUSSKIJ tEKST . 56

Кодирование текста Кодировки KOI8 Как следствие, символы кириллицы оказались расположены
не в алфавитном порядке. Существует несколько вариантов кодировки KOI8 для различных кириллических алфавитов, расширяющие основной алфавит за счёт определённых кодов, общий диапазон 192–255 с 32 русскими буквами в двух регистрах остаётся неизменным во всех вариантах. KOI8-R стал фактически стандартом для русской кириллицы в 1990-х годах в UNIX-подобных операционных системах и электронной почте.

Кодирование текста Кодировки KOI8 IETF1 утвердил несколько RFC2 по вариантам
кодировки KOI8: KOI8-R русский и болгарский алфавит (RFC 1489). KOI8-U украинский алфавит (RFC 2319). В Microsoft Windows KOI8-R присвоен код страницы 20866, KOI8-U 21866. 1Internet Engineering Task Force (специальная комиссия интернет-разработок) открытое международное сообщество проектировщиков, учёных, сетевых операторов и провайдеров, созданное в 1986 году, которое занимается развитием протоколов и архитектуры интернета. 2Request for Comments запрос комментариев документ из серии пронумерованных информационных документов Интернета, содержащих технические спецификации и стандарты, широко применяемые во всемирной сети. Название Request for Comments ещё можно перевести как заявка на обсуждение или тема для обсуждения . В настоящее время первичной публикацией документов RFC занимается IETF под эгидой открытой организации Общество Интернета (англ. Internet Society, ISOC). Правами на RFC обладает именно Общество Интернета.

Кодирование текста Кодировки KOI8 Другие кодировки KOI8: KOI8-RU русско-белоруска-украинская. KOI8-C
кавказская. KOI8-T таджикская. KOI8-O славянская (старая орфография). KOI8-E, KOI8-CS, KOI8-Uniﬁed, KOI8-F некириллические варианты KOI8. Стандарт RFC 1489 предписывает наличие графических символов рамок (псевдографики), однако это требование выполняется довольно редко. 59

Кодирование текста Кодировки ISO 8859 Определение ISO 8859 семейство ASCII-совместимых
кодовых страниц, разработанное совместными усилиями ISO и IECa. aМеждународная электротехническая комиссия. На 2006 г. это семейство состоит из 16 кодовых страниц. Кириллица, включающая символы славянских языков (белорусский, болгарский, македонский, русский, сербский и частично украинский) задаётся кодовой страницей ISO 8859-5 (Latin/Cyrillic). Кодировки серии ISO 8859 применялись главным образом на UNIX- и GNU/Linux-подобных системах, а также для кодирования веб-страниц (поскольку большинство веб-серверов работают на платформе UNIX/GNU). 60

Кодирование текста Кодировки ISO 8859 Замечание: Поскольку кодировки ISO 8859
разрабатывались как средства для обмена информацией, а не как средства обеспечения высококачественной типографики, то в них не включены такие символы, как парные кавычки, тире различной длины, лигатуры и т. п. (хотя там всё же присутствуют такие символы, как неразрывный пробел и символ мягкого переноса). Зато довольно много места (область 0x80–0x9F) зарезервировано под верхние управляющие символы , предназначенные для управления терминалами. В системах MS Windows используются кодировки Windows, некоторые из которых совместимы с ISO 8859, но включают больше графических символов за счёт использования области 0x80–0x9F.

Кодирование текста Кодировки ISO 8859 Поскольку различные страницы ISO 8859
разрабатывались совместно, они обладают некоторой взаимной совместимостью. Например, все семь символов расширенной латиницы, используемые в немецком языке, стоят на одинаковых позициях во всех кодовых страницах, включающих эти символы. Страницы Latin-1 Latin-4 обладают ещё большей степенью совместимости: каждый символ, представленный в любых двух из этих страниц, стоит в них на одинаковых позициях. 62

Кодирование текста Кодировки Unicode К концу 1980-х годов стандартом стали
8-битные символы, при этом существовало множество разных 8-битных кодировок и постоянно появлялись новые. Это объяснялось как постоянным расширением круга поддерживаемых языков, так и стремлением создать кодировку, частично совместимую с какой-нибудь другой (характерный пример появление альтернативной кодировки для русского языка, обусловленное эксплуатацией западных программ, созданных для кодировки CP 437). Использование различных кодовых страниц создаёт много неудобств как для пользователей, так и для программистов. Если код символа имеет размер 8 бит, то кодовая страница может содержать максимум 256 символов. Часть символов используется как управляющие, поэтому число печатных символов редко превышает 223. Очевидна недостаточность всякой 8-битной кодовой страницы для представления многоязычных текстов.

Кодирование текста Кодировки Unicode В результате появилась необходимость решения нескольких
проблем: Проблема отображения документов в неправильной кодировке: её можно было решить либо последовательным внедрением методов указания используемой кодировки, либо внедрением единой для всех кодировки. Проблема ограниченности набора символов: её можно было решить либо переключением шрифтов внутри документа, либо внедрением широкой кодировки. Переключение шрифтов издавна практиковалось в текстовых процессорах, причём часто использовались шрифты с нестандартной кодировкой, т. н. dingbat fonts . В итоге при попытке перенести документ в другую систему все нестандартные символы превращались в непредвиденные символы. 64

Кодирование текста Кодировки Unicode Проблема преобразования одной кодировки в другую:
её можно было решить либо составлением таблиц перекодировки для каждой пары кодировок, либо использованием промежуточного преобразования в третью кодировку, включающую все символы всех кодировок. Проблема дублирования шрифтов: традиционно для каждой кодировки делался свой шрифт, даже если эти кодировки частично (или полностью) совпадали по набору символов. Эту проблему можно было решить, делая большие шрифты, из которых потом выбираются нужные для данной кодировки символы, однако это требует создания единого реестра символов, чтобы определять, чему что соответствует.

Кодирование текста Кодировки Unicode Было признано необходимым создание единой широкой
кодировки. Кодировки с переменной длиной символа, широко использующиеся в Восточной Азии, были признаны слишком сложными в использовании, поэтому было решено использовать символы фиксированной ширины. Использование 32-битных символов казалось слишком расточительным, поэтому было решено использовать 16-битные. В последние годы получил широкое распространение Unicode как альтернатива традиционным кодовым страницам. Определение Unicode (юникод или уникод) стандарт кодирования символов, позволяющий представить знаки практически всех письменных языков.

Кодирование текста Кодировки Unicode Стандарт предложен в 1991 году некоммерческой
организацией Консорциум Unicode (Unicode Consortium, Unicode Inc.), объединяющей крупнейшие IT-корпорации. Применение этого стандарта позволяет закодировать очень большое число символов из разных письменностей: в документах Unicode могут соседствовать китайские иероглифы, математические символы, буквы греческого алфавита, латиницы и кириллицы, при этом становятся ненужными кодовые страницы. 67

Кодирование текста Кодировки Unicode Стандарт состоит из двух основных разделов:
универсальный набор символов (UCS, Universal Character Set) задаёт однозначное соответствие символов кодам элементам кодового пространства, представляющим неотрицательные целые числа; семейство кодировок (UTF, Unicode Transformation Format) определяет машинное представление последовательности кодов UCS. Для обозначения символов Unicode используется запись вида U+xxxx (для кодов 0 . . . FFFF), или U+xxxxx (для кодов 10000 . . . FFFFF), или U+xxxxxx (для кодов 100000 . . . 10FFFF), где x шестнадцатеричные цифры. Пример 3.2 (Unicode) Символ я (U+044F) имеет код 044F16 = 11031010. 68

Кодирование текста Кодировки Unicode Коды в стандарте Unicode разделены на
несколько областей. Область с кодами от U+0000 до U+007F содержит символы набора ASCII с соответствующими кодами. Далее расположены области знаков различных письменностей, знаки пунктуации и технические символы. Часть кодов зарезервирована для использования в будущем. Под символы кириллицы выделены области знаков с кодами от U+0400 до U+052F, от U+2DE0 до U+2DFF, от U+A640 до U+A69F. Первая версия Unicode представляла собой кодировку с фиксированным размером символа в 16 бит, общее число кодов было 216 = 65 536. Отсюда происходит практика обозначения символов четырьмя шестнадцатеричными цифрами (например, U+041D).

Кодирование текста Кодировки Unicode При этом планировалось кодировать не все
существующие символы, а только те, которые необходимы в повседневном обиходе. Редко используемые символы должны были размещаться в области символов для частного использования (Private Use Area), которая первоначально занимала коды U+D800 . . . U+F8FF. Чтобы использовать Unicode также и в качестве промежуточного звена при преобразовании разных кодировок друг в друга, в него включили все символы, представленные во всех более-менее известных кодировках. В дальнейшем было принято решение кодировать все символы и в связи с этим значительно расширить кодовую область.

Кодирование текста Кодировка UTF-16 Поскольку в ряде компьютерных систем (в
первую очередь Windows NT) фиксированные 16-битные символы уже использовались в качестве кодировки по умолчанию, было решено все наиболее важные знаки кодировать только в пределах первых 65 536 позиций (Basic Multilingual Plane, BMP). Остальное пространство используется для Дополнительных символов (Supplementary Characters) систем письма вымерших языков или очень редко используемых китайских иероглифов, математических и музыкальных символов. Для совместимости со старыми 16-битными системами была изобретена система UTF-16, где первые 65 536 позиций отображаются непосредственно как 16-битные числа, а остальные представляются в виде суррогатных пар (первый элемент пары из области U+D800 . . . U+DBFF, второй элемент пары из области U+DC00 . . . DFFF).

Кодирование текста Кодировки UTF-16 Для суррогатных пар была использована часть
кодового пространства (2048 позиций), ранее отведённого для символов для частного использования . В UTF-16 можно отобразить только 220 + 216 − 2048 (1 112 064) символов, это число и было выбрано в качестве окончательной величины кодового пространства Unicode. Хотя кодовая область Unicode была расширена за пределы 216 уже в версии 2.0, первые символы в верхней области были размещены только в версии 3.1. В настоящее время действует стандарт Unicode 5.1 (с 2008 г.).

Кодирование текста Кодировка UTF-8 Формат UTF-8 был изобретён 2 сентября
1992 г. Кеном Томпсоном (Kenneth Thompson) и Робом Пайком (Rob Pike) и реализован в Plan 9. Сейчас стандарт UTF-8 официально закреплён в документах RFC 3629 и ISO/IEC 10646 Annex D. Определение UTF-8 (Unicode Transformation Format формат преобразования Unicode) в настоящее время распространённая кодировка, реализующая представление Unicode, совместимое с 8-битным кодированием текста. В UTF-8 любой байт со значением меньше 128 изображает символ ASCII с тем же кодом. Остальные символы Unicode изображаются последовательностями длиной от 2 до 6 байтов (реально только до 4 байт, поскольку использование кодов больше 221 не планируется). 73

Кодирование текста Кодировка UTF-8 Таким образом, символы латинского алфавита, знаки
препинания и управляющие символы ASCII записываются кодами US-ASCII, a все остальные символы кодируются при помощи нескольких октетов со старшим битом 1. Это приводит к следующим эффектам. Даже если программа не распознаёт Unicode, то латинские буквы, арабские цифры и знаки препинания будут отображаться правильно. В случае если латинские буквы и простейшие знаки препинания (включая пробел) занимают существенный объём текста, UTF-8 даёт выигрыш по объёму по сравнению с UTF-16. На первый взгляд может показаться, что UTF-16 удобнее, так как в ней большинство символов кодируется ровно двумя байтами. Однако это сводится на нет необходимостью поддержки суррогатных пар, о которых часто забывают при использовании UTF-16, реализовывая лишь поддержку символов UCS-2.

Кодирование текста Кодировка UTF-8 Символы UTF-8 получаются из Unicode следующим
образом: Unicode UTF-8 U+00000000–U+0000007F 0xxxxxxx U+00000080–U+000007FF 110xxxxx 10xxxxxx U+00000800–U+0000FFFF 1110xxxx 10xxxxxx 10xxxxxx U+00010000–U+001FFFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx Замечание: Символы, закодированные в UTF-8, могут быть длиной до шести байт, однако стандарт Unicode не определяет символов выше U+10FFFF, поэтому символы Unicode могут иметь максимальный размер в 4 байта в UTF-8. Хотя формы записи UTF-8 и UTF-32 позволяют кодировать до 231 (2 147 483 648) кодовых позиций, было решено использовать лишь 1 112 064 для совместимости с UTF-16. 75

Кодирование текста Кодировка UTF-8 Этого более чем достаточно сегодня (в
версии 5.1) используется немногим более 100 000 кодовых позиций. Кодовое пространство разбито на 17 плоскостей по 216 (65 536) символов. Нулевая плоскость называется базовой, в ней расположены символы наиболее употребительных письменностей. Первая плоскость используется, в основном, для исторических письменностей, вторая для редко используемых иероглифов ККЯ1, третья зарезервирована для архаичных китайских иероглифов. Плоскости 15 и 16 выделены для частного употребления. 1ККЯ (CJK) письменности, основанные на китайской (китайская, корейская, японская).

Кодирование текста Управляющие символы Определение Управляющие символы элементы данной кодировки,
которым не приписано графическое представление, но которые используются для управления устройствами, организации передачи данных и других целей. Сейчас для этих целей применяются форматы файлов, языки управления устройствами (Postscript, PCL) и сетевые протоколы. Поэтому многие управляющие символы сейчас или не используются вообще, или используются не по назначению. 77

Кодирование текста Управляющие символы Стандарт POSIX1 требует обязательного наличия лишь
восьми управляющих символов \0, \a, \b, \t, \n, \v, \l, \r. Символы с кодом 0 ÷ 31 используется как управляющие. 1POSIX R (Portable Operating System Interface for UNIX переносимый интерфейс операционных систем UNIX) набор стандартов, описывающих интерфейсы между операционной системой и прикладной программой. Стандарт создан для обеспечения совместимости различных UNIX-подобных операционных систем и переносимости прикладных программ на уровне исходного кода, но может быть использован и для не-UNIX систем. Серия стандартов POSIX была разработана комитетом 1003 IEEE. Международная организация по стандартизации (ISO) совместно c Международной электротехнической комиссией (IEC) приняли данный стандарт (POSIX) под названием ISO/IEC 9945. 78

Регулярные выражения 79

Регулярные выражения Введение В конце XX века регулярные выражения произвели
прорыв в электронной обработке текста. Определение Регулярные выражения (regular expressions, жарг. регэкспы или регексы ) система поиска текстовых фрагментов в электронных документах, основанная на синтаксическом разборе текста и специальной системе записи образцов для поиска. Определение Образец (pattern) задающий правило поиска шаблон (маска). Регулярные выражения являются важной составной частью текстовых редакторов и процессоров, утилит для поиска и изменения текста на основе выбранных правил. 80

Регулярные выражения Введение Многие языки программирования используют их для работы
со строками. Например, Java, Perl, PHP, .NET Framework, JavaScript, Python, Ruby, Tcl имеют встроенную поддержку регулярных выражений. Набор утилит (включая редактор sed и фильтр grep), поставляемых в дистрибутивах UNIX/Linux, одним из первых способствовал популяризации понятия регулярных выражений. Сейчас регулярные выражения поддерживают многие текстовые редакторы и процессоры, редакторы разметки. 81

Регулярные выражения Введение Регулярные выражения представляют собой мощный и очень
гибкий язык описаний для поиска строк по шаблону. С помощью регулярных выражений можно: проверять, соответствует ли вся строка целиком заданному шаблону; находить в строке подстроки, удовлетворяющие заданному шаблону; извлекать из строки подстроки, соответствующие заданному шаблону; изменять в строке подстроки, соответствующие шаблону. 82

Регулярные выражения Синтаксис Любой символ, кроме специальных: \ [ ]
^ $. | ? * + ( ) { } является регулярным выражением себя. Конкатенация регулярных выражений является регулярным выражением. 83

Регулярные выражения Синтаксис Метасимволы: ^ в начале регулярного выражения указывает
на начало строки. $ в конце регулярного выражения указывает на конец строки. . любой символ (кроме обыкновенного newline). [ ] символьный класс, указывает на один из символов, приведённых внутри; Набор символов в квадратных скобках позволяют указать интерпретатору регулярных выражений, что на данном месте в строке может стоять один из перечисленных символов. [^ ] указывает на один из символов, кроме приведённых внутри. 84

Регулярные выражения Синтаксис Группировка Круглые скобки используются для определения области
действия и приоритета операций. Шаблон внутри группы обрабатывается как единое целое и может быть квантифицирован. 85

Регулярные выражения Синтаксис Перечисление | (вертикальная черта) разделяет допустимые варианты.
Пример 3.3 (Перечисление) gray|grey соответствует gray или grey. Следует помнить, что перебор вариантов выполняется слева направо, как они указаны. Если требуется указать перечень вариантов внутри более сложного регулярного выражения, то этот перечень нужно заключить в группу. Пример 3.4 (Перечисление) gr(a|e)y описывает строку gray или grey. В случае с односимвольными альтернативами предпочтителен вариант gr[ae]y, так как сравнение с символьным классом выполняется проще, чем обработка группы с проверкой на все её возможные модификаторы и генерацией обратной связи.

Регулярные выражения Синтаксис \ перед любым символом, кроме цифр и
‘(’ , ‘)’ , означает этот символ. Метасимволы могут быть предварены символом ‘\’ (обратная косая черта) ( экранированы , защищены ) для представления их самих в качестве символов текста. Можно экранировать целую последовательность символов, заключив её между \Q и \E. $x$ (где x регулярное выражение) указывает на x. \d (где d цифра) указывает копию d-того выражения, которое заключалось в скобки ‘$’ и ‘$’. 87

Регулярные выражения Синтаксис \n вставленный newline (новая строка). \b конец
слова. \B не граница слова. \G предыдущий успешный поиск. 88

Регулярные выражения Синтаксис Квантификация Определение Квантификатор множитель повторения, указывается после
символа, символьного класса или группы и определяет, сколько раз предшествующее выражение может встречаться. Квантификатор может относиться более чем к одному символу в регулярном выражении, только если это символьный класс или группа. {n} ровно n; {m,n} от m до n включительно; {m,} не менее m; {,n} не более n; * ноль или более; + одно или более; ? ноль или одно. 89

Регулярные выражения Примеры квантификации Пример 3.5 (Поиск тэгов) <.*> найдёт
весь текст в строке от первой открывающей скобки тэга до закрывающейся скобки последнего тэга ( жадная квантификация это стремление захватить максимально длинную строку, которая соответствует шаблону). Это может оказаться значительной проблемой. Если в тексте есть более одного HTML-тега, то этому выражению соответствует целиком строка, содержащая множество тегов. <.*?> найдёт все тэги в строке ( ленивая квантификация это стремление захватить максимально короткую строку, которая соответствует шаблону). Использование ленивых квантификаторов может повлечь за собой обратную проблему, когда выражению соответствует слишком короткая, в частности, пустая строка. <[^>]*> найдёт все тэги в строке. 90

Регулярные выражения Пример Общей проблемой как жадных, так и ленивых
выражений являются точки возврата для перебора вариантов выражения. Точки ставятся после каждой итерации квантификатора. Если интерпретатор не нашёл соответствия после квантификатора, то он начинает возвращаться по всем установленным точкам, пересчитывая оттуда выражение по-другому. 91

Регулярные выражения Пример Пример 3.6 (Поиск тэгов, ревнивая квантификация) <.*+>
весь не пустой текст в строке от первой открывающей скобки тэга до закрывающейся скобки последнего тэга ( ревнивая (сверхжадная) квантификация ). В отличие от обычной (жадной) квантификации, ревнивая квантификация не только старается найти максимально длинный вариант, но ещё и не позволяет алгоритму возвращаться к предыдущим шагам поиска для того, чтобы найти возможные соответствия для оставшейся части регулярного выражения. Использование ревнивых квантификаторов увеличивает скорость поиска, особенно в тех случаях, когда строка не соответствует регулярному выражению. Кроме того, ревнивые квантификаторы могут быть использованы для исключения нежелательных совпадений. 92

Регулярные выражения Модификаторы Модификаторы действуют с момента вхождения и до
конца регулярного выражения или противоположного модификатора. Некоторые интерпретаторы могут применить модификатор ко всему выражению, а не с момента его вхождения. (?i) включает нечувствительность выражения к регистру символов (от case insensitivity); (?-i) выключает. (?s) включает режим соответствия точки символам переноса строки и возврата каретки; (?-s) выключает. (?m) символы ˆ и $ вызывают соответствие только после и до символов новой строки; (?-m) символы ˆ и $ вызывают соответствие только с началом и концом строки.

Регулярные выражения Модификаторы (?x) включает режим без учёта пробелов между
частями регулярного выражения и позволяет использовать # для комментариев; (?-x) выключает. Несколько модификаторов можно объединять в одну группу. Пример 3.7 (Переключение режимов) (?i-sm) такая группа включает режим i, m и выключает режим s. Если использование модификаторов требуется только в пределах группы, то нужный шаблон указывается внутри группы после модификаторов и двоеточия. Пример 3.8 (Переключение режимов и группировка) (?-i)(?i:tV)set найдёт TVset, но не TVSET. 94

Регулярные выражения Комментарии Для добавления комментариев в регулярное выражение можно
использовать группы-комментарии вида (?#комментарий). Такая группа интерпретатором полностью игнорируется и не проверяется на вхождение в текст. Пример 3.9 (Комментарии) Выражение А(?#тут комментарий)Б соответствует строке АБ.

Регулярные выражения Редактор SED Определение SED неинтерактивный текстовый редактор, предназначенный
для пакетного редактирования файлов. Полезен для: редактирования очень больших файлов; редактирования файлов любой величины, если последовательность комманд редактирования является слишком длинной и сложной и, следовательно, неудобной для выполнения интерактивного редактирования; выполнения множества раз одной и той же функции редактирования. 96

Регулярные выражения Редактор SED SED копирует строку из input (стандартный
или указываемый набор файлов) в pattern space (некоторая область) и к этой строке применяет все команды, адреса которых попадают в pattern space. Затем pattern space копируется в output. Фактически в pattern space находится одна строка, за исключением функции "N". Формат: sed [-n] [-e script] [-f sfile] [files]

Регулярные выражения Редактор SED script набор команд редактирования SED, который
может содержать до 200 команд или до 10000 байт; sﬁle файл со скриптом SED; ﬁles файлы, предназначенные для SED-редактирования; -n указывает, что в output выводятся только те строки, к которым применялась команда p. Флаг -e может быть опущен, если он присутствует один. Команда SED: [address [,address]] function [arguments]

Регулярные выражения Редактор SED Адресация в командах SED С помощью
адресации происходит отбор строк для редактирования. Адрес: десятичный номер строки; $ последняя строка input; регулярное выражение. Если адреса не указаны, то команда применяется ко всем pattern space. 99

Регулярные выражения Редактор SED Если присутствует один адрес, то команда
применяется ко всем тем pattern space, куда попадает этот адрес. Если указаны два адреса, то они ограничивают область применения команды. Для осуществления отбора строк для редактирования в адресах команд SED допускается использование регулярных выражений, заключённых в “/ /”. 100

Регулярные выражения Редактор SED Функции SED В скобках указано максимальное
число адресов. (1) a \text добавить text после указанной строки (вывести), потом считать следующую. (2) b label перейти на метку label, устанавливаемую, с помощью функции ‘:’, если label пуст, то перейти в конец скрипта. (2) c \text удалить pattern space и вывести text на output. (2) d удалить pattern space. (2) D удалить pattern space до вставленной newline. (2) g заместить содержимое pattern space содержимым буфера hold space. (2) G добавить к содержимому pattern space содержимое буфера hold space.

Регулярные выражения Редактор SED (2) h заместить содержимое буфера hold
space на содержимое pattern space. (2) H добавить к содержимому буфера hold space содержимое pattern space. (1) i вывести текст на output перед указанной строкой. (2) n вывести pattern space на output и считать следующую строку. (2) N добавить следующую строку к pattern space, разделяя строки вставленным newline. (2) p скопировать pattern space на output. (2) P скопировать pattern space до первой вставленной newline на output. (1) q переход на конец input. Вывести указанную строку, (если нет флага -n ) и завершить работу SED.

Регулярные выражения Редактор SED (2) r rﬁle читать содердимое rfile
и вывести его на output прежде чтения следующей строки. (2) s функция контекстной замены. (2) t label перейти на метку label, устанавливаемую с помощью функции ‘:’, если для этой строки была осуществлена замена с помощью функции "s". Флаг осуществления замены восстанавливается при чтении следующей строки или при выполнении функции "s". (2) w wﬁle добавить pattern space к концу файла wfile. Максимально можно использовать до 10 открытых файлов. (2) x поменять местами содержимое pattern space и буфера hold space. (2) y /str1/str2/ заменить все вхождения символов из str1 на соответствующие из str2. Длины строк должны быть равными.

Регулярные выражения Редактор SED (2) ! func применять функцию func
(или группу функций в {}) к строкам НЕ попадающим в указанные адреса. (0) : label устанавливает метку label для перехода по "b" и "t" командам. (1) = выводит номер строки на output как строку. (2) {. . . } выполняет функции от ‘{’ до ‘}’, только когда выбрано pattern space (группировка функций). (0) пустая команда (игнороруется). # комментарий. ("#n" в скрипте равносильно установке флага -n) 104

Регулярные выражения Редактор SED Примеры Пример 3.10 (Регулярные выражения в
SED) Печатать первые 7 линий файла: sed 7q Печатать только те строки, которые совпадают с регулярным выражением: sed -n ’/regexp/p’ или sed ’/regexp/!d’ Печать строк, совпадающих с регулярными выражениями AAA, BBB и CCC одновременно (в любой последовательности): sed ’/AAA/!d; /BBB/!d; /CCC/!d’ Печатать абзац, если он содержит AAA или BBB, или CCC (абзацы разделяет пустая строка): sed -e ’/./{H;$!d;}’ -e ’x;/AAA/b’ -e ’/BBB/b’ -e ’/CCC/b’ -e d Печатать строки длиной, равной или большей 65 символов: sed -n ’/^.{65}/p’ 105

Регулярные выражения Редактор SED Пример 3.11 (Регулярные выражения в SED)
Печатать часть файла, начиная от совпадения с регулярным выражением regexp и до конца файла: sed -n ’/regexp/,$p’ Печатать часть файла между regexpA regexpB (включительно, регистро-зависимый): sed -n ’/regexpA/,/regexpB/p’ Перевернуть последовательность строк: sed -n ’1!G;h;$p’ Удалить дубликаты последовательных строк в файле: sed ’$!N; /^$.*$\n\1$/!P; D’ Удалить все пустрые строки из файла: sed ’/^$/d’ или sed ’/./!d’ Получить заголовок и обратный адрес из письма: sed ’/^Reply-To:/q; /^From:/h; /./d;g;q’ 106

Регулярные выражения Редактор SED Функция контекстной замены Формат: s/Регулярное выражение/Замена/флаги
Функция "s" заменяет вхождение Регулярного выражения в pattern space на Замену. Регулярное выражение может быть заключено не в “/ /” а в любые другие символы (не ␣ (пробел) и не newline (\n)). Замена любой набор символов. Используются специальные символы: & заменяется на строку, указанную в регулярном выражении. \d указывает на d-тое выражение (где d цифра), заключённое в “$”, “$” в регулярном выражении.

Регулярные выражения Редактор SED Флаги: g глобальная замена: заменить все
вхождения в строке; p печатать (выводить на output) строки, в которых была осуществлена замена; w wﬁle выводить в файл wfile строки, в которых была осуществлена замена.

Регулярные выражения Редактор SED Пример 3.12 (Замена в SED) Заменить
в каждой строке первое вхождение "to" (если есть), на "by" и изменённые строки сохранить в файле "changes": s/to/by/w changes Добавить скобку и пробел в начало каждой строки (цитирование почтового сообщения): sed ’s/^/> /’ Заменить в строках, где встречается вхождение "iiii", первое вхождение подстроки "oleg" или "Oleg" на "Oleg V. Zhurenkov", изменённые строки выводить на печать: /iiii/s/[Oo]leg/Oleg V. Zhurenkov/p

Регулярные выражения Редактор SED Пример 3.13 (Замена в SED) Заменить
в строке каждое вхождение одного из знаков ‘.’, ‘,’, ‘;’, ‘:’, ‘?’ на "*sign&*", где & будет тем знаком, который стоял прежде (например, ‘.’ на "*sign.*", ‘?’ на "*sign?*" и т. д.: s/[.,;:?]/*sign&*/g Удалить большинство HTML тегов (включая многострочные): sed -e :a -e ’s/<[^>]*>//g;/</N;//ba’ Перевернуть каждую строку в файле задом наперёд: sed ’/\n/!G;s/$.$$.*\n$/&\2\1/;//D;s/.//’ Удалить дубликаты непоследовательных строк в файле: sed -n ’G; s/\n/&&/; /^$[ -~]*\n$.*\n\1/d; s/\n//; h; P’

Языки разметки 111

Языки разметки Понятие разметки Термин разметка (markup) произошёл от словосочетания
marking up (помечание, размечание) из традиционной издательской практики, когда язык разметки выглядел как обычные символические печатные инструкции на полях рукописи. Целые века эта задача была посильна в основном только типографам-печатникам, которых называли разметчик (markup men), они размечали текст для указания гарнитуры шрифта, его стиля и размера, которые необходимо было применить к каждой части текста. Кроме типографов-печатников разметка использовалась редакторами, корректорами, издателями и графическими дизайнерами. 112

Языки разметки Понятие разметки Определение Язык разметки (текста) в компьютерной
терминологии набор символов или последовательностей, вставляемых в текст для передачи информации о его выводе или строении. Язык разметки принадлежит классу компьютерных языков. Текстовый документ, написанный с использованием языка разметки, содержит не только сам текст (как последовательность слов и знаков препинания), но и дополнительную информацию о различных его участках. Например, указание на заголовки, выделения, списки и т. д. В более сложных случаях язык разметки позволяет вставлять в документ нетекстовые данные, интерактивные элементы и содержание других документов. 113

Языки разметки Понятие разметки Идея использовать языки разметки была впервые
высказана издателем Вильямом Тьюнниклиффом (William W. Tunnicliﬀe) на конференции, известной как generic coding , в 1967 г. В 1970-х гг. Тьюнниклифф руководил разработкой стандарта под названием GenCode для издательской индустрии и позже занял пост руководителя небезызвестной ISO (International Organization For Starndartization).

Языки разметки Понятие разметки Однако, отцом языков разметки обычно называют
научного работника IBM Чарльза Голдфарба (Charles Goldfarb). Голдфарб додумался до основной идеи, пока работал на примитивной системе управления документами, предназначенной для адвокатских контор в 1969 г., позже он принимал участие в создании языка IBM GML. Некоторые ранние реализации компьютерных языков разметки можно обнаружить в утилитах обработки текста (например troﬀ, nroﬀ). В этих системах команды форматирования вставляются в текст документа так, что программы обработки текста могут форматировать текст согласно спецификациям редактора.

Языки разметки Логическая и визуальная разметки Различают логическую и визуальную
разметки. В первом случае речь идёт только о том, какую роль играет данный участок документа в его общей структуре (например, данная строка является заголовком ). Во втором определяется, как именно будет отображаться этот элемент (например, данную строку следует отображать жирным шрифтом ). Идея языков разметки состоит в том, что визуальное отображение документа должно автоматически получаться из логической разметки и не зависеть от его непосредственного содержания.

Языки разметки Логическая и визуальная разметки Это упрощает автоматическую обработку
документа и его отображение в различных условиях (например, один и тот же файл может по-разному отображаться на экране компьютера, мобильного телефона и на печати, поскольку свойства этих устройств вывода существенно различаются). Однако это правило часто нарушается: например, создавая документ в редакторе наподобие MS Word, пользователь может выделять заголовки жирным шрифтом, но нигде не указывать, что эта строка является заголовком. Первым языком с чётким и ясным различием между структурой и видом документа был Scribe. Он был создан и описан в докторской диссертации Брайана Рейда (Brian Reid) в 1980 г. Scribe был революционным в количестве способов обработки, не в последнюю очередь из-за введённой идеи стилей, отделённых от собственно текста и грамматики и использованием управляющих описательных элементов.

Языки разметки Логическая и визуальная разметки Scribe оказал влияние на
разработку языка GML (позже SGML), а так же он является прямым предком языков HTML и L A TEX. Языки разметки используются везде, где требуется вывод форматированного текста: в типографии (SGML, TEX, PostScript, PDF); пользовательских интерфейсах компьютеров (Microsoft Office, OpenOffice, LibreOffice, WinEdit, . . . ); WWW (HTML, XHTML, XML, WML, VML, PGML, SVG, MathML). WML (Wireless Markup Language язык беспроводной разметки ) язык разметки документов для использования в сотовых телефонах и других мобильных устройствах по стандарту WAP. 118

Языки разметки Логическая и визуальная разметки VML (Vector Markup Language
язык векторной разметки) разработан фирмой Microsoft для описания векторной графики. VML был представлен W3C в 1998 г. компаниями Microsoft, Macromedia и др. Примерно в то же время Adobe, Sun Microsystems и несколько других компаний подали на рассмотрение документы о языке PGML. Оба эти языка позднее стали основой для SVG. Фрагменты на VML помещаются внутрь веб-страниц, среди обычного HTML-кода, и описывают их графические элементы. VML пока поддерживается лишь немногими программами, среди которых Internet Explorer 5.0+ и Microsoft Oﬃce 2000+. Google Maps использует VML для визуализации векторов на IE. Для написания исходных текстов Википедии, её участники используют особый язык разметки Вики-разметку, а для отображения сложных математических формул язык TEX.

Языки разметки Легковесные языки разметки Определение Языки, предназначенные для простого
и быстрого написания текста в простом текстовом редакторе, называются легковесными языками разметки (lightweight markup language). Особенности таких языков: минимум функций; небольшой набор управляющих команд; легки в освоении; исходный текст на таком языке читается с такой же лёгкостью, как и готовый документ.

Языки разметки Легковесные языки разметки Применяются они там, где человеку
приходится подготавливать текст в обычном текстовом редакторе (блоги, форумы, вики), либо там, где важно, чтобы пользователь с обычным текстовым редактором также мог прочитать текст. Наиболее распространённые легковесные языки разметки: BBCode (Bulletin Board Code) язык разметки, используемый для форматирования сообщений на многих электронных досках объявлений (BBS) и форумах. Для форматирования текста используются теги, подобные тегам HTML, но, в отличие от них, заключённые не в угловые, а в квадратные скобки. Перед отображением страницы движок форума производит разбор текста и преобразование его в HTML- или XHTML-код. 121

Языки разметки Легковесные языки разметки Markdown (маркдаун) язык разметки, созданный
Джоном Грубером (John Gruber) и Аароном Шварцем (Aaron H. Swartz) с целью создания максимально удобочитаемого и удобного в публикации легковесного языка разметки. Многие идеи языка были позаимствованы из существующих соглашений по разметке текста в электронных письмах. Реализации языка Markdown преобразуют текст в формате Markdown в валидный, правильно построенный XHTML и заменяет левые угловые скобки ( < ) и амперсанды ( & ) на соответствующие коды сущностей. Первой реализацией Markdown стала написанная Грубером программа на Perl, однако, спустя некоторое время, появилось множество реализаций от сторонних разработчиков. Реализация на Perl распространяется по лицензии типа BSD. Реализации Markdown на различных языках программирования включены (или доступны в качестве плагина) во многие

Языки разметки Легковесные языки разметки Textile простой язык разметки, позволяющий
пользователям получать код HTML из своего текста. Разработчик Дин Аллен (Dean Allen). Используется в CMS Textpattern и некоторых других. Вики-разметка используется для оформления текста на веб-сайтах и позволяет упростить доступ к возможностям языка HTML. Страницы, оформленные с применением вики-текста, предварительно преобразуются в HTML для просмотра в веб-браузере, преобразование реализует специальное программное обеспечение вики-движок. Различные системы автодокументирования (например, Javadoc, doxygen, docstrip). 123

Языки разметки SGML Идея GML появилась в 1969 г., а
впервые он был представлен в 1973 г. Определение GML (Generalized Markup Language) обобщённый язык разметки. В 1975 г. Голдфарб переехал из Кембриджа, Массачусетс в Силиконовую долину, где стал проектировщиком в IBM Almaden Research Center. Там он убедил управленцев IBM использовать GML в коммерческих целях как часть фирменного средства формирования документов (Document Composition Facility), GML широко использовался в корпорации и за её пределами в течение нескольких лет. Разработка языка SGML неофициально началась в 1978 г. и в конечном итоге привела к созданию стандарта SGML, основанном на GML и GenCode. Голдфарб стал председателем комитета SGML. 124

Языки разметки SGML Определение SGML (Standard Generalized Markup Language) стандартный
обобщённый язык разметки, метаязык, на котором можно определять язык разметки для документов. Иначе говоря, SGML это система определения языков разметки. Авторы размечают свои документы, вводя структурную, представительную и семантическую информацию параллельно с основным содержимым. SGML стандартизован ISO: ISO 8879:1986 Information processing Text and oﬃce systems Standard Generalized Markup Language (SGML) в октябре 1986 года.

Языки разметки SGML Изначально SGML был разработан для совместного использования
машинно-читаемых документов в больших правительственных и аэрокосмических проектах. Он активно использовался в печатной и издательской сфере, но его сложность затруднила его широкое распространение для повседневного использования. Основные части документа SGML: SGML-декларация определяет, какие символы и ограничители могут появляться в документе. SGML декларация определяет самый нижний, лексический уровень SGML-документа: используемый алфавит; спецсимволы; разделители. 126

Языки разметки SGML Document Type Deﬁnition определяет синтаксис конструкций разметки.
DTD может включать дополнительные определения, такие как символьные ссылки-мнемоники. Спецификация семантики также даёт ограничения синтаксиса, которые не могут быть выражены внутри DTD. Содержимое SGML-документа как минимум, должен быть корневой элемент. 127

Языки разметки SGML Пример 3.14 (Пример SGML декларации) <!SGML "ISO
8879:1986" CHARSET BASESET "ISO 646-1983//CHARSET International Reference Version (IRV)//ESC 2/5 4/0" DESCSET 0 9 UNUSED 9 2 9 11 2 UNUSED 13 1 13 14 18 UNUSED 32 95 32 127 1 UNUSED CAPACITY PUBLIC "ISO 8879-1986//CAPACITY Reference//EN" SCOPE DOCUMENT SYNTAX PUBLIC "ISO 8879-1986//SYNTAX Reference//EN" FEATURES MINIMIZE DATATAG NO OMITTAG NO RANK NO SHORTTAG NO LINK SIMPLE NO IMPLICIT NO EXPLICIT NO OTHER CONCUR NO SUBDOC NO FORMAL NO APPINFO NONE > 128

Языки разметки SGML SGML предоставляет множество вариантов синтаксической разметки для
использования различными приложениями. Изменяя SGML-декларацию, можно даже отказаться от использования угловых скобок (хотя этот синтаксис считается стандартным concrete reference syntax). Пример 3.15 (Пример синтаксиса SGML) <FAQ> <Q>Что такое SGML?</Q> <A>Standard Generalized Markup Language</A> </FAQ> HTML и XML произошли от SGML. Приложениями SGML являются также SGML Docbook (документирование) и Z Format (типография и документирование).

Языки разметки XML XML является подмножеством SGML, разработанное для упрощения
процесса машинного разбора документа. Определение XML eXtensible Markup Language (расширяемый язык разметки) рекомендованный W3C язык разметки, представляющий собой свод общих синтаксических правил. XML основан на концепции документов, состоящих из последовательностей сущностей. Каждая сущность включает один или более элементов, каждый элемент может иметь 0 или более атрибутов. Допустимые типы элементов в XML-документе, соотношения между элементами и списком их атрибутов задаются в DTD.

Языки разметки Правила создания XML-документа Регистр символов учитывается. Правильно оформленный
XML-документ состоит из необязательного пролога, элементов и, возможно, эпилога, включающего инструкции по обработке документа и комментарии. В документе должен присутствовать корневой элемент, охватывающий всё содержимое документа и не появляющийся внутри других элементов. Каждый открывающий тэг, имеющий содержание, должен иметь закрывающий тэг. В отличие от HTML, нельзя опускать закрывающие тэги. Для тэгов пустых элементов можно использовать синтаксис <empty />. Вложенность тэгов строго контролируется. Каждый элемент имеет тип, а пустой и открывающий тэги могут иметь атрибуты. Каждый атрибут имеет тип и некоторый набор возможных значений. 131

Языки разметки Правила создания XML-документа Вся информация, располагающаяся между начальным
и конечными тэгами, рассматривается в XML как данные и поэтому учитываются все символы форматирования (т. е. пробелы, переводы строк, табуляции не игнорируются, как в HTML). Все значения атрибутов, используемых в определении тэгов, должны быть заключены в кавычки. Комментариями является любая область данных, заключённая между последовательностями символов “”. Комментарии пропускаются анализатором и поэтому при разборе структуры документа в качестве значащей информации не рассматриваются. В начале документа помещается XML-декларация, в которой указывается версия XML, язык разметки документа, дополнительная информация. В прологе документа (после XML-декларации) 132

Языки разметки Правила создания XML-документа Сама разметка документа может задаваться
как внутри документа, так и во внешних файлах. Пример 3.16 (Декларация типа документа внутри документа) <?xml version="1.0" encoding="windows-1251" standalone="yes"?> <!DOCTYPE simple [<!ELEMENT simple (#PCDATA)>]> Пример 3.17 (Декларация типа документа во внешнем документе) <?xml version="1.0"?> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01//EN"> 133

Языки разметки TEX Определение TEX система компьютерной вёрстки, язык программирования
для подготовки публикаций научных текстов со сложными формулами, разработанная американским профессором информатики Дональдом Кнутом в целях создания компьютерной типографии. Название произносится как тех (от греч. τ ´ εχνη искусство , мастерство ). Дональд Кнут (Donald E. Knuth) известный математик и программист1. 1Всемирную известность он приобрёл после публикации монографии Искусство программирования .

Языки разметки TEX TEX содержит средства для секционирования документов, для
работы с перекрёстными ссылками, управления шрифтами, и т. д. Многие считают TEX лучшим языком для набора сложных математических формул. В частности, из-за этих возможностей, TEX популярен в академических кругах, особенно среди математиков и физиков. 135

Языки разметки Обзор издательских систем (ИС) Системы визуального проектирования WYSIWYG
(What You See Is What You Get): QuarkXpress; PageMaker, FrameMaker, InDesign (Adobe); Corel Word Perfect, Corel Draw (Corel); Scribus; TeXmacs, LyX; . . . MS Word не является ИС! ИС от Microsoft MS Oﬃce Publisher. Однако многие издательства принимают небольшие статьи в формате RTF (формата doc не существует). Для обмена используется XML или файлы формата RTF. Определение RTF (Rich Text Format, формат обогащённого текста ) свободный межплатформенный формат хранения размеченных текстовых документов, предложенный Microsoft и др.

Языки разметки Обзор издательских систем (ИС) Первая версия стандарта RTF
появилась в 1987 г., с тех пор спецификация формата несколько раз изменялась, поэтому имеет место несовместимость rtf-файлов разных форматов. RTF-документы поддерживаются большинством современных текстовых редакторов (под Microsoft Windows это, как правило, осуществляется с помощью стандартных библиотек, входящих в состав операционной системы). Доступность издательского ПО с функцией WYSIWYG вытеснила большинство языков разметки и логического проектирования среди обычных пользователей, хотя серьёзная издательская работа по-прежнему использует разметку для специфических не визуальных структур текста, а WYSIWYG-редакторы сейчас чаще всего сохраняют документы в форматах, основанных на языках разметки. 137

Языки разметки Обзор издательских систем (ИС) Формат ODF Определение OpenDocument
Format, ODF (Open Document Format for Oﬃce Application открытый формат документов для офисных приложений) открытый формат файлов документов для хранения и обмена редактируемыми офисными документами, в том числе текстовыми документами (такими как заметки, отчёты и книги), электронными таблицами, рисунками, базами данных, презентациями. Стандарт был разработан индустриальным сообществом OASIS и основан на XML-формате, принят как международный стандарт ISO/IEC 26300 1 мая 2006 года.

Языки разметки Обзор издательских систем (ИС) Стандарт был совместно и
публично разработан различными организациями, доступен для всех и может быть использован без ограничений. OpenDocument представляет собой альтернативу частным закрытым форматам (включая Word (.doc), Excel (.xls) и PowerPoint (.ppt) форматы, используемые в Microsoft Oﬃce 97–2003), а также формату Microsoft Oﬃce Open XML. Пользователи, сохраняющие свои данные в открытом формате, таком как OpenDocument, избегают опасности быть загнанными в угол единственным поставщиком, они свободны выбрать другое программное обеспечение, если их сегодняшний поставщик уйдёт с рынка, поднимет цены, изменит своё программное обеспечение или поменяет условия лицензионного соглашения на более строгие. 139

Языки разметки Обзор издательских систем (ИС) OpenDocument является единственным стандартом
для редактируемых офисных документов, утверждённым независимым комитетом по стандартам и реализованным несколькими поставщиками программного обеспечения. OpenDocument может быть использован любым поставщиком ПО, включая, в том числе, поставщиков закрытого программного обеспечения и разработчиков, использующих GNU GPL. Первоначальная версия Microsoft Office 2007 не имела поддержки OpenDocument. Microsoft Office 2007 поддерживает формат OpenDocument, начиная с SP2. Однако поддержка этого формата в Microsoft Office далека от совершенства, в частности, говорится об отсутствии поддержки зашифрованных документов и о сохранении формул не в том формате, в каком это делают другие программы, поддерживающие OpenDocument.

Языки разметки Обзор издательских систем (ИС) 7 февраля 2007 г.
Sun Microsystems, основоположник разработки пакета OpenOffice.org, выпустила свободнораспространяемое расширение для Microsoft Office, позволяющее производить чтение и запись формата ODF Sun ODF Plugin for Microsoft Office. Microsoft финансирует свободный проект плагина для Microsoft Office для пакетного преобразования документов, ODF Converter, под BSD-like лицензией на SourceForge.net. 2 февраля 2007 года была выпущена версия 1.0 плагина к Word версий 10–12 (XP-2007) на 5 языках (не включая русский). В планах проекта был выпуск плагинов для Excel и PowerPoint к ноябрю 2007 года. 21 мая 2008 года Microsoft объявила о будущей поддержке ODF в Microsoft Office 2007, которая и была реализована в Service Pack 2. Европейская комиссия назначила расследование с целью разобраться, приведёт ли это к лучшей совместимости и более широкому выбору для пользователя.

Языки разметки Обзор издательских систем (ИС) 19 апреля 2010 года
компания Oracle, к которой после покупки ею компании Sun Microsystems, разработчика плагина поддержки ODF для Microsoft Office, перешли все права на него, закрыла свободный доступ к плагину. Помимо Microsoft Office, формат OpenDocument (в частности, .odt) поддерживает (наряду с форматом Office Open XML, разработанным Microsoft) редактор WordPad, входящий в состав Windows 7. 142

Языки разметки Обзор издательских систем (ИС) Реализации ODF: Apache OpenOffice
(бывш. StarOffice, OpenOffice.org, Oracle Open Office), LibreOffice; IBM Lotus Symphony; IBM Productivity Tools (в составе IBM Lotus Notes); KOffice; AbiWord; Scribus; Textmaker; Visioo Writer; ODFReader; NeoOffice; Google Docs, бывший Writely; AjaxWrite; Zoho Writer; КП ОФИС; Википедия:Книги. 143

Языки разметки Обзор издательских систем (ИС) По оценкам организации The
Document Foundation, курирующей разработку LibreOﬃce, этот офисный пакет применяют примерно 20–30 млн. пользователей GNU/Linux и еще 30 40 млн. пользователей Windows. LibreOﬃce сегодня поставляется в составе большинства основных дистрибутивов GNU/Linux. 144

Языки разметки Обзор издательских систем (ИС) ODF в государственных стандартах:
Россия (ГОСТ Р ИСО/МЭК 26300-2010. Введён в действие с 1 июня 2011 года); Дания (с января 2010 года); Швеция (госстандарт SS-ISO/IEC 26300:2008 с августа 2008 года); Италия; Корея; Хорватия; ЮАР; Бразилия (с апреля 2008 года); Венесуэла (с октября 2008 года). 145

Языки разметки Обзор издательских систем (ИС) ODF активно применяется в
странах и организациях: Аргентина (обязателен для правительства с сентября 2007 года); Норвегия (обязательный с 2009 года); Уругвай (рекомендуется с июня 2008 года); Бельгия; Германия; Малайзия; Нидерланды; Финляндия; Штат Массачусетс в США; Штат Уттар-Прадеш в Индии (веб-сайт верховного суда Allahabad High Court); NATO. 146

Языки разметки Обзор издательских систем (ИС) Системы логического проектирования WYSIWYM
(What You See Is What You Mean), основанные на текстовом процессоре TEX: PlainTEX; L A TEX, SLiTEX, AMS-TEX, L A TEX2ε, L A TEX3, ConTEXt, Omega; fpTEX, teTEX, TEXLive; emTEX (MS DOS, OS/2); MiKTEX (Windows); ozTEX (Apple/Macintosh); pcTEX (Y&Y Inc.); Scientiﬁc Word (TCI Software Research Inc.); Personal TEX; TrueTEX; . . . 147

Языки разметки L A TEX В начале 80-х гг. Лесли
Лампортом (Leslie Lamport) была разработана издательская система на базе TEX а, названная им L A TEX. . . Преимущества ИС L A TEX2ε: соответствие стандарту SGML; полное разделение содержания документа с его оформлением благодаря концепции общей разметки (основываясь на опыте профессиональных типографских дизайнеров); совершенное полиграфическое качество; большое количество выходных форматов; полная совместимость для разных платформ; Свободное распространение. 148

Языки разметки Команды в L A TEX 2ε Исходный TEXовский
файл является обычным текстовым файлом, содержащим, кроме текста, управляющие команды. Самая первая команда в исходном файле \documentclass{класс} определение класса документа. Сам текст документа должен быть написан между двумя командами: Пример 3.18 (Тело документа в L A TEX2ε) \begin{document} . . . \end{document} Подобные команды называются окружениями (environment), или процедурами. В исходном файле можно комментировать строки знаком ‘%’. , закомментированные строки не компилируются. Строго говоря, команды можно разделить на логосы, декларации, собственно команды и окружения. 149

Языки разметки L A TEX 2ε Преамбула вводная часть исходного
файла, предшествующая самому документу. \documentclass[опции]{класс}[дата] определяет класс документа, опции дополнительные параметры, дата указывает дату выпуска наиболее старой версии класса, пригодного для компиляции (записывается в формате гггг/мм/дд). \usepackage[опции]{пакет}[дата] подключает дополнительные пакеты. 150

Языки разметки L A TEX 2ε Пример 3.19 (Простая статья
в L A TEX2ε) \documentclass[a4paper,10pt]{article} \usepackage[cp1251]{inputenc} \usepackage[russian]{babel} \title{Пример статьи} \author{Журенков О. В.} \begin{document} \maketitle \begin{abstract} Очень простой пример \end{abstract} \section{Первый раздел} Какой-то текст. \end{document}

Дополнительная литература I Мельников, В. П. Информационные технологии [Текст] /
В. П. Мельников. М.: Академия, 2009. 432 с. 2000 экз. ISBN 978-5-7695-6646-2. Левин, В. И. История информационных технологий [Текст] / В. И. Левин. М.: Интерент-Университет Информационных Технологий; БИНОМ. Лаборатория знаний, 2007. 336 с. (Основы информационных технологий.) ISBN 978-5-94774-677-8. 152

Дополнительная литература II Гойвертс, Я. Регулярные выражения. Сборник рецептов [Текст]
/ Я. Гойвертс, С. Левитан. СПб.: Символ-Плюс, 2009. 608 с. ISBN 978-5-93286-181-3. Основы работы в OpenOﬃce [Электронный ресурс] / T. Astleitner, R. Barnes, A. Belzunce и др. [Б. м.]: Интернет-университет информационных технологий ИНТУИТ.ру, 2007. Режим доступа: http: //www.intuit.ru/department/office/openofficebasics. Грэтцер, Г. Первые шаги в L A TEX’е [Текст] / Г. Грэтцер. М.: Мир, 2000. 172 с. 153

Дополнительная литература III Котельников, И. А. L A TEX по
русски [Текст] / И. А. Котельников, П. З. Чеботаев. 3-е, переработанное и дополненное изд. Новосибирск: Сибирский хронограф, 2004. 496 с. ISBN 5-87550-195-2. на обложке: Настольная издательская система L A TEX по русски . Гуссенс, М. Путеводитель по пакету L A TEX и его расширению L A TEX2ε[Текст]: [Пер. с англ.] / М. Гуссенс, Ф. Миттельбах, А. Самарин; под ред. И. А. Маховой. М.: Мир, 1999. 606 с. ISBN 5-03-003325-4 (русск.). ISBN 0-201-54199-8 (англ.). РФФИ №97-01-14165. 154

Дополнительная литература IV Гуссенс, М. Путеводитель по пакету L A
TEX и его Web-приложениям [Текст]: [Пер. с англ.] / М. Гуссенс, С. Ратц; под ред. Б. В. Тоботраса. М.: Мир, 2001. 604 с. ISBN 5-03-003387-4. 155

Часть IV Работа с графической информацией

Содержание I 14 Основные понятия История компьютерной графики Основные области
применения Классификация 15 Растровая графика Дополнительные характеристики Цветовые палитры Интенсивность тона Динамический диапазон Гамма-коррекция Альфа-композиция 16 Векторная графика Достоинства и недостатки 17 Фрактальная графика 18 Трёхмерная графика Рендеринг Методы визуализации 157

Содержание II Шейдеры Математическая модель Визуализаторы 19 Графические редакторы Выводы
20 Форматы файлов Растровые файлы Алгоритмы сжатия Векторные файлы 21 Конвертеры файлов NetPBM ImageMagick 22 Редакторы научной графики GNUplot Синтаксис 158

Основные понятия Определение Компьютерная графика (машинная графика) область деятельности, в
которой компьютеры используются в качестве инструмента как для создания изображений, так и для обработки визуальной информации, полученной из реального мира. Также компьютерной графикой называют результат такой деятельности. 159

Основные понятия История компьютерной графики Первые вычислительные машины не имели
отдельных средств для работы с графикой, однако уже использовались для получения и обработки изображений. Программируя память первых ЭВМ, построенную на основе матрицы ламп, можно было получать узоры. В 1961 г. программист Стив Рассел (Stephen "Slug"Russell) возглавил проект по созданию первой компьютерной игры с графикой. Создание игры Spacewar! ( Космическая война ) заняло около 200 человеко-часов. Игра была создана на машине PDP-1.

Основные понятия История компьютерной графики Рис. 4.1: Spacewar! на компьютере
PDP-1 161

Основные понятия История компьютерной графики В начале 1960-х гг. американский
учёный Айвен Сазерленд (Ivan Edward Sutherland) создал программно-аппаратный комплекс Sketchpad, который позволял рисовать точки, линии и окружности на трубке цифровым пером. Поддерживались базовые действия с примитивами: перемещение, копирование и др. По сути, это был первый векторный редактор, реализованный на компьютере. Также программу можно назвать первым графическим интерфейсом, причём она являлась таковой ещё до появления самого термина. В 1960-х гг. появились разработки в промышленных приложениях компьютерной графики. Норман Тейлор (Norman Taylor), Джек Гилмор (Jack Gilmore) и др. из фирмы Itek в 1962 г. разработали цифровую электронную чертёжную машину EDM, основанную на PDP-1. В 1964 г. General Motors совместно с IBM представила систему автоматизированного проектирования DAC-1.

Основные понятия История компьютерной графики В 1968 г. группой под
руководством Н. Н. Константинова была создана компьютерная математическая модель движения кошки. БЭСМ-4, выполняя написанную программу решения дифференциальных уравнений, рисовала мультфильм Кошечка , и это для своего времени было прорывом. Для визуализации использовался алфавитно-цифровой принтер. Рис. 4.2: Кадр мультфильма Кошечка Стремительный прогресс компьютерной графики начался с появлением возможности запоминать изображения и выводить их на компьютерном дисплее (электронно-лучевой трубке).

Основные понятия Основные области применения Разработки в области компьютерной графики
сначала развивались лишь в научных учреждениях. Постепенно компьютерная графика прочно вошла в повседневную жизнь, стало возможным вести коммерчески успешные проекты в этой области.

Основные понятия Основные области применения Основные сферы применения технологий компьютерной
графики: графический интерфейс пользователя; спецэффекты, визуальные эффекты (VFX), цифровая кинематография; компьютерная графика для кино и телевидения; цифровое телевидение, Всемирная паутина, видеоконференции; компьютерные игры, системы виртуальной реальности (например, тренажёры управления самолётом); цифровая фотография и существенно возросшие возможности по обработке фотографий; визуализация научных и деловых данных; системы автоматизированного проектирования; компьютерная томография; лазерная графика. 165

Основные понятия Классификация По способам задания изображений можно выделить категории:
двумерная (2D) графика: растровая; векторная; фрактальная; трёхмерная (3D) графика. Все графические файлы и программы для работы с ними можно разделить на векторные и растровые. Всякое изображение в растровой графике рассматривается как совокупность точек разного цвета. Определение Графическая информация в растровой графике это совокупность данных о цвете каждого пикселя.

Основные понятия Классификация Определение П´ иксель (от picture element или
picture сell) наименьший логический элемент двумерного цифрового изображения в растровой графике. Пиксель представляет собой неделимый объект прямоугольной (обычно квадратной) или круглой формы, обладающий определённым цветом и, возможно, прозрачностью. Растровое компьютерное изображение состоит из пикселей, расположенных по строкам и столбцам. Рис. 4.3: Растровый рисунок с демонстрацией пикселизации (хорошо видны пиксели изображения) 167

Основные понятия Классификация Векторный подход рассматривает изображение как совокупность простых
элементов: отрезков, дуг, эллипсов, прямоугольников и пр., которые называются графическими примитивами. Определение Графическая информация в векторной графике это данные, однозначно определяющие все графические примитивы, составляющие рисунок. Например, кривая на рис. 4.4 задана командой \qbezier(5,5)(15,35)(75,55). s A c B s C ¢ ¢ ¢ ¢ Рис. 4.4: Векторный рисунок, из которого был получен рис. 4.3

Растровая графика Растровые файлы содержат последовательный набор цветовых описаний всех
точек. Для монитора эти точки называются пикселями (pixels), а для принтера и сканера точками (dots), заполняющими холст . ГОСТ 27459-87: Определение Пиксель наименьший элемент поверхности визуализации, которому может быть независимым образом заданы цвет, интенсивность и другие характеристики изображения. В связи с этим разрешения устройств выражают в ppi (pixels per inch) или в dpi (dots per inch). 169

Растровая графика Дополнительные характеристики Определение Зернистость размер пикселя монитора. Определение
Растр изображение, построенное из отдельных элементов (точек), как правило, расположенных регулярно. В большинстве приложений компьютерной графики растровое изображение представляется двумерным массивом пикселей. Рис. 4.5: Фрагмент матрицы ЖК монитора (0,78 × 0,78 мм), увеличенный в 46 раз 170

Растровая графика Дополнительные характеристики Определение Растр в технических устройствах (в
системах отображения графической информации) последовательность строк, возникающая в результате работы системы развёртки (печати). Определение Линиатура плотность растра принтера или сканера, измеряется в lpi (lines per inch), или в линиях-на-сантиметр . Переводной коэффициент 2,54 (150 lpi = 59 л/см). Линиатура параметр, характеризующий растровую структуру количеством линий на единицу длины. Определение Глубина цвета (качество цветопередачи, битность изображения) количество бит для задания любого цвета при кодировании одного пикселя палитры. 171

Растровая графика Цветовые палитры Существует несколько основных цветовых палитр: BW
(чёрно-белая) 1 бит. CGA (4 градации серого) 2 бита. 8-цветная 3 бита. Эту палитру использовали устаревшие персональные компьютеры с TV-выходом. EGA (16-цветная) 4 бита. 256 цветов 8 бит = 1 байт. 8-битные видеорежимы появились вместе с ростом объёмов памяти компьютеров. Основное своё распространение получили с конца 1980-х гг. В середине 1990-х гг., с появлением доступных 1–2-мегабайтных видеоплат, на рабочих столах ОС 8-битные режимы уступили пальму первенства 16-битным. 172

Растровая графика Цветовые палитры В играх они продержались несколько дольше
из-за высокой скорости, например StarCraft (1998) работал в режиме 640 × 480 × 8 и не замедлялся на компьютерах класса Pentium-100 даже в массовых боях. Вышедший в 2000 г. Grand Prix 3 использовал 8-битные режимы в программном рендеринге. Широкое распространение получили лишь некоторые 8-битные палитры. Индексированная ( 256 цветов) 8 бит. Из широкого цветового пространства выбираются любые цвета. Их значения хранятся в специальной таблице палитре. В каждом из пикселей изображения хранится номер цвета в палитре (от 0 до 255). Grayscale (серая) 256 оттенков серого. Однородные палитры 256 оттенков одного цвета. 173

Растровая графика Цветовые палитры RGB , HSB ,. . .
(16 777 216 цветов) 3 байта. Red, Green, Blue аддитивная цветовая модель, как правило описывающая способ синтеза цвета для цветовоспроизведения. Аддитивной она называется потому, что цвета получаются путём добавления (англ. addition) к чёрному. Рис. 4.6: Аддитивное смешение цветов

Растровая графика Цветовые палитры Иначе говоря, если цвет экрана, освещённого
цветным прожектором, обозначается в RGB как (r1, g1, b1), а цвет того же экрана, освещённого другим прожектором, (r2, g2, b2), то при освещении двумя прожекторами цвет экрана будет (r1+r2, g1+g2, b1+b2). Изображение в данной цветовой модели состоит из трёх каналов. При смешении основных цветов (основными цветами считаются красный, зелёный и синий), например синего (B) и красного (R), мы получаем пурпурный (M, magenta), при смешении зелёного (G) и красного (R) жёлтый (Y, yellow), при смешении зелёного (G) и синего (B) циановый (С, cyan). При смешении всех трёх цветовых компонентов мы получаем белый цвет (W). В телевизорах и мониторах применяются три электронные пушки (светодиода, светофильтра) для красного, зелёного и синего каналов.

Растровая графика Цветовые палитры CMYK (4 294 967 296 цветов)
4 байта. Cyan, Magenta, Yellow, blacK субтрактивная схема формирования цвета, используемая прежде всего в полиграфии для стандартной триадной печати. Схема CMYK, как правило, обладает сравнительно небольшим цветовым охватом. Субтрактивный означает вычитаемый из белого вычитаются первичные цвета. Рис. 4.7: Схема субтрактивного синтеза в CMYK 176

Растровая графика Цветовые палитры CIE Lab . а б Рис.
4.8: Плоскость ab, соответствующая L = 25% (а) и L = 75% (б) 177

Растровая графика Цветовые палитры В цветовом пространстве CIE Lab значение
светлоты отделено от значения хроматической составляющей цвета (тон, насыщенность). Светлота задана координатой L (изменяется от 0 до 100, от самого тёмного до самого светлого), хроматическая составляющая двумя полярными координатами a и b. Первая обозначает положение цвета в диапазоне от зелёного до пурпурного, вторая от синего до жёлтого. В отличие от цветовых пространств RGB или CMYK, которые являются, по сути, набором аппаратных данных для воспроизведения цвета на бумаге или на экране монитора (цвет может зависеть от типа печатной машины, марки красок, влажности воздуха в цеху или производителя монитора и его настроек), CIE Lab однозначно определяет цвет.

Растровая графика Цветовые палитры Поэтому CIE Lab нашёл широкое применение
в программном обеспечении для обработки изображений в качестве промежуточного цветового пространства, через которое происходит конвертирование данных между другими цветовыми пространствами (например из RGB сканера в CMYK печатного процесса). При этом особые свойства CIE Lab сделали редактирование в этом пространстве мощным инструментом цветокоррекции. Благодаря характеру определения цвета в CIE Lab появляется возможность отдельно воздействовать на яркость, контраст изображения и на его цвет. Во многих случаях это позволяет ускорить обработку изображений, например, при допечатной подготовке.

Растровая графика Цветовые палитры Lab предоставляет возможность избирательного воздействия на
отдельные цвета в изображении, усиления цветового контраста, незаменимыми являются и возможности, которые это цветовое пространство предоставляет для борьбы с шумом на цифровых фотографиях. Для любой палитры количество всевозможных цветов Nцв. = 2b , где b число бит (глубина цвета), необходимых для кодирования цвета. Размер файла тесно связан с размером холста (в пикселях по вертикали и горизонтали) и с глубиной цвета. Размер растрового графического файла (без сжатия и заголовков): высота × ширина × глубина цвета . 180

Растровая графика Цветовые палитры Пример 4.1 (Размер растрового файла) Рассмотрим
растровой файл размером 10 × 10 и чёрно-белым изображением буквы ‘K’. 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Рис. 4.9: Для кодирования изображения в растровой форме на таком экране требуется 100 бит (1 бит на пик- сель). Представим этот код в виде бито- вой матрицы, в которой строки и столбцы соответствуют строкам и столбцам растровой сетки. Пусть 1 обозначает закрашенный пиксель, а 0 не закрашенный. Тот же рисунок в серой шкале займёт 100 × 8 = 800 бит = 100 б, в RGB-палитре 300 б, в CMYK- палитре 400 б.

Растровая графика Интенсивность тона Определение Интенсивность тона или светлота (lightness)
имеет N = 256 градаций. Большее число не воспринимается. Для этого ячейка растра должна быть 16 × 16 точек. Вообще: N = dpi lpi 2 + 1 или lpi = dpi √ N − 1 . Абсолютно чёрный цвет соответствует 100% заполнению цветом ячейки растра. 182

Растровая графика Интенсивность тона При этом используется разный способ заполнения
ячейки: амплитудная модуляция заполнение от центра (радиусом, соответствующим интенсивности); частотная модуляция периодическое заполнение (с частотой, соответствующей интенсивности); стохастическое растрирование (квазислучайное заполнение) хаотичное заполнение (со средней плотностью, соответствующей интенсивности). Рис. 4.10: Три способа заполнения ячейки растра: амплитудная модуляция, частотная модуляция и квазислучайное заполнение 183

Растровая графика Интенсивность тона При печати полноцветных изображений каждый последующий
растр поворачивается на определённый угол: C голубой 105◦; M пурпурный 75◦; Y жёлтый 90◦; K чёрный 45◦. При этом ячейка растра становится косоугольной, и для воспроизведения 256 градаций на устройстве с линиатурой 150 lpi уже недостаточно разрешения 16 × 150 = 2400 dpi. Для профессиональных фотоэкспонирующих устройств принято минимальное разрешение 2540 dpi (коэффициент поправки ∼ 1,06).

Растровая графика Динамический диапазон Качество воспроизведения тоновых изображений оценивается динамическим
диапазоном D: D = lg 1 ρ , ρ = Jρ J0 ; D = lg 1 σ , σ = Jσ J0 . Здесь J0 падающий световой поток, Jρ отражённый световой поток, ρ коэффициент отражения, Jσ прошедший световой поток, σ коэффициент пропускания. 185

Растровая графика Гамма-коррекция Определение Гамма-коррекция коррекция функции яркости в зависимости
от характеристик устройства вывода. Повышение показателя гамма-коррекции позволяет повысить контрастность, разборчивость тёмных участков изображения, не делая при этом чрезмерно контрастными или яркими светлые детали снимка. Информация о яркости в аналоговом виде в телевидении, а также в цифровом виде, в большинстве распространённых графических форматов хранится в нелинейной шкале. Яркость пикселя I (или яркости составляющих цвета, красной, зелёной и синей по отдельности) на экране монитора можно считать I ∼ V γ, где V численное значение цвета, а γ показатель гамма-коррекции. 186

Растровая графика Гамма-коррекция Примером может служить гамма-коррекция изображения на электронно-лучевых
трубках (ЭЛТ). Значение γ = 1 соответствует идеальному монитору, который имеет линейную зависимость отображения от белого к чёрному. Но таких мониторов не бывает зависимость, в особенности для ЭЛТ, нелинейна. Большее значение γ означает более высокую нелинейность этой зависимости. Стандартное значение γ для стандарта видеоизображений NTSC 2,2. Для дисплеев компьютера значение γ обычно находится в пределах от 1,5 до 2,0.

Растровая графика Альфа-композиция Определение Альфа-композиция обозначает процесс комбинирования изображения с
фоном с целью создания эффекта частичной прозрачности. Этот метод часто применяется для многопроходной обработки изображения по частям с последующей комбинацией этих частей в единое двумерное результирующее изображение. Рис. 4.11: Пример работы альфа-композитных операторов over, in, out, atop и xor

Растровая графика Альфа-композиция Альфа-канал (маска-канал) позволяет объединить переходную прозрачность с
изображением. Формат GIF поддерживает простую бинарную прозрачность (когда любой пиксель может быть либо полностью прозрачным, либо абсолютно непрозрачным). Формат PNG позволяет использовать 254 или 65534 уровня частичной прозрачности. Все три типа PNG изображений ( TrueColor , GrayScale и индексированная палитра) могут содержать альфа-информацию, хотя обычно она применяется лишь с TrueColor изображениями. Вместо того чтобы сохранять три байта для каждого пикселя (красный, зелёный и синий, RGB), сохраняются четыре: красный, зелёный, синий и альфа, таким образом получается палитра RGBA.

Растровая графика Альфа-композиция Такая переходная прозрачность позволяет создавать спецэффекты ,
хорошо выглядящие на любом фоне. Например, эффекта фотовиньетки для портрета можно добиться путём установки полностью непрозрачной центральной области (для лица и плеч), прозрачной остальной обстановки и созданием плавного перехода между двумя этими различными областями. Соответственно, портрет будет плавно осветляться на белом фоне и затемняться на чёрном. Ещё один спецэффект с прозрачностью это отбрасывание тени. 190

Растровая графика Альфа-композиция Прозрачность наиболее важна для маленьких изображений, обычно
используемых на веб-страницах, вроде цветных (круглых) маркеров или причудливого текста. Альфа-композиция позволяет использовать сглаживание (anti-aliasing), создавая иллюзию гладких кривых на сетке прямоугольных пикселей, плавно изменяя их цвета, что позволяет добиться округлых изображений, хорошо отображаемых как на белом, так и на любом другом фоне. Таким образом одно и то же изображение может быть многократно использовано в нескольких местах без призрачного эффекта, свойственного GIF-изображениям. Windows XP поддерживает 32-битные значки (иконки) 24-бита цвета RGB и 8-битный альфа канал. Это позволяет отображать значки со сглаженными (размытыми) краями и тенью, которые сочетаются с любым фоном.

Векторная графика Любое изображение на мониторе, в силу его плоскости,
становится растровым, так как монитор это матрица, он состоит из столбцов и строк. Трёхмерная графика существует лишь в нашем воображении, так как то, что мы видим на мониторе это проекция трёхмерной фигуры, а уже создаём пространство мы сами. Таким образом, визуализация графики бывает только растровая и векторная, а способ визуализации это только растр (набор пикселей), а от количества этих пикселей зависит способ задания изображения. В графических файлах векторного формата содержатся описания графических примитивов, составляющих рисунок. В векторном представлении буква К это три линии (см. пример 4.9). Всякая линия описывается указанием координат её концов, например, line(X1,Y1,X2,Y2). Тогда изображение буквы К можно описать следующим образом: line(4,2,4,8) line(5,5,8,2) line(5,5,8,8). Для цветного изображения, кроме координат, указывается ещё один параметр цвет линии.

Векторная графика Графические файлы векторных форматов содержат информацию о линиях
и областях в виде уравнений кривых разного порядка и различных графических примитивов с указанием необходимых параметров. Положение и форма графических примитивов задаются в системе графических координат, связанных с экраном. Обычно начало координат расположено в верхнем левом углу экрана. Горизонтальная ось X направлена слева направо; вертикальная ось Y сверху вниз. Отрезок прямой линии однозначно определяется указанием координат его концов; окружность координатами центра и радиусом; многоугольник координатами его углов; закрашенная область граничной линией, типами линий и заливки, цветом линии и заливки и пр.

Векторная графика Достоинства и недостатки К достоинствам векторной графики можно
отнести следующие её свойства: изображения в векторных форматах не зависят от разрешения устройства вывода; графические файлы векторного типа имеют относительно небольшие размеры; векторные изображения легко масштабируются без потери качества. Основным недостатком векторной графики является то, что она не позволяет получать изображения фотографического качества. 194

Векторная графика Достоинства и недостатки Замечание: Различие в представлении графической
информации в растровом и векторном форматах существует лишь для графических файлов. При выводе на экран любого изображения в видеопамяти формируется информация растрового типа, содержащая сведения о цвете каждого пикселя. 195

Фрактальная графика Определение Фрактал объект, отдельные элементы которого наследуют свойства
родительских структур. Поскольку более детальное описание элементов меньшего масштаба происходит по простому алгоритму, описать такой объект можно всего лишь несколькими математическими уравнениями. Фракталы позволяют описывать целые классы изображений, для детального описания которых требуется относительно мало памяти. С другой стороны, к изображениям вне этих классов фракталы применимы слабо. 196

Фрактальная графика Рис. 4.12: Фрактальный рисунок 197

Трёхмерная графика Трёхмерная графика оперирует с объектами в трёхмерном пространстве.
Обычно результаты 3D-графики представляют собой плоскую картинку, проекцию. Трёхмерная компьютерная графика широко используется в кино, компьютерных играх. В трёхмерной компьютерной графике все объекты обычно представляются как набор поверхностей или частиц. Определение Минимальную поверхность называют полигоном. В качестве полигона обычно выбирают треугольники. Всеми визуальными преобразованиями в 3D-графике управляют матрицы. В компьютерной графике используется три вида матриц: поворота; сдвига; масштабирования. 198

Трёхмерная графика Любой полигон можно представить в виде набора из
координат его вершин. Так, у треугольника будет 3 вершины. Координаты каждой вершины представляют собой вектор (x, y, z). Умножив вектор на соответствующую матрицу, мы получим новый вектор. Сделав такое преобразование со всеми вершинами полигона, получим новый полигон, а преобразовав все полигоны, получим новый объект, повёрнутый/сдвинутый/масштабированный относительно исходного.

Трёхмерная графика Рендеринг Статические и динамические изображения получаются в проекции
в результате рендеринга. Определение Рендеринг (rendering визуализация) процесс получения изображения по модели с помощью компьютерной программы. Здесь модель это описание любых объектов или явлений на строго определённом языке или в виде структуры данных. Такое описание может содержать геометрические данные, положение точки наблюдателя, информацию об освещении, напряжённость физического поля, степени наличия какого-то вещества и пр. Обычно в компьютерной графике (художественной и технической) под рендерингом понимают создание плоского изображения (картинки) по разработанной 3D-сцене. Изображение это цифровое растровое изображение. Синонимом в данном контексте является визуализация. 200

Трёхмерная графика Рендеринг Визуализация один из наиболее важных разделов в
компьютерной графике, который на практике тесным образом связан с остальными разделами. Существуют встроенные и отдельные программные продукты, выполняющие рендеринг. Обычно программные пакеты трёхмерного моделирования и анимации включают в себя также и функцию рендеринга. В зависимости от цели различают пре-рендеринг как достаточно медленный процесс визуализации, применяющийся в основном при создании видео, и рендеринг в реальном режиме (времени), применяемый в компьютерных играх. Последний часто использует 3D-ускорители. Определение Компьютерная программа, производящая рендеринг, называется рендером (render), или рендерером (renderer). 201

Трёхмерная графика Методы визуализации На текущий момент разработано множество алгоритмов
визуализации. Существующее программное обеспечение может использовать несколько алгоритмов для получения конечного изображения. Трассирование каждого луча света в сцене непрактично и занимает неприемлемо долгое время. Даже трассирование малого количества лучей, достаточного, чтобы получить изображение, занимает чрезмерно много времени, если не применяется аппроксимация (сэмплирование). Вследствие этого было разработано четыре группы методов, более эффективных, чем моделирование всех лучей света, освещающих сцену. 1 Растеризация (rasterization) и метод сканирования строк (scanline rendering). Визуализация производится проецированием объектов сцены на экран без рассмотрения эффекта перспективы относительно наблюдателя. 202

Трёхмерная графика Методы визуализации 2 Ray casting. Сцена рассматривается как
наблюдаемая из определённой точки. Из точки наблюдения на объекты сцены направляются лучи, с помощью которых определяется цвет пикселя на двумерном экране. При этом лучи прекращают своё распространение (в отличие от метода обратного трассирования), когда достигают любого объекта сцены либо её фона. Возможно используются какие-то очень простые техники добавления оптических эффектов. Эффект перспективы получается естественным образом в случае, когда бросаемые лучи запускаются под углом, зависящим от положения пикселя на экране и максимального угла обзора камеры. 3 Глобальное освещение (global illumination, radiosity). Использует математику конечных элементов, чтобы симулировать диффузное распространение света от поверхностей и при этом достигать эффектов мягкости освещения. 203

Трёхмерная графика Методы визуализации 4 Трассировка лучей (ray tracing). Из
точки наблюдения на объекты сцены направляются лучи, с помощью которых определяется цвет пикселя на двумерном экране. Но при этом луч не прекращает своё распространение, а разделяется на три компонента луча, каждый из которых вносит свой вклад в цвет пикселя на двумерном экране: отражённый, теневой и преломлённый. Количество таких разделений на компоненты определяет глубину трассирования и влияет на качество и фотореалистичность изображения. Благодаря своим концептуальным особенностям метод позволяет получить фотореалистичные изображения, но при этом он очень ресурсоёмкий, и процесс визуализации занимает значительные периоды времени.

Трёхмерная графика Шейдеры Определение Шейдер (shader) это программа для определения
окончательных параметров объекта или изображения. Она может включать в себя произвольной сложности описание поглощения и рассеяния света, наложения текстуры, отражение и преломление, затенение, смещение поверхности и эффекты пост-обработки. Программируемые шейдеры обладают высокой эффективностью и гибкостью. Сложные с виду поверхности могут быть визуализированы при помощи простых геометрических форм. Например, шейдеры могут быть использованы для рисования поверхности из трёхмерной керамической плитки на абсолютно плоской поверхности. 205

Трёхмерная графика Шейдеры В программных графических движках вся цепочка рендеринга
от определения видимых частей сцены до наложения текстуры писалась разработчиком игры. В эту цепочку можно было включать собственные нестандартные видеоэффекты. Но с появлением видеоакселераторов разработчик оказался ограничен тем набором эффектов, который заложен в аппаратное обеспечение. Вот два примера. Попробуйте нырнуть под воду в Quake 2 на программном и на OpenGL-рендеринге. При всём качестве аппаратно ускоренной картинки, вода там просто синий светофильтр, в то время как в программном есть эффект плеска воды. В Counter-Strike эффект ослепления от светошумовой гранаты на аппаратном рендеринге белая вспышка, на программном белая вспышка и пикселизированный экран. 206

Трёхмерная графика Шейдеры Для того чтобы составлять сложные видеоэффекты из
атомарных операций, и были изобретены шейдеры. Предшественниками шейдеров были процедурная генерация текстур (широко применявшаяся в Unreal для создания анимированных текстур воды и огня) и мультитекстурирование (на нём был основан язык шейдеров, применявшийся в Quake 3). Но и эти механизмы не обеспечивают такой гибкости, как шейдеры. 207

Трёхмерная графика Шейдеры В настоящее время шейдеры делятся на четыре
типа: вершинные; геометрические; параллаксные; фрагментные (пиксельные). Вершинный шейдер оперирует данными, сопоставленными с вершинами многогранников. К таким данным, в частности, относятся координаты вершины в пространстве, текстурные координаты, тангенс-вектор, вектор бинормали, вектор нормали. Вершинный шейдер может быть использован для видового и перспективного преобразования вершин, генерации текстурных координат, расчёта освещения и т. д. 208

Трёхмерная графика Шейдеры Геометрический шейдер, в отличие от вершинного, способен
обработать не только одну вершину, но и целый примитив. Это может быть отрезок (две вершины) и треугольник (три вершины), а при наличии информации о смежных вершинах (adjacency) может быть обработано до шести вершин для треугольного примитива. Кроме того, геометрический шейдер способен генерировать примитивы на лету , не задействуя при этом центральный процессор. Впервые данный шейдер начал использоваться на видеокартах nVidia серии 8. Фрагментный шейдер работает с фрагментами изображения. Под фрагментом изображения в данном случае понимается пиксель, которому поставлен в соответствие некоторый набор атрибутов, таких как цвет, глубина, текстурные координаты. Фрагментный шейдер используется на последней стадии графического конвейера для формирования фрагмента изображения.

Трёхмерная графика Шейдеры Шейдерные языки обычно содержат специальные типы данных,
такие как цвет и нормаль. Поскольку компьютерная графика имеет множество сфер приложения, для удовлетворения различных потребностей рынка было создано большое количество шейдерных языков. Впервые использованные в системе RenderMan компании Pixar, шейдеры получали всё большее распространение со снижением цен на компьютеры. Основное преимущество от использования шейдеров их гибкость, упрощающая и удешевляющая цикл разработки программы и при этом повышающая сложность и достоверность визуализируемых сцен.

Трёхмерная графика Шейдеры Шейдерный язык RenderMan является фактическим стандартом для
профессионального рендеринга. API RenderMan, разработанный Робом Куком (Rob Cook), используется во всех работах студии Pixar и не только. В 2004 г. этот пакет использовали в съёмках тридцати пяти из тридцати девяти фильмов, номинированных на Оскар в категории Лучшие визуальные эффекты . RenderMan также является первым из реализованных шейдерных языков. nVidia Gelato представляет собой оригинальную гибридную систему рендеринга изображений и анимации трёхмерных сцен и объектов, использующую для расчётов центральные процессоры и аппаратные возможности профессиональных видеокарт серии Quadro FX.

Трёхмерная графика Шейдеры Шейдерный язык OpenGL носит название GLSL (The
OpenGL Shading Language). GLSL основан на языке ANSI C. Большинство возможностей языка ANSI C сохранено, к ним добавлены векторные и матричные типы данных, часто применяющиеся при работе с трёхмерной графикой. В контексте GLSL шейдером называется независимо компилируемая единица, написанная на этом языке. Программой называется набор откомпилированных шейдеров, связанных вместе. Низкоуровневый шейдерный язык DirectX (DirectX ASM) по синтаксису сходен с Ассемблером. Существует несколько версий, различающихся по набору команд, а также по требуемому оборудованию, есть разделение на вершинные (vertex) и пиксельные (pixel) шейдеры.

Трёхмерная графика Шейдеры Высокоуровневый шейдерный язык DirectX HLSL (HLSL High
Level Shader Language) является надстройкой над DirectX ASM. По синтаксису сходен с C, позволяет использовать структуры, процедуры и функции. Язык программирования Cg разработан nVidia совместно с Microsoft (такой же по сути язык от Microsoft HLSL, включён в DirectX 9). Cg расшифровывается как C for Graphics . Язык использует схожие с C типы (int, float), а также специальный 16-битный тип с плавающей запятой half, обладает оптимизацией в виде упакованных массивов. Поддерживаются функции и структуры (см. рис. 4.13). Несмотря на то, что язык разработан nVidia, он без проблем работает и с видеокартами ATI. Следует учесть, что все шейдерные программы обладают своими особенностями, которые следует получить от разработчика. 213

Трёхмерная графика Шейдеры Рис. 4.13: Изображение, отрендеренное в POV-Ray 3.6.
Модель игральной кости создана в Cinema 4D, остальное при помощи Rhinoceros 3D 214

Трёхмерная графика Математическая модель Передовое программное обеспечение обычно совмещает в
себе несколько техник, чтобы получить достаточно качественное и фотореалистичное изображение за приемлемые затраты вычислительных ресурсов. Реализация механизма рендеринга всегда основывается на физической модели. Производимые вычисления относятся к той или иной физической или абстрактной модели. Основные идеи просты для понимания, но сложны для применения. 215

Трёхмерная графика Математическая модель Основное уравнение Ключом к теоретическому обоснованию
моделей рендеринга служит уравнение рендеринга. Оно является наиболее полным формальным описанием части рендеринга, не относящейся к восприятию конечного изображения. Все модели представляют собой какое-то приближённое решение этого уравнения. Lo(x, ω) = Le(x, ω) + Ω fr(x, ω , ω)Li(x, ω )(ω · n)dω , где Lo количество светового излучения, исходящего из определённой точки в определённом направлении; Le собственное излучение; Li приходящее излучение; fr коэффициент отражения.

Трёхмерная графика Математическая модель Иначе говоря, количество светового излучения, исходящего
из определённой точки в определённом направлении, есть собственное излучение и отражённое излучение. Отражённое излучение есть сумма по всем направлениям приходящего излучения, умноженного на коэффициент отражения из данного угла. Объединяя в одном уравнении приходящий свет с исходящим в одной точке, это уравнение составляет описание всего светового потока в заданной системе.

Трёхмерная графика Визуализаторы Определение Визуализаторы (рендереры) программное обеспечение для рендеринга.
Ниже перечислены наиболее распространённые рендереры. 3Delight; AIR; ART; AQSIS; Angel; BMRT (Blue Moon Rendering Tools) (распространение прекращено); Brazil R/S; BusyRay; Entropy (продажи прекращены);

Трёхмерная графика Визуализаторы ﬁnalRender; Fryrender; Gelato (разработка прекращена в связи
с покупкой nVidia, mental ray); Holomatix Renditio (интерактивный raytracer); Indigo Renderer; mental ray; Kerkythea; LuxRender; Maxwell Render; Meridian; 219

Трёхмерная графика Визуализаторы POV-Ray; Pixie; RenderDotC; RenderMan (PhotoRealistic RenderMan, Pixar’s
RenderMan); Sunﬂow; Turtle; V-Ray; YafRay; Octane Render; Arion Renderer. 220

Трёхмерная графика Визуализаторы Рендереры работающие в реальном времени VrayRT; FinalRender;
iray; Shaderlight; Showcase; Rendition; Brazil IR. 221

Трёхмерная графика Визуализаторы Пакеты трёхмерного моделирования, имеющие собственные рендереры Autodesk
3ds Max (Scanline); Autodesk Maya (Software Hardware, Vector); Blender; NewTek LightWave 3D; Maxon Cinema 4D (Advanced Render); SketchUp; Daz3D Bryce; Luxology Modo; e-on Software Vue; SideFX Houdini; Terragen, Terragen 2. 222

Графические редакторы Для создания и редактирования рисунков на компьютере используются
графические редакторы. Графические редакторы также разделяются на растровые и векторные. Редактирование растровых файлов заключается в изменении значений цветов пикселей с помощью различных инструментов и графических функций (т. н. фильтров), а также вырезания/копирования/вставки фрагментов растрового изображения. Наиболее известные представители этого семейства программ Adobe Photoshop, Corel Photopaint, GIMP.

Графические редакторы Работа в векторных редакторах напоминает работу с конструктором:
в любое время можно внести изменения в рисунок, изменив свойства объектов, добавив или удалив объект. Наиболее известные представители данного класса ПО Corel Draw, Adobe llustrator, Adobe InDesign, Inkscape, sK1, Adobe Flash, f4l. 3D редакторы тоже векторные. Наибольшую известность получили такие редакторы, как Maya, 3ds Max, Bryce, Blender.

Графические редакторы Выводы Рисовать сложные графические изображения, особенно когда не
известно разрешение окончательного устройства вывода, удобнее в векторном редакторе. Размер такого файла, как правило, в несколько раз меньше растрового. Обрабатывать полноцветные рисунки, редактировать фотоизображения (с уже заданными размерами и разрешением) лучше в редакторе растровой графики.

Форматы файлов 226

Форматы файлов Растровые файлы BMP (Windows Bitmap, .bmp) формат Microsoft
Windows. PCX (.pcx) формат Z-Soft, имеет алгоритм сжатия без потерь, оптимизированный для BW-файлов. TIFF (Tagged Image File Format, .tif, .tiff) наилучший формат хранения растровых изображений, поддерживает различные цветовые схемы, алгоритм сжатия без потерь LZW и алгоритм сжатия с потерями JPEG. Поддерживается почти всеми издательскими и графическими пакетами. RAW (.raw) простой формат растровых изображений глубиной цвета 256, в котором каждый пиксель представляется одним байтом (или символом). 227

Форматы файлов Растровые файлы GIF(87) (Graphics Interchange Format, .gif) выходной
формат растровых изображений (рисованного типа) для электронных публикаций, поддерживается почти всеми издательскими и графическими пакетами, сжатие достигается за счёт индексации цветов (до 256). GIF(89a) (Graphics Interchange Format, .gif) появилась возможность чересстрочной загрузки, задания прозрачного цвета и покадровой анимации. PhotoCD (.pcd) формат Kodak, имеет 5 фиксированных уровней разрешения: Base (512 × 768), Base/4, Base × 4, Base/16, Base × 16; имеет алгоритм сжатия с потерями.

Форматы файлов Растровые файлы JPEG (Joint Photographic Experts Group, .jpeg,
.jpg, .jpe, .jfif) выходной формат растровых изображений (фотографического типа) для электронных публикаций, поддерживается почти всеми издательскими и графическими пакетами, имеет мощный регулируемый алгоритм сжатия с потерями, возможность чересстрочной загрузки. Поддерживается сжатие цветных (24 бит) и серых изображений. При сохранении можно указать степень качества (степень сжатия), которую обычно задают в некоторых условных единицах (например, от 1 до 100 или от 1 до 10). Большее число соответствует лучшему качеству, но при этом увеличивается размер файла. Чаще всего разница в качестве между 90% и 100% на глаз уже практически не воспринимается.

Форматы файлов Растровые файлы При сжатии изображение переводится в цветовую
систему YCbCr (YUV) (подробнее см. на стр. 367, 381). Далее каналы изображения Cb и Cr, отвечающие за цвет, уменьшаются в 2 раза (по линейному масштабу) формат 2:1:1. Уже на этом этапе необходимо хранить только четверть информации о цвете изображения. Реже используется уменьшение цветовой информации в 4 раза (4:1:1) или сохранение размеров цветовых каналов как есть (1:1:1). Количество программ, которые поддерживают сохранение в таком виде, относительно невелико. Далее цветовые каналы изображения, включая чёрно-белый канал Y, разбиваются на блоки 8 × 8 пикселей. Каждый блок подвергается дискретно-косинусному преобразованию. Полученные коэффициенты подвергаются квантованию и упаковываются с помощью кодов Хаффмана.

Форматы файлов Растровые файлы Матрица, используемая для квантования коэффициентов, хранится
вместе с изображением. Обычно она строится так, что высокочастотные коэффициенты подвергаются более сильному квантованию, чем низкочастотные. Это приводит к огрублению мелких деталей на изображении. Чем выше степень сжатия, тем более сильному квантованию подвергаются все коэффициенты. 231

Форматы файлов Растровые файлы Определение Progressive JPEG способ записи сжатого
изображения, при котором старшие (низкочастотные) коэффициенты находятся в начале файла. Это позволяет получить уменьшенное изображение при загрузке лишь небольшой части файла и повышать детализацию изображения по мере загрузки оставшейся части. Поэтому Progressive JPEG получил широкое распространение в Интернете. Демонстрация различной степени сжатия представлена на рис. 4.14.

Рис. 4.14: Фотография заката в формате JPEG с уменьшением 233

Форматы файлов Растровые файлы В целом алгоритм основан на дискретном
косинусоидальном преобразовании (ДКП), которое является разновидностью дискретного преобразования Фурье, применяемом к матрице изображения для получения некоторой новой матрицы коэффициентов. Для получения исходного изображения применяется обратное преобразование. ДКП раскладывает изображение по амплитудам некоторых частот. Таким образом, при преобразовании мы получаем матрицу, в которой многие коэффициенты либо близки, либо равны нулю. Кроме того, благодаря несовершенству человеческого зрения можно аппроксимировать коэффициенты более грубо без заметной потери качества изображения. Для этого используется квантование коэффициентов. В самом простом случае это арифметический побитовый сдвиг вправо. При этом преобразовании теряется часть информации, но могут достигаться большие коэффициенты сжатия.

Форматы файлов Растровые файлы Процесс сжатия по схеме JPEG включает
ряд этапов: преобразование изображения в оптимальное цветовое пространство; субдискретизация компонентов цветности усреднением групп пикселей; применение дискретных косинусных преобразований для уменьшения избыточности данных изображения; квантование каждого блока коэффициентов ДКП с применением весовых функций, оптимизированных с учётом визуального восприятия человеком; кодирование результирующих коэффициентов (данных изображения) с применением алгоритма группового кодирования и алгоритма Хаффмана для удаления избыточности информации. 235

Форматы файлов Растровые файлы JPEG 2000 (.jp2) графический формат, который
вместо дискретного косинусного преобразования, характерного для JPEG, использует технологию вейвлет-преобразования, основывающуюся на представлении сигнала в виде суперпозиции некоторых базовых функций волновых пакетов. Изображения JPEG 2000 по сравнению с JPEG более гладкие и чёткие, а размер файла при одинаковом качестве уменьшается ещё на 30%. JPEG 2000 полностью свободен от главного недостатка своего предшественника: благодаря использованию вейвлетов, изображения в этом формате не содержат знаменитой решётки из блоков по 8 пикселей. Новый формат также, как и JPEG, поддерживает так называемое прогрессивное сжатие , позволяющее по мере загрузки видеть сначала размытое, но затем всё более чёткое изображение.

Форматы файлов Растровые файлы JPEG 2000 во многом сходен с
форматом сжатия изображений ICER, который используется NASA. Компрессор изображений ICER был разработан для сжатия изображений на устройствах, работающих в открытом космосе. Пока этот формат мало распространён и поддерживается не всеми современными браузерами. Среди поддерживающих jp2 браузеров Konqueror, Safari и Mozilla Firefox (через Quicktime). JPEG 2000 не является свободным от патентованных алгоритмов сжатия, но усилиями комитета JPEG достигнуто согласие, что в составе этого формата они могут использоваться бесплатно. Всегда одним из самых больших преимуществ стандартов, выпущенных комитетом JPEG, было то, что они могут быть реализованы в базовой конфигурации без каких-либо лицензионных выплат. Новый стандарт JPEG 2000 был подготовлен с учётом этой возможности, согласие было достигнуто между 20 большими организациями-держателями большинства патентов в области сжатия.

Форматы файлов Растровые файлы Разумеется, неопределённые и скрытые патенты могут
всё ещё представлять опасность. Тем не менее JPEG 2000 стоит рассматривать как более защищённый от притязаний формат, чем JPEG или MP3, для которых подобная работа велась на гораздо более низком уровне. Однако, не обращая внимания на свободность лицензирования патентов, JPEG 2000 всё равно не может соответствовать Debian Free Software Guidelines (тест на свободность программного обеспечения). Это может затруднить адаптацию JPEG 2000 к требованиям веба, так как это исключит свободные веб-браузеры (особо отметим браузеры, основанные на Gecko) и популярные веб-приложения LAMP1. 1LAMP акроним, обозначающий набор (комплекс) серверного программного обеспечения, широко используемый во Всемирной паутине. LAMP назван по первым буквам входящих в его состав компонентов: Linux, Apache, MySQL, PHP 238

Форматы файлов Растровые файлы Артефакты, возникающие при сжатии алгоритмом JPEG
2000, отличаются от артефактов, возникающих при сжатии алгоритмом JPEG присутствуют незначительные искажения на изображениях при высокой степени компрессии (см. рис. 4.15). Часто фотографическое изображение может быть сжато в отношении 1/20 к оригинальному размеру без появления значительных искажений. Рис. 4.15: Артефакты компрессии JPEG 2000 (числа показывают степень сжатия) 239

Форматы файлов Растровые файлы Основные области применения этого стандарта: цифровой
кинематограф; мультимедийные устройства (цифровые камеры, КПК, 3G мобильные телефоны, цифровые факсы, принтеры, сканеры); клиент/серверные взаимодействия (Интернет, базы данных изображений, потоковое видео, видео-серверы); военное (HD-спутниковые изображения, обнаружение движения, распределённые сети и хранилища); медицинские изображения; хранение видео; сенсорные устройства, цифровые устройства/архивы. 240

Форматы файлов Растровые файлы Основные преимущества JPEG 2000 по сравнению
с JPEG: Большая степень сжатия: на высоких битрейтах, где артефакты незначительны, JPEG 2000 имеет степень сжатия в среднем на 20% больше, чем JPEG (см. рис. 4.16). На низких битрейтах JPEG 2000 также имеет преимущество над основными режимами JPEG. Большая степень сжатия достигается благодаря использованию дискретного вейвлет-преобразования и более сложного энтропийного кодирования. Масштабируемость фрагментов изображений: JPEG 2000 обеспечивает бесшовное сжатие разных компонентов изображения, с каждым компонентом хранится от 1 до 16 бит на сэмпл. Благодаря разбиению на блоки, можно хранить изображения разных разрешений в одном кодовом потоке. 241

Форматы файлов Растровые файлы Прогрессивное декодирование и масштабируемость отношения сигнал/шум:
JPEG 2000 обеспечивает эффективную организацию кодового потока, которая позволяет просматривать файл с меньшей разрешающей способностью или с меньшим качеством. Сжатие как с потерями, так и без потерь. Сжатие без потерь обеспечивается путём использования обратимого (целочисленного) вейвлет-преобразования. Произвольный доступ к кодовому потоку, также иногда называемый доступом к областям интереса (Region of interest): кодовый поток JPEG 2000 обеспечивает несколько механизмов для поддержки произвольного доступа, также поддерживается несколько степеней разбиения на части (области интереса). 242

Форматы файлов Растровые файлы Устойчивость к ошибкам: JPEG 2000 устойчив
к битовым ошибкам, которые вносятся зашумлёнными каналами связи. Это достигается путём вставки маркеров ресинхронизации, кодирования данных в относительно небольшие независимые блоки и обеспечение механизмов для нахождения и локализации ошибок внутри каждого блока. Возможность последовательной сборки: JPEG 2000 обеспечивает возможность последовательного декодирования и вывода изображения сверху вниз без необходимости буферизации всего изображения. Гибкий формат файла: форматы файлов JP2 и JPX обеспечивают хранение информации о цветовых пространствах, метаданных и информации для согласованного доступа в сетевых приложениях, взаимодействующих с помощью протокола JPEG Part 9 JPIP. 243

Форматы файлов Растровые файлы Рис. 4.16: Сравнение JPEG и JPEG
2000 244

Форматы файлов Растровые файлы PNG (Portable Network Graphics, .png) выходной
формат растровых изображений для электронных публикаций, поддерживается почти всеми издательскими и графическими пакетами. Поддерживаются палитры: серая 16 бит, индексированная 24 бит и полноцветная 48 бит; Z-сжатие без потерь (использует открытый, не запатентованный алгоритм сжатия DEFLATE); двумерная чересстрочная развёртка; прозрачный цвет; возможность гамма-коррекции; опциональная поддержка альфа-канала; возможность расширения формата пользовательскими блоками (на этом основан, в частности, формат APNG). PNG был создан как для улучшения, так и для замены формата GIF графическим форматом, не требующим лицензии для использования, а также, в некоторой степени, для замены значительно более сложного формата TIFF.

Форматы файлов Растровые файлы Днём рождения PNG можно считать 4
января 1995 г., когда Томас Боутелл (Thomas Boutell) предложил в ряде конференций Usenet создать свободный формат, который был бы не хуже GIF. Через три недели после публикации идеи были разработаны четыре версии нового формата. Вначале он имел название PBF (Portable Bitmap Format), а нынешнее имя получил 23 января 1995 г. Уже в декабре того же года спецификация PNG версии 0.92 была рассмотрена консорциумом W3C, а с выходом 1 октября 1996 г. версии 1.0 PNG был рекомендован в качестве полноправного сетевого формата. Хотя формат JPEG 2000 поддерживает сжатие без потерь, он не предназначен для усовершенствования наилучшего формата сжатия без потерь.

Форматы файлов Растровые файлы Формат PNG более эффективен для изображений,
содержащих одноцветные области (при небольшом количестве цветов например, < 1000), и поддерживает специальные функциональные возможности, которых нет у JPEG 2000 (см. рис. 4.17). Рис. 4.17: Визуализация изображения в формате PNG с 8-битным каналом прозрачности ( шахматный фон обычно используется в графических редакторах для обозначения прозрачного фона) Считается, что в текущей реализации стандартов применение PNG более эффективно для сжатия диаграмм, а JPEG 2000 для сжатия фотографических изображений. 247

Форматы файлов Растровые файлы MNG (Multiple-image Network Graphics, .mng) формат
графических файлов для создания анимированных изображений, поддерживает все возможности алгоритмов сжатия PNG и JPEG (в том числе альфа-канал и гамма-коррекцию). Поддерживается в браузере Konqueror, в браузере Mozilla только с 2000 до 2003 г. MNG близко связан с PNG. Когда в 1995 г началась разработка формата PNG, разработчики решили не включать поддержку анимации, так как в то время эта особенность использовалась редко. Тем не менее, началась работа над MNG версией PNG с поддержкой анимации. Первая версия спецификации MNG вышла 31 января 2001 г. В настоящий момент MNG не поддерживается популярными ПО и браузерами. На его смену пришёл формат APNG, который намного проще MNG.

Форматы файлов Растровые файлы APNG (animated PNG, .png) формат изображений,
основанный на формате PNG с возможностью хранения анимации (аналогично GIF). APNG это расширенный формат PNG. Первый кадр PNG анимации хранится как обыкновенный поток PNG. Декодеры, не поддерживающие APNG, просто отобразят этот кадр. Все кадры, кроме первого, хранятся в дополнительных блоках APNG, который хранит информацию о количестве кадров и повторений анимации. Чтобы уменьшить размер, APNG использует промежуточный буфер (спецификация называет его кадровым буфером). Каждый кадр имеет свой режим работы с кадровым буфером: None сохранять кадр в кадровый буфер; Background очищать кадровый буфер; Previous не сохранять кадр в кадровый буфер.

Форматы файлов Растровые файлы Спецификация APNG была разработана Стюартом Парментером
(Stuart Parmenter) и Владимиром Вукичевичем (Vladimir Vuki´ cevi´ c) из Mozilla Corporation (Mozilla Foundation) для хранения элементов интерфейса, таких как анимация загрузки. Mozilla ранее отказалась от MNG (более мощного формата, поддерживающего все возможности APNG) из-за немалого размера MNG-библиотеки; декодер APNG, построенный прямо на библиотеке PNG, был намного меньше. APNG был плохо встречен людьми, сопровождавшими спецификации PNG и MNG, они подчёркивали, что PNG это формат для неподвижных изображений . APNG хранит все кадры, кроме первого, в дополнительных блоках PNG-файла, и работающие с PNG программы будут игнорировать их.

Форматы файлов Растровые файлы В числе возражений невозможно договориться с
сервером о том, что выдавать: PNG или APNG, сложно отличить один от другого, а старая программа даже не предупредит о дополнительных кадрах. Таким образом, в Mozilla повторили ту же ошибку, которую совершили разработчики GIF 15 лет назад. Глен Рэндерс-Пёрсон (Glenn Randers-Pehrson) предложил дать APNG новый MIME-тип (наподобие video/png), но Mozilla отказалась от этих предложений в пользу полной обратной совместимости. 20 апреля 2007 г. группа PNG официально отказалась признать APNG. Были и другие предложения простейшего анимационного формата, основанного на PNG, но не прошли и они. В Mozilla Firefox APNG появился в версии 3 (23 марта 2007 г.). Но поскольку libpng поддерживается всё той же группой PNG, поддержки формата APNG, скорее всего, в ней никогда не будет.

Форматы файлов Растровые файлы Браузер Iceweasel в Debian долго не
поддерживал APNG, но и он в 2011 г. перешёл с официальной библиотеки на модификацию Mozilla. Роль Mozilla в продвижении формата APNG сравнивается с ролью Netscape в продвижении анимационного GIF. APNG используется для слайдшоу во многих форматах цифрового радио. Поддерживается ПО KSquirrel, XnView, ImageJ, Imagine, TweakPNG. Не поддерживается ПО Adobe.

Форматы файлов Растровые файлы Поддержка браузерами: Mozilla Firefox (с 3.0)
а также другое ПО, основанное на Gecko (например, SeaMonkey); Opera (с 9.5) и Opera Mobile; Iceweasel. Не поддерживается: Internet Explorer и его надстройками; Konqueror; браузерами на основе WebKit (например, Safari, Google Chrome, Chromium, Maxthon 3); в связи с переходом на браузерный движок WebKit с Gecko поддержка APNG прекращена в браузерах Flock (с версии 3.0 и выше) и Epiphany (с версии 2.28 и выше). 253

Форматы файлов Растровые файлы WebP (web picture, .webp) формат графических
файлов, обеспечивающий возможность сжатия как с потерями, так и без потерь качества, предложенный компанией Google Inc. в 2010 г. Основан на алгоритме сжатия неподвижных изображений (ключевых кадров) из видеокодека VP8, использует контейнер RIFF (подробнее о сжатии см. на стр. 262). Изображения в формате WebP, сжатые без потери качества, имеют размер на 28% меньший, чем PNG. Изображения в формате WebP с потерей качества имеют размер на 25–34% меньший, чем JPEG при равных значениях параметров. WebP также поддерживает прозрачность (альфа-канал). Форматы WebP и WebM продвигаются в качестве веб-стандартов компанией Google в рамках инициативы по уменьшению мирового интернет-трафика и улучшению качества интернет-технологий. WebP и WebM основаны на кодеке VP8, разработанном компанией On2 Technologies, впоследствии

Форматы файлов Растровые файлы В настоящее время просмотр изображений в
формате WebP поддерживается браузерами Google Chrome (начиная с 9 версии) и Opera (начиная с версии 11.10). Android поддерживает чтение и запись WebP изображений, начиная с версии 4.0. С помощью специальной JavaScript-библиотеки возможно отображение в браузерах, поддерживающих видео в формате WebM, в частности в Firefox 4.0 и более новых. Существует также порт библиотеки libwebp под названием libwebpjs/libwebpas на JavaScript и ActionScript, позволяющий использовать WebP во всех популярных браузерах (поддержка IE6+ осуществляется с помощью дополнительного модуля Adobe Flash).

Форматы файлов Растровые файлы MIFF (Magick Image File Format, .miff)
платформенно независимый формат растровых изображений, состоит из текстового заголовка файла и бинарной части с растром. PAM (NetPBM, .pam) формат растровых изображений в виде 2-мерной целочисленной матрицы, параметры изображения определяются в заголовке файла; для BW палитры используются расширения .pbm, “Grayscale” .pgm, RGB .ppm, абстрактный формат для этих расширений .pnm. 256

Форматы файлов Растровые файлы DjVu (d´ ej` a vu уже
виденное , .djvu, .djv) технология сжатия изображений с потерями, разработанная специально для хранения сканированных документов книг, журналов, рукописей и прочее, где обилие формул, схем, рисунков и рукописных символов делает чрезвычайно трудоёмким их полноценное распознавание. Также является эффективным решением, если необходимо передать все нюансы оформления, например, исторических документов, где важное значение имеет не только содержание, но и цвет и фактура бумаги; дефекты пергамента: трещинки, следы от складывания; исправления, кляксы, отпечатки пальцев; следы, оставленные другими предметами. 257

Форматы файлов Растровые файлы DjVu стал основой для нескольких библиотек
научных книг. Огромное количество книг в этом формате доступно в файлообменных сетях. Формат оптимизирован для передачи по сети таким образом, что страницу можно просматривать ещё до завершения скачивания. DjVu-файл может содержать текстовый (OCR) слой, что позволяет осуществлять полнотекстовый поиск по файлу. Кроме того, DjVu-файл может содержать встроенное интерактивное оглавление и активные ссылки, что позволяет реализовывать удобную навигацию в DjVu-книгах. 258

Форматы файлов Растровые файлы Для сжатия цветных изображений в DjVu
применяется специальная технология, разделяющая исходное изображение на три слоя: передний план, задний план и чёрно-белую (однобитовую) маску. Маска сохраняется с разрешением исходного файла; именно она содержит изображение текста и прочие чёткие детали. Разрешение заднего плана, в котором остаются иллюстрации и текстура страницы, понижается для экономии места. Передний план содержит цветовую информацию о деталях, не попавших в задний план; его разрешение понижается ещё сильнее. Затем задний и передний планы сжимаются с помощью вейвлет-преобразования, а маска алгоритмом JB2. Особенностью алгоритма JB2 является то, что он ищет на странице повторяющиеся символы и сохраняет их изображение только один раз. В многостраничных документах каждые несколько подряд идущих страниц пользуются общим словарём изображений.

Форматы файлов Растровые файлы Для сжатия большинства книг можно обойтись
только двумя цветами. В этом случае используется всего один слой, что позволяет достичь рекордной степени сжатия. В типичной книге с чёрно-белыми иллюстрациями, отсканированной с разрешением 600 dpi, средний размер страницы составляет около 15 Кб, т. е. приблизительно в 100 раз меньше, чем исходный файл. Однако при этом не стоит забывать, что в DjVu используется сжатие данных с потерями. Для особо важных документов, возможно, будет разумнее использовать более надёжные форматы: PNG, JPEG 2000, TIFF и т. п. В общей сложности выигрыш объёма в этом случае составляет 4–10 раз.

Форматы файлов Растровые файлы В основе формата DjVu лежат несколько
технологий, разработанных в AT&T. Это: алгоритм отделения текста от фона на отсканированном изображении; вейвлетный алгоритм сжатия фона IW44; алгоритм сжатия чёрно-белых изображений JB2; универсальный алгоритм сжатия ZP; алгоритм распаковки по запросу ; алгоритм маскировки изображений. 261

Форматы файлов Алгоритмы сжатия Определение Сжатие без потерь (lossless data
compression) метод сжатия информации, при использовании которого закодированная информация может быть восстановлена с точностью до бита. При этом оригинальные данные полностью восстанавливаются из сжатого состояния. Этот тип сжатия принципиально отличается от сжатия данных с потерями. Для каждого из типов цифровой информации, как правило, существуют свои оптимальные алгоритмы сжатия без потерь. Сжатие данных без потерь используется во многих приложениях. Например, оно используется в популярном файловом формате ZIP и UNIX-утилите Gzip. Оно также используется как компонент в сжатии с потерями. 262

Форматы файлов Алгоритмы сжатия Сжатие без потерь используется, когда важна
идентичность сжатых данных оригиналу. Обычный пример исполняемые файлы и исходный код. Некоторые графические файловые форматы (PNG, GIF и др.) используют только сжатие без потерь, тогда как другие (TIFF, JPEG 2000, MNG и др.) могут использовать сжатие как с потерями, так и без. Определение Сжатие с потерями это метод сжатия данных (data compression), когда распакованный файл отличается от оригинального, но достаточно близок для того, чтобы быть полезным каким-то образом. Этот тип сжатия часто используется для сжатия звука или изображений, а также в Интернете, особенно в потоковой передаче данных и телефонии. Эти методы часто называются кодеками.

Форматы файлов Алгоритмы сжатия Определение Кодек (от кодер-декодер) программный модуль,
реализующий упаковку и распаковку звука или видео. Существуют две основные схемы сжатия с потерями: 1 В предсказывающих кодеках предыдущие и/или последующие данные используются для того, чтобы предсказать текущий фрейм. Ошибка между предсказанными данными и реальными вместе с добавочной информацией, необходимой для производства предсказания, затем квантизуется и кодируется. 2 В трансформирующих кодеках берутся фреймы (изображений или звука), разрезаются на небольшие сегменты, трансформируются в новое базисное пространство и производится квантизация. Результат затем сжимается энтропийными методами. 264

Форматы файлов Алгоритмы сжатия В некоторых системах эти две техники
комбинируются путём использования трансформирующих кодеков для сжатия ошибочных сигналов, сгенерированных на стадии предсказания. Преимущество методов сжатия с потерями над методами сжатия без потерь состоит в том, что первые существенно превосходят по степени сжатия, продолжая удовлетворять поставленным требованиям. Распакованный файл может очень сильно отличаться от оригинала на уровне сравнения бит в бит , но практически неотличим для человеческого уха или глаза в большинстве практических применений.

Форматы файлов Алгоритмы сжатия Много методов основано на особенностях строения
органов чувств человека. Психоакустическая модель определяет то, как сильно звук может быть сжат без ухудшения воспринимаемого качества звука. Определение Недостатки, причинённые сжатием с потерями, которые заметны для человеческого уха или глаза, известны как артефакты сжатия.

Форматы файлов Алгоритмы сжатия Звуковые данные, прошедшие сжатие с потерями,
не принимаются судами как вещественные доказательства (и даже не берутся во внимание) по причине того, что информация, прошедшая сжатие, приобретает артефакты сжатия и теряет естественные шумы среды, из которой производилась запись, в связи с чем невозможно установить, подлинная ли запись или синтезированная. Поэтому важные записи рекомендуется производить в форматах импульсно-кодовой модуляции (ИКМ, или Pulse Code Modulation, PCM) (PCM, см. стр. 299) или использовать плёночный диктофон. Фотографии, записанные в формате JPEG, могут быть приняты судом (несмотря на то, что данные прошли сжатие с потерями). Но при этом должен быть предоставлен фотоаппарат, которым они сделаны, или соответствующая фототаблица цветопередачи.

Форматы файлов Векторные файлы WMF (Windows MetaFile, .wmf) формат MS
Windows, цветовая палитра 256 цв, используется в галереях офисных и пр. пакетов. EMF (Microsoft Enhanced MetaFile, .emf) формат MS Windows, цветовая палитра RGB, поддерживается далеко не всеми программами. SVG (Scalable Vector Graphics, .svg) формат, разработанный для внедрения векторной графики в веб-документы, записывается в виде структурированного (XML) текста. 268

Форматы файлов Векторные файлы PS (PostScript, .ps) платформенно независимый переносимый
формат описания страниц фирмы Adobe, используется для описания многостраничных документов. Язык программирования высокого уровня со стековой организацией. Поддерживаются все линейные преобразования. Есть возможность создавать библиотеки цветов, шрифтов, форм, изображений, полутонов и узоров. Для сжатия используются алгоритмы JPEG и LZW. EPS (Encapsulated PostScript, .eps) платформенно независимый переносимый формат описания любых графических изображений в соответствии с соглашениями по структурированию документов в формате PostScript.

Форматы файлов Векторные файлы PDF (Portable Document Format, .pdf) платформенно
независимый переносимый формат описания документов фирмы Adobe, имеет два алгоритма сжатия: ZIP (без потерь) и JPEG (с потерями). 270

Конвертеры файлов 271

Конвертеры файлов NetPBM NetPBM распространяется бесплатно. Автор Джеф Посканзер (Jef
Poskanzer). Использует свой формат PAM для промежуточного хранения растра, понимает множество входных и выходных растровых форматов и PS. Представляет из себя большой набор утилит, несколько динамических библиотек и скриптов на shell и Perl. 272

Конвертеры файлов NetPBM Пример 4.2 (NetPBM: GIF −→ EPS) Для
конвертации GIF-файла в EPS надо использовать утилиты giftopnm и pnmtops: giftopnm file.gif | pnmtops > file.eps Полный синтаксис: giftopnm [–alphaout=alpha-filename,-] [-verbose] [-comments] [-image=N,all] [GIFfile] pnmtops [-scale=s] [-dpi=N[xN]] [-imagewidth=n] [-imageheight=n] [-width=N] [-height=N] [-equalpixels] [-turn|-noturn] [-rle|-runlength] [-flate] [-ascii85] [-nocenter] [-nosetpage] [-level=N] [-psfilter] [-noshowpage] [pnmfile]

Конвертеры файлов ImageMagick ImageMagick свободно распространяемая коллекция утилит для чтения,
записи и редактирования файлов как растровых, так и векторных форматов (более 88 основных форматов!), от ImageMagick Studio, разработчики Джон Кристи John Cristy и Глен Рэндерс-Пёрсон (Glenn Randers-Pehrson). Предыдущий пример: Пример 4.3 (ImageMagick: GIF −→ EPS) convert.exe file.gif file.eps Пример 4.4 (Фрагмент пакетного файла для генерации файлов предпросмотра) for %%f in (*.jpg) do convert -size 120x120 %%f -resize 120x120 +profile "*" thumbnail/%%f Полное описание всех возможностей редактора с большим количеством примеров можно найти на официальном сайте: imagemagick.org.

Редакторы научной графики 275

Редакторы научной графики GNUplot GNUplot управляемая командами интерактивная программа составления
графиков, созданная Томасом Вильямсом (Thomas Williams) и Колином Келли (Colin Kelley). Эта программа распространяется свободно (“as is”), отличается компактностью и мобильностью. Она работает на различных платформах: UNIX/Linux, MS DOS, VMS, Windows и др., а созданные в ней макрофайлы (обычно с расширением .plt) независимы от платформы. 276

GNUplot Синтаксис Программа чувствительна к регистру, имена команд можно сокращать.
В строке может быть любое количество команд, отделяемых ‘;’. Строки заключаются в двойные или одинарные кавычки. Запуск: gnuplot После этого можно писать команды. Запуск в пакетном режиме: gnuplot макрофайл Кроме того, GNUplot можно использовать в конвейере (вместе с другими командами и программами).

GNUplot Синтаксис Выход: quit или exit Помощь help или ?
вывод содержания; help команда вывод справки о команде; help тема вывод справки по указанной теме; show all вывод текущих значений всех переменных. В описаниях команд необязательные аргументы указываются в квадратных скобках (‘[. . . ]’). 278

GNUplot Синтаксис Редактирование командной строки GNUplot поддерживает стиль редактирования EMACS,
а в версиях для MS DOS и WINDOWS клавиши управления курсором. Клавиша Esc очищает командную строку. GNUplot также поддерживает историю команд. Графические устройства GNUplot поддерживает все существующие графические (внешние) устройства. Посмотреть полный список доступных устройств можно с помощью команды set terminal . set terminal устройство [опции] установка в качестве выходного указанное графическое устройство. show terminal выводит установленное графическое устройство. 279

GNUplot Синтаксис Макрофайлы save [functions|variables|set] ’файл’ сохраняет в файле определённые
пользователем функции, переменные, настройки. Имя файла пишется с произвольным расширением. Пример 4.5 (Сохранение файлов в GNUplot) save ’work.gnu’ save functions ’func.dat’ save var ’var.dat’ save set ’options.dat’ 280

GNUplot Синтаксис load ’файл’ считывает файл. cd ’директория’ изменяет текущую
директорию. pwd выводит текущую директорию. Внутри файла возможно применение символов ‘\’ для продолжения строки (ставится в конце строки) и ‘#’ для комментирования строки. 281

GNUplot Синтаксис Построение графиков Двумерный график: plot [диапазон] {функция |
{’файл’ [модификации]}} [axes оси] [title ’заголовок’ | notitle] [with стиль], ... Трёхмерный график: splot [диапазон] {функция | {’файл’ [модификации]}} [axes оси] [title ’заголовок’ | notitle] [with стиль], ... Диапазон задаётся в виде интервала [a:b], первый интервал относится к оси X, второй к оси Y . 282

GNUplot Синтаксис Функция записывается с использованием арифметических знаков и стандартных
функций, кроме того, можно использовать операторы языка C (для возведения в степень используется оператор Фортрана ‘**’). Функции могут быть параметрическими (t,u,v). Пример 4.6 (Функции в GNUplot) plot sin(x) f(x)=sin(x) plot f(x) plot sin(x),cos(x) set param plot sin(t),cos(t+pi/2*3) 283

GNUplot Синтаксис Данные для графиков могут быть записаны в файл.
Файл состоит из данных, записанных в столбцы и разделённых пробелами. Данные делятся на блоки 2-мя пустыми строками. Одна пустая строка обозначает разрыв (при использовании линии). В файле данных также можно комментировать записи символом ‘#’. Данные могут быть записаны в экспоненциальном формате, с использованием символов ‘e’, ‘E’ ‘d’, ‘D’, ‘q’ или ‘Q’. Если записан только один столбец, эти данные принимаются за y, а соответствующие значения x считаются целыми, начиная с 0. Имя файла может отсутствовать (‘’), тогда берётся ранее считанный файл. Если задать имя ‘-’, то данные можно вводить в командной строке, закончив ввод символом ‘e’.

GNUplot Синтаксис В качестве модификаторов могут использоваться следующие параметры: index,
every, thru, using, smooth. Параметр оси используется, чтобы выбрать оси, для которых график должен масштабироваться; этот параметр может принимать одно из четырёх возможных значения: x1y1 естественный масштаб; x2y2 масштабирование по обоим осям; x1y2 масштабирование по оси Y; x2y1 масштабирование по оси X. Опция title задаёт заголовок для каждого набора данных, который записывается в легенде. 285

GNUplot Синтаксис Параметр стиль задаёт стиль линии графика и может
принимать одно из следующих значений: lines, points, linespoints, impulses, dots, steps, fsteps, histeps, errorbars, xerrorbars, yerrorbars, xyerrorbars, boxes, boxerrorbars, boxxyerrorbars, financebars, candlesticks, vector. В качестве модификации стиля можно изменить тип, стиль, толщину линии, тип и размер точек. 286

GNUplot Синтаксис Установки параметров Для установки параметров используется команда set
параметр [опции] . Опции для каждого параметра различны. Часто используются такие параметры, как title заголовок графика; xlabel, ylabel, zlabel подписи по осям. Полный перечень изменяемых параметров можно посмотреть, используя справку. Для вывода значений параметров используется команда show параметр . Для вывода значений всех переменных используется команда show all . 287

Дополнительная литература I Петров, М. Компьютерная графика [Текст] / М.
Петров, В. Молочков. Второе изд. СПб.: Питер, 2006. 816 с.: ил.; 70 × 100/16 мм (170 × 240 мм, увеличенный). ISBN 5-94723-758-X. Алгоритмические основы растровой машинной графики [Текст] / Д. В. Иванов, А. С. Карпов, Кузьмин и др. М.: Интерент-Университет Информационных Технологий; БИНОМ. Лаборатория знаний, 2007. 286 с. (Основы информатики и математики). ISBN 978-5-94774-654-9. 288

Дополнительная литература II Кариев, Ч. А. Масштабируемая векторная графика (Scalable
Vector Graphics) [Электронный ресурс] / Ч. А. Кариев. М.: Интернет-университет информационных технологий ИНТУИТ.ру, 2007. Режим доступа: http://www.intuit.ru/department/graphics/svg/. Царик, С. В. Основы работы с CorelDRAW X3 [Электронный ресурс] / С. В. Царик. М.: Интернет-университет информационных технологий ИНТУИТ.ру, 2008. Режим доступа: http://www.intuit.ru/department/graphics/corelx3/. 289

Дополнительная литература III Платонова, Н. С. Создание информационного буклета в
Adobe Photoshop и Adobe Illustrator [Электронный ресурс] / Н. С. Платонова. М.: Интернет-университет информационных технологий ИНТУИТ.ру, 2009. Режим доступа: http://www.intuit.ru/department/school/adobephill/. Бондаренко, С. В. Основы 3ds Max 2009 [Электронный ресурс] / С. В. Бондаренко, М. Ю. Бондаренко. М.: Интернет-университет информационных технологий ИНТУИТ.ру, 2008. Режим доступа: http: //www.intuit.ru/department/graphics/base3dmax2009/. 290

Дополнительная литература IV Платонова, Н. С. Создание компьютерной анимации в
Adobe Flash CS3 Professional [Электронный ресурс] / Н. С. Платонова. М.: Интернет-университет информационных технологий ИНТУИТ.ру, 2009. Режим доступа: http: //www.intuit.ru/department/school/adobeflashcs3p/. Ватолин, Д. С. Методы сжатия изображений [Электронный ресурс] / Д. С. Ватолин. М.: Интернет-университет информационных технологий ИНТУИТ.ру, 2007. Режим доступа: http: //www.intuit.ru/department/graphics/compression/. 291

Часть V Работа с аудио информацией

Содержание I 23 Основные понятия Уровень аудиосигнала Аналого-цифровое преобразование Динамический
диапазон ПО для работы с аудиоинформацией 24 Форматы аудиофайлов Интерфейс музыкальных инструментов Караоке Звуковые файлы выборок MPEG Vorbis 293

Основные понятия Самые первые компьютеры разрабатывались и применялись для выполнения
сложных математических вычислений. За полувековую историю развития вычислительной техники производительность компьютеров увеличилась в миллионы раз, и при этом в тысячи раз уменьшились их размеры. И хотя по-прежнему любая обработка информации на компьютере сводится в конечном итоге к математическим операциям, вычислительная мощность современной техники позволяет производить цифровую обработку звуковой и визуальной информации, а малые габариты и невысокая стоимость техники (по сравнению с первыми компьютерами) делает её применение действительно массовым. Компьютер способен обрабатывать только цифровые сигналы дискретные во времени и квантованные по уровню.

Основные понятия Любая информация, хранимая и обрабатываемая на компьютере, независимо
от её вида (текст, таблицы, рисунки, музыка и т. п.), преобразовывается для обработки и хранения в двоичный цифровой код. Поэтому аналоговый сигнал подвергается аналого-цифровому преобразованию (АЦП): звуковая (аудио) информация преобразуется в цифровой код. Обрабатывается сигнал (подавление шумов, динамическая обработка, фильтрация, обработка эффектами, монтаж и т. д.) в цифровой форме. Вся дальнейшая работа с такой информацией сводится к различным математическим преобразованиям цифровых данных, и поэтому такая обработка называется цифровой.

Основные понятия Для вывода цифровой записи на акустическую систему, которая
по своей сути является аналоговым элементом, требуется произвести обратное, цифро-аналоговое преобразование (ЦАП). Определение Аналого-цифровой преобразователь (АЦП) устройство, преобразующее входной аналоговый сигнал в дискретный код (цифровой сигнал). Обратное преобразование осуществляется при помощи цифро-аналогового преобразователя (ЦАП).

Основные понятия Уровень аудиосигнала Аудиосигнал является случайным процессом. Его акустические
или электрические характеристики непрерывно изменяются во времени. Графически аудиосигнал можно изобразить в виде совокупности реализаций случайных функций. Если каждая из функций представляет собой изменяющееся во времени звуковое давление pзв.(t) или напряжение Uзв.(t) в течение определённого интервала времени Tнаб., то такие зависимости принято называть графиками изменения мгновенных значений аудиосигнала во времени, или временными диаграммами сигнала.

Основные понятия Уровень аудиосигнала Определение Уровень аудиосигнала характеризует сигнал в
определённый момент и представляет собой выраженную в децибелах выпрямленную и усреднённую за некоторый предшествующий промежуток времени амплитуду ¯ Uзв.(t1)a, отнесённую к некоторой условной величине U0. aЧерта сверху означает операцию усреднения во времени, t1 текущий момент времени. Уровень определяется не только мгновенными значениями аудиосигнала, но и временной зависимостью множителя веса и длительностью памяти измерительного устройства. Поэтому, говоря об уровнях, следует обязательно учитывать временные характеристики приборов, которыми они измерены. 298

Основные понятия Аналого-цифровое преобразование В процессе работы АЦП происходит не
только квантование сигнала по уровню, но и его дискретизация во времени. Сигнал, непрерывно изменяющийся во времени, заменяют рядом отсчётов этого сигнала. Обычно отсчёты сигнала берутся через одинаковые промежутки времени. Таким образом осуществляется импульсно-кодовая модуляция (ИКМ, англ. Pulse Code Modulation, PCM). Не только звук, но и другие виды аналоговых данных (видео, виртуальные миры, данные телеметрии) допускают применение ИКМ.

Основные понятия Аналого-цифровое преобразование Аналоговый сигнал s(t) дискретизируется при помощи
дискретизатора (амплитудно-импульсного элемента, реагирующего на дискретные равноотстоящие значения входного сигнала) в моменты времени t = nT, n = 0, 1, 2, 3, . . . (см. рис. 5.1). Рис. 5.1: Дискретизация сигнала На выходе дискретизатора образуется последовательность выборок s(nT) = s(t)|t=nT . 300

Основные понятия Аналого-цифровое преобразование Если отсчёты получать через слишком большие
интервалы времени, то при дискретизации может произойти потеря информации: важные изменения сигнала могут быть пропущены преобразователем, особенно если они произойдут не в те моменты, когда были взяты отсчёты. Следовательно, отсчёты требуется брать с максимальной частотой. Естественным ограничением является быстродействие преобразователя. Кроме того, чем больше отсчётов приходится в единицу времени, тем больше памяти необходимо для хранения информации.

Основные понятия Аналого-цифровое преобразование Проблема отыскания разумного компромисса между частотой
взятия отсчётов сигнала и расходованием ресурсов трактов преобразования и передачи информации возникла задолго до того, как на свет появились первые звуковые карты. В результате исследований было сформулировано правило, которое в отечественной научно-технической литературе принято называть теоремой Котельникова (в англоязычной литературе теоремой Найквиста-Шеннона или теоремой отсчётов).

Основные понятия Аналого-цифровое преобразование Теорема 5.1 (Котельникова (Найквиста-Шеннона)) Если аналоговый
сигнал s(t) имеет ограниченный спектр, то он может быть восстановлен однозначно и без потерь по своим дискретным отсчётам, взятым с частотой строго большей удвоенной максимальной частоты спектра Fmax: Fд > 2Fmax. Суть теоремы Котельникова можно объяснить следующим образом. Сигнал, представленный последовательностью дискретных отсчётов, можно вновь преобразовать в исходный (непрерывный) вид без потери информации только в том случае, если интервал межу соседними отсчётами не превышает половины периода самого высокочастотного колебания, содержащегося в спектре сигнала.

Основные понятия Аналого-цифровое преобразование Иначе говоря, восстановить без искажений можно
только сигнал, спектр которого ограничен некоторой частотой Fmax. Теоретически все реальные сигналы имеют бесконечные спектры. Чтобы избежать искажений сигнала при его дискретизации, появляющихся по этой причине, сигнал вначале пропускают через фильтр, подавляющий в нем все частоты, которые превышают заданное значение Fmax, и лишь затем производят дискретизацию. Частота Fд, согласно теореме Котельникова, с которой следует брать отсчёты, составляет Fд = 2Fmax

Основные понятия Аналого-цифровое преобразование Частота дискретизации: В стандарте CD 44,1
кГц. Для цифровых аудиомагнитофонов 48 кГц. Звуковые карты, как правило, способны работать в широком диапазоне частот дискретизации. Практически все современные звуковые карты поддерживают 16-битное представление звука с частотой квантования 44,1 и 48 кГц. Более дорогие профессиональные звуковые карты поддерживают 24-битное представление звука с частотой квантования 96 кГц. Чем больше разрядов в устройствах ЦАП и АЦП, тем лучше. Дело в том, что непрерывный (аналоговый) сигнал преобразуется в цифровой с некоторой погрешностью. Эта погрешность тем больше, чем меньше уровней квантования сигнала, т. е. чем дальше отстоят друг от друга допустимые значения квантованного сигнала.

Основные понятия Аналого-цифровое преобразование Число уровней квантования зависит от разрядности
АЦП/ЦАП. Определение Погрешности, возникающие в результате замены аналогового сигнала рядом отсчётов, квантованных по уровню, называют шумом квантования. Определение Уровень шумов квантования ∆ связан с разрядностью АЦП через число уровней квантования N как ∆ = 20 lg(1/N). 306

Основные понятия Аналого-цифровое преобразование Пример 5.2 (Уровень шумов квантования) Для
3-разрядного АЦП (см. рис. 5.4) N = 8, и ∆ = −18 дБ; для 8-разрядного N = 256, ∆ = −48 дБ; для 16-разрядного N = 65 536, ∆ = −96 дБ; для 18-разрядного АЦП N = 262 144, ∆ = −108 дБ; для 20-разрядного АЦП N = 1 648 576, ∆ = −120 дБ. Из примера видно, что с ростом разрядности АЦП уменьшается шум квантования. Приемлемым считается 16-разрядное представление сигнала, являющееся в настоящее время стандартным для воспроизведения звука, записанного в цифровой форме.

Основные понятия Аналого-цифровое преобразование С точки зрения снижения уровня шумов
квантования дальнейшее увеличение разрядности АЦП нецелесообразно, т. к. уровень шумов, возникших по другим причинам (тепловые шумы, а также импульсные помехи, генерируемые элементами схем компьютера и распространяющиеся либо по цепям питания, либо в виде электромагнитных волн), все равно оказывается значительно выше, чем −96 дБ. Обычно шум квантования представляют как разность соответствующих значений реального и квантованного по уровню сигналов (см. рис. 5.2 а–б). Такое представление не совсем верно.

Основные понятия Аналого-цифровое преобразование Рис. 5.2: Квантование сигнала (интерполяция нулевого
порядка) 309

Основные понятия Аналого-цифровое преобразование На рис. 5.2 а на самом
деле цифровой сигнал не показан. Ступенчатая линия это отображение аналогового сигнала, восстановленного из цифрового с использованием интерполяции нулевого порядка. Если из исходного аналогового сигнала вычесть эту ступенчатую линию, то получится очень странная и некрасивая линия (см. рис. 5.2 б). Некоторые считают, что это и есть шум квантования. Но, во-первых, почему нужно заменять цифровой сигнал непрерывными ступеньками, а не наклонными отрезками прямых линий или кривыми? Во-вторых, в действительности мы имеем право сравнивать непрерывные и дискретные сигналы только в моменты, соответствующие дискретным отсчётам. Поэтому и шум квантования следует представлять последовательностью дискретных отсчётов (см. рис. 5.2 в).

Основные понятия Аналого-цифровое преобразование Восстановление аналогового сигнала s(t) по его
дискретному представлению последовательности выборок s(nT) сводится к использованию различных интерполяционных процедур.

Основные понятия Аналого-цифровое преобразование Рис. 5.3: Квантование сигнала (интерполяция первого
порядка)

Основные понятия Аналого-цифровое преобразование Клиппирование Из рис. 5.4 видно, что
в случае превышения сигналом значения самого верхнего уровня квантования ( старшего кванта), а также в случае, когда значение сигнала оказывается меньше нижнего уровня квантования ( младшего кванта), т. е. при ограничении сигнала, возникают искажения. Они могут быть гораздо более заметными по сравнению с шумом квантования. 313

Основные понятия Аналого-цифровое преобразование Рис. 5.4: Квантование сигнала по уровню
и искажения при клиппировании сигнала 314

Основные понятия Аналого-цифровое преобразование Для исключения искажений этого типа динамические
диапазоны сигнала и АЦП должны соответствовать друг другу: значения сигнала должны располагаться между уровнями, соответствующими младшему и старшему квантам. При записи внешних источников звука это достигается с помощью регулировки их уровня, кроме того, применяется сжатие (компрессия) динамического диапазона.

Основные понятия Динамический диапазон Определение Динамический диапазон аудиосигнала это отношение
максимальной звуковой амплитуды к минимальной (Umax/Umin). Динамические диапазоны музыкальных и речевых акустических сигналов разных типов, измеренные с помощью приборов, показания которых соответствуют восприятию уровня громкости на слух (при tизм. = 60), составляют в среднем: 60 дБ для симфонического оркестра; 47 дБ для хора; 35 дБ для эстрадной музыки и солистов-вокалистов; 25 дБ для речи дикторов; 20 дБ для джаз-оркестра. При воспроизведении речи максимальный акустический уровень составляет 80–86 дБ, а при воспроизведении музыки до 90–100 дБ.

Основные понятия Динамический диапазон В звуковых редакторах предусмотрена операция нормализации
амплитуды сигнала. После её применения либо наименьшее значение уровня сигнала станет равным верхнему уровню младшего кванта, либо наибольшее нижнему уровню старшего кванта (на рис. 5.4, соответственно, числа 1 и 6). Таким образом, от ограничения сигнал сверху и снизу будет защищён промежутками шириной в один квант. Разумеется, если при записи уже имело место ограничение амплитуды, то нормализация не избавит сигнал от искажения. Кроме того, операцию нормализации вообще не рекомендуется лишний раз применять при представлении цифрового звука 16-ю и менее битами.

Основные понятия Динамический диапазон Для нормированного сигнала относительная величина максимальной
погрешности квантования равна 1/N, где N число уровней квантования. Этой же величиной, представленной в логарифмических единицах (децибелах), оценивается уровень шумов квантования АЦП звуковой карты.

Основные понятия ПО для работы с аудиоинформацией Самые первые персональные
компьютеры имели лишь возможность вывода на встроенный динамик звукового тона определённой высоты и длительности. Меняя высоту и длительность тона, а также продолжительность пауз между звуками, программисты заставляли компьютер проигрывать несложные мелодии. Однако это не было полноценным воспроизведением звука. Ситуация значительно поменялась в лучшую сторону после разработки технологий качественной оцифровки звуковой информации, используемой для записи звука на компакт-диски. К этому времени компьютеры уже научились воспроизводить звуки не через встроенный динамик, а через подключаемую акустическую стереосистему. При этом качество звука стало соответствовать требованиям самых взыскательных меломанов.

Основные понятия ПО для работы с аудиоинформацией Всю работу пользователя
со звуковыми файлами можно разделить на: воспроизведение (медиаплейеры: Windows Media Player, Power DVD, SMPlayer, Winamp, Aimp, Clementine, amaroK, Rhytmbox, VLC; симуляторы: NemeSys GigaStudio, Propellerhead Software Reason, Rebirth, Bristol); редактирование (аудиоредакторы: Sound Forge, Cool Edit → Adobe Audition, Cakewalk Sonar, Audacity); создание (музыкальные редакторы-секвенсоры: FrootyLoops, BEAST, Hydrogen; MIDI-редакторы: MuseScore, Guitar Pro, TuxGuitar). Воспроизведение звукового файла это наиболее типичный пример его использования. Осуществляется воспроизведение с помощью специальных программ, называемых по аналогии с бытовыми приборами плейерами или проигрывателями . Плейеров существует очень много, и даже в любой настольной операционной системе имеется плейер. 320

Основные понятия ПО для работы с аудиоинформацией При вставке в
дисковод звукового компакт-диска (так же, как и DVD) его воспроизведение начинается автоматически, а пользователь при желании имеет возможность выбирать нужную композицию. Если на компакт-диске находятся записи в формате MPEG, то, как правило, на этих дисках присутствует автоматически запускаемый плейер для их прослушивания. Если же его нет, можно воспользоваться другим проигрывателем. Запись, или создание собственных аудиофайлов, также возможна лишь с применением специальных программ. В ОС Windows включена программа Звукозапись, но её возможности не выдерживают никакой критики.

различными функциями для удобного просмотра фильмов. В последнее время большое
количество фильмов распространяется на дисках DVD. Для их проигрывания необходима установка специализированного плейера, после чего воспроизведение DVD будет также выполняться автоматически при вставке диска в дисковод. 322

Основные понятия ПО для работы с аудиоинформацией Аудиофайлы без всяких
проблем могут копироваться, перемещаться, удаляться, переименовываться. Т. е., работа с ними не отличается от работы с любыми другими файлами. Если же звук записан на аудио компакт-диске, то скопировать его можно только с помощью специальных программ. При таком копировании создаются файлы формата WAV , MP3, Ogg или других распространённых форматов. 323

Форматы аудиофайлов 324

Форматы аудиофайлов Интерфейс музыкальных инструментов MOD (.mod, .nst, .m15) файл,
содержащий музыкальную композицию. В MOD-файле хранятся партитура музыкального произведения и инструменты, которыми она играется. MOD-файл состоит из трёх частей: заголовка, паттернов и сэмплов. В паттернах находится партитура музыкального произведения. Определение Сэмпл (sample) относительно небольшой оцифрованный звуковой фрагмент. Каждый сэмпл представляет собой инструмент. Существует также понятие песня (song) это модуль без сэмплов. 325

Форматы аудиофайлов Интерфейс музыкальных инструментов MIDI (.mid) файл содержит заголовок,
описывающий формат файла и любое число дорожек. Определение MIDI (Musical Instrument Digital Interface цифровой интерфейс музыкальных инструментов) технический стандарт на формат обмена данными между электронными музыкальными инструментами, который описывает протокол, цифровой интерфейс и разъёмы. MIDI представляет собой не оцифрованную запись звука, а специальный набор команд, по которым компьютер сам синтезирует мелодию, имитируя звучание реальных музыкальных инструментов. Данный формат широко использовался в первых мобильных телефонах для различных мелодий звонка. 326

Форматы аудиофайлов Интерфейс музыкальных инструментов Интерфейс позволяет единообразно кодировать в
цифровой форме такие данные, как: нажатие клавиш, настройку громкости и других акустических параметров, выбор тембра, темпа, тональности и др., с точной привязкой во времени. В системе кодировок присутствует множество свободных команд, которые производители, программисты и пользователи могут использовать по своему усмотрению. Поэтому интерфейс MIDI позволяет, помимо исполнения музыки, синхронизировать управление другим оборудованием, например осветительным, пиротехническим и т. п. Одна MIDI ссылка может нести до шестнадцати каналов информации, каждый из которых может быть направлен на отдельное устройство. Последовательность MIDI-команд может быть записана на любой цифровой носитель в виде файла, передана по любым каналам связи. Воспроизводящее устройство или программа называется синтезатором (ом) MIDI и фактически является автоматическим музыкальным инструментом.

Форматы аудиофайлов Караоке MIDI-караоке (.kar) неофициальное расширение MIDI-файлов. К музыке
добавляется текст, который может выводиться при проигрывании с помощью специальной программы (например, Encore, KMid или PyKaraoke), но не влияет на проигрывание обычными MIDI-плейерами. Для файлов в этом формате используется расширение .kar. Для успешного создания караоке желательно, чтобы в этом файле имелся трек с темой (мелодией). 328

Форматы аудиофайлов Караоке UltraStar один из популярных форматов, представляет собой
наборы файлов для программы UltraStar (и совместимых с ней). Главный файл записан в текстовом формате и содержит название, автора, версию, стиль, язык, фон, текст (разбитый на кусочки со своими высотой и продолжительностью) песни, а также имена файлов с обложкой песни и фоном, используемым в процессе пения, и самой композицией. Последнее поле называется MP3 , но могут использоваться и файлы других форматов. 329

Форматы аудиофайлов Караоке EMP (.emp) один из последних караоке форматов
для программы Encore и совместимых с ней. Это файл, включающий в себя фонограмму (как правило, минусовая мелодия с бэк вокалом) и текст песни, синхронизированный по слогам. Данный формат в настоящее время набирает всё больше популярности в караоке клубах. В большинстве случаев в качестве фонограммы используются оригинальные минуса, под которые поют сами певцы.

Форматы аудиофайлов Звуковые файлы выборок Определение Выборка (отсчёт, сэмпл) это
значение, которое подаётся на вход ЦАП или получается из АЦП в результате ИКМ, обычно целое число (8 или 16 бит). Выборка характеризует амплитуду звукового сигнала. Частота выдачи выборки определяется в килогерцах (кГц, kHz), или выборок/секунду. Кроме этого, выборка может идти по одному каналу (моно), двум (стерео) или большему числу каналов (обычно 5 или 7). 331

Форматы аудиофайлов Звуковые файлы выборок Есть несколько распространённых формата файлов
выборок, с расширениями: .wav для формата WAV файла-контейнера от Microsoft, подвида RIFF (см. стр. 411). Этот контейнер как правило используется для хранения несжатого звука в ИКМ. Однако контейнер не налагает каких-либо ограничений на используемый алгоритм кодирования. .voc для формата VOC от Creative Labs, этот формат использовался в звуковых картах Soundblaster. .sam, .raw просто сама выборка, записанная в двоичном виде, вы, должны знать с какой частотой её проиграть. 332

Форматы аудиофайлов Звуковые файлы выборок .txt простой формат текстового представления
ASCII содержит всю необходимую информацию в заголовке: количество сэмплов (отсчётов), разрядность сэмплов, число каналов, частота дискретизации и флаг нормализации. После заголовка следуют сами сэмплы (по одному в строке, если несколько каналов, то сэмплы располагаются в колонках, 1 левый канал, 2 правый), их амплитуда выражена целыми числами в отсутствии нормализации и числами по модулю 1 в случае нормализованных сэмплов. Файл .txt, разумеется, занимает гораздо больше места места, чем бинарные файлы .sam и .raw. 333

Форматы аудиофайлов Звуковые файлы выборок За качество приходилось расплачиваться большим
размером оцифрованной звуковой информации. Для примера, на один компакт-диск ёмкостью 650 МБ можно уместить более 340 тысяч страниц несжатого неформатированного текста, и всего лишь 74 минуты звуковой записи (около 20 песен). К тому же, использование компакт-дисков для хранения музыки имеет и отрицательные стороны. Пользоваться ими невероятно просто: достаточно вставить такой диск в компьютер или CD-плейер, как тут же зазвучит музыка. Но переписать понравившуюся композицию с диска без специального программного обеспечения не удастся, равно как и записать свою сборку песен на компакт-диск. Но даже при наличии такой возможности объём одной песни будет равен примерно 50 МБ, что во времена начала развития цифровой обработки звука было очень ощутимой величиной.

Форматы аудиофайлов Звуковые файлы выборок По этой причине разрабатываются и
постоянно совершенствуются технологии сжатия звука. Для прослушивания любого сжатого аудиофайла необходимо наличие кодека. При отсутствии необходимого кодека в системе воспроизведение сжатого звукового файла будет невозможным. Стоит заметить, что большинство распространённых аудиокодеков (так же, как и видеокодеков)) уже присутствует в операционных системах GNU/Linux.

Форматы аудиофайлов MPEG На сегодняшний день наиболее популярным и распространённым
является формат сжатия MPEG. Данный формат позволяет за счёт удаления практически не воспринимаемых на слух частот и дополнительной компрессии оставшейся информации уменьшать размер звуковых файлов в 10 и более раз практически без потери качества. Стандартная музыкальная композиция в этом формате занимает всего 4–5 МБ, что делает более удобным создание больших коллекций музыки и обмен музыкальными файлами между разными людьми, в том числе с помощью Интернета. Стандарт сжатия MPEG разработан Экспертной группой кинематографии (Moving Picture Experts Group). Определение MPEG это семейство стандартов на сжатие аудио- и видеофайлов. 336

Форматы аудиофайлов MPEG Существуют разные стандарты MPEG (как их ещё
иногда называют фазы): MPEG-1, MPEG-2, MPEG-3, MPEG-4, MPEG-7, MPEG-21. MPEG состоит из трёх частей: Audio, Video, System (для объединения и синхронизации двух первых). По стандарту MPEG-1 потоки видео- и аудиоданных передаются со скоростью 150 килобайт в секунду с такой же скоростью, как и односкоростной CD-ROM проигрыватель и управляются путём выборки ключевых видеокадров и заполнением только областей, изменяющихся между кадрами. MPEG-1 обеспечивает качество видеоизображения более низкое, чем видео, передаваемое по телевизионному стандарту.

Форматы аудиофайлов MPEG MP3 (.mp3) технология сжатия и расширение аудиофайлов
формата MPEG-1 Layer 3. Существуют и другие технологии сжатия, позволяющие уменьшать размеры файлов без потери или с незначительной потерей качества. О характеристике битрейт будет рассказано в разделе 6 на стр. 372.

Форматы аудиофайлов Vorbis Определение Vorbis свободный формат сжатия звука с
потерями, превосходящим по качеству MPEG (MP3). Официально появился летом 2002 г. Психоакустическая модель, используемая в Vorbis, по принципам действия близка к MP3 и подобным, однако математическая обработка и практическая реализация этой модели существенно отличаются, что позволило авторам объявить свой формат совершенно независимым от всех предшественников. Для хранения аудиоданных в формате Vorbis чаще всего применяется медиаконтейнер Ogg, такой файл обычно называется двойным именем Ogg/Vorbis или Ogg Vorbis . Однако Ogg Vorbis называют и сам кодек без контейнера, так как он является частью проекта Ogg. 339

Форматы аудиофайлов Vorbis Ogg (.ogg) открытый стандарт формата мультимедиаконтейнера, являющийся
основным файловым и потоковым форматом для мультимедиакодеков фонда Xiph.Org, а также название проекта, занимающегося разработкой этого формата и кодеков для него. Как и все технологии, разрабатываемые под эгидой Xiph.Org, Ogg является открытым и свободным стандартом, не имеющим патентных или лицензионных ограничений.

Дополнительная литература I Петелин, Р. Музыкальный компьютер. Секреты мастерства [Текст]
/ Р. Петелин, Ю. Петелин. СПб.: БХВ-Петербург; Арлит, 2001. 608 с.: ил.; 70 × 100/16 мм. 5000 экз. ISBN 5-94157-053-8. Заика, А. Цифровой звук и mp3-плееры [Электронный ресурс] / А. Заика. М.: Интернет-университет информационных технологий ИНТУИТ.ру, 2009. Режим доступа: http://www.intuit.ru/studies/courses/511/367/info. 341

Дополнительная литература II Каллахан, И. Практика разработки web-страниц [Электронный ресурс]
/ Ивэн Каллахан. М.: Интернет-университет информационных технологий ИНТУИТ.ру, 2006. Режим доступа: http://www.intuit.ru/studies/courses/120/120/info. Ватолин, Д. С. Методы сжатия изображений [Электронный ресурс] / Д. С. Ватолин. М.: Интернет-университет информационных технологий ИНТУИТ.ру, 2007. Режим доступа: http: //www.intuit.ru/department/graphics/compression/. 342

Часть VI Работа с видеоинформацией

Содержание I 25 Основные понятия 26 Характеристики видеосигнала Частота кадров
Стандарт разложения Соотношение сторон экрана Разрешающая способность Цветовое разрешение Ширина видеопотока (битрейт) 27 Формирование цифрового видеосигнала Компонентное видео Одноматричные системы Трёхматричные системы Уровни видео 28 Форматы цифрового кодирования и сжатия Видеопоток Видеокомпрессия Форматы цифровой видеозаписи

Основные понятия Определение Видео (от лат. video смотрю, вижу) электронная
технология формирования, записи, обработки, передачи, хранения и воспроизведения сигналов изображения, основанная на принципах телевидения, а также аудиовизуальное произведение, записанное на физическом носителе (видеокассете, видеодиске и т. п.). Определение Видеозапись электронная технология записи визуальной информации, представленной в форме видеосигнала или цифрового потока видеоданных, на физический носитель с целью сохранения этой информации и возможности последующего её воспроизведения и отображения на устройстве вывода (монитора, экрана или дисплея).

Основные понятия Основное отличие цифровой видеозаписи от аналоговой видеозаписи в
том, что вместо аналогового видеосигнала записываются цифровые данные. Цифровое видео может распространяться на различных видеоносителях, посредством цифровых видеоинтерфейсов в виде потока данных или файлов. Цифровая обработка видеоинформации во многом похожа на цифровую обработку звука. Современные компьютеры позволяют создавать, хранить, обрабатывать и воспроизводить видеоинформацию очень высокого качества. Конечно, для этого требуются значительная вычислительная мощность и большие объёмы дискового пространства. 346

Характеристики видеосигнала 347

Характеристики видеосигнала Частота кадров Частота кадров (количество кадров в секунду)
это число неподвижных изображений, сменяющих друг друга при показе 1 секунды видеозаписи и создающих эффект движения объектов на экране. Чем больше частота кадров, тем более плавным и естественным будет казаться движение. Минимальный показатель, при котором движение будет восприниматься однородным, примерно 16 кадров в секунду (это значение индивидуально для каждого человека). В кинематографе стандартная частота съёмки и проекции составляет 24 кадра в секунду. Системы телевидения PAL и SECAM используют 25 кадров в секунду (25 fps или 25 Гц), а система NTSC использует 30 кадров в секунду (точнее, 29,97 fps из-за необходимости кратного соответствия частоте поднесущей). Компьютерное видео хорошего качества, как правило, использует частоту 30 кадров в секунду.

Характеристики видеосигнала Частота кадров Верхняя пороговая частота мерцания, воспринимаемая человеческим
мозгом, составляет 39–42 Гц и индивидуальна для каждого человека, а также зависит от условий наблюдения. Некоторые современные профессиональные видеокамеры могут снимать с частотой до 120 кадров в секунду. Специальные камеры снимают с частотой до 1000 кадров в секунду, что необходимо, например, для детального изучения траектории полёта пули или структуры взрыва. Сверхскоростные киносъёмочные аппараты могут снимать несколько миллионов кадров в секунду. В них киноплёнка неподвижна и расположена на внутренней поверхности специального барабана, а изображение развёртывается вращающейся призмой. 349

Характеристики видеосигнала Частота кадров Существует и бескадровое видео. Принцип работы
заключается в следующем: светочувствительные сенсоры с большой частотой передают данные о своём состоянии, которые параллельно записываются на носитель. Отдельных кадров при этом нет только массивы информации с каждого из датчиков (пикселей) об их изменении во времени. При воспроизведении также нет кадров на экране пиксели меняют свой цвет в соответствии с записанными массивами. Если пиксель не менял цвет, то он и не обновляется. Для наилучшего просмотра такого видео требуется специальный монитор. 350

Характеристики видеосигнала Стандарт разложения Определение Стандарт разложения определяет параметры телевизионной
развёртки, применяемой для преобразования двумерного изображения в одномерный видеосигнал или поток данных. В конечном счёте, от стандарта разложения зависит количество элементов изображения и кадровая частота. Развёртка может быть прогрессивной (построчной) или чересстрочной. При прогрессивной развёртке все горизонтальные линии (строки) изображения отображаются поочерёдно одна за другой. 351

Характеристики видеосигнала Стандарт разложения При чересстрочной развёртке каждый кадр разбивается
на два поля (полукадра), каждое из которых содержит чётные или нечётные строки; за время одного кадра передаются два поля, увеличивая частоту мерцания кинескопа выше физиологического порога заметности. Чересстрочная развёртка была компромиссом, чтобы иметь возможность передачи по каналу с ограниченной полосой пропускания изображения с достаточно большой разрешающей способностью. Аналогично в кинопроекторах использовался двухлопастный обтюратор, повышающий частоту мельканий на экране с 24 до 48 Гц. Недостатками чересстрочной развёртки являются: расщепление вертикальных границ горизонтально движущихся объектов (эффект гребёнки ); заметность мерцания на тонких фактурах. 352

Характеристики видеосигнала Стандарт разложения Несмотря на недостатки чересстрочная развёртка используется
до сегодняшнего дня в телевидении стандартной чёткости вследствие повсеместного распространения телевизоров, поддерживающих только такие стандарты. Чересстрочную развёртку часто называют на английский манер интерлейс (interlace) или интерлейсинг. Телевизоры с кинескопом, оснащённые развёрткой 100 Гц, мерцают с частотой, которая не воспринимается глазом. В таких приемниках изображение с чересстрочной развёрткой отображается с удвоением кадров. ЖК- и LED-мониторы (телевизоры) вообще избавлены от мерцания. В таких приборах можно говорить только о скорости обновления изображения, поэтому чересстрочная развёртка в них является лишь мерой условности, не влияющей на отображение.

Характеристики видеосигнала Стандарт разложения Определение Для подавления негативных эффектов, возникающих
при просмотре чересстрочного видео на экране с прогрессивной развёрткой, применяются специальные математические методы, называемые деинтерлейсингом. Новые цифровые стандарты телевидения, например HDTV предусматривают прогрессивную развёртку. Новейшие технологии позволяют имитировать прогрессивную развёртку при показе видео с чересстрочной развёрткой. Последнюю обычно обозначают символом i после указания вертикального разрешения. Пример 6.1 (Характеристики видео с чересстрочной развёрткой) 720 × 576i × 50 354

Характеристики видеосигнала Стандарт разложения Прогрессивную развёртку обозначают символом p .
Пример 6.2 (Характеристики видео с прогрессивной развёрткой) 1280 × 720p × 50 Также для отличия частоты кадров или полей может обозначаться такими же символами кадровая частота. Пример 6.3 (Частота кадров видео с различной развёрткой) 24p, 50i, 50p 355

Характеристики видеосигнала Соотношение сторон экрана Определение Aspect ratio соотношение ширины
и высоты кадра (сторон экрана). Соотношение сторон важнейший параметр любой видеозаписи. С конца XIX века немые кинофильмы и в последующем фильмы классического формата имели соотношение сторон экрана 4:3 (4 единицы в ширину к 3 единицам в высоту; в кинематографе записывается как 1,33:1). Считалось, что экран с таким соотношением сторон близок к полю зрения человеческого глаза. Появившееся вскоре телевидение переняло это соотношение и почти все аналоговые телесистемы (и, следовательно, телевизоры) имели соотношение сторон экрана 4:3. Первые компьютерные мониторы также унаследовали телевизионный стандарт соотношения сторон. 356

Характеристики видеосигнала Соотношение сторон экрана Однако в кинематографе уже в
начале 1950-х годов с появлением панорамного, широкоэкранного и широкоформатного кино представления об идеальном экране пошатнулись. Широкоэкранные кинематографические системы обладали соотношениями сторон до 2,75:1, стремясь к максимальному эффекту присутствия , чтобы сделать границы кадра малозаметными. Главная причина заключается в том, что поле бинокулярного зрения человека приближается к соотношению 2:1. Чтобы приблизить форму кадра к естественному полю зрения (и, следовательно, усилить восприятие фильма), и разрабатывались киносистемы с панорамным кадром. Демонстрация широкоэкранных фильмов по телевидению требовала или обрезки изображения при помощи пансканирования, или добавления пустых полей сверху и снизу, чтобы вписать фильм в экран. Оба способа приводили к потерям частей изображения или его качества.

Характеристики видеосигнала Соотношение сторон экрана Сравнение распространённых форматов кино представлено
на рис. 6.1. Сейчас формат 1,33:1 вообще не используется в кинематографе, полностью уступив место кадру 1,85:1. Поэтому при выборе соотношения сторон экрана телевидения высокой чёткости был одобрен стандарт 16:9 (1,78:1), более близкий распространённым форматам кино. Рис. 6.1: Сравнение форматов 358

Характеристики видеосигнала Соотношение сторон экрана Цифровое телевидение стандартной чёткости в
основном также ориентируется на соотношение 16:9, применяя цифровое анаморфирование. Всё это, по замыслу создателей, призвано глубже погрузить зрителя в атмосферу просматриваемого видеофильма. Есть и альтернативные объяснения перехода на широкий формат: возможность проката в залах, изначально не приспособленных для кино, стремление к ухудшению качества пиратских видеокопий и телевизионных копий. 359

Характеристики видеосигнала Разрешающая способность Любой цифровой видеосигнал, по аналогии с
разрешением компьютерных мониторов, также характеризуется разрешением (горизонтальным и вертикальным), измеряемым в пикселях. При оцифровке аналогового видео стандартной чёткости разрешение составляет 720 × 5761 пикселей для европейского стандарта разложения 625/50 (PAL и SECAM) при частоте кадров 50 Герц (два поля, 2 × 25); и 720 × 480 пикселей для американского стандарта 525/60 (NTSC) при частоте 59,94 Герц (два поля, 2 × 29, 97). 1Первым числом обозначается количество точек в строке (горизонтальное разрешение), а вторым числом количество активных строк, участвующих в построении изображения (вертикальное разрешение). 360

Характеристики видеосигнала Разрешающая способность Стандарт цифрового телевидения высокого разрешения HDTV
(high-deﬁnition TV) предполагает разрешения до 1920 × 1080 при частоте обновления 50 Гц (60 Гц для США) с прогрессивной развёрткой (1920 пикселей на строку, 1080 строк). Для телевидения стандартной чёткости цифровое разрешение не совпадает с обозначением стандарта разложения, поскольку не учитывает избыточную информацию, передаваемую только в аналоговом телевидении. 361

Характеристики видеосигнала Разрешающая способность Телевидение сверхвысокой чёткости или Ultra HDTV
(Ultra High Deﬁnition Television), также UHDV (Ultra High Deﬁnition Video) включает в себя два уровня: 4K UHDTV (2160p) с разрешением 3840 × 2160 (8,3 мегапикселя) и 8K UHDTV (4320p) с разрешением 7680 × 4320 (33,2 мегапикселя). Стандарт предложен отделом японской телекомпании NHK NHK Science & Technical Research Laboratories и принят Международным союзом электросвязи в августе 2012 г. Телекомпания NHK уже реализовала на практике систему в формате 8K UHDTV. Разрешающая способность этого стандарта считается приблизительно равной разрешению кинопленки IMAX и по информационной ёмкости примерно в 16 раз превосходит HDTV.

Характеристики видеосигнала Разрешающая способность Разрешение трёхмерного видео измеряется в вокселях.
Определение Воксель (от volumetric и pixel) элемент объёмного изображения, содержащий значение элемента растра в трёхмерном пространстве, представляющих точки в трёхмерном пространстве (кубики). Воксели являются аналогами пикселов для трёхмерного пространства. Воксельные модели часто используются в компьютерных играх (см. рис. 6.2 а), а также для визуализации и анализа медицинской и научной информации (см. рис. 6.2 б). Благодаря тому, что трёхмерная матрица хранит значение вокселя для каждого единичного элемента объёмного пространства, воксельные модели хорошо подходят для моделирования непрерывных сред и полей значений, в то время как векторные более предназначены для моделирования дискретных объектов. 363

Характеристики видеосигнала Разрешающая способность а б Рис. 6.2: Воксельные модели:
а мухомора (8 × 8 × 8); б головы человека (по данным магнитно-резонансного томографа, 64 × 64 × 150) с использованием алгоритма marching-cubes 364

Характеристики видеосигнала Разрешающая способность Для простого трёхмерного видео сейчас используется
в основном разрешение 512 × 512 × 512. Определение Доксель это воксель, изменяющийся во времени. Как ряд картинок составляет анимацию, так и ряд воксельных моделей во времени могут составлять трёхмерную анимацию. Воксели и доксели давно используются в компьютерных играх, однако их использование ограниченно из-за серьёзных требований к аппаратной части. Чаще всего в играх воксели используются для отрисовки моделей. Иногда используются воксельные ландшафты вместо обычного поля высот это позволяет создавать более сложные пространства с пещерами и мостами. Одной из самых важных возможностей воксельных ландшафтов, интерьеров и объектов является возможность их динамического изменения и разрушения в реальном времени. 365

Характеристики видеосигнала Цветовое разрешение Количество цветов и цветовое разрешение видеозаписи
описывается цветовыми моделями. В компьютерной технике применяется в основном RGB (и αRGB), реже HSV (HSB), а в печатной технике CMYK. Количество цветов, которое может отобразить монитор или проектор, зависит от качества монитора или проектора. Для стандарта PAL применяется цветовая модель YUV (см. рис. 2), для SECAM модель YDbDr (разновидность YUV), для NTSC модель YIQ.

Характеристики видеосигнала Цветовое разрешение Рис. 6.3: Фотография и её YUV-
компоненты Определение YUV цветовая модель, в которой цвет представляется как 3 компоненты яркость (Y) и две цветоразностных (U и V). Конверсия в RGB и обратно осуществляется по следующим формулам: R = Y + 1,13983 × V; G = Y − 0,39465 × U − 0,58060 × V; B = Y + 2,03211 × U. Y = 0,299 × R + 0,587 × G + 0,114 × B; U = −0,14713 × R − 0,28886 × G + 0,436 × B; V = 0,615 × R − 0,51499 × G − 0,10001 × B.

Характеристики видеосигнала Цветовое разрешение Определение YIQ цветовая модель, в которой
цвет представляется как 3 компоненты яркость (Y) и две искусственных цветоразностных: I (синфазный сигнал) и Q (квадратурный сигнал). Конверсия в RGB и обратно осуществляется по следующим формулам: R = Y + 0,956 × I + 0,623 × Q; G = Y − 0,272 × I − 0,648 × Q; B = Y − 1,105 × I + 1,705 × Q. Y = 0,299 × R + 0,587 × G + 0,114 × B; I = 0,596 × R − 0,274 × G − 0,322 × B; Q = 0,211 × R − 0,522 × G + 0,311 × B. 368

Характеристики видеосигнала Цветовое разрешение Количество цветов в видеозаписи определяется числом
бит, отведённым для кодирования цвета каждого пикселя bpp (bits per pixel), также как и в компьютерной графике. В компьютерной технике имеется стандарт и 32 бита на пиксель (αRGB), но этот дополнительный α-байт (8 бит) используется для кодирования коэффициента прозрачности пикселя (α), а не для передачи цвета (RGB). При обработке пикселя видеоадаптером RGB-значение будет изменено в зависимости от значения α-байта и цвета подлежащего пикселя (который станет виден через прозрачный пиксель), а затем α-байт будет отброшен и на монитор пойдёт только цветовой сигнал RGB. Человеческий глаз может воспринять, по разным подсчётам, от 5 до 10 миллионов оттенков цветов.

Характеристики видеосигнала Цветовое разрешение Определение Цветовая субдискретизация (chroma subsampling) технология
кодирования изображений со снижением цветового разрешения, при которой частота выборки цветоразностных сигналов может быть меньше частоты выборки яркостного сигнала. Основана на особенности человеческого зрения, выраженной большей чувствительностью к перепадам яркости, чем цвета. Цветовая субдискретизация является важным способом снижения скорости цифрового потока видеоданных (цифровое сжатие видеоинформации). Используется в системах аналогового и цифрового телевидения, цифровой видеозаписи и алгоритмах сжатия изображений, таких как JPEG. 370

Характеристики видеосигнала Цветовое разрешение На практике кодирование изображений осуществляется уменьшением
разрешения в цветоразностных каналах при сохранении разрешения в канале яркости. 371

Характеристики видеосигнала Ширина видеопотока (битрейт) Определение Ширина видеопотока (скорость), или
битрейт (bit rate) это количество обрабатываемых бит видеоинформации за секунду времени (измеряется бит/с бит в секунду или, чаще, Мбит/с мегабит в секунду; в английском обозначении bit/s и Mbit/s соответственно). Чем выше ширина видеопотока, тем, как правило, лучше качество видео. Пример 6.4 (Битрейт) Для формата VideoCD битрейт ∼ 1 Мбит/с, для DVD ∼ 5 Мбит/с, для HDTV ∼ 10 Мбит/с.

Характеристики видеосигнала Ширина видеопотока (битрейт) При помощи скорости видеопотока также
очень удобно оценивать качество видео при его передаче через Интернет. Битрейт принято использовать при измерении эффективной скорости передачи информации по каналу, т. е. скорости передачи полезной информации . Помимо таковой, по каналу может передаваться служебная информация, например, стартовые и стоповые биты при асинхронной передаче по интерфейсу RS-232 или контрольные символы при избыточном кодировании. Определение Скорость передачи информации, учитывающую полную пропускную способность канала, измеряют в бодах. 373

Характеристики видеосигнала Ширина видеопотока (битрейт) По аналогии со звуковыми файлами
все видеофайлы сжимаются с помощью различных кодеков. Видеокодеков существует даже больше, чем аудиокодеков, поэтому актуальна проблема нахождения нужного кодека для просмотра видеофайлов. Если необходимый кодек отсутствует в системе, то такое видео просмотреть не удастся. Особенностью видеофайлов является также то, что в них, как правило, включена и звуковая информация, для воспроизведения которой могут также понадобиться соответствующие аудиокодеки. В форматах потокового видео и аудио (например, MPEG и MP3), использующих сжатие c потерей качества, параметр битрейт выражает степень сжатия потока и, тем самым, определяет размер канала, для которого сжат поток данных. Чаще всего битрейт звука и видео измеряют в килобитах в секунду (kilobit per second, kbps), реже в мегабитах в секунду (в основном для видео).

Характеристики видеосигнала Ширина видеопотока (битрейт) Различают 3 режима сжатия потоковых
данных: 1 С постоянным битрейтом (constant bit rate, CBR) вариант кодирования потоковых данных, при котором пользователь изначально задаёт необходимый битрейт, который не меняется на протяжении всего файла. Его главное достоинство возможность довольно точно предсказать размер конечного файла. Однако вариант с постоянным битрейтом не очень подходит для музыкальных произведений и видео, звучание (сцены) которых динамично изменяется во времени, так как не обеспечивает оптимального соотношения размер/качество.

Характеристики видеосигнала Ширина видеопотока (битрейт) 2 С переменным битрейтом (variable
bit rate, VBR) кодек выбирает значение битрейта исходя из параметров (уровня желаемого качества), причём в течение кодируемого фрагмента битрейт может изменяться. При сжатии звука нужный битрейт определяется на основе психоакустической модели. Данный метод даёт наилучшее соотношение качество/размер выходного файла, однако точный его размер оказывается очень плохо предсказуем. В зависимости от характера звука (или изображения в случае кодирования видео) размер полученного файла может отличаться в несколько раз. 376

Характеристики видеосигнала Ширина видеопотока (битрейт) 3 С усреднённым битрейтом (average
bitrate, ABR) гибрид постоянного и переменного битрейтов: битрейт в кбит/c задаётся пользователем, а программа варьирует его в некоторых пределах. Однако, в отличие от VBR, кодер с осторожностью использует максимально и минимально возможные значения битрейта, дабы не рисковать выйти за заданную пользователем среднюю величину. Также этот метод позволяет наиболее гибко задавать битрейт (для аудио это может быть любым числом между 8 и 320 кбит/с против чисел, кратных 16 в методе CBR) и с гораздо большей (по сравнению с VBR) точностью предсказывать размер выходного файла. 377

Характеристики видеосигнала Ширина видеопотока (битрейт) Концепция VBR сейчас очень популярна,
она призвана максимально сохранить качество видео, уменьшая при этом суммарный объём передаваемого видеопотока. В VBR на быстрых сценах движения ширина видеопотока возрастает, а на медленных сценах, где картинка меняется медленно, ширина потока падает. Это очень удобно для буферизованных видеотрансляций и передачи сохранённого видеоматериала по компьютерным сетям. Но для безбуферных систем реального времени и для прямого эфира (например, для телеконференций) это не подходит в этих случаях необходимо использовать постоянную скорость видеопотока.

Формирование цифрового видеосигнала 379

Формирование цифрового видеосигнала Компонентное видео Оптическое изображение формируется с помощью
объектива на светочувствительной матрице современных видео- и телевизионных камер, цифровых фотоаппаратов, фотовидеокамер мобильных телефонов, смартфонов или планшетов, веб-камер, камер систем видеонаблюдения и многих других устройств. С помощью различных систем производится цветоделение светового потока для получения монохромных полутоновых компонент трёх основных цветов с последующем их кодированием в модели YCbCr. 380

Формирование цифрового видеосигнала Компонентное видео Определение YCbCr (YCbCr), или Y’CbCr
(Y’CbCr), или Y Pb/Cb Pr/Cr семейство цветовых пространств, которое используются для передачи цветных изображений в видео и цифровой фотографии, где Y компонента яркости (Y’ означает, что интенсивность света кодируется нелинейно с помощью гамма-коррекции), Cb и Cr являются синей и красной цветоразностными компонентами (см. рис. 6.4). Рис. 6.4: Плоскость CbCr при постоянной яркости Y’=0,5 381

Формирование цифрового видеосигнала Компонентное видео Y’CbCr не является абсолютным цветовым
пространством, скорее, это способ кодирования информации сигналов RGB. Для систем отображения используются сигналы основных цветов RGB (красный, зелёный и синий). Эти сигналы не являются эффективными для хранения и передачи изображений, так как они имеют большую избыточность. 382

Формирование цифрового видеосигнала Компонентное видео Рис. 6.5: Цветное изображение и
его компоненты Y, Cb и Cr Перевод в систему Y’CbCr позволяет передать информацию о яркости с полным разрешением, а для цветоразностных компонент произвести субдискретизацию, т. е. выборку с уменьшением числа передаваемых элементов изображения, так как человеческий глаз менее чувствителен к перепадам цвета. Это повышает эффективность системы, позволяя уменьшить поток видеоданных. Значение, выраженное в Y’CbCr, будет предсказуемо, если первично использовались сигналы основных цветов RGB. 383

Формирование цифрового видеосигнала Компонентное видео Y’CbCr часто путают с цветовым
пространством YUV, и, как правило, термины YCbCr и YUV используются как взаимозаменяемые, что приводит к некоторой путанице. Когда речь идёт о видео или сигналах в цифровой форме, термин YUV в основном означает Y’CbCr. Сигналы Y’CbCr (до нормирования и смещения для перевода сигналов в цифровую форму) называют YPbPr.

Формирование цифрового видеосигнала Компонентное видео Они формируются с применением гамма-коррекции
из соответствующих RGB источников следующим образом: Y = KR · R + (1 − KR − KB) · G + KB · B PB = 1 2 · B − Y 1 − KB PR = 1 2 · R − Y 1 − KR , где KB и KR коэффициенты, которые обычно выводятся из определения соответствующего пространства RGB. Здесь апостроф ’ означает компоненты с гамма-коррекцией, поэтому R , G и B располагаются в пределах от 0 до 1, где 0 соответствует минимальной интенсивности (например, для отображения чёрного цвета) и 1 соответствует максимуму (например, для отображения белого цвета). 385

Формирование цифрового видеосигнала Компонентное видео Результирующее значение яркости (Y) будет
иметь пределы от 0 до 1, а значения цветности (PB и PR) будут расположены в пределах от −0,5 до +0,5. Обратный процесс преобразования может быть легко получен путём обращения представленных выше уравнений. При представлении сигналов в цифровой форме результат нормируется и округляется и, как правило, добавляется смещение. Так, например, нормирование и смещение, применяемое к компоненте Y’ согласно спецификации (например, MPEG-2), приводит к значению 16 для чёрного и значению 235 для белого при использовании 8-битного представления. Стандарт имеет 8-битные цифровые версии Cb и Cr, нормированные в другом диапазоне: от 16 до 240.

Формирование цифрового видеосигнала Компонентное видео Нормирование приводит к использованию меньшего
диапазона цифровых значений. В этом случае имеется некоторый запас, который может быть использован в случае превышения порога входными данными, таким образом устраняя необходимость их отсечения. Дополнительные диапазоны могут быть использованы для расширения цветовой палитры, как, например, в пространстве xvYCC . Так как в пространстве YCRCB можно представить существенно более широкую гамму значений сигнала, чем поддерживаемая в соответствующих диапазонах сигналов R, G и B, то существует вероятность получения таких сигналов Y, CR и CB, которые, несмотря на пригодность каждого из них по отдельности, могут при преобразовании к RGB привести к получению значений, лежащих вне допустимых пределов. 387

Формирование цифрового видеосигнала Компонентное видео Это можно предотвратить, наложив ограничения
на сигналы Y, CR и CB, также такие ограничения применяются для поддержания значений яркости и цветовых оттенков, при этом субъективные искажения минимизируются посредством потери только насыщенности цвета. Форма Y’CbCr, которая была определена для телевидения стандартной чёткости (стандарт МСЭ-R BT.601, бывшая CCIR 601) для использования с цифровыми компонентным видео, она формируется из соответствующего пространства RGB следующим образом: KB = 0,114, KR = 0,299.

Формирование цифрового видеосигнала Одноматричные системы Видеосигнал формируется из последовательности кадров
отдельных изображений, элементы которого считываются со светочувствительного элемента камеры (ПЗС1 или КМОП-матрица2). Для получения цветного видеоизображения применяют специальную RGB-фильтрацию элементов изображения, чтобы на каждый отдельный элемент (пиксель) приходилось по три значения цвета красного, зелёного и синего. Такой метод применяется в недорогих одноматричных видеокамерах, во всех цифровых фотоаппаратах с поддержкой видеозаписи и других видах устройств, где к качеству видеозаписи не предъявляются повышенные требования. 1ПЗС (прибор с зарядовой связью) специализированная аналоговая интегральная микросхема, состоящая из светочувствительных фотодиодов, выполненная на основе кремния. 2КМОП-матрица светочувствительная матрица, выполненная на основе КМОП-технологии.

Формирование цифрового видеосигнала Трёхматричные системы Для профессиональной видеосъёмки применяются более
сложные трёхматричные системы, где оптическое цветоделение производится при помощи дихроичной призмы. Каждое из цветоделённых изображений попадает на отдельную матрицу, с которой считываются элементы кадра, затем формируется видеосигнал отдельной компоненты. Рис. 6.6: Преобразование полученных с трёх ПЗС-матриц компонент RGB в Y’CrCb 390

Формирование цифрового видеосигнала Трёхматричные системы После применения гамма-коррекции сигналов R,
G, B производится их преобразование для получения сигнала яркости Y’ и двух цветоразностных сигналов: R’-Y’ и B’-Y’. Для перевода компонентного видеосигнала в цифровую форму применяется кодирование по следующим формулам (в соответствии с рекомендациями ITU-R 601): Y = 0,299 · R + 0,587 · G + 0,114 · B , CR = 0,713 · (R − Y ), CB = 0,564 · (B − Y ). При передаче таких сигналов возможно восстановление исходных составляющих цветов: красной (R), синей (B) и зелёной (G), которые используются в большинстве систем отображения видеоинформации, например в мониторах. 391

Формирование цифрового видеосигнала Уровни видео Полученные компоненты Y’, Cr, Cb
квантуются с разрядностью 8 или 10 бит. Однако не все уровни используются для передачи сигналов яркости. Для 8 битного кодирования из 256 доступных уровней только 220 используются для передачи сигнала яркости (диапазон 16-235), а остальные для сигналов синхронизации. При 10-битном кодировании для передачи сигнала яркости используется 877 уровней. Для цветовых компонент используется только 225 уровней в 8-битной системе и только 897 дискретных уровней видео в 10-битной системе. 392

Форматы цифрового кодирования и сжатия 393

Форматы цифрового кодирования и сжатия Видеопоток Как уже говорилось, видеопоток
это временная последовательность кадров определённого формата, закодированная в битовый поток. Расчёт размера получаемого видеофайла, содержащего несжатый видеопоток, производится исходя из размера кадра (W и H), частоты кадров (F), глубины цвета (b) и цветовой субдискретизации (основные форматы субдискретизации см. на рис. 6.7).

Форматы цифрового кодирования и сжатия Видеопоток Рис. 6.7: Основные форматы
цветовой субдискретизации 395

Форматы цифрового кодирования и сжатия Видеопоток Пример 6.5 (Скорость передачи
несжатого видеопотока с чересстрочной развёрткой разрядностью 10 бит и цветовой субдискретизацией 4:2:2) Для представления в пространстве Y’, Cr, Cb расчитываются следующие составляющие: количество пикселей в кадре для яркостной компоненты = 720 × 576 = 414720; количество пикселей в кадре для каждой цветностной компоненты = 360 × 576 = 207360; число битов в кадре = 10 × 414720 + 10 × 207360 × 2 = 8294400 = 8,29 Мбит; скорость передачи данных (BR) = 8,29 × 25 = 207,36 Мбит/с; размер видео = 207,36 Мбит/с · 3600 с = 746496 Мбит = 93312 Мбайт = 86,9 ГБ.

Форматы цифрового кодирования и сжатия Видеопоток Расчёт скорости передачи данных:
для формата 4:4:4 R = b × 3 × W × H × F; для формата 4:2:2 R = b×(W +0,5×W ×2)×H×F = b×2×W ×H×F; для формата 4:1:1 R = b×(W+0,25×W×2)×H×F = b×1,5×W×H×F; для формата 4:2:0 R = b×(W×H+0,5×W×0,5×H×2)×F = b×1,5×W×H×F. Здесь R скорость передачи данных, бит/с; W и H ширина и высота кадра в пикселях; b разрядность для каждой компоненты, бит на пиксель; F кадровая частота, кадров/с.

Форматы цифрового кодирования и сжатия Видеокомпрессия Из-за относительно высокой скорости
передачи несжатого видеопотока широко используются алгоритмы сжатия видео видеокомпрессии. Видеокомпрессия позволяет сократить избыточность видеоданных и уменьшить передаваемый поток, юлагодаря чему можно передавать видео по каналам связи с меньшей пропускной способностью или сохранять видеофайлы на носителях с меньшей ёмкостью.

Форматы цифрового кодирования и сжатия Видеокомпрессия Одна из наиболее мощных
технологий, позволяющих повысить степень сжатия, это компенсация движения. При любой современной системе сжатия видео последующие кадры в потоке используют похожесть областей в предыдущих кадрах для увеличения степени сжатия. Однако из-за движения каких-либо объектов в кадре (или самой камеры) использование подобия соседних кадров было неполным. Технология компенсации движения позволяет находить похожие участки, даже если они сдвинуты относительно предыдущего кадра.

Форматы цифрового кодирования и сжатия Видеокомпрессия Современное цифровое телевещание стало
доступным именно благодаря видеокомпрессии. Телевизионные станции могут транслировать не только видео высокой чёткости (HDTV), но и несколько телеканалов в одном физическом телеканале (6 МГц). Хотя большинство видеоконтента сегодня транслируется с использованием стандарта сжатия видео MPEG-2, тем не менее, новые и более эффективные стандарты сжатия видео уже используются в телевещании, например, H.264 и VC-1. 400

Форматы цифрового кодирования и сжатия Форматы цифровой видеозаписи Кроме разнообразия
кодеков работу с видеофайлами усложняет наличие большого числа форматов файлов. Форматы AVI, MPG, MOV , MKV одни из самых распространённых. Файлы этих форматов могут свободно копироваться, работа с ними не отличается от работы с другими файлами. Однако существуют и другие форматы, в которые встроена защита от копирования. Такие файлы нельзя обычным способом скопировать с одного диска на другой. Их можно только просматривать на компьютере или бытовой видеоаппаратуре. Однако, несмотря на наличие вышеупомянутых проблем, на правильно настроенном компьютере воспроизведение видеофайлов не сложнее воспроизведения аудиофайлов и так же осуществляется с помощью плейеров.

Форматы цифрового кодирования и сжатия Форматы цифровой видеозаписи Встроенный в
настольные ОС (Windows, GNU/Linux, Mac) плейеры могут воспроизводить не только музыку, но и видео, поэтому при вставке в дисковод компакт-диска с видеозаписью или DVD автоматически начинается его воспроизведение. Кроме встроенного плейера можно устанавливать и использовать другие видеопроигрыватели (перечень наиболее распространённых медиаплееров приводился ранее, на стр. 320). Большинство из них также оснащены различными функциями для удобного просмотра фильмов. 402

Форматы цифрового кодирования и сжатия Форматы цифровой видеозаписи Медиаконтейнер Определение
Медиаконтейнер (media container) или мультимедиаконтейнер формат файла или потоковый формат (поток необязательно должен быть сохранён в виде файла), чьи спецификации определяют только способ сохранения данных (а не алгоритм кодирования) в пределах одного файла. Медиаконтейнер определяет, сколько метаданных фактически может быть сохранено, вместе с тем, он не определяет кодирование самих данных. Медиаконтейнер фактически является метаформатом, так как он хранит данные и информацию о том, как данные будут сохраняться непосредственно внутри файла.

Форматы цифрового кодирования и сжатия Форматы цифровой видеозаписи Как следствие
из этого, программа, которая способна корректно идентифицировать и открыть файл (прочитать поток), записанный в каком-либо формате, впоследствии может быть не способна декодировать фактические данные, записанные внутри медиаконтейнера, так как или метаданные в медиаконтейнере являются недостаточными, или программное обеспечение неспособно декодировать данные, закодированные в медиаконтейнере. В теории формат-контейнер способен хранить любой тип данных, однако на практике для каждого типа данных существуют отдельные группы контейнеров. Эти группы настроены для специфических требований и информации, которая будет сохраняться в них. Медиаконтейнеры являются типичным примером такой группы файловых контейнеров, которые предназначены для сохранения медиаинформации, которая условно делится на изображения, видео и аудио.

Форматы цифрового кодирования и сжатия Форматы цифровой видеозаписи В случае
фильмов медиаконтейнер должен не только сохранять видео- и аудиопоток, но и при воспроизведении обеспечивать их синхронизацию. Также в медиаконтейнере может сохраняться несколько однотипных потоков, например фильм (видеопоток) с несколькими звуковыми дорожками (аудиопотоками) и субтитрами (текстовыми потоками). Некоторые медиаконтейнеры предназначены для сохранения только аудиоданных: AIFF (формат файла IFF, широко используемый на платформе Mac OS), WAV (формат файла RIFF, широко используемый на платформе Microsoft Windows), XMF (Extensible Music Format расширяемый формат музыки). Некоторые медиаконтейнеры предназначены для сохранения только статических изображений: TIFF, FITS (Flexible Image Transport System гибкая транспортная система изображения) медиаконтейнер для статичных изображений, необработанных данных (raw data) и связанных метаданных.

Форматы цифрового кодирования и сжатия Форматы цифровой видеозаписи Большинство медиаконтейнеров
приспособлено для сохранения всех или почти всех типов медиаинформации, включая аудио, видео и текст. 3gp (.3gp) используется на многих мобильных телефонах (основан на стандартизированном ISO формате медиафайлов, определён спецификаций MPEG-4 Part 12). ANIM для цифровой анимации на линейке классических компьютеров Commodore Amiga, следует основным спецификациям IFF ILBM (формат для хранения растровых изображений). ASF (.asf) (Advanced Systems Format продвинутый системный формат) стандартный медиаконтейнер для форматов Microsoft WMA и WMV . 406

Форматы цифрового кодирования и сжатия Форматы цифровой видеозаписи AVI (.avi)
(Audio Video Interleave чередование аудио и видео) стандартный для Windows, базируется на формате RIFF, один из самых распространённых. CDXL устаревший медиаконтейнер, разработанный корпорацией Commodore International в конце 1980-х и начале 1990-х гг. для компьютерной платформы Amiga. DVR-MS (.dvr) (Digital Video Recording Microsoft) проприетарный, разработанный Microsoft и базирующийся на ASF, использует видео стандарта MPEG-2 и аудио стандартов MPEG-1 Layer II или Dolby Digital AC-3 (ATSC A/52). IFF (.iff) (Interchange File Format чередующийся файловый формат) первый платформенно-независимый медиаконтейнер.

Форматы цифрового кодирования и сжатия Форматы цифровой видеозаписи FLV (.flv)
(Flash Video) медиаконтейнер, используемый для передачи видео через Интернет. Используется многими сервисами видеохостинга, такими как YouTube, Google Video, RuTube, Вконтакте. Хотя описание формата контейнера было открыто, кодеки защищены патентами и остаются собственническими. Matroska (.mkv) (MKV , Матрёшка) открытый свободный стандарт и медиаконтейнер. MPEG-TS (.mpg, .mpeg) (MPEG-2 transport stream транспортный поток MPEG) для цифрового широковещательного телевидения. Содержит несколько видео- и аудиопотоков и расписание телепрограмм (Electronic Program Guide).

Форматы цифрового кодирования и сжатия Форматы цифровой видеозаписи MP4 (.mp4)
(MPEG-4 Part 14) медиаконтейнер, поддерживающий аудио и видео из группы MPEG-4. M4V (.m4v) на базе MPEG-4 Part 14 с добавлением возможности DRM-защиты1 и поддержки кодека AC32. MOV (.mov) разработан Apple для мультимедийного фреймворка QuickTime. 1DRM (digital rights management) технические средства защиты авторских прав, программные или программно-аппаратные средства, которые затрудняют создание копий защищаемых произведений (распространяемых в электронной форме), либо позволяют отследить создание таких копий. 2AC3 аудиокодек системы Dolby Digital.

Форматы цифрового кодирования и сжатия Форматы цифровой видеозаписи MXF (.mxv)
(Material eXchange Format формат обмена данными) контейнер для профессионального хранения и обработки видео- и аудиоматериалов. Ogg (.ogg) для аудиокодека Vorbis от Xiph.org и видеокодека Theora мультимедиапроекта Ogg. OGM (.ogm) (Ogg Media) для кодеков от Xiph.org, более не поддерживаемый и формально отторгнутый Xiph.org. RealMedia (.rm, .ram, .rmvb) проприетарный стандарт фирмы RealNetworks Products and Services на формат медиафайлов и на потоковое вещание (RealVideo и RealAudio). 410

Форматы цифрового кодирования и сжатия Форматы цифровой видеозаписи RIFF (Resource
Interchange File Format) для хранения потоковых мультимедиа-данных (видео, аудио, возможно текст). Наиболее известными форматами, использующими этот контейнер, являются: AVI (видео), WAV (аудио), RMI (MIDI-треки). VOB (.vob) (DVD-Video Object или Versioned Object Base) формат файлов, используемый для хранения DVD-Video. VOB это мультимедийный контейнерный формат файла, основанный на MPEG-2, и способный содержать в себе несколько потоков видео/аудио, субтитры, а также меню фильма. WMV (.wmv) (Windows Media Video) система видеокодирования, разработанная Microsoft для хранения и трансляции видеоинформации в проприетарных форматах Microsoft. Входит в мультимедийный пакет Windows Media. 411

Дополнительная литература I Петров, М. Компьютерная графика [Текст] / М.
Петров, В. Молочков. Второе изд. СПб.: Питер, 2006. 816 с.: ил.; 70 × 100/16 мм (170 × 240 мм, увеличенный). ISBN 5-94723-758-X. Алгоритмические основы растровой машинной графики [Текст] / Д. В. Иванов, А. С. Карпов, Кузьмин и др. М.: Интерент-Университет Информационных Технологий; БИНОМ. Лаборатория знаний, 2007. 286 с. (Основы информатики и математики). ISBN 978-5-94774-654-9. 412

Дополнительная литература II Спиридонов, О. Создание видеоуроков в camtasia studio
[Электронный ресурс] / О. Спиридонов. М.: Интернет-университет информационных технологий ИНТУИТ.ру, 2012. Режим доступа: http://www.intuit.ru/studies/courses/2290/590/info. Каллахан, И. Практика разработки web-страниц [Электронный ресурс] / Ивэн Каллахан. М.: Интернет-университет информационных технологий ИНТУИТ.ру, 2006. Режим доступа: http://www.intuit.ru/studies/courses/120/120/info. Ватолин, Д. С. Методы сжатия изображений [Электронный ресурс] / Д. С. Ватолин. М.: Интернет-университет информационных технологий ИНТУИТ.ру, 2007. Режим доступа: http: //www.intuit.ru/department/graphics/compression/. 413

Часть VII Интернет/интранет технологии

Содержание I 29 Основные понятия Интернет Интранет 30 История Интернет
Современное состояние Интернет в России 31 Юридические аспекты 32 Интернет-технологии Электронная почта Передача файлов Новости World Wide Web Платёжная система IP-телефония Интернет-радио Интернет-телевидение 33 Интранет 415

Содержание II Программные компоненты Преимущества и недостатки Готовые решения интранет-технологий

Основные понятия 417

Основные понятия Интернет Определение Интернет (Internet, от Interconnected Networks объединённые
сети; сленг. инет, нет) глобальная телекоммуникационная сеть информационных и вычислительных ресурсов. Интернет служит физической основой для WWW (World Wide Web Всемирная паутина). Часто упоминается как Всемирная сеть, Глобальная сеть, либо просто Сеть (см. рис. 7.1). Когда слово интернет (internet) написано со строчной буквы, оно означает просто объединение сетей (interconnected networks) посредством маршрутизации пакетов данных. В этом случае не имеется в виду глобальное информационное пространство Интернет (Internet). В неанглоязычной или нетехнической среде эти понятия обычно не различают. 418

Основные понятия Интернет Рис. 7.1: Примерное графическое изображение связей между
сетями Интернета (изображены только связи между серверами) 419

Основные понятия Интернет Словарь русского языка Российской академии наук под
редакцией В. В. Лопатина рекомендует написание слова с прописной буквы: Интернет (род. падеж Интернета). Написание со строчной буквы используется в сложных словах, таких как интернет-портал , интернет-магазин . В настоящее время, когда слово Интернет употребляется в обиходе, чаще всего имеется в виду Всемирная паутина и доступная в ней информация, а не сама физическая сеть. 420

Основные понятия Интранет Определение Интранет (intranet, также употребляется термин интрасеть
) внутренняя частная сеть организации. Термин впервые появился 19 апреля 1995 г. в Digital News & Review в статье технического редактора Стивена Лотона (Stephen Lawton). Интранет это Интернет в миниатюре, который основан на протоколе IP для обмена и совместного использования некоторой информации внутри организации. Это могут быть списки сотрудников, списки телефонов партнёров и заказчиков. Чаще всего под этим термином имеют в виду только видимую часть интранет внутренний веб-сайт организации.

Основные понятия Интранет Основанный на базовых протоколах HTTP и HTTPS
и организованный по принципу клиент-сервер, интранет-сайт доступен с любого компьютера через браузер. Таким образом, интранет это как бы частный Интернет, ограниченный виртуальным пространством отдельно взятой организации. Интранет может использовать защищённые публичные каналы связи (VPN), входящие в Интернет, с защитой передаваемых данных и мерами по пресечению проникновения извне на корпоративные узлы. Приложения в интранет основаны на применении интернет-технологий, в первую очередь, веб-технологий.

История Интернет В 1957 г. после запуска Советским Союзом искусственного
спутника Земли Министерство обороны США посчитало, что на случай войны Америке нужна надёжная система передачи информации. Агентство передовых оборонных исследовательских проектов США (DARPA) предложило разработать компьютерную сеть. Разработка такой сети была поручена Калифорнийскому университету в Лос-Анджелесе, Стэнфордскому исследовательскому центру, Университету штата Юта и Университету штата Калифорния в Санта-Барбаре.

История Интернет В 1969 г. сеть |textbf]ARPANET (Advanced Research Projects
Agency Network) объединила четыре учреждения-разработчика. Эти работы финансировались Министерством обороны США. Затем сеть ARPANET начала активно расти и развиваться, её начали использовать учёные из разных областей науки. Первый сервер ARPANET был установлен 1 сентября 1969 года в Калифорнийском университете в Лос-Анджелесе, на компьютере Honeywell DP-516 с 24 кБ оперативной памяти. К 1971 г. была разработана первая программа для отправки электронной почты по сети. Эта программа сразу стала очень популярна.

История Интернет В 1973 г. к сети были подключены через
трансатлантический телефонный кабель первые иностранные организации из Великобритании и Норвегии, сеть стала международной. В 1970-х годах сеть в основном использовалась для пересылки электронной почты, тогда же появились первые списки почтовой рассылки, новостные группы и доски объявлений. Однако в то время сеть ещё не могла легко взаимодействовать с другими сетями, построенными на других технических стандартах. К концу 1970-х годов начали бурно развиваться протоколы передачи данных, которые были стандартизированы в 1982 83 годах.

История Интернет 1 января 1983 г. сеть ARPANET перешла с
протокола NCP на TCP/IP, который успешно применяется до сих пор для объединения (или, как ещё говорят, наслоения ) сетей. Именно в 1983 г. термин Интернет закрепился за сетью ARPANET. В 1984 г. была разработана система доменных имён (Domain Name System, DNS). У сети ARPANET появился серьёзный соперник: Национальный научный фонд США (NSF) основал обширную межуниверситетскую сеть NSFNet (National Science Foundation Network), которая включала более мелкие сети (в том числе Usenet и Bitnet) и имела гораздо б´ ольшую пропускную способность, чем ARPANET. К этой сети за год подключились около 10 000. компьютеров, звание Интернет начало плавно переходить к NSFNet.

История Интернет В 1988 г. был разработан протокол IRC (Internet
Relay Chat), благодаря чему в Интернете стало возможно общение в реальном времени (чат). В 1989 г. в Европейском совете по ядерным исследованиям (Conseil Europ´ een pour la Recherche Nucl´ eaire, CERN) родилась концепция Всемирной паутины. Её предложил знаменитый британский учёный Тим Бернерс-Ли (Timothy John Tim Berners-Lee), в течение двух лет он разработал HTTP, HTML и URL. В 1990 г. ARPANET прекратила своё существование, полностью проиграв конкуренцию NSFNet. Состоялось первое подключение к Интернету по телефонной линии (так называемый дозвон Dialup access). 427

История Интернет В 1991 г. WWW стала общедоступна в Интернете.
В 1993 г. Появился веб-браузер NCSA Mosaic. Всемирная паутина набирала популярность. В 1995 г. NSFNet вернулась к роли исследовательской сети. Маршрутизацией всего трафика Интернета стали заниматься сетевые провайдеры, а не суперкомпьютеры Национального научного фонда. WWW стала основным поставщиком информации в Интернете, обогнав по трафику протокол пересылки файлов FTP. Был образован Консорциум WWW (W3C).

История Интернет В 1990-е годы Интернет объединил в себе большинство
существовавших тогда сетей (хотя некоторые, как Фидонет, остались обособленными). Объединение выглядело привлекательным благодаря отсутствию единого руководства, а также открытости технических стандартов Интернета, что делало сети независимыми от бизнеса и конкретных компаний. Можно сказать, что Всемирная паутина преобразила Интернет и создала его современный облик. С 1996 г. Всемирная паутина почти полностью подменяет собой понятие Интернет . К 1997 г. в Интернете насчитывалось ∼ 107 компьютеров, было зарегистрировано более 106 доменных имён. Интернет стал очень популярным средством для обмена информацией. В течение пяти лет Интернет достиг аудитории свыше 50 миллионов пользователей. Другим средствам массовой информации требовалось гораздо больше времени для достижения такой популярности.

История Интернет Современное состояние Эксперты подсчитали, что число пользователей Интернета
в мире к концу 2013 г. достигнет 2,7 млрд. человек (39% населения Земли). Европа сохраняет за собой лидерство в обеспечении доступа населения к Интернету. Там всемирной паутиной охвачено 75% жителей. Стоимость услуг фиксированной широкополосной связи за последние пять лет снизилась на 82%. Это позволило увеличить число людей, подключенных к такой связи на дому. В Европе самая дешёвая широкополосная связь (если соизмерять её с валовым национальным доходом на душу населения). По количеству пользователей Интернета первое место в мире занимает Китай: 564 млн. человек. Далее идут США, Япония, Индия и Бразилия.

История Интернет Современное состояние В настоящее время подключиться к Интернету
можно через спутники связи, радиоканалы, кабельное телевидение, телефон, сотовую связь, специальные оптико-волоконные линии и даже электропровода. Всемирная сеть стала неотъемлемой частью жизни в развитых и развивающихся странах. Рост числа мобильных пользователей делает распространение глобальной сети подлинно повсеместным. К концу 2008 года количество устройств, подключенных к Интернету, превысило 1,5 млрд, включая компьютеры, телефоны и игровые приставки. В 2013 году число мобильных устройств, подключенных к Интернету, превзошло количество персональных компьютеров.

История Интернет Современное состояние Кроме того, ожидается большой приток т.
н. интернет-вещей физических объектов, подключенных к Интернету. Сегодня из полутора триллионов различных предметов к Интернету подключено лишь 10 миллиардов (в 2000 г. таких было лишь 200 миллионов). Как ожидается, к 2022 г. к Интернету подключат 50 миллиардов физических объектов. 432

История Интернет Современное состояние Устройства становятся всё более миниатюрными, и
скоро физические объекты, подключенные к Интернету, будет трудно заметить невооружённым глазом: компьютеры размером с крупинку соли (1 × 1 × 1 мм) будут включать в себя солнечную батарею, тонкоплёночную батарейку, оперативную память, датчик давления, беспроводное радиоустройство и антенну; видеокамеры размером с зерно (1 × 1 × 1 мм) уже сегодня работают с разрешением 250 × 250 пикселей; датчики размером с пылинку (0,05 × 0,005 мм) могут измерять температуру и давление, распознавать движение и передавать по Сети полученные данные. 433

История Интернет Современное состояние Впрочем, как отмечают аналитики, Интернет пока
не обогнал по популярности другие информационные источники. 10% пользователей обращаются к онлайновым ресурсам ежедневно, 9% выходят в Интернет несколько раз в неделю, 7% несколько раз в месяц, 3% эпизодически (не менее одного раза в полгода). Всемирная компьютерная сеть Интернет вместе с ПК образует технологическую основу для развития международной концепции Всемирного информационного общества . 434

История Интернет Интернет в России Свобода доступа пользователей Интернета к
информационным ресурсам не ограничивается государственными границами и/или национальными доменами, но языковые границы сохраняются. Преобладающим языком Интернета является английский язык. Вторым по популярности является китайский язык, а третьим испанский. Русский язык занимает 9 место. Язык является одним из часто используемых признаков деления Интернета, наряду с делением по государствам, регионам и доменам первого уровня. Название языковых сфер Интернета даётся по названию используемого языка. Определение Русскоязычная часть Интернета получила название Русский Интернет , или Рунет. 435

История Интернет Интернет в России Более узкое определение гласит, что
Определение Рунет это часть Всемирной паутины, принадлежащая к национальным доменам .su, .ru и .рф. 1987–1994 годы стали ключевыми в зарождении русскоязычного Интернета. 28 августа 1990 года профессиональная научная сеть, выросшая в недрах Института атомной энергии им. И. В. Курчатова и ИПК Минавтопрома и объединившая учёных-физиков и программистов, соединилась с мировой сетью Интернет, положив начало современным российским сетям. 19 сентября 1990 года был зарегистрирован домен первого уровня .su в базе данных Международного информационного центра InterNIC. В результате этого Советский Союз стал доступен через Интернет. 7 апреля 1994 года в InterNIC был зарегистрирован российский домен .ru. 436

История Интернет Интернет в России Домен .рф позволяет использовать в
доменном имени кириллические символы. По статистике Технического центра Интернет , на конец 2010 года в зоне .рф зарегистрировано около 700 тыс. доменов. По данным Координационного центра национального домена сети Интернет, из доменных имён в зоне .рф, зарегистрированных к настоящему времени, только 8% представляют собой общеупотребительные слова русского языка. Ещё 30% образованы несколькими словами, все остальные домены представляют собой имена людей, литературных персонажей, названий компаний. Подавляющее большинство имён принадлежит владельцам товарных знаков. Почти половина имён была зарегистрирована в Москве, ещё 9% в Московской области, 8% в Санкт-Петербурге.

История Интернет Интернет в России По количеству пользователей Интернета Россия
в 2012 году вышла на первое место в Европе, которое ранее занимала Германия и на шестое место в мире. В России, согласно исследованию Всероссийского центра изучения общественного мнения (ВЦИОМ), в 2005 году Интернетом пользовались 10% жителей России, в 2006 13%, а в 2008 году этот показатель достиг 20%, за этот год число интернет-абонентов Ростелеком в Барнауле выросло на 300%. C 2011 по 2013 г. в России число пользователей интернета выросло с 52% до 62%. Регулярно пользуются сетью 95% студентов, 89% управленцев и 88% специалистов. Среди всех пользователей интернета 15% пенсионеры.

История Интернет Интернет в России В России почти все средние
школы с 2008 года оснащены компьютерами с доступом к сети Интернет и базовыми пакетами программ для обучения информатике, работе с персональными компьютерами и сетью Интернет. 39% пользователей заходят в интернет для поиска и прослушивания музыки, 38% ищут и смотрят фильмы, 24% читают книги онлайн, также 24% делают покупки. По данным аналитической компании TNS на февраль 2013 года, хотя бы раз в месяц в Интернет выходит 76,5 млн. россиян (53% от всего населения страны). Сейчас в России ежедневно Интернетом пользуются около 50 млн. человек.

История Интернет Интернет в России По данным J‘son and Partners
Consulting прирост домашних широкополосных интернет-подключений в России за 1-е полугодие 2011 г. составило 9% (в Сибири 11%). В Алтайском крае число жителей, использующих широкополосный доступ по итогам 2010 г. составляло 20%. За первое полугодие 2011 г. число таких абонентов выросло до 25% (всего 250 000). По данным специалистов ТТК-ЗС, уровень проникновения Интернет в Барнауле составляет 55%, а в городах края 30%. По данным Алтайского филиала Ростелеком, в 2010 г. количество пользователей широкополосного доступа в крае увеличилось до 45%, а впервом полугодии 2011 г. ещё на 30%. 440

История Интернет Интернет в России Аудитория мобильного Рунета в 2013
г. составила 18,4 млн. Большинство пользователей мобильного интернета (49%) выходят в сеть с помощью смартфонов. За 2012 год доля обычных сотовых телефонов сократилась в полтора раза и составила 34%. Доля планшетов, наоборот, выросла с 6% до 16%. По сообщению РИА Новости около 95% владельцев смартфонов в России используют его для SMS-сообщений, по 66% для интернет-сёрфинга и работы с приложениями, более 50% для общения в соцсетях и проверки электронной почты. Мобильные покупки совершают лишь 17% обладателей смартфонов. Самыми популярными приложениями в России остаются игры, соцсети и карты, а по использованию мобильных бизнес-сервисов российские пользователи уступают только британцам.

Юридические аспекты У Интернета нет собственника, так как он является
совокупностью сетей, которые имеют различную географическую принадлежность. Интернет нельзя выключить целиком, поскольку маршрутизаторы сетей не имеют единого внешнего управления. Интернет стал достоянием всего человечества. В Интернете имеется много полезных и вредных свойств, эксплуатируемых заинтересованными лицами. Интернет, прежде всего, средство открытого хранения и распространения информации. По маршруту транспортировки незашифрованная информация может быть перехвачена и прочитана. 442

Юридические аспекты Интернет может связать каждый компьютер с любым другим,
подключенным к Сети, так же, как и телефонная сеть (если телефон имеет автоответчик, он способен распространять информацию, записанную в него, любому позвонившему). Сайты в Интернете распространяют информацию индивидуально, по инициативе читателя. Спам-серверы и зомби-сети распространяют информацию по инициативе отправителя и забивают почтовые ящики пользователей электронной почты спамом точно так же, как забивают реальные почтовые ящики распространители рекламных листовок и брошюр. 443

Юридические аспекты Распространение информации в Интернете имеет такую же природу,
как и слухи в социальной среде. Если к информации есть большой интерес, она распространяется широко и быстро, нет интереса нет распространения. Чтение информации, полученной из Интернета или любой другой сети ЭВМ, относится, как правило, к непубличному воспроизведению произведения. За распространение информации (разглашение) в Интернете (если это государственная или иная тайна, клевета, другие запрещённые законом к распространению сведения) возможна юридическая ответственность по законам того места, откуда информация введена. 444

Интернет-технологии 445

Интернет-технологии Электронная почта Определение Электронная почта (email, e-mail, от electronic
mail) технология и предоставляемые ею услуги по пересылке и получению электронных сообщений (называемых письма или электронные письма ) по распределённой (в том числе глобальной) компьютерной сети. Электронная почта была одним из первых видов сетевого сервиса, разработанных в Интернете. Хотя первоначально основной целью установления сетевых коммуникаций между физически удаленными друг от друга машинами был обмен файлами и использование вычислительных ресурсов компьютеров, разработчики сети обнаружили, что одной из наиболее популярных сетевых услуг стала пересылка личных сообщений. Сегодня электронная почта является важнейшим сервисом любой сети, а не только Интернета.

Интернет-технологии Электронная почта Основным отличием электронной почты от прочих систем
передачи сообщений (например, служб мгновенных сообщений) является возможность отложенной доставки и развитая (и запутанная из-за длительного времени развития) система взаимодействия между независимыми почтовыми серверами. Электронная почта предусматривает передачу сообщений от одного пользователя, имеющего определённый компьютерный адрес, к другому. Она позволяет людям, находящимся на больших расстояниях, быстро связаться друг с другом. E-mail может быть использована как для того, чтобы переслать важную служебную информацию, так и для того, чтобы просто передать привет своему другу. Электронная почта может быть использована для передачи файлов своему адресату.

Интернет-технологии Электронная почта Согласно стандарту в теле письма могут находиться
только символы ASCII. Поэтому при использовании национальных кодировок или различных форм представления информации (HTML, RTF, бинарные файлы) текст письма кодируется по стандарту MIME1 и не может быть прочитан без использования декодера или почтового клиента с таким декодером. Общепринятым в мире протоколом обмена электронной почтой является SMTP (Simple mail transfer protocol, протокол передачи почты). В типовой реализации он использует DNS для определения правил пересылки почты (хотя в частных системах, вроде Microsoft Exchange, SMTP может действовать исходя из информации из других источников). 1MIME (Multipurpose Internet Mail Extensions) спецификация для кодирования информации и форматирования сообщений таким образом, чтобы их можно было пересылать по Интернету, стандарт, описывающий передачу различных типов данных по электронной почте. 448

Интернет-технологии Электронная почта После попадания почты на конечный сервер, он
осуществляет временное или постоянное хранение принятой почты. Существует две различные модели работы с почтой: концепция почтового ящика и хранилища почты. В концепции почтового ящика почта на сервере хранится временно, в ограниченном объёме (аналогично почтовому ящику для бумажной почты), а пользователь периодически обращается к ящику и забирает письма (т. е. почтовый клиент скачивает копию письма к себе и удаляет оригинал из почтового ящика). На основании этой концепции действует протокол POP3.

Интернет-технологии Электронная почта Концепция постоянного хранения подразумевает, что вся корреспонденция,
связанная с почтовым ящиком (включая копии отправленных писем), хранится на сервере, а пользователь обращается к хранилищу (иногда его по традиции так же называют почтовым ящиком ) для просмотра корреспонденции (как новой, так и архива) и написания новых писем (включая ответы на другие письма). На этом принципе действует протокол IMAP и большинство веб-интерфейсов бесплатных почтовых служб. Подобное хранение почтовой переписки требует значительно больших мощностей от почтовых серверов, в результате во многих случаях происходит разделение между почтовыми серверами, пересылающими почту, и серверами хранения писем.

Интернет-технологии Электронная почта Почтовая система позволяет организовать сложные системы, основанные
на пересылке почты от одного ко многим абонентам. Определение Рассылка электронной почты средство массовой коммуникации, группового общения и рекламы. Рассылка заключается в автоматизированной отправке сообщений электронной почты группе адресатов по заранее составленному списку. Определение Группы переписки специализированный тип почтовой рассылки, в которой письмо на адрес группы (обычный почтовый адрес, обработкой почты которого занимается специализированная программа) рассылается всем участникам группы. 451

Интернет-технологии Электронная почта Определение Спам (spam) рассылка коммерческой, политической и
иной рекламы или иного вида сообщений лицам, не выражавшим желания их получать. Легальность массовой рассылки некоторых видов сообщений, для которых не требуется согласие получателей, может быть закреплена в законодательстве страны. Например, это может касаться сообщений о надвигающихся стихийных бедствиях, массовой мобилизации граждан и т. п. В общепринятом значении термин спам в русском языке впервые стал употребляться применительно к рассылке электронных писем. Незапрошенные сообщения в системах мгновенного обмена сообщениями (например, ICQ) носят название SPIM (Spam over IM). 452

Интернет-технологии Электронная почта Электронная почта (вместе с новостными группами Usenet)
по мере роста популярности стала использоваться для рассылки незапрошенных рекламных сообщений, аналогично тому, как раскидываются рекламные брошюры в обычные почтовые ящики. Однако, в отличие от существенной стоимости бумажной рассылки, отправка значительного количества (миллионов и миллиардов) сообщений практически ничего не стоит отправителю. Это привело к непропорциональному росту количества и размера рекламных рассылок. По мере ужесточения запрета на размещение рекламы сообщения разделились на легитимные рассылки (на которые обычно подписывается пользователь и от которых он может отказаться в любой момент) и нелегитимные (собственно и называемые спамом).

Интернет-технологии Электронная почта По утверждению компании Лаборатория Касперского, в мае
2009 года объём спама составил 70–90% от общей почтовой переписки (т. е. превысил объём полезной почтовой нагрузки в 2–10 раз). Для борьбы со спамом были разработаны различные механизмы: чёрные списки отправителей, серые списки, требующие повторного обращения почтового сервера для отправки, контекстные фильтры. Одним из последствий внедрения средств борьбы со спамом стала вероятность ошибочно положительного решения относительно спама, т. е. часть писем, не являющихся спамом, стала помечаться как спам. В случае агрессивной антиспам-политики (уничтожение писем, кажущихся спамом, в автоматическом режиме без уведомления отправителя/получателя) это приводит к труднообнаруживаемым проблемам с прохождением почты. 454

Интернет-технологии Электронная почта Для рассылки спама в настоящий момент активно
используются все возможные технические ухищрения (открытые релеи, ботнеты, поддельные сообщения о невозможности доставки, прокси-серверы, бесплатные серверы электронной почты, допускающие автоматизацию отправки почты). Самой крупной почтовой службой, допускающей отправку спама является Mail.ru, поэтому многие сервисы автоматической регистрации пользователей отказываются регистрировать клиентов с почтовым ящиком на mail.ru.

Интернет-технологии Передача файлов Определение FTP (File Transfer Protocol) протокол, предназначенный
для передачи файлов в компьютерных сетях. FTP позволяет подключаться к серверам FTP, просматривать содержимое каталогов и загружать файлы с сервера или на сервер; кроме того, возможен режим передачи файлов между серверами. FTP является одним из старейших прикладных протоколов, появившимся задолго до HTTP, в 1971 году. До начала 90-х годов на долю FTP приходилось около половины трафика в сети Интернет. Он и сегодня широко используется для распространения ПО и доступа к удалённым хостам. 456

Интернет-технологии Передача файлов FTP не разрабатывался как защищённый (особенно по
нынешним меркам) протокол и имеет многочисленные уязвимости в защите. Протокол не шифруется, при аутентификации передаёт логин и пароль открытым текстом. Если злоумышленник находится в одном сегменте сети с пользователем FTP, то он может перехватить логин и пароль пользователя, или, при наличии специального ПО, получать передаваемые по FTP файлы без авторизации. FTP не может зашифровать свой трафик, все передачи открытый текст, поэтому имена пользователей, пароли, команды и данные могут быть прочитаны кем угодно, способным перехватить пакет по сети. Эта проблема характерна для многих спецификаций интернет-протоколов (в их числе SMTP, Telnet, POP, IMAP), разработанных до создания таких механизмов шифрования, как TLS (Transport Layer Security) и SSL (Secure Socket Layers).

Интернет-технологии Передача файлов Чтобы предотвратить перехват трафика, необходимо использовать протокол
шифрования данных SSL или более защищённый SSH, который поддерживается многими современными FTP-серверами и некоторыми FTP-клиентами. Обычное решение этой проблемы использовать безопасные , TLS-защищённые версии уязвимых протоколов (FTPS для FTP, TelnetS для Telnet и т. д.) или же другой, более защищённый протокол, вроде SFTP/SCP, предоставляемого с большинством реализаций протокола SSL. 458

Интернет-технологии Передача файлов Файлообменные сети Определение Файлообменная сеть собирательное название
сетей для совместного использования файлов. Часто в основе файлообменных сетей лежат одноранговые компьютерные сети, основанные на равноправии узлов, участвующих в обмене файлами. Несмотря на то, что каждый участник файлообменной сети является и клиентом и сервером, необходима инфраструктура для объединения разрозненных клиентов между собой в определённое сообщество. В централизованных файлообменных сетях служебную информацию хранят индексационные серверы. 459

Интернет-технологии Передача файлов Достоинством является относительная простота программирования такой сети
и небольшой объём служебной информации, передаваемой на серверы. Закрытие сетей Napster и WinMX показало ненадёжность централизованных файлообменных сетей. Индексационные серверы могут быть отключены по разным причинам (технический сбой, разорение владеющей компании, судебное решение). В таком случае сеть перестаёт функционировать. Частично централизованные файлообменные сети обладают повышенной надёжностью, т. к. хранят необходимую информацию не только на серверах, но и на других узлах (хабах или даже клиентах). К таким сетям относится Direct Connect и сети, организованные по протоколу BitTorrent.

Интернет-технологии Передача файлов Определение BitTorrent ( битовый поток ) пиринговый
(P2P) сетевой протокол для совместного обмена файлами через Интернет. Файлы передаются частями, каждый torrent-клиент, получая (скачивая) эти части, в то же время отдаёт (закачивает) их другим клиентам, что снижает нагрузку и зависимость от каждого клиента-источника и обеспечивает избыточность данных. Протокол был создан Брэмом Коэном (Bram Cohen), написавшим первый torrent-клиент BitTorrent на языке Python 4 апреля 2001 г. Запуск первой версии состоялся 2 июля 2001 г. Существует множество других программ-клиентов для обмена файлами по протоколу BitTorrent. 461

Интернет-технологии Передача файлов В новых версиях протокола можно работать без
центрального сервера (трекера, tracker), бестрекерная система (trackerless). Отказ трекера в таких системах не приводит к автоматическому отказу всей сети. В BitTorrent-клиентах, начиная с версии 4.2.0, реализована функция бестрекерной работы, базирующаяся на протоколе Kademlia. В таких системах трекер доступен на клиентах, в форме распределённой хэш-таблицы (DHT). В настоящее время совместимы между собой клиенты BitComet, µTorrent, Deluge, KTorrent, Transmission и официальный клиент BitTorrent.

Интернет-технологии Передача файлов Децентрализованные файлообменные сети функционируют вообще без индексационных
серверов. Хотя объём передаваемой служебной информации в них больше, надёжность их гораздо выше. Пока не существует способа насильно остановить функционирование такой сети. К таким сетям относятся Gnutella, Overnet, Kad, RetroShare. Сочетая скорость централизованных сетей и надёжность децентрализованных, создаются гибридные сети, в которых используются независимые индексационные серверы, постоянно синхронизирующие информацию между собой. Таким образом, при выходе из строя одного из них, сеть продолжает функционировать. К таким сетям относятся eDonkey2000, OpenNap.

Интернет-технологии Передача файлов Интернет-сервис Shareman комплекс для ОС Windows, включающий
диспетчер файлов, менеджер загрузок, файлообменный клиент и чат. Shareman не является хранилищем файлов или FTP-сервером и не содержит в себе электронные версии публикуемых пользователями файлов. Сервис осуществляет только переключение запросов пользователей друг к другу. Кроме того, большую популярность получили такие мултисетевые клиенты с подобным сервисом, как Shareaza (для ОС Windows), MLDonkey и giFT (кроссплатформенные).

Интернет-технологии Новости Группы новостей Определение Группа новостей (newsgroup) виртуальное вместилище
сообщений работающее по протоколу NNTP. Иногда вместо термина группа новостей не вполне грамотно используется термин конференция. Группы обозначаются названиями, состоящими из слов, разделённых точками. Пример 7.1 (Группа Emacs) gnu.emacs.help fido7.ru.linux.redhat Группа новостей сетевой форум пользователей, организованный для ведения дискуссий и обмена новостями. 465

Интернет-технологии Новости Чтение и отправка сообщений осуществляются программой, запускающейся на
компьютере пользователя и соединяющейся с сервером новостей. Термин группа новостей является сугубо техническим и ничего не говорит о принадлежности, назначении или правилах управления новостным ресурсом. Большинство существующих групп новостей принадлежит Usenet, однако т. к. NNTP-технологию используют не только в Usenet, то существуют группы новостей, не имеющие к Usenet никакого отношения, частные, управляемые по своим правилам. Из не-Usenet-овских групп для русскоязычных пользователей представляет особый интерес шлюз fido7. Узел ddt.demos.su(2:5020/400) обеспечивает шлюзование конференций Fidonet в Интернет в виде групп новостей. 466

Интернет-технологии Новости Определение NNTP (Network News Transfer Protocol) сетевой протокол,
распространения, запрашивания, размещения и получения групп новостей при взаимодействии между сервером групп новостей и клиентом. По строению он во многом сходен с протоколом приёма и передачи электронной почты SMTP. Существует вариация протокола NNTP, называемая NNRP. NNRP (Network News Readers Protocol) отличается от NNTP только набором поддерживаемых команд, и предназначена для чтения новостных групп с сервера новостей клиентским ПО в режиме онлайн. Сейчас группа новостей утратила былую популярность, на смену пришли новые технологии.

Интернет-технологии Новости Ленты новостей Определение RSS семейство XML-форматов, предназначенных для
описания лент новостей, анонсов статей, изменений в блогах и т. п. Информация из различных источников, представленная в формате RSS, может быть собрана, обработана и представлена пользователю в удобном для него виде специальными программами-агрегаторами или онлайн сервисами. Основная идея реорганизации информации о веб-сайтах относится ещё к 1995 г., когда разработчики из исследовательской лаборатории Apple Computer разработали Метаконтент Framework. 468

Интернет-технологии Новости В разных версиях аббревиатура RSS имела разные расшифровки:
Rich Site Summary (RSS 0.9x) обогащённая сводка сайта; RDF Site Summary (RSS 0.9 и 1.0) сводка сайта с применением инфраструктуры описания ресурсов; Really Simple Syndication (RSS 2.x) очень простой сбор сводной информации. Рис. 7.2: Значок RSS, используемый во многих браузерах и агрегаторах Разработка того, что впоследствии стало известно как RSS, началась в 1997 г. Первую известность эта технология получила, когда компания Netscape использовала её для наполнения каналов своего портала Netcenter. Вскоре эта технология уже использовалась для трансляции контента на многих новостных сайтах: BBC, CNET, CNN, Disney, Forbes, Wired, Red Herring, Slashdot, ZDNet и др. Really Simple Syndication (очень простое приобретение информации). 469

Интернет-технологии Новости Из-за существования нескольких различных версий формата RSS-каналов программы-агрегаторы
должны уметь работать со всеми вариантами, что создаёт некоторые трудности их разработчикам. Проблемы совместимости возникают также при вставке в RSS-описания небольших HTML-фрагментов, которые в одних случаях оформляются как CDATA узлы, а в других как HTML-кодированные PCDATA узлы. Существуют проблемы с различными форматами представления дат и метаданных, таких как частота обновления. В июне 2006 года появился конкурент RSS формат Atom. Определение Atom общее название двух связанных веб-технологий: формата для описания ресурсов на веб-сайтах и протокола для их публикации. 470

Интернет-технологии Новости Формат Atom, как и RSS, основан на XML
и позволяет описывать наборы веб-ресурсов новостные ленты, анонсы статей в блоге и тому подобное. Он решает те же задачи, что RSS, но возник позже и учёл многие его недостатки. Формат сейчас активно поддерживается компанией Google во многих её проектах. Протокол публикации Atom (также AtomPub, от Atom Publishing Protocol) основан на HTTP и позволяет создавать, изменять и удалять ресурсы, собранные в коллекции на веб-сайте (примером коллекции может служить блог). Содержимое коллекций описывается в формате Atom, а для управления им используются стандартные методы HTTP. 471

Интернет-технологии World Wide Web Определение Всемирная паутина (World Wide Web,
WWW) распределённая система, предоставляющая доступ к связанным между собой документам, расположенным на различных компьютерах, подключенных к Интернету. Для отображения электронных документов, размещённых в сети, используется специальная программа браузер. В России (см. рис. 7.3), на май 2012 г., лидирует по популярности браузер Chrome (30,21%), за ним следуют Firefox (24,51%), Opera (21,04%), Internet Explorer (20,67%), Safari (2,72%). Дальнейшая конкуренция браузеров разворачивается на фронте мобильных устройств (см. рис. 7.4). Так, Mozilla Foundation объявили о совместной с Samsung работе над новым браузерным движком Servo для сотовых телефонов, а Google уже представила новый движок с открытым кодом Blink, которым также воспользуется Opera. 472

Интернет-технологии World Wide Web Рис. 7.3: Статистика браузеров Рунета (по
данным LiveInternet) 473

Интернет-технологии World Wide Web Рис. 7.4: Статистика использования браузеров в
Рунете за сентябрь 2012 (по данным hi-planet.ru) 474

Интернет-технологии World Wide Web Первый в мире сайт info.cern.ch появился
в 1990 году, его создатель Тим Бернерс-Ли (Timothy John Tim Berners-Lee). Он опубликовал на сайте описание новой технологии World Wide Web, основанной на протоколе передачи данных HTTP, системе адресации URI и языке гипертекстовой разметки HTML. Также на сайте были описаны принципы установки и работы серверов и браузеров. Сайт стал и первым в мире интернет-каталогом, так как позже Тим Бернерс-Ли разместил на нём список ссылок на другие сайты. Все инструменты, необходимые для работы первого сайта, Бернерс-Ли подготовил ещё раньше в конце 1990 г. появились первый гипертекстовый браузер WWW с функционалом веб-редактора, первый сервер на базе NeXTcube и первые веб-страницы. 475

Интернет-технологии World Wide Web Отец веба считал, что гипертекст может
служить основой для сетей обмена данными, и ему удалось претворить свою идею в жизнь. Ещё в 1980 году Тим Бернерс-Ли создал гипертекстовое программное обеспечение Enquire, использующее для хранения данных случайные ассоциации. Затем, работая в Европейском центре ядерных исследований в Женеве (CERN), он предложил коллегам публиковать гипертекстовые документы, связанные между собой гиперссылками. Тим Бернерс-Ли продемонстрировал возможность гипертекстового доступа к внутренним поисковику и документам, а также новостным ресурсам Интернета. В результате, в мае 1991 г. в CERN был утверждён стандарт WWW. В настоящее время Тим Бернерс-Ли возглавляет основанный им Консорциум Всемирной паутины (World Wide Web Consortium, W3C), который занимается разработкой и внедрением стандартов Интернета.

Интернет-технологии World Wide Web Информация на сайтах может отображаться как
пассивно (т. е. пользователь может только считывать её), так и активно тогда пользователь может добавлять информацию и редактировать её. К способам активного отображения информации во Всемирной паутине относятся: гостевые книги; форумы; чаты; блоги; wiki-проекты; интернет-магазины; интернет-аукционы; социальные сети; системы управления контентом (CMS) (наиболее популярные CMS см. на рис. 7.5). 477

Интернет-технологии World Wide Web Рис. 7.5: Рейтинг-обзор коробочных CMS Тэглайн-2012
tagline.ru Рейтинг CMS можно посмотреть так же на ratingruneta.ru. 478

Интернет-технологии Платёжная система Определение Платёжная система совокупность правил, процедур и
технической инфраструктуры, обеспечивающих перевод стоимости от одного субъекта экономики к другому. Платёжные системы являются заменителями расчётов наличными деньгами при осуществлении внутренних и международных платежей и являются базовыми сервисами, предоставляемыми банками и другими профильными финансовыми институтами. Самым большим сервисом такого рода является система SWIFT (Society for Worldwide Interbank Financial Telecommunications, Сообщество всемирных межбанковских финансовых телекоммуникаций) международная межбанковская система передачи информации и совершения платежей. 479

Интернет-технологии Платёжная система SWIFT кооперативное общество, созданное по бельгийскому законодательству
в 1973 г., принадлежащее его членам более чем 9000 банков из 209 стран (на 2010 г.). В настоящее время членами SWIFT являются более 10 000 организаций, в том числе около 1000 корпораций. Расширенными формами платёжных систем являются: проведение финансовых транзакций с помощью банкоматов, платёжных киосков, POS-терминалов, карт с хранимой денежной стоимостью, электронных кошельков; проведение транзакций на валютных рынках, рынках фьючерсов, деривативов и опционов. Электронная платёжная система является подвидом платёжной системы, которая обеспечивает осуществление транзакций электронных платежей через сети (обычно Интернет) или платёжные чипы.

Интернет-технологии Платёжная система Российские электронные платёжные системы: CyberPlat первая российская
система (с 1998 г.), работает также на рынках стран СНГ, Европы, Азии и Северной Америки, общее число пунктов обслуживания более 760 тыс., по состоянию на 1 января 2013 года участниками этой платёжной системы являлись 270 банков. Яндекс.Деньги с 2002 г., валюта только российский рубль, реализует идею электронных денег. RBK Money сервис известен с 2008 г. (бывший RUpay, с 2002 г.), сотрудничает с более чем 30 000 интернет-магазинов и обслуживает свыше 4 миллионов пользователей, общее количество мест приёма превышает 250 тысяч и покрывает всю территорию РФ. MoneyMail электронная платёжная система ЗАО Инвестиционный Банк ФИНАМ , на рынке с 2004 г. 481

Интернет-технологии Платёжная система Z-Payment действует с 2006 г., интегрирует различные
виды оплаты (банковские переводы, оплата по SMS, оплата пластиковой картой и др.), владельцы компании Zorbit (инвестор) и Транзактор (разработчик), юридический адрес находится в Белизе, почтовый в Англии. ICQMoney запущена в конце 2007 года, позволяет осуществлять платёжи, переводы виртуальных денежных средств между пользователями (в качестве идентификатора используется ICQ-номер), система интегрируется в ICQ-мессенджеры, в расчетах используется собственная виртуальная валюта юнит (UNI, 1 юнит = 10 рублей). Кроме рубля можно использовать украинскую гривну и молдавский лей. Организаторами и собственниками этой системы являются Matrix Capital International LTD (Гонконг) и ООО Дельта Кей (Россия). 482

Интернет-технологии Платёжная система Wirex позволяет отправлять, получать, переводить денежные средства
в разных валютах, использовать в режиме реального времени p2p платёжи и накапливать средства, работает с другими системами (Epassporte, WebMoney, PayPal); действует с 2008 г., собственник неизвестен (по некоторым сведениям, он известен под ником Hardman). QIWI (QIWI plc) сервис, запущенный в 2008 г. компанией Объединённая система моментальных платежей (ОСМП), позволяющий производить платёжи с использованием различных устройств (в т. ч. QIWI-терминалов) и каналов связи в России, странах СНГ и США, при этом наличные и электронные расчёты объединены в единую систему. 483

Интернет-технологии Платёжная система Единый кошелек с 2008 г., кроме РФ
работает на рынках Украины, Белоруссии, Казахстана, ЮАР, США, входит в состав мультисервиса W1, предлагающего помимо различных мультиплатформенных платёжных инструментов услуги IP-телефонии (под брендом Единый телефон ). IntellectMoney электронная дисконтно-платёжная система, предназначенная для оплаты товаров и услуг в интернете и ориентированная на работу с дисконтными программами торговых и сервисных предприятий, функционирует с 2009 г. 484

Интернет-технологии Платёжная система TeleMoney позволяет совершать платёжи в Интернете, оплачивать
товары или услуги в магазинах, которые подключены к системе, взаиморасчеты ведутся в российских рублях, за совершённые в системе операции пользователи получают бонусы (проценты). Система создана компанией WebDiscovery в 2010 г., по состоянию на 2012 г. является собственностью компании ООО Комфорт плюс . Монета.Ру электронная платёжная система для пользователей, агрегатор платёжных методов для магазинов и современная биллинговая платформа для небольших и средних компаний. Образована в 2012 г. как небанковская кредитная организация (НКО) МОНЕТА.РУ . 485

Интернет-технологии Платёжная система WebMoney международная система расчётов и среда для
ведения бизнеса в сети (не является платёжной системой!), валюты российский рубль, евро, доллар США, гривна и др. Для работы в системе можно использовать клиентскую программу WM Keeper Classic для ОС Windows, либо веб-версии WM Keeper Light или WM Keeper Mini, позволяющие использовать систему пользователям любых ОС, либо WM Keeper Mobile для сотовых телефонов. Владельцем и администратором системы является зарегистрированная в Лондоне компания WM Transfer Ltd. Техническая поддержка и разработка ПО находятся в России, главный центр аттестации располагается в Москве. 486

Интернет-технологии Платёжная система Зарубежные платёжные системы. Из зарубежных платёжных систем
стоит выделить лишь две. PayPal крупнейшая дебетовая электронная платёжная система, в октябре 2002 г. поглощена корпорацией eBay. По состоянию на 2012 г. PayPal работает в 190 странах (хотя не во всех предоставляется полный набор услуг), имеет более 164 млн. зарегистрированных пользователей, работает с 24 национальными валютами. Компания PayPal Inc. основана в марте 2000 г. группой студентов, в первые же месяцы существования компания начала обслуживать электронные аукционы, с октября 2002 г. с помощью PayPal осуществляется более чем 50% сделок аукциона eBay. Большинство главных конкурентов PayPal к настоящему времени закрылись.

Интернет-технологии Платёжная система В Соединённых Штатах PayPal лицензирован в качестве
финансовой организации, занимающейся денежными переводами. Для российских пользователей системы PayPal возможность приёма платёжей на счёт появилась лишь в октябре 2011 г., однако вывод средств со счёта для российских пользователей до недавнего времени был возможен только в американские банки. 13 марта 2013 г. Центральный банк России одобрил заявку Paypal на получение лицензии небанковской кредитной организации и теперь клиенты смогут выводить денежные средства из Paypal на счета российских банков.

Интернет-технологии Платёжная система В марте 2012 г. PayPal представила новое
устройство под названием PayPal Here, которое позволит рассчитываться посредством кредитной карты через мобильный телефон. Пока поддерживается iPhone, в будущем планируется поддержка телефонов с ОС Android. PayPal Here представляет собой кардридер, который присоединяется к телефону через вход для наушников. Нововведение ориентировано в первую очередь на представителей малого бизнеса и мелких розничных торговцев. Как обычно, платёжная система будет взимать комиссию от суммы платежа.

Интернет-технологии Платёжная система Все вышеперечисленные платёжные системы ориентированы на работу
с реальной валютой, однако существуют системы, созданные для работы с валютой виртуальной (кибервалютой). Биткоин (Bitcoin) пиринговая (децентрализованная) электронная платёжная система, использующая одноимённые единицы для учёта. Биткоины могут использоваться для электронной оплаты товаров и услуг у продавцов, готовых их принимать. Есть возможность обмена на обычные деньги через специализированные площадки для торгов или обменники.

Интернет-технологии Платёжная система Как указано на сайте организаторов (bitcoin.org), Определение
Биткоин (Bitcoin) это цифровая валюта, протокол и программное обеспечение, которые включают в себя мгновенные P2P транзакции; платежи по всему миру; низкую/нулевую стоимость обработки транзакций; и многое другое. Биткоин использует P2P-технологию, функционируя без центрального контролирующего органа; обработка транзакций и эмиссия производятся коллективно, усилиями сети. Благодаря своим уникальным свойствам, Биткоин открывает новые горизонты возможностей, которые не предоставляла до этого ни одна платёжная система.

Интернет-технологии Платёжная система Базовым элементом этой платёжной системы является кросс-платформенная
программа-клиент, запущенная на множестве компьютеров клиентов и соединяющая их между собой в одноранговую сеть. Для обеспечения функционирования и защиты системы используются криптографические методы. Программное обеспечение разрабатывается коллективно, как свободный проект с открытым исходным кодом. Главная особеннось децентрализованная эмиссия новых биткоинов, которой может воспользоваться любой желающий, но в строго ограниченных количествах и только путём предоставления вычислительных ресурсов компьютера, использующихся с целью защиты платёжной системы от повторного расходования средств (участник системы предоставляет свой компьютер для проведения вычислений, а взамен получает биткоины).

Интернет-технологии Платёжная система Весной 2013 г. эксперты Лаборатории Касперского обнаружили
вредоносную кампанию в Skype: злоумышленники заманивают пользователей перейти по вредоносной ссылке, конечной целью является мошенническая генерация биткоинов. В разгар кампании количество переходов по вредоносной ссылке составляло в среднем 2,7 раза в секунду. Чаще всего по ссылке переходили пользователи из России, Украины, Болгарии, Китая, Тайваня и Италии. Вместе с вредоносной программой на компьютер пользователя устанавливалась специальная программа для генерации биткоинов. Кампания стартовала, когда курс биткоина достиг исторического максимума 173 USD за монету, при том, что ещё в 2011 году за неё не давали более 2 USD.

Интернет-технологии IP-телефония Передача голосовых сообщений через сеть с пакетной коммутацией
впервые была реализована в 1993 г. Данная технология получила название VoIP. Одним из частных приложений данной технологии является IP-телефония услуга по передаче телефонных разговоров абонентов по протоколу IP. Определение VoIP (Voice over IP; IP-телефония) система связи, обеспечивающая передачу речевого сигнала по сети Интернет или по любым другим IP-сетям. Сигнал по каналу связи передаётся в цифровом виде и, как правило, перед передачей преобразовывается (сжимается) с тем, чтобы удалить избыточность. 494

Интернет-технологии IP-телефония Основными преимуществами технологии VoIP является сокращение требуемой полосы
пропускания, что обеспечивается учётом статистических характеристик речевого трафика; блокировкой передачи пауз (диалоговых, слоговых, смысловых и др.), которые могут составлять до 40–50% времени занятия канала передачи; высокой избыточностью речевого сигнала и его сжатием (без потери качества при восстановлении) до уровня 20–40% исходного сигнала. Трафик VoIP критичен к задержкам пакетов в сети, но обладает устойчивостью к потерям отдельных пакетов. Так, потеря до 5% пакетов не приводит к ухудшению разборчивости речи. 495

Интернет-технологии IP-телефония При передаче телефонного трафика по технологии VoIP должны
учитываться жёсткие требования стандарта ISO 9000 к качеству услуг, характеризующие: качество установления соединения, определяемое в основном быстротой установления соединения, качество соединения, показателем которого являются сквозные (воспринимаемые пользователем) задержки и качество воспринимаемой речи. Технология стала популярной во всём мире с начала XXI века и в настоящее время широко используется как частными пользователями, так и в корпоративном секторе. Применение систем IP-телефонии позволяет компаниям-операторам связи значительно снизить стоимость звонков (особенно международных) и интегрировать телефонию с сервисами Интернета, предоставлять интеллектуальные услуги.

Интернет-технологии IP-телефония VoIP применяется также и для передачи звука в
системах IP-видеонаблюдения, в системах оповещения, при трансляции вебинаров, при просмотре фильмов в режиме он-лайн и т. п. Для осуществления технологии VoIP могут использоваться разлнообразные протоколы и кодеки. Самые популярные программы и сети, использующие VoIP Skype, SIPNET и Ekiga. 497

Интернет-технологии IP-телефония Skype бесплатное проприетарное программное обеспечение с закрытым кодом,
обеспечивающее шифрованную голосовую связь и видеосвязь через Интернет между компьютерами по технологии VoIP, используя технологии пиринговых сетей, а также платные услуги для звонков на мобильные и стационарные телефоны. Skype основана в 2003 г., по состоянию на конец 2010 г. имеет 663 миллиона пользователей. 10 мая 2011 г. Microsoft приобрела Skype. Большинство разработчиков и 44% работников общего отдела находятся в Таллине и Тарту, Эстония. Некоторые сетевые администраторы запретили использование Skype в корпоративных, правительственных, домашних и образовательных сетях, ссылаясь на причины ненадлежащего использования ресурсов, чрезмерной пропускной способности и проблем безопасности.

Интернет-технологии IP-телефония Программа также позволяет совершать конференц-звонки (до 25 голосовых
абонентов, включая инициатора), видеозвонки (в том числе видеоконференции до 10 абонентов), а также обеспечивает передачу текстовых сообщений (чат) и передачу файлов. Есть возможность вместо изображения с веб-камеры передавать изображение с экрана монитора. Программные клиенты Skype выпущены для Windows, Mac OS, Linux (правда, впоследствии для многих версий GNU/Linux проект был закрыт), iOS, Windows Phone, HP webOS, Android, PSP, Symbian. Также была выпущена версия для Java.

Интернет-технологии IP-телефония В отличие от многих других программ IP-телефонии, для
передачи данных Skype использует P2P-архитектуру. Каталог пользователей Skype распределён по компьютерам пользователей сети Skype, что позволяет сети легко масштабироваться до очень больших размеров (в данный момент более 100 млн. пользователей, 15–25 млн. онлайн) без дорогой инфраструктуры централизованных серверов. Кроме того, Skype может маршрутизировать звонки через компьютеры других пользователей. Это позволяет соединяться друг с другом пользователям, находящимся за NAT или брандмауэром, однако создаёт дополнительную нагрузку на компьютеры и каналы пользователей, подключенных к Интернету напрямую.

Интернет-технологии IP-телефония Единственным центральным элементом для Skype является сервер идентификации,
на котором хранятся учётные записи пользователей и резервные копии их списков контактов. Центральный сервер нужен только для установки связи. После того как связь установлена, компьютеры пересылают голосовые данные напрямую друг другу (если между ними есть прямая связь) или через Skype-посредник (суперузел компьютер, у которого есть внешний IP-адрес и открыт TCP-порт для Skype). В частности, если два компьютера, находящиеся внутри одной локальной сети, установили между собой Skype-соединение, то связь с Интернетом можно прервать и разговор будет продолжаться вплоть до его завершения пользователями или какого-либо сбоя связи внутри локальной сети.

Интернет-технологии IP-телефония SIPNET первая российская сеть IP-телефонии. Разработчик сети компания
Тарио Комьюникейшнс (входит в группу TARIO). Начало коммерческой эксплуатации ноябрь 2005 г. Сеть SIPNET построена на базе кластерной платформы CommuniGate Pro, передача голосовых пакетов организована по протоколу SIP (Session Initiation Protocol, протокол установления сеанса). VoIP технологии SIPNET успешно применяются другими компаниями: голосовые сервисы SIPNET интегрированы в популярный мессенджер Mail.ru Агент. Приложение NetCall для iPhone позволяет звонить с мобильного телефона по низким тарифам SIPNET даже при отсутствии доступа в Интернет.

Интернет-технологии IP-телефония Ekiga свободное и открытое приложение IP-телефонии и для
проведения видеоконференций, которое ранее называлось GnomeMeeting. Ekiga является частью графической среды GNOME, также работает в Windows. Ekiga поддерживает протоколы SIP и H.323 (с помощью OpenH323) и способна взаимодействовать с другими SIP- и H.323-совместимыми клиентами, а также с Microsoft NetMeeting. Поддерживает множество аудио- и видеокодеков высокого качества. Первая версия программы была написана Дамьеном Сандрасом (Damien Sandras) в качестве дипломной работы. Сегодня она разрабатывается сообществом под руководством Сандраса. Распространяется на условиях GNU GPL.

Интернет-технологии Интернет-радио Определение Интернет-радио (веб-радио) группа технологий передачи потоковых аудиоданных
через сеть Интернет. Также в качестве термина интернет-радио или веб-радио может пониматься радиостанция, использующая для вещания технологию потокового вещания в Интернет. Кроме потока звуковых данных обычно передаются также текстовые данные, чтобы в плеере отображалась информация о станции и о текущей композиции. В качестве станции могут выступать обычная программа-аудиоплеер со специальным плагином-кодеком или специализированная программа (например, ICes, EzStream, SAM Broadcaster), а также аппаратное устройство, преобразующее аналоговый аудиопоток в цифровой. 504

Интернет-технологии Интернет-радио Существует большое количество серверов интернет-вещания. Наиболее распространён сервер
Shoutcast компании Nullsoft, разработанный специально для своего проигрывателя Winamp. Совместимый с Shoutcast сервер Icecast обладает гораздо большей функциональностью, распространяется свободно (на условиях GNU GPL) и бесплатно. В отличие от Shoutcast, Icecast способен передавать несколько аудиопотоков и требует меньше ресурсов на аудиопоток, чаще обновляется, поддерживает UTF-теги и разные форматы аудио, однако он намного сложнее в настройке. Серверы могут различаться по форматам аудиоданных, например: MP3, Ogg/Vorbis, RealAudio.

Интернет-технологии Интернет-радио Некоторые проигрыватели также поддерживают вещание. Например к JetAudio
прилагается JetCast, предоставляющий возможность комментировать радиопоток с помощью микрофона, сайт-статус и чат. В качестве клиента можно использовать любой мультимедиа-проигрыватель, поддерживающий потоковое аудио и способный декодировать формат, в котором вещает сервер. Следует заметить, что интернет-радио к эфирному радиовещанию никакого отношения не имеет. 506

Интернет-технологии Интернет-телевидение Определение IPTV (Internet Protocol Television, телевидение межсетевого протокола)
система, использующая двухсторонний цифровой сигнал радиопередачи, который посылается через переключенную телефонную или кабельную сеть посредством широкополосного подключения. IPTV базируется на декодировании видео IP и преобразовании его в стандартные телевизионные сигналы. По прогнозам Pyramid Research, в этом году число абонентов IPTV в мире превысит 100 млн. С приобретением Mediaroom компания Ericsson стала крупнейшим в мире производителем средств IP-телевидения и мультиэкранных технологий. Ericsson совместно с оператором Korea Telecom скоро начнёт тестирование нового видеокодека HEVC и трансляции видео в формате сверхвысокой четкости 4K. 507

Интернет-технологии Интернет-телевидение IPTV система позволяет реализовать: управление пакетом подписки каждого
пользователя; защиту содержания телевидения на любом уровне; трансляцию каналов в формате MPEG-2, MPEG-4; представление телевизионных программ; функцию регистрации телевизионных передач; поиск прошлых телевизионных передач для просмотра; функцию паузы для телеканала в режиме реального времени; индивидуальный пакет телеканалов для каждого пользователя. 508

Интранет 509

Интранет Программные компоненты Составными частями интранет, обычно, являются: почтовый сервер;
веб-сервер; СУБД; интерпретаторы сценариев; сервер сообщений; сервер новостей; сервер внутрикорпоративной телефонии; веб-браузеры. 510

Интранет Преимущества и недостатки Преимущества интранет-технологий: Высокая производительность при совместной
работе над какими-то общими проектами. Лёгкий доступ персонала к данным. Гибкий уровень взаимодействия: можно менять бизнес-схемы взаимодействия как по вертикали, так и по горизонтали. Мгновенная публикация данных на ресурсах интранет позволяет специфические корпоративные знания всегда поддерживать в форме и легко получать отовсюду в компании, используя интернет-технологии и гипермедиа. Например: служебные инструкции, внутренние правила, стандарты, службы рассылки новостей, и даже обучение на рабочем месте. Проведение в жизнь общей корпоративной культуры. 511

Интранет Преимущества и недостатки Преимущества веб-сайта в Интранет перед клиентскими
программами архитектуры клиент-сервер: Не требуется инсталляция программы-клиента на компьютерах пользователей (в качестве неё используется браузер). Соответственно, при изменениях функциональности корпоративной информационной системы обновление клиентского ПО также не требуется. Сокращение временных издержек на рутинных операциях по вводу различных данных, благодаря использованию веб-форм вместо обмена данными по электронной почте. Кросс-платформенная совместимость стандартный браузер на Microsoft Windows, Mac OS, и GNU/Linux, UNIX. Большой выбор свободного ПО. 512

Интранет Преимущества и недостатки Недостатки интранет-технологий Сеть может быть взломана
удалённо. Лёгкий доступ к корпоративным данным может спровоцировать их утечку к конкурентам через недобросовестного работника. 513

Интранет Готовые решения интранет-технологий Microsoft Share Point Services. Softline DeskWork
интранет-портал на платформе SharePoint. Point4All (от Cyscom, IBS Datafort и Softkey, на базе Sharepoint) площадка, на которой представлено решение актуальных бизнес-задач: наём сотрудников, управление персоналом и проектами, хранение документов и файлов и совместный доступ к ним, объединение в одну базу всех контактов из разных систем и ПК, CRM и др. TopS BI Intranet Portal (от TopS BI на базе Sharepoint). 1С-Битрикс: Корпоративный портал (от 1С-Битрикс). PBWorks (бывший PBWiki) инструмент для совместной работы. 514

Интранет Готовые решения интранет-технологий Google Wave экспериментальное универсальное средство коммуникации,
а также созданные для этого компанией Google технологии и программное обеспечение. Google Wave призвана соединить в себе функции электронной почты, мгновенной передачи сообщений, чата, веб-форума, вики, совместного создания и редактирования документов с системой управления версиями и социальной организацией сети. 18 мая 2010 г. Google Wave стал доступен для свободной регистрации, а 4 августа 2010 г. было опубликовано сообщение о прекращении разработки Google Wave как самостоятельного продукта. Основанием для отказа от Google Wave названо то, что Google Wave не получил достаточно широкого распространения. 30 апреля 2012 г. проект был закрыт. Все разработки были переданы Apache Software Foundation, которые стали развивать серверный продукт под названием Wave in a Box.

Интранет Готовые решения интранет-технологий Google Apps набор служб, предоставляемый компанией
Google для использования своего доменного имени для совместного ведения бизнеса. Эта служба, как и Google Wave, основана на облачных вычислениях и поддерживает несколько веб-приложений с функциональностью как у традиционных офисных пакетов и включает: Gmail, Google Calendar, Google Talk, Google Docs и Google Sites. В январе 2013 г. в России заработала первая автоматическая система распространения Google Apps для бизнеса с широким выбором способов оплаты. 516

Дополнительная литература I ИНТЕРНЕТ-ТЕХНОЛОГИИ в федеральной целевой программе Электронная Россия
(2002–2010 годы) [Текст] / А. В. Волокитин, А. И. Панкратов, А. В. Солдатенков и др.; под ред. Л. Д. Реймана. М.: Известия: НТЦ ФИОРД-ИНФО , 2003. 272 с. (Справочное пособие). ISBN 5-206-00620-3. Берлин, А. Н. Основные протоколы интернет [Текст] / А. Н. Берлин. М.: Интерент-Университет Информационных Технологий; БИНОМ. Лаборатория знаний, 2008. 504 с. 517

Дополнительная литература II Берлин, А. Н. Основные протоколы интернет [Электронный
ресурс] / А. Н. Берлин. М.: Интернет-университет информационных технологий ИНТУИТ.ру, 2008. Режим доступа: http: //www.intuit.ru/department/network/internetprot/. Кариев, Ч. А. Всемирная Сеть (WWW) использование и приложения [Электронный ресурс] / Ч. А. Кариев. М.: Интернет-университет информационных технологий ИНТУИТ.ру, 2008. Режим доступа: http://www.intuit.ru/department/internet/wwwua/. Каллахан, И. Практика разработки web-страниц [Электронный ресурс] / Ивэн Каллахан. М.: Интернет-университет информационных технологий ИНТУИТ.ру, 2006. Режим доступа: http://www.intuit.ru/studies/courses/120/120/info. 518

Часть VIII Data Mining

Содержание I 34 Основные понятия Понятие статистики Понятие визуализации Понятие
искусственного интеллекта Распознавание образов Классификация стадий Data Mining 35 Задачи Data Mining Классификация Процесс классификации Методы решения задач классификации Оценивание классификационных методов Кластеризация Методы решения задач кластеризации: Процесс кластеризации Прогнозирование Виды прогнозирования Методы прогнозирования Data Mining временных рядов 520

Содержание II Тренд, сезонность и цикл Рекомендации по выбору параметров
прогнозирования Точность прогноза Поиск ассоциативных правил Ассоциативные правила Основные алгоритмы поиска ассоциативных правил Обобщённые ассоциативные правила Численные ассоциативные правила 36 Основные направления Data Mining Text Mining Web Mining Web Content Mining Web Usage Mining Call Mining 521

Основные понятия Определение Data Mining интеллектуальный анализ данных выявление скрытых
закономерностей или взаимосвязей между переменными в больших массивах необработанных (сырых) данных. Data Mining это процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей (шаблонов информации). Английский термин Data Mining не имеет однозначного перевода на русский язык (добыча данных, вскрытие данных, информационная проходка, извлечение данных/информации), поэтому в большинстве случаев используется в оригинале. Наиболее удачным непрямым переводом считается термин интеллектуальный анализ данных.

Основные понятия Термин Data Mining введён Григорием Пятецким-Шапиро (Gregory Piatetsky-Shapiro)
в 1989 г.: Data Mining это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности . Data Mining это процесс, цель которого обнаружить новые значимые корреляции, образцы и тенденции в результате просеивания большого объёма хранимых данных с использованием методик распознавания образцов плюс применение статистических и математических методов (определение Gartner Group). Data Mining это процесс выделения, исследования и моделирования больших объёмов данных для обнаружения неизвестных до этого структур (patterns) с целью достижения преимуществ в бизнесе (определение SAS Institute).

Основные понятия Суть и цель технологии Data Mining можно охарактеризовать
так: это технология, которая предназначена для поиска в больших объёмах данных неочевидных, объективных и полезных на практике закономерностей. В основу технологии Data Mining положена концепция шаблонов (patterns), которые представляют собой закономерности, свойственные подвыборкам данных, которые могут быть выражены в форме, понятной человеку. Data Mining включает методы и модели статистического анализа и машинного обучения, дистанцируясь от них в сторону автоматического анализа данных. Инструменты Data Mining позволяют проводить анализ данных предметными специалистами (аналитиками), не владеющими соответствующими математическими знаниями. Такие инструменты позволяют выделить информацию из огромного количества неявных и неструктурированных данных, накопившихся за многие годы работы организации, и представить её в виде, пригодном для использования.

Основные понятия Способ быстрого анализа информации в базе данных с
целью отыскания аномалий и трендов на основе Data Mining получил название OLAP. Термин предложил Эдгар Кодд (Edgar Codd), опубликовавший в 1993 году 12 законов аналитической обработки в реальном времени . Определение OLAP (OnLine Analytical Processing, аналитическая обработка в реальном времени) технология обработки информации, включающая составление и динамическую публикацию отчётов и документов. OLAP используется аналитиками для быстрой обработки сложных запросов к базе данных, служит для подготовки бизнес-отчётов по продажам, маркетингу, в целях управления. 525

Основные понятия Data Mining мультидисциплинарная область, возникшая и развивающаяся на
базе таких наук, как: теория баз данных; прикладная статистика; визуализация; искусственный интеллект; теория алгоритмов; распознавание образов; и др. 526

Основные понятия Понятие статистики Определение Статистика это наука о методах
сбора данных, их обработки и анализа для выявления закономерностей, присущих изучаемому явлению. Статистика является совокупностью методов планирования эксперимента, сбора данных, их представления и обобщения, а также анализа и получения выводов на основании этих данных. Статистика оперирует данными, полученными в результате наблюдений либо экспериментов. Выделяют описательную статистику, теорию оценивания и теорию проверки гипотез.

Основные понятия Понятие статистики Описательная статистика есть совокупность эмпирических методов,
используемых для визуализации и интерпретации данных (расчёт выборочных характеристик, таблицы, диаграммы, графики и т. д.), как правило, не требующих предположений о вероятностной природе данных. Некоторые методы описательной статистики опираются на продвинутую теорию и возможности современных компьютеров. К ним относятся, в частности, кластерный анализ, нацеленный на выделение групп объектов, похожих друг на друга, и многомерное шкалирование, позволяющее наглядно представить объекты на плоскости.

Основные понятия Понятие статистики Методы оценивания и проверки гипотез опираются
на вероятностные модели происхождения данных. Эти модели делятся на параметрические (когда предполагается, что характеристики изучаемых объектов описываются посредством распределений, зависящих от (одного или нескольких) числовых параметров) и непараметрические (когда модели не связаны со спецификацией параметрического семейства для распределения изучаемых характеристик). В математической статистике оценивают параметры и функции от них, представляющие важные характеристики распределений (например, математическое ожидание, медиана, стандартное отклонение, квантили и др.), плотности и функции распределения и пр. Используют точечные и интервальные оценки.

Основные понятия Понятие визуализации Определение Визуализация (рендеринг) термин в компьютерной
графике, обозначающий процесс получения изображения по модели с помощью компьютерной программы. Здесь модель это описание объектов или явлений на строго определённом языке или в виде структуры данных. Примером визуализации могут служить радарные космические снимки, представляющие в виде изображения данные, полученные посредством радиолокационного сканирования поверхности космического тела, в диапазоне электромагнитных волн, невидимых человеческим глазом. 530

Основные понятия Понятие искусственного интеллекта Определение Искусственный интеллект (ИИ, AI
от Artiﬁcial Intelligence) это наука о разработке интеллектуальных машин и систем, особенно интеллектуальных компьютерных программ, основанных на изучении человеческого интеллекта. Эта наука занимается моделированием человеческого интеллекта, так как с одной стороны, наблюдая за другими людьми, можно разработать более эффективные алгоритмы решения сложных проблемы, а с другой стороны, большинство работ в ИИ касаются изучения проблем, которые требуется решать человечеству на промышленном и технологическом уровне. Поэтому исследователи ИИ вольны использовать методы, которые не наблюдаются у людей, если это необходимо для решения конкретных проблем. 531

Основные понятия Понятие искусственного интеллекта Определение Интеллект способность системы создавать
в ходе самообучения алгоритмы (в первую очередь эвристические) для решения задач определённого класса сложности и решать эти задачи с помощью разработанных алгоритмов. Это универсальное определение единое для человека и машины . 532

Основные понятия Понятие искусственного интеллекта Машинное обучение Определение Машинное обучение
(machine learning) подраздел искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться. Различают два типа обучения. Обучение по прецедентам, или индуктивное обучение, основано на выявлении закономерностей в эмпирических данных. Дедуктивное обучение предполагает формализацию знаний экспертов и перенос их в базу знаний. Дедуктивное обучение принято относить к области экспертных систем, поэтому термины машинное обучение и обучение по прецедентам можно считать синонимами. 533

Основные понятия Понятие искусственного интеллекта Машинное обучение находится на стыке
математической статистики, методов оптимизации и дискретной математики, но имеет также и собственную специфику, связанную с проблемами вычислительной эффективности и переобучения. Многие методы индуктивного обучения разрабатывались как альтернатива классическим статистическим подходам.

Основные понятия Распознавание образов Определение Распознавание образов раздел кибернетики, развивающий
теоретические основы и методы классификации и идентификации предметов, явлений, процессов, сигналов, ситуаций и других объектов, которые характеризуются конечным набором некоторых свойств и признаков. Такие задачи решаются довольно часто, например при переходе или проезде улицы по сигналам светофора. Распознавание цвета загоревшейся лампы светофора и знание правил дорожного движения позволяет принять правильное решение о том, можно или нельзя переходить улицу в данный момент.

Основные понятия Распознавание образов В процессе биологической эволюции многие животные
с помощью зрительного и слухового аппарата решили задачи распознавания образов достаточно хорошо. Создание искусственных систем распознавания образов остаётся сложной теоретической и технической проблемой. Необходимость в таком распознавании возникает в самых разных областях от военного дела и систем безопасности до оцифровки всевозможных аналоговых сигналов. Традиционно задачи распознавания образов включают в круг задач искусственного интеллекта.

Основные понятия Распознавание образов 3D-распознавание К сканированию и распознаванию текста
сейчас уже все привыкли, хотя ещё 20 лет назад это представлялось невероятной технологией. В настоящее время появилась технология быстрого 3D-сканирования. Определение Flipping технология автоматизированного быстрого 3D-сканирования (книг, журналов) и сохранения в файл (с распознаванием текста). В этой технологии, реализованной в 3D-Book (www.3d-book.com), 3 камеры позволяют компенсировать различные перегибы. 537

Основные понятия Распознавание образов Компания Вокорд на Московской выставке в
апреле 2012 г. продемонстрировала промышленный образец своей системы для 3D-реконструкции и идентификации лиц Vocord FaceControl 3D, позволяющей в режиме реального времени распознавать лица людей в движении. Такая система может использоваться, например, спецслужбами для поиска правонарушителей или для контроля доступа сотрудников на предприятиях. Распознавание лиц в Vocord FaceControl 3D основано на принципиально новой технологии: система не просто выделяет и распознает лицо человека на фотографии, а делает снимки с разных ракурсов и строит 3D-модель лица, по которой идёт распознавание. Такая технология решает основные проблемы традиционных систем биометрической идентификации: чувствительность к повороту головы под разными ракурсами, макияжу и неконтролируемым условиям освещения.

Основные понятия Распознавание образов Во многих крупных аэропортах США внедрено
решение от IBM для распознавания, анализа лиц и выявления подозрительных людей. Вход сотрудников на один из спецобъектов Кремля теперь контролируется системой 3D-распознавания лиц, созданной в России. Компания Крок, официальный дистрибьютор решений от Artec Group, в ноябре 2012 г. завершила первое в своей практике внедрение системы распознавания лиц движущихся людей. Она реализована в центральном московском офисе компании: на входе в здание установлен турникет с Broadway 3D от Artec Group. 539

Основные понятия Распознавание образов На инсталляцию системы и регистрацию 500
человек (четверть штата компании желающие поучаствовать в проекте сотрудники) потребовалось всего четыре дня. По данным Крок, к тому времени решение уже используется несколькими крупными организациями по всему миру, в том числе Министерством иностранных дел в Катаре, крупным коммерческим банком в Испании и заводом электроники в Японии. Система 3D-распознавания обеспечивает высокий уровень безопасности, поскольку, в отличие от пропуска, трёхмерную модель лица гораздо сложнее подделать. Кроме того, данное решение позволяет задавать значение порога распознавания, снижая или повышая уровень безопасности на охраняемом объекте. Например, при высоком значении этого параметра система не пропустит даже близнеца зарегистрированного сотрудника.

Основные понятия Распознавание образов В процессе регистрации камера Broadway 3D
снимает трёхмерное изображение и строит математическую модель лица с субмиллиметровой точностью. Затем система формирует биометрический шаблон (3,5 кБ), который записывается в базу данных, ассоциируясь с карточкой и ID пользователя. Весь процесс регистрации занимает две секунды. В течение одной секунды устройство успевает проанализировать 40 тыс. точек на лице, построить точную модель лица, а также произвести сравнение с лицами в базе данных. В целом решение может работать в двух режимах идентификации и верификации. В первом случае система сопоставляет 3D-модель лица человека и его биометрический шаблон и при их совпадении пропускает человека. Во втором случае считывает карту-пропуск, а затем производит сравнение лица посетителя с соответствующим ему шаблоном в базе данных. Таким образом она проверяет, действительно ли пропуск принадлежит человеку, желающему войти в здание.

Основные понятия Классификация стадий Data Mining Data Mining может состоять
из двух или трёх стадий: 1 свободный поиск; 2 прогностическое моделирование; 3 анализ исключений. 542

Основные понятия Классификация стадий Data Mining Свободный поиск Определение Свободный
поиск (discovery) выявление закономерностей, исследование набора данных с целью поиска скрытых закономерностей. Система Data Mining на этой стадии определяет шаблоны, для получения которых в системах OLAP, например, аналитику необходимо обдумывать и создавать множество запросов. Здесь же аналитик освобождается от такой работы шаблоны ищет за него система. Особенно полезно применение данного подхода в сверхбольших базах данных, где уловить закономерность путём создания запросов достаточно сложно, для этого требуется перепробовать множество разнообразных вариантов. 543

Основные понятия Классификация стадий Data Mining Свободный поиск представлен такими
действиями: выявление закономерностей условной логики (conditional logic); выявление закономерностей ассоциативной логики (associations and aﬃnities); выявление трендов и колебаний (trends and variations). На стадии свободного поиска также должна осуществляться валидация закономерностей, т. е. проверка их достоверности на части данных, которые не принимали участие в формировании закономерностей. Цель валидации проверка достоверности найденных закономерностей. Обычно валидацию считают частью первой стадии, поскольку в реализации многих методов, в частности нейронных сетей и деревьев решений, предусмотрено деление общего множества данных на обучающее и проверочное, и последнее позволяет проверять достоверность полученных результатов.

Основные понятия Классификация стадий Data Mining Прогностическое моделирование Прогностическое моделирование
(predictive modeling) предполагает, что обнаруженные на предыдущем этапе закономерности используются непосредственно для прогнозирования. Прогностическое моделирование включает следующие действия: предсказание неизвестных значений (outcome prediction); прогнозирование развития процессов (forecasting). В процессе прогностического моделирования решаются задачи классификации и прогнозирования. 545

Основные понятия Классификация стадий Data Mining Анализ исключений На стадии
анализа исключений (forensic analysis) анализируются исключения или аномалии, выявленные в найденных закономерностях. Действие, выполняемое на этой стадии, выявление отклонений (deviation detection). Для этого необходимо определить норму, которая рассчитывается на стадии свободного поиска. 546

Задачи Data Mining Основные задачи Data Mining: классификация, кластеризация, прогнозирование,
поиск ассоциативных правил. 547

Задачи Data Mining Классификация Классификация является наиболее простой и одновременно
наиболее часто решаемой задачей Data Mining. Определение Классификация процесс группировки объектов в соответствии с их общими признаками. Цель классификации построить модель, которая использует независимые атрибуты в качестве входных параметров и получает значение зависимого атрибута. Процесс классификации заключается в разбиении множества объектов на классы по определённому критерию. В результате создаётся классифицированная система, часто называемая также, как и процесс классификацией. Определение Классификация упорядоченное по некоторому принципу множество объектов. 548

Задачи Data Mining Процесс классификации Для проведения классификации с помощью
математических методов необходимо иметь формальное описание объекта, которым можно оперировать, используя математический аппарат классификации. Определение Классификатором называется некая сущность, определяющая по вектору признаков, какому из предопределённых классов принадлежит объект. Набор исходных данных (или выборку данных) разбивают на два множества: обучающее и тестовое. Обучающее множество (training set) множество, которое включает данные, использующиеся для обучения (конструирования) модели. Такое множество содержит входные и выходные (целевые) значения примеров. Выходные значения предназначены для обучения модели. 549

Задачи Data Mining Процесс классификации Тестовое множество (test set) также
содержит входные и выходные значения примеров. Здесь выходные значения используются для проверки работоспособности модели. Процесс классификации состоит из двух этапов: 1 Конструирование модели (описание множества предопределённых классов): каждый пример набора данных относится к одному предопределённому классу; на этом этапе используется обучающее множество, на нём происходит конструирование модели; полученная модель представлена классификационными правилами, деревом решений или математической формулой. 550

Задачи Data Mining Процесс классификации 2 Использование модели (классификация новых
или неизвестных значений): 1 оценка правильности (точности) модели: известные значения из тестового примера сравниваются с результатами использования полученной модели. уровень точности процент правильно классифицированных примеров в тестовом множестве; тестовое множество (множество, на котором тестируется построенная модель) не должно зависеть от обучающего множества; 2 если точность модели допустима, возможно использование модели для классификации новых примеров, класс которых неизвестен. 551

Задачи Data Mining Методы решения задач классификации Для классификации используются
различные методы (см. рис. 8.1). деревья решений; статистические методы (линейная регрессия, метод главных компонент); байесовская (наивная) классификация; искусственные нейронные сети; метод опорных векторов (SVM); метод ближайшего соседа (идея заключается в отыскании среди множества элементов, расположенных в многомерном метрическом пространстве, элементов близких к заданному, согласно некоторой функции близости); методы группового учёта аргументов (МГУА, GMDH), например, метод комплексирования аналогов; генетические алгоритмы. 552

Задачи Data Mining Методы решения задач классификации а) б) в)
г) Рис. 8.1: Графическая интерпретация различных методов классификации: а исходные объекты; б линейная регрессия; в деревья решений; г более сложные методы 553

Задачи Data Mining Методы решения задач классификации Оценка точности классификации
может проводиться при помощи кросс-проверки. Определение Кросс-проверка (cross-validation) это процедура оценки точности классификации на данных из тестового множества, которое также называют кросс-проверочным множеством. Точность классификации тестового множества сравнивается с точностью классификации обучающего множества. Если классификация тестового множества даёт приблизительно такие же результаты по точности, как и классификация обучающего множества, считается, что данная модель прошла кросс-проверку. 554

Задачи Data Mining Методы решения задач классификации Разделение на обучающее
и тестовое множества осуществляется путём деления выборки в определённой пропорции, например обучающее множество две трети данных и тестовое одна треть данных. Этот способ следует использовать для выборок с большим количеством примеров. Если же выборка имеет малые объёмы, рекомендуется применять специальные методы, при использовании которых обучающая и тестовая выборки могут частично пересекаться. 555

Задачи Data Mining Оценивание классификационных методов Выбор методов классификации следует
проводить, исходя из оценивания следующих характеристик: Скорость характеризует время, которое требуется на создание модели и её использование. Робастность устойчивость к каким-либо нарушениям исходных предпосылок. Под робастностью в статистике понимают нечувствительность к различным отклонениям и неоднородностям в выборке, связанным с теми или иными, в общем случае неизвестными, причинами. Это могут быть ошибки детектора, регистрирующего наблюдения, чьи-то добросовестные или намеренные попытки подогнать выборку до того, как она попадёт к статистику, ошибки оформления, вкравшиеся опечатки и т. п.

Задачи Data Mining Оценивание классификационных методов Надёжность предусматривает возможность работы
этих методов при наличии в наборе данных шумов и выбросов. Интерпретируемость обеспечивает возможность понимания модели аналитиком. 557

Задачи Data Mining Кластеризация Задача кластеризации сходна с задачей классификации,
является её логическим продолжением, но её отличие состоит в том, что классы изучаемого набора данных заранее не предопределены. Определение Кластерный анализ (data clustering), кластеризация задача разбиения заданной выборки объектов (ситуаций) на подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Переводится понятие кластер (cluster) как скопление , гроздь . Если данные выборки представить как точки в пространстве признаков, то задача кластеризации сводится к определению сгущений точек . 558

Задачи Data Mining Кластеризация В качестве синонима термина кластеризация часто
используются автоматическая классификация, обучение без учителя и таксономия. Цель кластеризации поиск существующих структур. Кластеризация является описательной процедурой, она не делает никаких статистических выводов, но даёт возможность провести разведочный анализ и изучить структуру данных . Кластер можно охарактеризовать как группу объектов, имеющих общие свойства. Кластер характеризуется двумя признаками: 1 внутренней однородностью; 2 внешней изолированностью. 559

Задачи Data Mining Кластеризация Вопрос, задаваемый аналитиками при решении многих
задач, состоит в том, как организовать данные в наглядные структуры (т. е. развернуть таксономии )? Наибольшее применение кластеризация первоначально получила в таких науках, как биология, археология, антропология, психология. Для решения экономических задач кластеризация длительное время мало использовалась из-за специфики экономических данных и явлений. Сейчас известны широкие применения кластерного анализа в маркетинговых исследованиях. В криминалистике распространена практика проведения корреляционного и кластерного анализа. Сегодня спектр применения кластерного анализа очень широк: его используют в археологии, медицине, психологии, химии, биологии, государственном управлении, филологии, антропологии, социологии, маркетинге, криминалистике и других дисциплинах.

Задачи Data Mining Кластеризация Однако универсальность применения привела к появлению
большого количества несовместимых терминов, методов и подходов, затрудняющих однозначное использование и непротиворечивую интерпретацию кластерного анализа. Следует отметить, что в результате применения различных методов кластерного анализа могут быть получены кластеры различной формы. Например, возможны кластеры цепочного типа, когда кластеры представлены длинными цепочками , кластеры удлинённой формы и т. д., а некоторые методы могут создавать кластеры произвольной формы (см. рис. 8.2). Различные методы могут стремиться создавать кластеры определённых размеров (малых или крупных) либо предполагать в наборе данных наличие кластеров различного размера. Некоторые методы кластерного анализа особенно чувствительны к шумам или выбросам, другие менее чувствительны.

Задачи Data Mining Кластеризация Рис. 8.2: Методы решения задач кластеризации
На сегодняшний день разработано более сотни различных алгоритмов кластеризации. В результате применения различных методов кластеризации могут быть получены неодинаковые результаты, это нормально и является особенностью работы того или иного алгоритма. Данные особенности следует учитывать при выборе метода кластеризации. 562

Задачи Data Mining Методы решения задач кластеризации Алгоритмы, основанные на
разделении данных (partitioning algorithms), в т. ч. итеративные: разделение объектов на k кластеров; итеративное перераспределение объектов для улучшения кластеризации. Иерархические алгоритмы (hierarchy algorithms). В их основе лежит агломерация: каждый объект первоначально является кластером, кластеры, соединяясь друг с другом, формируют больший кластер и т. д. Модельные методы (model-based methods): для нахождения кластеров используют модели, наиболее соответствующие данным. 563

Задачи Data Mining Кластеризация Методы, основанные на концентрации объектов (density-based
methods): основаны на возможности соединения объектов; игнорируют шумы; находят кластеры произвольной формы. Грид-методы (grid-based methods): основаны на разбиении объектов в решётчатые структуры. 564

Задачи Data Mining Процесс кластеризации Процесс кластеризации зависит от выбранного
метода и почти всегда является итеративным. Он может включать множество экспериментов по выбору разнообразных параметров, например меры расстояния, типа стандартизации переменных, количества кластеров и т. д. Однако эксперименты не должны быть самоцелью, ведь конечной целью кластеризации является получение содержательных сведений о структуре исследуемых данных. Полученные результаты требуют дальнейшей интерпретации, исследования и изучения свойств и характеристик объектов для возможности точного описания сформированных кластеров.

Задачи Data Mining Процесс кластеризации Оценка качества кластеризации может быть
проведена на основе следующих процедур: ручная проверка; установление контрольных точек и проверка на полученных кластерах; определение стабильности кластеризации путём добавления в модель новых переменных; создание и сравнение кластеров с использованием различных методов. Разные методы кластеризации могут создавать разные кластеры, и это является нормальным явлением. Однако создание схожих кластеров различными методами указывает на правильность кластеризации. 566

Задачи Data Mining Прогнозирование Задача прогнозирования может считаться одной из
наиболее сложных задач Data Mining, она требует тщательного исследования исходного набора данных и методов, подходящих для анализа. Определение Прогноз (πρ´ oγνωσιζ) предвидение, предсказание будущего с помощью научных методов или сам результат предсказания. Определение Прогноз это научная модель будущих событий, явлений и т. п. Определение Прогнозирование (forecasting) разработка прогноза, в узком значении специальное научное исследование конкретных перспектив развития какого-либо процесса. 567

Задачи Data Mining Прогнозирование Прогнозирование является одной из задач Data
Mining и одновременно одним из ключевых моментов при принятии решений. Прогнозирование (prognosis), в широком понимании этого слова, определяется как опережающее отражение будущего. Целью прогнозирования является предсказание будущих событий. Определение Прогностика (prognostics) научная дисциплина, изучающая общие принципы и методы прогнозирования развития объектов любой природы, закономерности процесса разработки прогнозов. Как наука прогностика сформировалась в 70–80 годы ХХ столетия. 568

Задачи Data Mining Прогнозирование Прогнозирование направлено на определение тенденций динамики
конкретного объекта или события на основе ретроспективных данных, т. е. анализа его состояния в прошлом и настоящем. Таким образом, решение задачи прогнозирования требует некоторой обучающей выборки данных. Прогнозирование установление функциональной зависимости между зависимыми и независимыми переменными. Прогнозирование является распространённой и востребованной задачей во многих областях человеческой деятельности. В результате прогнозирования уменьшается риск принятия неверных, необоснованных или субъективных решений. 569

Задачи Data Mining Прогнозирование Пример 8.1 (Прогнозирование рынков (market forecasting))
Типичной в сфере маркетинга является прогнозирование рынков (market forecasting): прогноз продаж товаров (например, с целью определения нормы товарного запаса); прогнозирование продаж товаров, оказывающих влияние друг на друга; прогноз продаж в зависимости от внешних факторов. В результате решения данной задачи оцениваются перспективы развития конъюнктуры определённого рынка, изменения рыночных условий на будущие периоды, определяются тенденции рынка (структурные изменения, потребности покупателей, изменения цен).

Задачи Data Mining Прогнозирование Пример 8.2 (Использование прогнозирования в прикладных
задачах) прогноз котировок акций; прогноз погоды и климата; предсказание динамики преступности (увеличение/уменьшение, возрастные/социальные группы, виды преступлений); прогнозирование урожайности агрокультуры; предсказание очередного преступления серийного убийцы; прогнозирование финансовой устойчивости предприятия. Помимо климата, криминалистической, экономической и финансовой сферы, задачи прогнозирования ставятся в самых разнообразных областях: медицине, фармакологии, политике.

Задачи Data Mining Виды прогнозирования Прогнозы делятся: по срокам: краткосрочные
не более чем на 3% от объёма наблюдений или на 1–3 шага вперёд; среднесрочные на 3–5% от объёма наблюдений, но не более 7–12 шагов вперёд; также под этим типом прогноза понимают прогноз на один или половину сезонного цикла; долгосрочные более чем на 5% от объёма наблюдений; по масштабу: личные; на уровне предприятия (организации); местные; региональные; отраслевые; государственные; мировые (глобальные). 572

Задачи Data Mining Методы прогнозирования К основным методам прогнозирования относятся
статистические методы (линейная регрессия) для краткосрочных и среднесрочных прогнозов; экспертные оценки (метод Дельфи); моделирование (искусственные нейронные сети, МГУА). Выбор метода прогнозирования зависит от многих факторов, в том числе от параметров прогнозирования. Выбор метода следует производить с учётом всех специфических особенностей набора ретроспективных данных и целей, с которыми он строится. В самых общих чертах решение задачи прогнозирования сводится к решению следующих подзадач: выбор модели прогнозирования; анализ адекватности и точности построенного прогноза. 573

Задачи Data Mining Методы прогнозирования Программное обеспечение Data Mining, используемое
для прогнозирования, должно обеспечивать пользователя точным и достоверным прогнозом. Однако получение такого прогноза зависит не только от программного обеспечения и методов, заложенных в его основу, но также и от других факторов, среди которых полнота и достоверность исходных данных, своевременность и оперативность их пополнения, квалификация пользователя. 574

Задачи Data Mining Data Mining временных рядов Основой для прогнозирования
служит историческая информация, хранящаяся в базе данных в виде временных рядов. Существует понятие Data Mining временных рядов (time-series Data Mining). Определение Временной ряд последовательность наблюдаемых значений какого-либо признака, упорядоченных в неслучайные моменты времени. Принципиальные отличия временного ряда от простой последовательности наблюдений: члены временного ряда, в отличие от элементов случайной выборки, не являются статистически независимыми; члены временного ряда не являются одинаково распределёнными. 575

Задачи Data Mining Data Mining временных рядов Отличием анализа временных
рядов от анализа случайных выборок является предположение о равных промежутках времени между наблюдениями и их хронологический порядок. Привязка наблюдений ко времени играет здесь ключевую роль, тогда как при анализе случайной выборки она не имеет никакого значения. Пример 8.3 (Data Mining временных рядов) температура, влажность, ветер, и др. параметры погоды, измеренные через каждые 6 часов; данные биржевых торгов. Информация, накопленная в разнообразных базах данных предприятия, является временными рядами, если она расположена в хронологическом порядке и получена в последовательные моменты времени. 576

Задачи Data Mining Data Mining временных рядов Анализ временного ряда
может осуществляться для достижения нескольких целей: Определение природы ряда (обнаружение шумов и выбросов, тренда, сезонной компоненты, циклической компоненты). Определение природы временного ряда может быть использовано как своеобразная разведка данных. Знание аналитика о наличии сезонной компоненты необходимо, например, для определения количества записей выборки, которое должно принимать участие в построении прогноза. Прогнозирование будущих значений ряда. 577

Задачи Data Mining Тренд, сезонность и цикл Основными составляющими временного
ряда являются тренд и сезонная компонента. Определение Трендом называют неслучайную функцию, которая формируется под действием общих или долговременных тенденций, влияющих на временной ряд. Примером тренда может выступать, например, фактор роста исследуемого рынка. Тренд является систематической компонентой временного ряда, которая может изменяться во времени. 578

Задачи Data Mining Тренд, сезонность и цикл Автоматического способа обнаружения
трендов во временных рядах не существует. Но если временной ряд включает монотонный тренд (т. е. отмечено его устойчивое возрастание или устойчивое убывание), анализировать временной ряд в большинстве случаев нетрудно. Задачи прогнозирования можно подразделить на две группы: Прогнозирование односерийных рядов. Эта группа включает задачи построения прогноза одной переменной по ретроспективным данным только этой переменной, без учёта влияния других переменных и факторов. Прогнозирование мультисерийных (взаимовлияющих) рядов. Эта группа включает задачи анализа, где необходимо учитывать взаимовлияющие факторы на одну или несколько переменных. 579

Задачи Data Mining Тренд, сезонность и цикл Ряды также бывают
сезонными и несезонными. Это деление подразумевает наличие или отсутствие у временного ряда такой составляющей, как сезонность, т. е. включение сезонной компоненты. Определение Сезонная составляющая является периодически повторяющейся компонентой временного ряда. Свойство сезонности означает, что через примерно равные промежутки времени форма кривой, которая описывает поведение зависимой переменной, повторяет свои характерные очертания. Рассмотрим пример. На рис. 8.3 приведён фрагмент ряда, который иллюстрирует поведение переменной объёмы продажи товара Х за период, составляющий один месяц. 580

Задачи Data Mining Тренд, сезонность и цикл При изучении кривой,
приведенной на рисунке, аналитик не может сделать предположений относительно повторяемости формы кривой через равные промежутки времени. Рис. 8.3: Фрагмент временного ряда за сезонный период 581

Задачи Data Mining Тренд, сезонность и цикл Однако при рассмотрении
более продолжительного ряда (за 12 месяцев), изображённого на рис. 8.4, можно увидеть явное наличие сезонной компоненты. Следовательно, о сезонности продаж можно говорить только тогда, когда рассматриваются данные за несколько месяцев. Таким образом, в процессе подготовки данных для прогнозирования аналитику следует определить, обладает ли ряд, который он анализирует, свойством сезонности. Рис. 8.4: Фрагмент временного ряда за 12 сезонных периодов 582

Задачи Data Mining Тренд, сезонность и цикл Определение наличия компоненты
сезонности необходимо для того, чтобы входная информация обладала свойством репрезентативности. Ряд можно считать несезонным, если при рассмотрении его внешнего вида нельзя сделать предположений о повторяемости формы кривой через равные промежутки времени. Иногда по внешнему виду кривой ряда нельзя определить, является он сезонным или нет. Существует понятие сезонного мультиряда. В нём каждый ряд описывает поведение факторов, которые влияют на зависимую (целевую) переменную. Примером такого ряда могут служит ряды продаж нескольких товаров, подверженных сезонным колебаниям.

Задачи Data Mining Тренд, сезонность и цикл При сборе данных
и выборе факторов для решения задачи по прогнозированию в таких случаях следует учитывать, что влияние объёмов продаж товаров друг на друга здесь намного меньше, чем воздействие фактора сезонности. Важно не путать понятия сезонной компоненты ряда и сезонов природы. Несмотря на близость их звучания, эти понятия разнятся. Так, например, объёмы продаж мороженого летом намного больше, чем в другие сезоны, однако это является тенденцией спроса на данный товар. Очень часто тренд и сезонность присутствуют во временном ряде одновременно. Пример 8.4 (Прибыль фирмы, как тренд) Прибыль фирмы растёт на протяжении нескольких лет (т. е. во временном ряде присутствует тренд); ряд также содержит сезонную компоненту.

Задачи Data Mining Тренд, сезонность и цикл Отличия циклической компоненты
от сезонной: продолжительность цикла, как правило, больше, чем один сезонный период; циклы, в отличие от сезонных периодов, не имеют определённой продолжительности. При выполнении каких-либо преобразований понять природу временного ряда значительно проще, такими преобразованиями могут быть, например, удаление тренда и сглаживание ряда. 585

Задачи Data Mining Тренд, сезонность и цикл Перед началом прогнозирования
необходимо ответить на следующие вопросы: Что нужно прогнозировать? При ответе на этот вопрос мы определяем переменные, которые будут прогнозироваться. Это может быть, например, уровень производства конкретного вида продукции в следующем квартале, прогноз суммы продажи этой продукции и т. д. При выборе переменных следует учитывать доступность ретроспективных данных, предпочтения лиц, принимающих решения, окончательную стоимость Data Mining. Часто при решении задач прогнозирования возникает необходимость предсказания не самой переменной, а изменений её значений. 586

Задачи Data Mining Тренд, сезонность и цикл В каких временн´
ых элементах (параметрах)? Отвечая на этот вопрос необходимо определить значения следующих параметров: Период прогнозирования основная единица времени, на которую делается прогноз. Например, мы хотим узнать доход компании через месяц. Период прогнозирования для этой задачи месяц. Горизонт прогнозирования это число периодов в будущем, которые покрывает прогноз. Если мы хотим узнать прогноз на 12 месяцев вперёд, с данными по каждому месяцу, то период прогнозирования в этой задаче месяц, горизонт прогнозирования 12 месяцев. Интервал прогнозирования частота, с которой делается новый прогноз. Интервал прогнозирования может совпадать с периодом прогнозирования. С какой точностью прогноз? 587

Задачи Data Mining Рекомендации по выбору параметров прогнозирования Горизонт прогнозирования
должен быть не меньше, чем время, которое необходимо для реализации решения, принятого на основе этого прогноза. Только в этом случае прогнозирование будет иметь смысл. С увеличением горизонта прогнозирования точность прогноза, как правило, снижается, а с уменьшением повышается. Можно улучшить качество прогнозирования, уменьшая время, необходимое на реализацию решения, для которого реализуется прогноз, и, следовательно, уменьшив при этом горизонт и ошибку прогнозирования.

Задачи Data Mining Рекомендации по выбору параметров прогнозирования При выборе
интервала прогнозирования следует выбирать между двумя рисками: вовремя не определить изменения в анализируемом процессе и высокой стоимостью прогноза. При длительном интервале прогнозирования возникает риск не идентифицировать изменения, произошедшие в процессе, при коротком возрастают издержки на прогнозирование. При выборе интервала необходимо также учитывать стабильность анализируемого процесса и стоимость проведения прогноза. 589

Задачи Data Mining Точность прогноза Точность прогноза, требуемая для решения
конкретной задачи, оказывает большое влияние на прогнозирующую систему. Ошибка прогнозирования зависит от используемой системы прогнозирования. Чем больше ресурсов имеет система, тем больше шансов получить более точный прогноз. Однако прогнозирование не может полностью уничтожить риски при принятии решений. Поэтому всегда учитывается возможная ошибка прогнозирования. Точность прогноза характеризуется ошибкой прогноза. Наиболее распространённые виды ошибок: Средняя ошибка вычисляется простым усреднением ошибок на каждом шаге. Недостаток этого вида ошибки положительные и отрицательные ошибки аннулируют друг друга.

Задачи Data Mining Точность прогноза Средняя абсолютная ошибка рассчитывается как
среднее абсолютных ошибок. Если она равна нулю, то мы имеем совершенный прогноз. В сравнении со средней квадратической ошибкой, эта мера не придаёт слишком большого значения выбросам. Сумма квадратов ошибок среднеквадратическая ошибка. Она вычисляется как сумма (или среднее) квадратов ошибок. Это наиболее часто используемая оценка точности прогноза. Относительная ошибка выражает качество подгонки в терминах относительных ошибок. 591

Задачи Data Mining Поиск ассоциативных правил Впервые задача поиска ассоциативных
правил была предложена для нахождения типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда её ещё называют анализом рыночной корзины (market basket analysis). Проблема поиска устойчивых связей в корзине покупателя (market-basket problem) служит одним из наиболее часто цитируемых примеров поиска ассоциативных правил. Задача состоит в том, чтобы определить, какие товары приобретаются покупателями вместе, так, чтобы специалисты по маркетингу могли соответствующим образом разместить эти товары в магазине для повышения объёма продаж, а также принять другие решения, способствующие продажам. Некоторые обнаруживаемые правила могут быть тривиальными, например, покупатели, которые покупают хлеб, также покупают и молоко . Другие интересные и экстраординарные, например покупатели, которые покупают подгузники, также покупают и пиво .

Задачи Data Mining Поиск ассоциативных правил Способность обнаруживать интересные правила
делает поиск ассоциативных правил ценным и способствующим поиску знаний. Поиск ассоциативных правил ключевая тема в интеллектуальном анализе данных. Поиск обнаруживает скрытые связи в данных, на первый взгляд, никак не связанных. Связи правила, которые превышают определённый порог, считаются интересными. Интересные правила дают возможность выполнять действия, основываясь на определённых шаблонах. Они также помогают в принятии и объяснении решений.

Задачи Data Mining Ассоциативные правила Пусть имеется база данных, состоящая
из покупательских транзакций. Определение Покупательская транзакция (рыночная корзина) это набор товаров, купленных покупателем за один визит. Пусть I = {i1, i2, i3, . . . in} множество (набор) товаров, называемых элементами. Пусть D множество транзакций, где каждая транзакция T это набор элементов из I, T ⊆ I. Каждая транзакция представляет собой бинарный вектор, где tk = 1, если ik элемент присутствует в транзакции, иначе tk = 0. Говорят, что транзакция T содержит X, некоторый набор элементов из I, если X ⊆ T . 594

Основные направления Data Mining Ассоциативные правила Определение Ассоциативным правилом называется
импликация X ⇒ Y , где X ⊆ I, Y ⊆ I и X ∩ Y = ∅. Правило X ⇒ Y имеет поддержку (support) s, если s% транзакций из D содержат X ∪ Y : supp(X ⇒ Y ) = supp(X ∪ Y ). Достоверность правила показывает, какова вероятность того, что из X следует Y . Правило X ⇒ Y справедливо с достоверностью (conﬁdence) c, если c% транзакций из D, содержащих X, также содержат Y : conf(X ⇒ Y ) = supp(X ∪ Y )/ supp(X). Уровень достоверности, который должна превышать достоверность правила, называется интересностью (interestingness).

Задачи Data Mining Ассоциативные правила Таким образом, правило не является
тождеством, а выполняется только с некоторой вероятностью. Кроме того, в качестве X и Y может выступать набор элементов. Пример 8.5 (Ассоциативные правила для рыночной корзины) 75% транзакций, содержащих хлеб, также содержат молоко. 3% от общего числа всех транзакций содержат оба товара . 75% это достоверность (conﬁdence) правила, 3% это поддержка (support), или Хлеб ⇒ Молоко с вероятностью 75%. Алгоритмы поиска ассоциативных правил предназначены для нахождения всех правил X ⇒ Y , причём поддержка и достоверность этих правил должны быть выше некоторых наперёд определённых порогов, называемых соответственно минимальной поддержкой (minsupport) и минимальной достоверностью (minconﬁdence).

Задачи Data Mining Ассоциативные правила Задача нахождения ассоциативных правил разбивается
на две подзадачи: 1 Нахождение всех наборов элементов, которые удовлетворяют порогу minsupport. Определение Наборы элементов, удовлетворяющие порогу minsupport, называются часто встречающимися. 2 Генерация правил из наборов элементов, найденных согласно п. 1 с достоверностью, удовлетворяющей порогу minconﬁdence.

Задачи Data Mining Основные алгоритмы поиска ассоциативных правил 1 Apriori
один из первых алгоритмов, эффективно решающих подобный класс задач. 2 DHP. 3 Partition. 4 DIC. 5 и др. Значения для параметров минимальная поддержка и минимальная достоверность выбираются таким образом, чтобы ограничить количество найденных правил. Если поддержка имеет большое значение, то алгоритмы будут находить правила, хорошо известные аналитикам или настолько очевидные, что нет никакого смысла проводить такой анализ. 598

Задачи Data Mining Основные алгоритмы поиска ассоциативных правил С другой
стороны, низкое значение поддержки ведёт к генерации огромного количества правил, что, конечно, требует существенных вычислительных ресурсов. Тем не менее большинство интересных правил находится именно при низком значении порога поддержки. Хотя слишком низкое значение поддержки ведёт к генерации статистически необоснованных правил. Поиск ассоциативных правил совсем не тривиальная задача, как может показаться на первый взгляд. Одна из проблем заключается в алгоритмической сложности при нахождении часто встречающих наборов элементов, т. к. с ростом числа элементов в I (|I|) экспоненциально растёт число потенциальных наборов элементов.

Задачи Data Mining Обобщённые ассоциативные правила При поиске ассоциативных правил
мы предполагали, что все анализируемые элементы однородны. В анализе рыночной корзины товары имеют совершенно одинаковые атрибуты, за исключением названия. Однако не составит большого труда дополнить транзакцию информацией о том, в какую товарную группу входит товар и построить иерархию товаров. Приведём пример такой группировки (таксономии) в виде иерархической модели (см. рис. 8.5). Пусть нам дана база транзакций D и известно, в какие группы (таксоны) входят элементы. Тогда можно извлекать из данных правила, связывающие группы с группами, отдельные элементы с группами и т. д. Например, если покупатель купил товар из группы Безалкогольные напитки , то он купит и товар из группы Молочные продукты . Эти правила носят название обобщённых ассоциативных правил (generalized association rules).

Задачи Data Mining Обобщённые ассоциативные правила Рис. 8.5: Пример группировки
(таксономии) в виде иерархической модели 601

Задачи Data Mining Обобщённые ассоциативные правила Определение Обобщённым ассоциативным правилом
называется импликация X ⇒ Y , где X ⊂ I, Y ⊂ I и X ∩ Y = ∅ и где ни один из элементов, входящих в набор Y , не является предком ни одного элемента, входящего в X. Поддержка и достоверность подсчитываются также, как и в случае ассоциативных правил Преимущества: 1 Введение дополнительной информации о группировке элементов в виде иерархии помогает установить ассоциативные правила не только между отдельными элементами, но и между различными уровнями иерархии (группами). 2 Отдельные элементы могут иметь недостаточную поддержку, но в целом группа может удовлетворять порогу minsupport. 602

Задачи Data Mining Обобщённые ассоциативные правила Для нахождения таких правил
можно использовать любой из вышеназванных алгоритмов. Для этого каждую транзакцию нужно дополнить всеми предками каждого элемента, входящего в транзакцию. Однако применение в лоб этих алгоритмов неизбежно вызовет следующие проблемы: 1 Элементы на верхних уровнях иерархии стремятся к значительно большим значениям поддержки по сравнению с элементами на нижних уровнях. 2 С добавлением в транзакции групп увеличилось количество атрибутов и соответственно размерность входного пространства. Это усложняет задачу, а также ведёт к генерации большего количества правил. 3 Появление избыточных правил, противоречащих определению обобщённого ассоциативного правила, например, Сок ⇒ Безалкогольные напитки . Очевидно, что практическая ценность такого открытия будет нулевой при 100% достоверности. 603

Задачи Data Mining Обобщённые ассоциативные правила Следовательно, нужны специальные операторы,
удаляющие подобные избыточные правила. Для нахождения обобщённых ассоциативных правил желательно использование специализированного алгоритма, который устраняет вышеописанные проблемы и к тому же работает в 2–5 раз быстрее, чем стандартный Apriori. Группировать элементы можно не только по вхождению в определённую товарную группу, но и по другим характеристикам, например по цене (дёшево, дорого), брэнду и т. д. 604

Задачи Data Mining Численные ассоциативные правила При поиске ассоциативных правил
задача была существенно упрощена. По сути всё сводилось к тому, присутствует в транзакции элемент или нет. Если вернуться к анализу рыночной корзины, то мы рассматривали два состояния: куплен товар или нет, проигнорировав, например, информацию о том, сколько было куплено, кто купил, характеристики покупателя и т. д. И можно сказать, что рассматривали булевские ассоциативные правила. Если взять любую базу данных, каждая транзакция состоит из различных типов данных: числовых, категориальных и т. д. Для обработки таких записей и извлечения численных ассоциативных правил (quantitative association rules) был предложен соответствующий алгоритм поиска. Пример 8.6 (Численное ассоциативное правило) [Возраст: 30–35] и [Семейное положение: женат] [Месячный доход: 1000–1500 тугриков]. 605

Задачи Data Mining Численные ассоциативные правила Помимо описанных выше ассоциативных
правил существуют и другие, например: временн´ ые ассоциативные правила для событий, связанных во времени; косвенные ассоциативные правила; ассоциативные правила c отрицанием Ассоциативные правила эффективно используются в сегментации покупателей по поведению при покупках, анализе предпочтений клиентов, планировании расположения товаров в супермаркетах, кросс-маркетинге, адресной рассылке. Однако сфера применения этих алгоритмов не ограничивается лишь одной торговлей. Их также успешно применяют и в других областях: медицине, для анализа посещений веб-страниц (Web Mining), для анализа текста (Text Mining), для анализа данных по переписи населения, в анализе и прогнозировании сбоев телекоммуникационного оборудования и т. д.

Основные направления Data Mining Сейчас технология Data Mining используется практически
во всех сферах деятельности человека, где накоплены ретроспективные данные. 607

Основные направления Data Mining Text Mining Text Mining охватывает новые
методы для выполнения семантического анализа текстов, информационного поиска и управления. Синонимом Text Mining является KDT (Knowledge Discovering in Text поиск или обнаружение знаний в тексте). В отличие от технологии Data Mining, которая предусматривает анализ упорядоченной в некие структуры информации, технология Text Mining анализирует большие и сверхбольшие массивы неструктурированной информации. Программы Text Mining, реализующие эту задачу, должны некоторым образом оперировать естественным человеческим языком и при этом понимать семантику анализируемого текста. Один из методов, на котором основаны некоторые Text Mining системы, поиск так называемой подстроки в строке. 608

Основные направления Data Mining Web Mining Web Mining можно перевести
как добыча данных в Web . Web Intelligence (веб-интеллект) призван открыть новую главу в развитии электронного бизнеса. Способность определять интересы и предпочтения каждого посетителя, наблюдая за его поведением, является серьёзным и критичным преимуществом конкурентной борьбы на рынке электронной коммерции. Системы Web Mining могут ответить на многие вопросы, например, кто из посетителей является потенциальным клиентом веб-магазина, какая группа клиентов веб-магазина приносит наибольший доход, каковы интересы определённого посетителя или группы посетителей. 609

Основные направления Data Mining Web Mining Технология Web Mining охватывает
методы, которые способны на основе данных сайта обнаружить новые, ранее неизвестные, знания и которые в дальнейшем можно будет использовать на практике. Другими словами, технология Web Mining применяет технологию Data Mining для анализа неструктурированной, неоднородной, распределённой и значительной по объёму информации, содержащейся на веб-узлах. Web Mining делится на два основных направления: Web Content Mining и Web Usage Mining. 610

Основные направления Data Mining Web Content Mining Определение Web Content
Mining подразумевает автоматический поиск и извлечение качественной информации из разнообразных источников Интернета, перегруженных информационным шумом . Здесь также идёт речь о различных средствах кластеризации и аннотировании документов. В этом направлении, в свою очередь, выделяют два подхода. Подход, основанный на агентах (agent based approach), включает такие системы: интеллектуальные поисковые агенты (Intelligent Search Agents); фильтрация информации / классификация; персонифицированные агенты сети.

Основные направления Data Mining Web Content Mining Пример 8.7 (Системы
интеллектуальных агентов поиска) Harvest (Brown и др., 1994); FAQ-Finder (Hammond и др., 1995); Information Manifold (Kirk и др., 1995); ILA (Information Learning Agent) (Perkowitz and Etzioni, 1995); ShopBot (Doorenbos и др., 1996); OCCAM (Kwok and Weld, 1996), and ParaSite (Spertus, 1997). 612

Основные направления Data Mining Web Content Mining Подход, основанный на
базах данных (database approach), включает системы: многоуровневые базы данных; системы веб-запросов (Web Query Systems). Пример 8.8 (Системы веб-запросов) TSIMMIS (Chawathe и др.., 1994). W3QL (Konopnicki и Shmueli, 1995), Lorel (Quass и др., 1995), UnQL (Buneman и др., 1995 and 1996), WebLog (Lakshmanan и др., 1996), 613

Основные направления Data Mining Web Usage Mining Определение Web Usage
Mining обнаружение закономерностей в действиях групп пользователей веб-узла. Анализируется следующая информация: какие страницы просматривал пользователь; какова последовательность просмотра страниц; какие группы пользователей можно выделить среди общего их числа на основе истории просмотра веб-узла. Web Usage Mining включает следующие составляющие: предварительная обработка; операционная идентификация; инструменты обнаружения шаблонов; инструменты анализа шаблонов.

Основные направления Data Mining Web Usage Mining При использовании Web
Mining перед разработчиками возникает два типа задач. Первая касается сбора данных, вторая использования методов персонификации. В результате сбора некоторого объёма персонифицированных ретроспективных данных о конкретном клиенте, система накапливает определённые знания о нём и может рекомендовать ему, например, определённые наборы товаров или услуг. На основе информации о всех посетителях сайта веб-система может выявить определённые группы посетителей и также рекомендовать им товары или же предлагать товары в рассылках.

Основные направления Data Mining Web Usage Mining Задачи Web Mining
можно подразделить на такие категории: Предварительная обработка данных для Web Mining. Обнаружение шаблонов и открытие знаний с использованием ассоциативных правил, временных последовательностей, классификации и кластеризации; Анализ полученного знания. 616

Основные направления Data Mining Call Mining Call Mining добыча звонков
, может стать популярным инструментом корпоративных информационных систем. Определение Технология Call Mining объединяет в себе распознавание речи, её анализ и Data Mining. Её цель упрощение поиска в аудиоархивах, содержащих записи переговоров между операторами и клиентами. При помощи этой технологии операторы могут обнаруживать недостатки в системе обслуживания клиентов, находить возможности увеличения продаж, а также выявлять тенденции в обращениях клиентов. 617

Основные направления Data Mining Call Mining Среди разработчиков новой технологии
Call Mining компании: CallMiner, Nexidia, ScanSoft, Witness Systems. В технологии Call Mining разработано два подхода: на основе преобразования речи в текст; на базе фонетического анализа. 618

Основные направления Data Mining Call Mining Примером реализации первого подхода,
основанного на преобразовании речи, является система CallMiner. В процессе Call Mining сначала используется система преобразования речи, затем следует её анализ, в ходе которого в зависимости от содержания разговоров формируется статистика телефонных вызовов. Полученная информация хранится в базе данных, в которой возможен поиск, извлечение и обработка. Пример реализации второго подхода фонетического анализа продукция компании Nexidia. При этом подходе речь разбивается на фонемы, являющиеся звуками или их сочетаниями. Такие элементы образуют распознаваемые фрагменты. При поиске определённых слов и их сочетаний система идентифицирует их с фонемами.

Основные направления Data Mining Call Mining Аналитики отмечают, что за
последние годы интерес к системам на основе Call Mining значительно возрос. Это объясняется тем фактом, что менеджеры высшего звена компаний, работающих в различных сферах, в т. ч. в области финансов, мобильной связи, авиабизнеса, не хотят тратить много времени на прослушивание звонков с целью обобщения информации или же выявления каких-либо фактов нарушений. Использование этих технологий повышает оперативность и снижает стоимость обработки информации. Типичная инсталляция продукции от разработчика Nexidia обходится в сумму от 100 до 300 тыс. долл. Стоимость внедрения системы CallMiner по преобразованию речи и набора аналитических приложений составляет около 450 тыс. долл. Приложения Audio Mining и Video Mining найдут со временем гораздо более широкое применение, например при индексации учебных видеофильмов и презентаций в медиабиблиотеках компаний.

Дополнительная литература I Чубукова, И. А. Data Mining: учебное пособие
[Текст] / И. А. Чубукова. М.: Интерент-Университет Информационных Технологий; БИНОМ. Лаборатория знаний, 2006. 382 с. ISBN 5-94774-522-4 (БИНОМ.ЛЗ). Чубукова, И. А. Data mining: учебное пособие [Электронный ресурс] / И. А. Чубукова. М.: Интернет-университет информационных технологий ИНТУИТ.ру, 2006. Режим доступа: http://www.intuit.ru/department/se/msd/. 621

Дополнительная литература II Дюк, В. Data Mining: учебный курс [Текст]
/ В. Дюк, А. Самойленко. СПб: Питер, 2001. 368 с. ISBN 5-318-00227-7. Mueller, J.-A. Self-Organising Data Mining. An Intelligent Approach To Extract Knowledge From Data [Text] / J.-A. Mueller, F. Lemke. 1-st edition. Berlin, Dresden: [s. n.], 1999. P. 225.

Дополнительная литература III Технологии анализа данных. Data Mining, Visual Mining,
Text Mining, OLAP [Текст]: Учебное пособие / А. А. Барсегян, М. С. Куприянов, В. В. Степаненко, И. И. Холод. 2-е, перераб. и доп. изд. СПб.: БХВ-Петербург, 2007. 384 с.: ил. + 1 электрон. опт. диск. ISBN 5-94157-991-8. Анализ данных и процессов [Текст]: учебное пособие / А. А. Барсегян, М. С. Куприянов, И. И. Холод и др. 3-е, перераб. и доп. изд. СПб.: БХВ-Петербург, 2009. 512 с.: ил.; 23 см + 1 электрон. опт. диск(Учебная литература для вузов. ISBN 978-5-9775-0368-6. 623

Дополнительная литература IV Мерков, А. Б. Основные методы, применяемые для
распознавания рукописного текста [Текст] / А. Б. Мерков. Искуственные нейронные сети (ANN), векторное квантование (LVQ), метод опорных векторов (SVM), скрытая марковская модель (HMM). Режим доступа: http://www.recognition. mccme.ru/pub/RecognitionLab.html/methods.html.

Часть IX Приложение

Алфавитный указатель I AI, 531 Allen, Dean, 123 anti-aliasing, 191
ARPANET, 424, 426, 427 ASCII, 448 Aspect ratio, 356 associations and aﬃnities, 544 Audio Mining, 620 Berners-Lee, Tim, 427, 475 bit rate, 372 Bitcoin, 490, 491 Bitnet, 426 BitTorrent бестрекерная система, 462 Boutell, Thomas, 246

Алфавитный указатель II Call Mining, 617, 618 cloud computing, 14
cluster, 558 CMS, 477, 478 Codd, Edgar Frank, 525 code page, 50 Cohen, Bram, 461 conditional logic, 544 conﬁdence, 595, 596 Cook, Rob, 211 Cristy, John, 274 cross-validation, 554 CyberPlat, 481 data clustering, 558 data compression, 263 lossless, 262

Алфавитный указатель III Data Mining, 8, 522, 522, 523–526, 543,
547, 548, 567, 568, 574, 586, 607, 608, 610, 617 Data Mining временных рядов, 575, 577 density-based methods, 564 deviation detection, 546 discovery, 543 DNS, 426, 448 dpi, 169 DRM, 409 e-mail, 446, 447 email, 446 Epassporte, 483 forecasting, 545, 567 forensic analysis, 546 generalized association rules, 600

Алфавитный указатель IV Gilmore, Jack, 162 GMDH, 552 Goldfarb, Charles,
115 grid-based methods, 564 Gruber, John, 122 HDTV, 361, 361, 362 hierarchy algorithms, 563 ICQMoney, 482 IntellectMoney, 484 Intelligent Search Agents, 611 interestingness, 595 interlace, 353 Internet, 418 internet, 418 intranet, 421

Алфавитный указатель V IP-телефонии, 484 IP-телефония, 494, 500, 503 iPhone,
489 IPTV, 507, 507, 508 IT, 5 KDT, 608 Kelley, Colin, 276 Knuth, Donald E., 134 Kodak, 228 Lamport, Lamport, 148 Lawton, Stephen, 421 lightness, 182 lpi, 171 machine learning, 533

Алфавитный указатель VI market basket analysis, 592 markup language lightweight,
120 MIDI, 326 MIME, 448 minconﬁdence, 596, 597 minsupport, 596, 597 model-based methods, 563 MoneyMail, 481 MP3, 339 MPEG, 321, 336, 336, 337 MPEG-1, 338 newsgroup, 465 NSFNet, 426, 426, 427, 428 OLAP, 525, 525, 543

Алфавитный указатель VII outcome prediction, 545 Parmenter, Stuart, 250 partitioning
algorithms, 563 pattern, 80 PayPal, 483, 487–489 Paypal, 488 PayPal Here, 489 PCM, 299 Piatetsky-Shapiro, Gregory, 523 Pike, Rob, 73 pnmtops, 273 Poskanzer, Jef, 272 ppi, 169 predictive modeling, 545 Progressive JPEG, 232 Python, 461 632

Алфавитный указатель VIII QIWI, 483 Randers-Pehrson, Glenn, 251, 274 RBK
Money, 481 regular expressions, 80 Reid, Brian, 117 RFID, 8 Russell, Stephen, 160 Sandras, Damien, 503 SIPNET, 502 SOA, 13 song, 325 spam, 452 SPIM, 452 support, 595, 596 Sutherland, Ivan Edward, 162

Алфавитный указатель IX SVM, 552 Swartz, Aaron H., 122 SWIFT,
479, 480 Taylor, Norman, 162 TeleMoney, 485 Text Mining, 606, 608, 608 Thompson, Kenneth, 73 time-series Data Mining, 575 tracker, 462 trackerless, 462 Tunnicliﬀe, William W., 114 UHDTV 4K, 362 8K, 362 UHDV, 362

Алфавитный указатель X Ultra HDTV, 362, 362 Usenet, 426 Video
Mining, 620 VoIP, 494, 494, 495–498, 502 Vuki´ cevi´ c, Vladimir, 250 W1, 484 Web Content Mining, 610, 611 Web Intelligence, 609 Web Mining, 606, 609, 610, 615, 616 Web Query Systems, 613 Web Usage Mining, 610, 614, 614 WebMoney, 483, 486 Williams, Thomas, 276 Wirex, 483 WWW, 418, 428, 429, 472, 472, 475, 476

Алфавитный указатель XI Z-Payment, 482 АЦП, 295, 296, 296, 299,
305–308, 312, 315, 318, 331 Аллен, Дин, 123 Бернерс-Ли, Тим, 427, 475, 476 Биткоин, 490, 491 Боутелл, Томас, 246 Видео, 345 Видеозапись, 345 Вильямс, Томас, 276 Всемирная паутина, 418, 420, 472 Вукичевич, Владимир, 250 Выборка, 331 Гилмор, Джек, 162 Голдфарб, Чарльз, 115, 124 Грубер, Джон, 122 Деннис, Дж. Б., 36 636

Алфавитный указатель XII Единый кошелек, 484 ИКМ, 299, 331, 332
ИТ, 42 безопасность, 38 контроль, 38 технологический процесс, 42 ИТ (информационные технологии), 5, 5, 6 ИТ-специалист, 5 Интернет, 263, 373, 418, 418, 420–422, 426–432, 435, 436, 438, 439, 502 Келли, Колин, 276 Кнут, Дональд, 134 Кодд, Эдгар Франк Тед , 525 Константинов, Николай Николаевич, 163 Коэн, Брэм, 461 Кристи, Джон, 274 Кук, Роб, 211

Алфавитный указатель XIII Лампорт, Лесли, 148 Лотон, Стивена, 421 МГУА,
552, 573 Монета.Ру, 485 Пайк, Роб, 73 Парментер, Стюарт, 250 Посканзер, Джеф, 272 Пятецкий-Шапиро, Григорий, 523 Рассел, Стив, 160 Рейд, Брайан, 117 Рунет, 435, 436, 441, 473 Рэндерс-Пёрсон, Глен, 251, 274 Сазерленд, Айвен, 162 Сандрас, Дамьен, 503 Тейлор, Норман, 162 Томпсон, Кен, 73 Тьюнниклифф, Вильям, 114

Алфавитный указатель XIV Фидонет, 429 ЦАП, 296, 296, 305, 312,
331 Шварц, Аарон, 122 ЭВМ конвейерные, 36 многопроцессорный, 35 потоковые, 36, 36 редукционные, 37 фоннеймановской архитектуры, 35 Яндекс.Деньги, 481 алгоритмы генетические, 552 иерархические, 563 итеративные, 563 основанные на разделении данных, 563 альфа-канал, 189, 245, 248, 254 альфа-композиция, 188, 191

Алфавитный указатель XV анализ исключений, 542, 546 анализ рыночной корзины,
592, 600, 605 артефакты сжатия, 266 ассоциативная логика, 544 ассоциативное правило, 595, 606 достоверность, 595, 596 интересность, 595 минимальная достоверность, 596, 598 минимальная поддержка, 596, 598, 599 набор элементов, 597, 599 часто встречающийся, 597, 599 поддержка, 595, 596, 598, 599 байесовская (наивная) классификация, 552 битрейт, 338, 372, 373–377 бод, 373 браузер, 472 валидация закономерностей, 544

Алфавитный указатель XVI веб-радио, 504 веб-сервисы, 13 вейвлет-преобразование, 236, 241,
242, 259, 261 вертикальное разрешение, 360 видеокомпрессия, 398, 398, 400 компенсация движения, 399 видеоконференция, 503 видеопоток, 394 визуализация, 200, 201, 530 витрины данных, 33 воксель, 363, 363 временной ряд, 575, 575, 576–580, 582–584 несезонный, 580, 583 сезонная компонента, 577, 578, 580, 582, 584, 585 сезонный, 580, 583 сезонный мультиряд, 583 тренд, 525, 577, 578, 578, 579, 584

Алфавитный указатель XVII циклическая компонента, 577, 585 выявление отклонений, 546
гамма-коррекция, 186, 186, 187, 245, 248 глубина цвета, 171, 171, 180, 209, 227 горизонт прогнозирования, 587 горизонтальное разрешение, 360 графические примитивы, 168 группа новостей, 453, 465, 465, 466, 467 группа переписки, 451 деинтерлейсинг, 354 деревья решений, 544, 552 динамический диапазон, 185, 315, 316 дискретизатор, 300 дискретизация, 299 частота, 305 доксель, 365 доменное имя, 429, 437

Алфавитный указатель XVIII зернистость, 170 индексационный сервер, 459, 460, 463
интеллект, 532 интеллектуальный анализ данных, 522 интенсивность тона, 169, 182, 183 интерлейс, 353 интерлейсинг, 353 интернет, 418 интернет-радио, 504, 504, 506 интерфейс музыкальных инструментов паттерн, 325 песня, 325 интранет, 421, 421, 422, 510, 511 интрасеть, 421 искусственные нейронные сети, 552, 573 искусственный интеллект, 531, 531, 533, 536 квантование сигнала, 299

Алфавитный указатель XIX классификатор, 549 классификация, 545, 547, 548, 548,
549–552, 554 кластер, 558, 558, 561, 565, 566 кластеризация, 547, 558, 558, 559, 560, 562, 565, 566 кластерный анализ, 558, 560, 561 кодек, 254, 263, 264, 335, 339, 340, 374, 376, 409 предсказывающий, 264 трансформирующий, 264, 265 кодировка ASCII, 53 EBCDIC, 52 ISO 8859, 60 Unicode, 66 UTF-8, 73 кодовая страница, 50, 50 компания 1С-Битрикс, 514

Алфавитный указатель XX Adobe, 119, 136, 252, 269, 270, 320
Apache Software Foundation, 515 Apple, 147, 409 Artec Group, 539 AT&T, 261 ATI, 213 Cakewalk, 320 CallMiner, 618, 619 Commodore International, 407 Corel, 136 Creative Labs, 332 Cyscom, 514 eBay, 487 Ericsson, 507 General Motors, 162 Google, 471, 472, 515, 516 Google Inc., 254

Алфавитный указатель XXI IBM, 50, 115, 124, 143, 162, 539
IBS Datafort, 514 ImageMagick Studio, 274 IMAX, 362 Itek, 162 J‘son and Partners Consulting, 440 Korea Telecom, 507 Macromedia, 119 Mail.ru, 455 Matrix Capital International, 482 Mediaroom, 507 Microsoft, 119, 136, 137, 139, 141, 142, 213, 227, 332, 406, 407, 411, 498, 512, 514 NASA, 237 NemeSys, 320 Netscape, 469 Nexidia, 618, 619

Алфавитный указатель XXII NHK, 362 Nullsoft, 505 nVidia, 209, 211,
213, 219 On2 Technologies, 254 Opera, 472 Oracle, 142, 143 PayPal Inc., 487 PBWiki, 514 Pixar, 210, 211 Propellerhead Software, 320 RealNetworks Products and Services, 410 Samsung, 472 ScanSoft, 618 Softkey, 514 Softline, 514 Sun Microsystems, 119, 141, 142 TCI Software Research Inc., 147

Алфавитный указатель XXIII TopS BI, 514 WebDiscovery, 485 Witness Systems,
618 WM Transfer, 486 Y&Y Inc., 147 Z-Soft, 227 Zorbit, 482 Вокорд, 538 Дельта Кей, 482 Комфорт плюс, 485 Крок, 539, 540 Лаборатория Касперского, 454, 493 МОНЕТА.РУ, 485 Объединённая система моментальных платежей, 483 Ростелеком, 438, 440 ТТК-ЗС, 440 Транзактор, 482

Алфавитный указатель XXIV компрессия, 315 компьютерная графика, 159, 159, 162–165
векторная, 166, 168 двумерная, 166 растровая, 166, 167 трёхмерная, 166, 198 фрактальная, 166 конвейер векторный, 36 последовательный, 36 контейнер, 254 конференция, 465 кросс-проверка, 554, 554 линейная регрессия, 552, 573 линиатура, 171, 171 маска-канал, 189 машинное обучение, 533, 533, 534

Алфавитный указатель XXV дедуктивное, 533, 533 индуктивное, 533, 534 по
прецедентам, 533 медиаконтейнер, 403, 403, 404 метод Дельфи, 573 ближайшего соседа, 552 главных компонент, 552 опорных векторов, 552 методы грид, 564 модельные, 563 основанные на концентрации объектов, 564 модификация данных, 38 мультимедиаконтейнер, 403 нейронные сети, 544 облачные вычисления, 14

Алфавитный указатель XXVI облачные технологии, 14 обмен информацией, 27 обобщённые
ассоциативные правила, 600, 602 обработка информации, 34 обучение без учителя, 559 обучение по прецедентам, 533 организация CERN, 427, 476 DARPA, 423 Gartner Group, 523 ISO, 114 JPEG, 237 Mozilla Foundation, 250–252, 472 NATO, 146 Netscape, 252 NSF, 426 OASIS, 138

Алфавитный указатель XXVII PNG, 251 SAS Institute, 523 The Document
Foundation, 144 W3C, 119, 130, 246, 428, 476 Xiph.Org, 340 Xiph.org, 410 Консорциум WWW, 428 Национальный научный фонд США, 426 Центральный банк России, 488 ЮНЕСКО, 6 паттерн, 325 передача информации, 27, 29 период прогнозирования, 587 пиксель, 167, 167, 169, 169, 171, 181, 189, 209, 227 платёжная система, 479, 479, 480 электронная, 480, 487, 489 поддержка принятия решения, 39

Алфавитный указатель XXVIII поиск ассоциативных правил, 547, 592, 593, 596,
597, 599, 605 поиск информации, 39 покупательская транзакция, 594, 594, 595, 596, 600 полигон, 198 почтовое хранилище, 449, 450 почтовый ящик, 449 предсказание, 545 приложение (ПО) µTorrent, 462 AMS-TEX, 147 1С-Битрикс: Корпоративный портал, 514 3D-Book, 537 3Delight, 218 3ds Max, 224 AbiWord, 143 AC3, 409 Adobe Flash, 224, 255

Алфавитный указатель XXIX Adobe InDesign, 224 Adobe llustrator, 224 Adobe
Photoshop, 223 Aimp, 320 AIR, 218 AjaxWrite, 143 amaroK, 320 Android, 255, 489, 499 Angel, 218 Apache, 238 Apriori, 598, 604 AQSIS, 218 Arion Renderer, 220 ART, 218 Audacity, 320 Audition, 320 Autodesk 3ds Max, 222

Алфавитный указатель XXX Autodesk Maya, 222 BEAST, 320 BitComet, 462
BitTorrent, 461, 462 Blender, 222, 224 Blink, 472 Blue Moon Rendering Tools, 218 BMRT, 218 Brazil IR, 221 Brazil R/S, 218 Bristol, 320 Bryce, 224 BusyRay, 218 Chrome, 472 Chromium, 253 Cinema 4D, 214 Clementine, 320

Алфавитный указатель XXXI CommuniGate Pro, 502 ConTEXt, 147 Cool Edit,
320 Corel Draw, 136, 224 Corel Photopaint, 223 Corel Word Perfect, 136 Counter-Strike, 206 DAC-1, 162 Daz3D Bryce, 222 Debian, 252 DEFLATE, 245 Deluge, 462 DeskWork, 514 DHP, 598 DIC, 598 DirectX, 213 e-on Software Vue, 222

Алфавитный указатель XXXII Ekiga, 497, 503 emTEX, 147 Encore, 328,
330 Entropy, 218 Excel, 139, 141 EzStream, 504 f4l, 224 FAQ-Finder, 612 FinalRender, 221 ﬁnalRender, 219 Firefox, 255, 472 fpTEX, 147 FrameMaker, 136 Framework, 468 FrootyLoops, 320 Fryrender, 219 Gecko, 238, 253

Алфавитный указатель XXXIII Gelato, 219 giFT, 464 GigaStudio, 320 GIMP,
223 Gmail, 516 GNOME, 503 GnomeMeeting, 503 GNU/Linux, 144, 335, 402 GNUplot, 276, 277, 279, 283 Google Apps, 516 Google Calendar, 516 Google Chrome, 253, 255 Google Docs, 143, 516 Google Maps, 119 Google Sites, 516 Google Talk, 516 Google Video, 408

Алфавитный указатель XXXIV Google Wave, 515, 516 Grand Prix 3,
173 grep, 81 Guitar Pro, 320 Harvest, 612 HEVC, 507 Holomatix Renditio, 219 Hydrogen, 320 Icecast, 505 ICER, 237 ICes, 504 Iceweasel, 252, 253 IE, 119 ILA, 612 ImageJ, 252 ImageMagick, 274 Imagine, 252

Алфавитный указатель XXXV Indigo Renderer, 219 Information Manifold, 612 Inkscape,
224 Internet Explorer, 119, 253, 255, 472 iOS, 499 iray, 221 JetAudio, 506 JetCast, 506 Kerkythea, 219 KMid, 328 KOﬃce, 143 Konqueror, 237, 248, 253 KSquirrel, 252 KTorrent, 462 L A TEX, 147, 148 libpng, 251 LibreOﬃce, 118, 143, 144

Алфавитный указатель XXXVI libwebp, 255 libwebpjs/libwebpas, 255 Linux, 238, 276,
499, 512 Lorel, 613 Lotus Notes, 143 Lotus Symphony, 143 Luxology Modo, 222 LuxRender, 219 LyX, 136 Mac, 402 Mac OS, 499, 512 Macintosh, 147 Mail.ru Агент, 502 Maxon Cinema 4D, 222 Maxthon 3, 253 Maxwell Render, 219 Maya, 224

Алфавитный указатель XXXVII mental ray, 219 Meridian, 219 Microsoft Exchange,
448 Microsoft NetMeeting, 503 Microsoft Office, 118, 119, 139–142 Microsoft Windows, 58 MiKTEX, 147 MLDonkey, 464 Mozilla, 248 Mozilla Firefox, 237, 251, 253 MS Office Publisher, 136 MS DOS, 147, 276 MS Windows, 268 MS Word, 117, 136 MuseScore, 320 MySQL, 238 NeoOffice, 143

Алфавитный указатель XXXVIII NetCall, 502 NetPBM, 256, 272 NewTek LightWave
3D, 222 nroff, 115 OCCAM, 612 Octane Render, 220 ODF Converter, 141 ODFReader, 143 Omega, 147 Open Office, 143 OpenGL, 206 OpenH323, 503 OpenOffice, 118 OpenOffice.org, 141, 143 Opera, 253, 255, 472 Opera Mobile, 253 OS/2, 147

Алфавитный указатель XXXIX ozTEX, 147 PageMaker, 136 Partition, 598 PBWorks,
514 pcTEX, 147 Personal TEX, 147 PHP, 238 Pixie, 220 PlainTEX, 147 Plan 9, 73 Point4All, 514 POV-Ray, 220 POV-Ray 3.6, 214 Power DVD, 320 PowerPoint, 139, 141 Productivity Tools, 143 PSP, 499

Алфавитный указатель XL PyKaraoke, 328 Quake 2, 206 Quake 3,
207 QuarkXpress, 136 QuickTime, 409 Quicktime, 237 RealAudio, 410 RealVideo, 410 Reason, 320 Rebirth, 320 RenderDotC, 220 RenderMan, 210, 211, 220 Rendition, 221 Rhinoceros 3D, 214 Rhytmbox, 320 RuTube, 408 SLiTEX, 147

Алфавитный указатель XLI Safari, 237, 253, 472 SAM Broadcaster, 504
Scientiﬁc Word, 147 Scribus, 136, 143 SeaMonkey, 253 SED, 96, 97, 98, 100, 102 sed, 81 Servo, 472 Shaderlight, 221 Share Point Services, 514 Shareaza, 464 Shareman, 464 SharePoint, 514 Sharepoint, 514 ShopBot, 612 Shoutcast, 505 Showcase, 221

Алфавитный указатель XLII SideFX Houdini, 222 SIPNET, 497 sK1, 224
Sketchpad, 162 SketchUp, 222 Skype, 493, 497–501 SMPlayer, 320 Sonar, 320 Sound Forge, 320 StarCraft, 173 StarOffice, 143 Sun ODF Plugin for Microsoft Office, 141 Sunflow, 220 Symbian, 499 TEX, 147 TEXLive, 147 Terragen, 222

Алфавитный указатель XLIII Terragen 2, 222 teTEX, 147 TeXmacs, 136
Textmaker, 143 Textpattern, 123 Theora, 410 TopS BI Intranet Portal, 514 Transmission, 462 troﬀ, 115 TrueTEX, 147 TSIMMIS, 613 Turtle, 220 TuxGuitar, 320 TweakPNG, 252 UltraStar, 329 UNIX, 276, 512 UnQL, 613

Алфавитный указатель XLIV Unreal, 207 V-Ray, 220 Visioo Writer, 143
VLC, 320 VMS, 276 Vocord FaceControl 3D, 538 Vorbis, 410 VP8, 254 VrayRT, 221 W3QL, 613 Wave in a Box, 515 WebKit, 253 WebLog, 613 Winamp, 320, 505 Windows, 137, 144, 147, 227, 276, 321, 402, 407, 464, 486, 499, 503, 512 Windows 7, 142

Алфавитный указатель XLV Windows Media, 411 Windows Media Player, 320
Windows Phone, 499 WinEdit, 118 WM Keeper Classic, 486 WM Keeper Light, 486 WM Keeper Mini, 486 WM Keeper Mobile, 486 Word, 139, 141 WordPad, 142 Writely, 143 XnView, 252 YafRay, 220 YouTube, 408 Zoho Writer, 143 Википедия:Книги, 143 Вконтакте, 408

Алфавитный указатель XLVI Звукозапись, 321 КП ОФИС, 143 прогноз, 567,
567, 568, 572–574, 577, 579, 587–590 ошибка, 590 прогноза, 588 прогнозирование, 545, 547, 567, 568, 569, 571, 573–575, 577, 579, 582, 586, 588–590 горизонт, 587, 588 интервал, 587, 589 мультисерийных рядов, 579 односерийных рядов, 579 ошибка, 588, 590 период, 587 точность, 590 прогнозирования, 567 прогностика, 568, 568 прогностическое моделирование, 542, 545, 545

Алфавитный указатель XLVII прогрессивной развёртке, 351 протокол Atom, 471 AtomPub,
471 BitTorrent, 460, 461, 461 FTP, 428, 456, 456, 457, 458 FTPS, 458 H.323, 503 HTTP, 422, 456, 471 HTTPS, 422 IMAP, 450, 457 IP, 421, 426, 494 IRC, 427 JPEG Part 9 JPIP, 243 NCP, 426 NNRP, 467 NNTP, 465, 467, 467

Алфавитный указатель XLVIII P2P, 461 POP, 449, 457 SCP, 458
SFTP, 458 SIP, 502, 503 SMTP, 448, 457, 467 SSH, 458 SSL, 457, 458 TCP, 426 Telnet, 457, 458 TelnetS, 458 TLS, 457 развёртка, 351, 353 прогрессивная, 351, 354, 355 чересстрочная, 351–354 размер холста, 180

Алфавитный указатель XLIX разметка, 112 разрешения, 169 распознавание образов, 535,
536 рассылка, 451, 451 растр, 170, 171, 171, 182–184, 192 регулярные выражения, 80 квантификатор, 89 комментарий, 95 маска, 80 модификатор, 93, 94 образец, 80 редукционные ЭВМ, 37 рендерер, 218 рендерером, 201 рендеринг, 173, 200, 200, 201, 206, 211, 215, 216, 218, 530 аппаратный, 206 в реальном режиме, 201

Алфавитный указатель L модели, 216 пре-рендеринг, 201 уравнение, 216 рендером,
201 робастность, 556 рыночная корзина, 594 сбор информации, 23, 24, 25, 27 светлота, 182 свободный поиск, 542, 543, 544, 546 сглаживание, 191 сезонность, 580, 582–584 секвенсор, 327 сервис-ориентированная архитектура, 13 сжатие, 315, 335, 375, 376 ABR, 377 c потерей качества, 374 CBR, 375

Алфавитный указатель LI JB2, 261 VBR, 376–378 ZP, 261 без
потерь, 227, 242, 245, 246, 254, 262, 262, 263, 265, 270 с переменным битрейтом, 376, 377 с постоянным битрейтом, 375, 377 с потерями, 227, 242, 254, 262, 263, 265, 270 с усреднённым битрейтом, 377 степень, 374 синтезатор, 327 системе графических координат, 193 создание данных, 38 спам, 452, 453–455 стандарт ISO 8879:1986, 125 ISO/IEC 26300, 138 стандарт разложения, 351, 351

Алфавитный указатель LII статистика, 527, 527, 534, 556 сэмпл, 325,
325 таксон, 600 таксономия, 559, 560, 600 теорема отсчётов, 302 Котельникова, 302 Найквиста-Шеннона, 302 технические средства защиты авторских прав, 409 трекер, 462 тренд, 584 трёхматричные системы, 390 управляющие символы, 77 уровень аудиосигнала, 298, 298 уровень шумов квантования, 306, 318 условная логика, 544 файлообменная сеть, 459, 459

Алфавитный указатель LIII гибридная, 463 децентрализованная, 463 централизованная, 459, 460,
463 частично централизованная, 460 формат 3gp, 406 4K, 507 AIFF, 405 ANIM, 406 APNG, 245, 248, 249, 249, 250–252 ASF, 406, 407 Atom, 470, 470, 471 AVI, 401, 407, 411 BBCode, 121 BMP, 227 CDXL, 407 DjVu, 257, 258–261

Алфавитный указатель LIV docstrip, 123 doxygen, 123 DVR-MS, 407 EMF,
268 EPS, 269 FITS, 405 FLV, 408 GenCode, 114, 124 GIF, 245, 246, 249, 251, 252, 263 GIF(87), 228 GIF(89a), 228 GML, 115, 118, 124, 124 HTML, 118, 129, 448 IFF, 405, 406, 407 ILBM, 406 Javadoc, 123 JP2, 243

Алфавитный указатель LV JPEG, 229, 233, 235, 236, 238, 239,
241, 244, 248, 254, 267, 370 JPEG 2000, 236, 236, 237–239, 241–244, 246, 247, 260, 263 JPX, 243 L A TEX, 118 M4V, 409 Markdown, 122 MathML, 118 Matroska, 408 MIDI, 326, 329, 330 MIDI-караоке, 328 MIFF, 256 MKV, 401, 408 MNG, 248, 248, 250, 263 MOD, 325 MOV, 401, 409 MP3, 238, 323, 338, 339, 505

Алфавитный указатель LVI MP4, 409 MPEG, 336, 339, 408, 508
MPEG-1, 407 MPEG-2, 407, 411 MPEG-4, 409 MPEG-TS, 408 MPG, 401 MXF, 410 ODF, 138, 141, 142 Oﬃce Open XML, 139, 142 Ogg, 323, 339, 340, 340, 410, 505 OGM, 410 OpenDocument, 138–140, 142 PAM, 256, 272 PBF, 246 PCM, 267 PCX, 227

Алфавитный указатель LVII PDF, 118, 270 PGML, 118, 119 PhotoCD,
228 PNG, 189, 245, 245, 246–251, 254, 260, 263 PostScript, 118, 269 PS, 269, 272 RAW, 227 RealAudio, 505 RealMedia, 410 RIFF, 254, 332, 405, 407, 411 RMI, 411 RSS, 468, 468, 469–471 RTF, 136, 137, 448 Scribe, 117, 118 SGML, 118, 124, 125, 125, 126, 129, 130, 148 SGML Docbook, 129 SVG, 118, 119, 268

Алфавитный указатель LVIII TEX, 118, 119, 134, 135, 148 Textile,
123 TIFF, 227, 245, 260, 263, 405 VML, 118, 119 VOB, 411, 411 VOC, 332 Vorbis, 339, 339, 505 WAV, 323, 332, 405, 411 WebM, 254, 255 WebP, 254, 254, 255 WMA, 406 WMF, 268 WML, 118 WMV, 406, 411 XHTML, 118 XMF, 405 XML, 118, 129, 130, 130, 136, 138, 471

Алфавитный указатель LIX Z Format, 129 ZIP, 262 Вики-разметка, 119,
123 фототаблица цветопередачи, 267 фрактал, 196, 196 холст, 169 хранение информации, 31 цветовая модель, 227, 366 BW, 172, 227 CGA, 172 CIE Lab, 177–179 CMYK, 176, 178, 179, 181 EGA, 172 HSB, 174 RGB, 174, 175, 178, 179, 181, 189, 191, 256, 268, 366–369, 382, 383, 385, 387–390 Y’CbCr, 381–384

Алфавитный указатель LX YCbCr, 380, 381, 384 YDbDr, 366 YIQ,
366, 368 YPbPr, 384 YUV, 366, 367, 384 цветовая палитра, 171, 172, 173 однородная, 173 цветовая субдискретизация, 370, 370 целостность данных, 38 частота кадров, 348, 348, 351, 353 чат, 427 численные ассоциативные правила, 605 число уровней квантования, 306 шейдер, 205, 205, 207, 208, 210, 213 вершинный, 208, 212 геометрический, 209 пиксельный, 212

Алфавитный указатель LXI фрагментный, 209 ширина видеопотока, 372, 372 шум
квантования, 306, 310 электронная платёжная система, 485 электронная почта, 424, 446, 446, 447–449, 453, 454 язык .NET Framework, 81 ActionScript, 255 ANSI C, 212 C, 213 Cg, 213 DirectX ASM, 212, 213 Gelato, 211 GLSL, 212 HLSL, 213 Java, 81 JavaScript, 81, 255

Алфавитный указатель LXII OpenGL, 212 Perl, 81, 122, 272 PHP,
81 Python, 81 RenderMan, 211 Ruby, 81 shell, 272 Tcl, 81 Ассемблер, 212 разметки, 112, 113, 113, 118, 119, 124, 125, 130, 132 легковесный, 120–123 шейдерный, 210, 211

Информационные технологии

Информационные технологии

Other Decks in Education

Featured

Transcript