Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Информационные технологии

Информационные технологии

В данном учебном пособии даются основные понятия информационных технологий, процессы при их реализации. Центральное место в пособии отводится направлениям информационных технологий, которые не рассматриваются в других дисциплинах, но, тем не менее полезны для специалистов-информатиков, работающих в экономической сфере. В частности, рассматриваются технологии обработки текстовой, графической, аудио-, видеоинформации, Интернет/интранет-технологии и технологии Data Mining.
Пособие предназначено студентам, обучающимся по направлениям «Прикладная информатика»,
«Бизнес-информатика», «Информационный менеджмент», может быть использовано в качестве дополнительной литературы по «Информационным технологиям» других направлений.

Oleg V. Zhurenkov

April 24, 2015
Tweet

Transcript

  1. Алтайская академия экономики и права
    Кафедра математики и прикладной информатики в
    экономике
    Информационные
    технологии
    Журенков Олег Викторович, [email protected]
    Барнаул,
    2013

    View Slide

  2. Автор: доцент, кандидат физико-математических наук
    О. В. Журенков
    Рецензент: к.т.н., доцент, заведующий лабораторией
    дистанционных образовательных технологий ААЭП
    О. Г. Солодкий
    В данном учебном пособии даются основные понятия
    информационных технологий, процессы при их реализации.
    Центральное место в пособии отводится направлениям
    информационных технологий, которые не рассматриваются в
    других дисциплинах, но, тем не менее полезны для
    специалистов-информатиков, работающих в экономической
    сфере. В частности, рассматриваются технологии обработки
    текстовой, графической, аудио-, видеоинформации,
    Интернет/интранет-технологии и технологии Data Mining.
    Пособие предназначено студентам, обучающимся по
    направлениям Прикладная информатика ,
    Бизнес-информатика , Информационный менеджмент ,
    может быть использовано в качестве дополнительной литературы
    по Информационным технологиям других направлений.

    View Slide

  3. Часть I
    Понятие информационных технологий

    View Slide

  4. Содержание
    1 Основные определения
    2 История ИТ
    Этапы развития ИТ
    3 Дисциплина информационных технологий
    4 Виды информационных технологий

    View Slide

  5. Основные определения
    Определение
    Информационные технологии (ИТ, от information technology,
    IT) широкий класс дисциплин и областей деятельности,
    относящихся к технологиям управления и обработки данных, в
    том числе, с применением вычислительной техники.
    В последнее время под информационными технологиями чаще
    всего понимают компьютерные технологии. В частности, ИТ
    имеют дело с использованием компьютеров и программного
    обеспечения для получения, передачи, преобразования,
    защиты, обработки и хранения информации.
    Определение
    Специалистов по компьютерной технике и программированию
    называют ИТ-специалистами.

    View Slide

  6. Основные определения
    Согласно определению, принятому ЮНЕСКО,
    Определение
    ИТ это комплекс взаимосвязанных научных, технологических,
    инженерных дисциплин, изучающих методы эффективной
    организации труда людей, занятых обработкой и хранением
    информации; вычислительную технику и методы организации и
    взаимодействия с людьми и производственным оборудованием,
    их практические приложения, а также связанные со всем этим
    социальные, экономические и культурные проблемы.
    6

    View Slide

  7. Основные определения
    Сами ИТ требуют сложной подготовки, больших первоначальных
    затрат и наукоёмкой техники. Их введение должно начинаться с
    создания математического обеспечения, формирования
    информационных потоков в системах, подготовки специалистов.
    Отрасль информационных технологий занимается
    созданием, развитием и эксплуатацией информационных систем.
    Структура отрасли:
    информатика;
    программирование;
    Интернет и Всемирная паутина;
    веб-разработка;
    управление данными;
    обработка данных;
    7

    View Slide

  8. Основные определения
    RFID (Radio Frequency IDentification, радиочастотная
    идентификация) метод автоматической идентификации
    объектов, в котором посредством радиосигналов
    считываются или записываются данные, хранящиеся в так
    называемых транспондерах, или RFID-метках;
    Data Mining (добыча данных);
    хранение данных;
    базы данных;
    информационная архитектура;
    информационная безопасность;
    криптография;
    системная интеграция;
    искусственный интеллект;
    интеллектуальные информационные технологии.
    8

    View Slide

  9. История ИТ
    На ранних этапах истории для синхронизации выполняемых
    действий человеку потребовались кодированные сигналы
    общения. Человеческий мозг решил эту задачу без искусственно
    созданных инструментов: развилась человеческая речь. Речь
    являлась и первым носителем знаний. Знания накапливались и
    передавались от поколения к поколению в виде устных
    рассказов. Природные возможности человека по накоплению и
    передаче знаний получили первую технологическую поддержку с
    созданием письменности. Процесс совершенствования носителей
    информации еще продолжается: камень кость глина
    папирус шёлк бумага магнитные носители (лента, диски)
    оптические носители (CD-ROM, DVD, Blu-ray Disc)
    кремний (flash-память) . . . Письменность стала первым
    историческим этапом информационных технологий.

    View Slide

  10. История ИТ
    Второй этап информационных технологий возникновение
    книгопечатания. Оно стимулировало развитие наук, ускоряло
    темпы накопления профессиональных знаний. Цикл: знания
    наука общественное производство знания замкнулся.
    Спираль технологической цивилизации начала раскручиваться с
    большой скоростью. Книгопечатание создало информационные
    предпосылки роста производительных сил.
    Информационная революция связана с созданием ЭВМ в конце
    40-х годов XX века. С этого же времени начинается эра развития
    информационных технологий. Весьма важным свойством
    информационных технологий является то, что для неё
    информация не только продукт, но и исходное сырье. Например,
    компьютерное моделирование климата требует обработки
    существенно большего объёма информации, чем содержит
    конечный результат.

    View Slide

  11. История ИТ
    Этапы развития ИТ
    В развитии информационных технологий можно выделить
    этапы. Каждый этап характеризуется определённым признаком.
    1 На начальном этапе развития информационных технологий
    (1950–1960-е годы) в основе взаимодействия человека и
    ЭВМ лежали машинные языки. ЭВМ была доступна
    только профессионалам.
    2 На следующем этапе (1960–1970-е годы) создаются
    операционные системы. Стала возможна обработка
    нескольких заданий, формулируемых разными
    пользователями; основная цель наибольшая загрузка
    машинных ресурсов.
    Появились первые информационные системы (ИС), ИТ
    стали доступны более широкому кругу.

    View Slide

  12. История ИТ
    Этапы развития ИТ
    3 Третий этап (1970–1980-е годы) характеризуется
    изменением критерия эффективности обработки данных,
    основными стали человеческие ресурсы по разработке и
    сопровождению программного обеспечения. К этому
    этапу относятся распространение мини-ЭВМ.
    Осуществляется интерактивный режим взаимодействия
    нескольких пользователей.
    4 Четвёртый этап (1980–1990-е годы) новый качественный
    скачок технологии разработки программного обеспечения.
    Центр тяжести технологических решений при создании
    программного продукта переносится на создание средств
    взаимодействия пользователей с ЭВМ. Ключевое звено
    таких информационных технологий представление
    и обработка знаний.
    12

    View Slide

  13. История ИТ
    Этапы развития ИТ
    5 Пятый этап (1990–2000-е годы) характеризуется
    стремительным распространением сети Интернет, а вместе с
    ней и WWW, интернет- и веб-технологий. Инвестиции в
    инфраструктуру и сервисы Интернет вызвали бурный рост
    отрасли ИТ в конце 90-х годов XX века.
    6 Шестой этап (2000–2010-е годы) характерной чертой ИТ
    становятся сервис-ориентированная архитектура (SOA),
    реализованная через веб-сервисы. ИТ проникают во все
    сферы (образование, медицина, социальные институты).
    Формируется концепция электронного правительства (в РФ
    принимаются важные законы в ИТ-сфере, например,
    Федеральный закон О персональных данных от
    27.07.2006 №152-ФЗ).
    13

    View Slide

  14. История ИТ
    Этапы развития ИТ
    7 В настоящее время (2010–. . . годы) активно внедряются
    облачные вычисления (cloud computing), создаются
    службы и приложения на них основанные (облачные
    технологии).
    Эволюция всех поколений ЭВМ происходит с постоянным
    темпом по 10 лет на поколение. Каждая смена поколений
    средств информационных технологий требует переобучения и
    радикальной перестройки мышления специалистов и
    пользователей, смены оборудования и создания более массовой
    вычислительной техники. Информационные технологии, как
    передовая область науки и техники определяет ритм времени
    технического развития всего общества.
    14

    View Slide

  15. Дисциплина информационных технологий
    В широком понимании ИТ охватывает все области передачи,
    хранения, обработки и восприятия информации, т. е. не
    только компьютерные технологии. При этом ИТ часто
    ассоциируют именно с компьютерными технологиями, и это не
    случайно, появление компьютеров вывело ИТ на новый уровень,
    как когда-то телевидение, а ещё ранее печатное дело.
    В качестве инструментария ИТ используются программные
    продукты таких распространённых видов, как текстовые
    редакторы и процессоры, издательские системы,
    редакторы векторной и растровой графики, редакторы
    аудио и видео, электронные таблицы, системы управления
    базами данных, планировщики, почтовые клиенты и
    веб-браузеры.

    View Slide

  16. Виды информационных технологий
    К основным видам информационных технологий относятся:
    ИТ обработки данных предназначены для решения
    хорошо структурированных задач, алгоритмы
    решения которых хорошо известны и для
    решения которых имеются все необходимые
    входные данные. Эта технология применяется на
    уровне исполнительской деятельности персонала
    невысокой квалификации в целях автоматизации
    некоторых рутинных, постоянно повторяющихся
    операций управленческого труда.
    ИТ управления предназначены для информационного
    обслуживания всех работников организаций,
    связанных с принятием управленческих
    решений. Здесь информация обычно
    представляется в виде регулярных или специальных
    управленческих отчётов и содержит сведения о
    прошлом, настоящем и возможном будущем
    организации.

    View Slide

  17. Виды информационных технологий
    ИТ автоматизированного офиса предполагают
    организацию и поддержку коммуникационных
    процессов как внутри фирмы, так и с внешней
    средой на базе компьютерных сетей и других
    современных средств передачи и работы с
    информацией, призваны дополнить существующую
    систему связи персонала предприятия.
    ИТ поддержки принятия решений предназначены для
    выработки управленческого решения,
    формируемого в результате итерационного
    процесса, в котором участвуют система поддержки
    принятия решений (вычислительное звено и объект
    управления) и человек (управляющее звено,
    задающее входные данные и оценивающее
    полученный результат).
    17

    View Slide

  18. Виды информационных технологий
    ИТ экспертных систем основаны на использовании
    искусственного интеллекта. Экспертные системы
    дают возможность менеджерам получать
    консультации экспертов по любым проблемам, о
    которых в этих системах накоплены знания.

    View Slide

  19. Дополнительная литература I
    Мельников, В. П. Информационные технологии [Текст] /
    В. П. Мельников.
    М.: Академия, 2009.
    432 с.
    2000 экз.
    ISBN 978-5-7695-6646-2.
    Левин, В. И. История информационных технологий
    [Текст] / В. И. Левин.
    М.: Интерент-Университет Информационных Технологий;
    БИНОМ. Лаборатория знаний, 2007.
    336 с. (Основы информационных технологий.)
    ISBN 978-5-94774-677-8.
    19

    View Slide

  20. Дополнительная литература II
    Рагулин, П. Г. Информационные технологии [Текст]:
    Электронный учебник / П. Г. Рагулин.
    Владивосток: ТИДОТ Дальневосточного университета,
    2004.
    208 с.
    20

    View Slide

  21. Часть II
    Основные информационные процессы
    при реализации информационных
    технологий

    View Slide

  22. Содержание
    5 Сбор информации
    6 Обмен информацией
    7 Хранение информации
    8 Обработка информации
    Основные процедуры обработки данных
    9 Выдача информации
    10 Обобщённая структура базового информационного
    технологического процесса

    View Slide

  23. Сбор информации
    Определение
    Процесс сбора информации это деятельность субъекта,
    целью которой является получение сведений об интересующем
    его объекте.
    Сбор информации может производиться или человеком, или с
    помощью технических средств и систем аппаратно. Например,
    пользователь может получить информацию о движении поездов
    или самолетов сам, изучив расписание, или же от другого
    человека непосредственно, либо через какие-то документы,
    составленные этим человеком, или с помощью технических
    средств (автоматической справки, телефона и т. д.).
    Система сбора информации может представлять собой сложный
    программно-аппаратный комплекс. Как правило, современные
    системы сбора информации не только обеспечивают
    кодирование информации и её ввод в ЭВМ, но и выполняют
    предварительную (первичную) обработку этой информации.
    23

    View Slide

  24. Сбор информации
    Определение
    Сбор информации это процесс получения информации из
    внешнего мира и приведение её к виду, стандартному для
    прикладной информационной системы.
    Обмен информацией между воспринимающей информацию
    системой и окружающей средой осуществляется посредством
    сигналов.
    Сбор и регистрация информации происходят по-разному в
    различных экономических объектах. Наиболее сложна эта
    процедура в автоматизированных управленческих процессах
    промышленных предприятий, фирм и т. п., где производятся
    сбор и регистрация первичной учётной информации,
    отражающей производственно-хозяйственную деятельность
    объекта.
    24

    View Slide

  25. Сбор информации
    Особое значение при этом придаётся достоверности, полноте и
    своевременности первичной информации. На предприятии сбор
    и регистрация информации происходят при выполнении
    различных хозяйственных операций (приём готовой продукции,
    получение и отпуск материалов и т. п.). Сначала информацию
    собирают, затем её фиксируют. Учётные данные могут
    возникать на рабочих местах в результате подсчёта количества
    обработанных деталей, прошедших сборку узлов, изделий,
    выявление брака и т. д.
    Процесс сбора информации связан с переходом от реального
    представления предметной области к его описанию в
    формальном виде и в виде данных, которые отражают это
    представление.

    View Slide

  26. Сбор информации
    Для сбора фактической информации производятся измерение,
    подсчёт, взвешивание материальных объектов, получение
    временных и количественных характеристик работы отдельных
    исполнителей. Сбор информации, как правило, сопровождается
    её регистрацией, т. е. фиксацией информации на материальном
    носителе (документе или машинном носителе). Запись в
    первичные документы в основном осуществляется вручную,
    поэтому процедуры сбора и регистрации остаются пока наиболее
    трудоёмкими.
    В условиях автоматизации управления предприятием особое
    внимание придаётся использованию технических средств сбора и
    регистрации информации, совмещающих операции
    количественного измерения, регистрации, накоплению и
    передаче информации по каналам связи в ЭВМ с целью
    формирования первичного документа.

    View Slide

  27. Сбор информации
    Источниками данных в любой предметной области являются
    объекты и их свойства, процессы и функции, выполняемые
    этими объектами или для них.
    Любая предметная область рассматривается в виде трёх
    представлений:
    1 Реальное представление предметной области.
    2 Формальное представление предметной области.
    3 Информационное представление предметной области.
    Задача сбора информации не может быть решена в отрыве от
    других задач, в частности, задачи обмена информацией
    (передачи информации).
    27

    View Slide

  28. Обмен информацией
    Обмен информацией представляет собой процесс, в ходе
    которого источник информации её передаёт, а получатель
    принимает.
    В результате обмена информацией между источником и
    получателем устанавливается своеобразный информационный
    баланс , при котором в идеальном случае получатель будет
    располагать той же информацией, что и источник.
    Если источник информации относится к неживой природе, то он
    вырабатывает сигналы, непосредственно отражающие его
    свойства. Если объектом-источником является человек, то
    вырабатываемые им сигналы могут не только непосредственно
    отражать его свойства, но и соответствовать тем знакам,
    которые человек вырабатывает с целью обмена информацией.

    View Slide

  29. Обмен информацией
    Необходимость передачи информации для различных
    социально-экономических объектов обосновывается по-разному.
    Так, в автоматизированной системе управления предприятием
    она вызвана тем, что сбор и регистрация информации редко
    территориально отделены от её обработки. Процедуры сбора и
    регистрации информации, как правило, осуществляются на
    рабочих местах, а обработка в вычислительном центре.
    Передача информации осуществляется различными
    способами: с помощью курьера, пересылки по почте, доставки
    транспортными средствами, передачи по каналам связи.

    View Slide

  30. Обмен информацией
    Передача по каналам связи значительно сокращает время
    передачи данных. Для её осуществления необходимы
    специальные технические средства. Некоторые технические
    средства сбора и регистрации, собирая автоматически
    информацию с датчиков, установленных на рабочих местах,
    передают её в ЭВМ.
    Взаимодействие между территориально удаленными объектами
    осуществляется за счёт обмена данными. Доставка данных
    производится по заданному адресу с использованием сетей
    передачи данных.

    View Slide

  31. Хранение информации
    Определение
    Хранение информации это процесс поддержания исходной
    информации в виде, обеспечивающем выдачу данных по
    запросам конечных пользователей в установленные сроки.
    Процесс хранения связан с необходимостью накопления и
    долговременного хранения данных; комплектации первичных
    данных до их обработки, обеспечением актуальности,
    целостности, безопасности, доступности данных.
    Хранение информации осуществляется на машинных носителях
    в виде информационных массивов, где данные располагаются по
    установленному в процессе проектирования группировочному
    признаку.
    31

    View Slide

  32. Хранение информации
    Поиск данных это выборка нужных данных из хранимой
    информации, он включает поиск информации, подлежащей
    корректировке или замене на вводимую наружную информацию.
    Хранение в настоящее время реализуется главным образом при
    использовании концепций базы данных (БД) и хранилища
    данных (ХД).
    Основные отличия ХД от БД: агрегирование данных; данные из
    ХД никогда не удаляются; пополнение ХД происходит на
    периодической основе; формирование новых агрегатов данных,
    зависящих от старых автоматическое; доступ к ХД
    осуществляется на основе многомерного куба или гиперкуба.
    32

    View Slide

  33. Хранение информации
    Альтернативой хранилищу данных (Data Warehouse) является
    концепция витрин данных (Data Mart).
    Определение
    Витрины данных множество тематических БД или срез ХД,
    содержащий информацию, относящуюся к отдельным
    информационным аспектам предметной области.
    Витрины и хранилища данных можно сравнить с витринами
    магазинов и складами, соответственно.

    View Slide

  34. Обработка информации
    Определение
    Обработка информации это упорядоченный процесс её
    преобразования в соответствии с алгоритмом решения задачи.
    Процесс обработки информации состоит в получении одних
    информационных объектов из других информационных
    объектов путём выполнения некоторых алгоритмов и является
    одной из основных операций, осуществляемых над
    информацией.
    Можно выделить числовую и нечисловую обработку. В
    указанные виды обработки вкладывается различная трактовка
    содержания понятия данные .
    При числовой обработке используются такие объекты, как
    переменные, векторы, матрицы, многомерные массивы,
    константы и т. д.
    При нечисловой обработке объектами могут быть файлы,
    записи, поля, иерархии, сети, отношения и т. д.

    View Slide

  35. Обработка информации
    Другое отличие заключается в том, что при числовой обработке
    содержание данных не имеет большого значения, в то время как
    при нечисловой обработке нас интересуют непосредственные
    сведения об объектах, а не их совокупность в целом.
    С точки зрения реализации выделяют следующие виды
    обработки информации:
    Последовательная обработка, применяемая в
    традиционной (фоннеймановской) архитектуре ЭВМ,
    располагающей одним процессором.
    Параллельная обработка, применяемая при наличии
    нескольких процессоров в ЭВМ (или нескольких ядер в
    процессоре).
    35

    View Slide

  36. Обработка информации
    Конвейерная обработка, связанная с использованием в
    архитектуре ЭВМ одних и тех же ресурсов для решения
    разных задач, причём если эти задачи тождественны, то это
    последовательный конвейер, если задачи одинаковые
    векторный конвейер.
    Дж. Б. Деннис в 1967 г. сформулировал принципы
    построения потоковых ЭВМ (конвейерных ЭВМ):
    Определение
    Для потоковых ЭВМ должны выполняться все команды, для
    которых есть данные, независимо от их места в программе.
    Другимим словами, вычислительный процесс управляется
    не программой, а данными. Например, алгорифмы Маркова.
    36

    View Slide

  37. Обработка информации
    Редукционная обработка, применяемая в некоторых
    экспертных системах.
    В 1971–1974 гг. исследованы принципы создания
    редукционных машин.
    Определение
    Редукционные ЭВМ ЭВМ, управляемые заданиями, в
    которых выполнение операций определяется потребностью в
    результате и единообразно хранятся любые объекты: данные,
    программы, файлы, массивы.
    Например, генетические алгоритмы, системы, основанные
    на логике высказываний, теории предикатов, нечёткой
    логике.

    View Slide

  38. Обработка информации
    Основные процедуры обработки данных
    Cоздание данных, как процесс обработки, предусматривает
    появление новых данных в результате выполнения некоторого
    алгоритма.
    Модификация данных связана с отображением изменений в
    реальной предметной области, осуществляемых путём
    включения новых данных и удаления ненужных.
    Контроль, ИТ!безопасность и целостность направлены на
    адекватное отображение реального состояния предметной
    области в информационной модели и обеспечивают защиту
    информации от несанкционированного доступа и от сбоев и
    повреждений технических и программных средств.

    View Slide

  39. Обработка информации
    Основные процедуры обработки данных
    Поиск информации, хранимой в памяти компьютера,
    осуществляется как самостоятельное действие при выполнении
    ответов на различные запросы и как вспомогательная операция
    при обработке информации.
    Поддержка принятия решения является наиболее важным
    действием, выполняемым при обработке информации. Широкая
    альтернатива принимаемых решений приводит к необходимости
    использования разнообразных математических моделей.
    Создание документов, сводок, отчётов заключается в
    преобразовании информации в формы, пригодные для
    восприятия как человеком, так и компьютером. С этим
    действием связаны и такие операции, как обработка,
    считывание, сканирование и сортировка документов.

    View Slide

  40. Обработка информации
    Основные процедуры обработки данных
    При преобразовании информации осуществляется её перевод из
    одной формы представления или существования в другую, что
    определяется потребностями, возникающими в процессе
    реализации информационных технологий.
    Реализация всех действий, выполняемых в процессе обработки
    информации, осуществляется с помощью разнообразных
    программных средств.
    40

    View Slide

  41. Выдача информации
    После решения задачи обработки информации результат
    должен быть выдан конечным пользователям в удобной форме.
    Эта операция реализуется в ходе решения задачи выдачи
    информации. Выдача информации, как правило, производится с
    помощью технических устройств в виде текстов, таблиц,
    графиков и т. д.
    Многие современные информационные системы имеют
    встроенные генераторы отчётов, с набором шаблонов или
    конструктором отчётов.

    View Slide

  42. Обобщённая структура базового информационного
    технологического процесса
    Определение
    Технологический процесс часть информационного
    процесса, содержащая действия (физические, механические и
    др.) по изменению состояния информации.
    Информационные технологии базируются на реализации
    информационных процессов, разнообразие которых требует
    выделения базовых информационных процессов, характерных
    для любой информационной технологии.
    Базовый технологический процесс (см. рис. 2.1) основан на
    использовании стандартных моделей и инструментальных
    средств.

    View Slide

  43. Обобщённая структура базового информационного
    технологического процесса
    Рис. 2.1: Структура базового информационного технологического
    процесса
    Базовый технологический процесс может быть использован в
    качестве составной части информационной технологии. К числу
    операций, составляющих базовый технологический процесс,
    можно отнести операции сбора, передачи, хранения,
    обработки и выдачи информации во всех её возможных
    формах проявления (текстовой, графической, визуальной,
    речевой и т. д.).
    43

    View Slide

  44. Обобщённая структура базового информационного
    технологического процесса
    Таким образом, конкретные информационные технологии
    содержат в качестве основополагающих компонент базовые
    информационные процессы, реализуемые техническими,
    программными и организационно-методическими средствами в
    соответствии с общественными потребностями.

    View Slide

  45. Дополнительная литература I
    Рагулин, П. Г. Информационные технологии [Текст]:
    Электронный учебник / П. Г. Рагулин.
    Владивосток: ТИДОТ Дальневосточного университета,
    2004.
    208 с.
    Мельников, В. П. Информационные технологии [Текст] /
    В. П. Мельников.
    М.: Академия, 2009.
    432 с.
    2000 экз.
    ISBN 978-5-7695-6646-2.
    45

    View Slide

  46. Дополнительная литература II
    Левин, В. И. История информационных технологий
    [Текст] / В. И. Левин.
    М.: Интерент-Университет Информационных Технологий;
    БИНОМ. Лаборатория знаний, 2007.
    336 с. (Основы информационных технологий).
    ISBN 978-5-94774-677-8.
    46

    View Slide

  47. Часть III
    Работа с текстовой информацией

    View Slide

  48. Содержание I
    11 Кодирование текста
    Кодировки EBCDIC
    Кодировки ASCII
    Кодировки KOI8
    Кодировки ISO 8859
    Кодировки Unicode
    Кодировка UTF-16
    Кодировка UTF-8
    Управляющие символы
    12 Регулярные выражения
    Введение
    Синтаксис
    Модификаторы
    Редактор SED
    13 Языки разметки
    Понятие разметки
    Логическая и визуальная разметки
    Легковесные языки разметки
    48

    View Slide

  49. Содержание II
    SGML
    XML
    Правила создания XML-документа
    TEX
    Обзор издательских систем (ИС)
    L
    A
    TEX
    Команды в L
    A
    TEX2ε
    49

    View Slide

  50. Кодирование текста
    Для перевода текстовой информации в цифровое представление
    используются так называемые кодовые страницы.
    Определение
    Кодовая страница (code page) таблица, сопоставляющая
    каждому значению байта некоторый символ (или его
    отсутствие).
    Исторически термин code page был введён корпорацией IBM,
    сменные кодовые страницы использовались для поддержки
    различных языков (имеющих алфавитные системы письма).
    50

    View Slide

  51. Кодирование текста
    В 1950–1960-х годах в компьютерах, производившихся в США,
    применялись шестибитные кодировки. Такой размер символа
    позволял кодировать лишь заглавные латинские буквы, арабские
    цифры, несколько знаков пунктуации и иногда управляющие
    символы.
    В настоящее время используются кодировки:
    совместимые с EBCDIC;
    совместимые с ASCII;
    Unicode.
    51

    View Slide

  52. Кодирование текста
    Кодировки EBCDIC
    Определение
    EBCDIC (Extended Binary Coded Decimal Interchange Code)
    расширенный двоично-десятичный код обмена информацией
    (произносится эб-си-дик ) стандартный восьмибитный код,
    разработанный корпорацией IBM для использования на
    мэйнфреймах собственного производства и совместимых с ними.
    EBCDIC кодирует буквы латинского алфавита, арабские цифры,
    некоторые знаки пунктуации и управляющие символы.
    Существовало по меньшей мере 6 версий EBCDIC,
    несовместимых между собой.
    Российским аналогом EBCDIC является код ДKOI8, в который
    добавлена кодировка кириллицы.
    52

    View Slide

  53. Кодирование текста
    Кодировки ASCII
    Определение
    ASCII (American Standard Code for Information Interchange)
    американский стандартный код для обмена информацией.
    ASCII представляет собой 7-битную кодировку для
    представления 95 печатных символов (десятичных цифр,
    латинского и национального алфавитов, знаков препинания) и
    33 управляющих символов. В компьютерах обычно используют
    8-битные расширения ASCII.
    53

    View Slide

  54. Кодирование текста
    Кодировки ASCII
    Для кодирования текстов на русском языке (т. е. букв
    кириллицы) наиболее широко применяются следующие кодовые
    страницы:
    Альтернативная кодировка, она же IBM code page 866
    в системах DOS.
    ANSI1 Cyrillic, она же Microsoft code page 1251 (cp1251),
    она же Windows-1251 в ОС Windows.
    1Американский национальный институт стандартов (American National
    Standards Institute) объединение американских промышленных и
    деловых групп, разрабатывающее торговые и коммуникационные
    стандарты. Входит в ISO и Международную электротехническую
    комиссию, IEC, представляя там США.

    View Slide

  55. Кодирование текста
    Кодировки ASCII
    MacCyrillic на компьютерах Macintosh. Благодаря
    отсутствию псевдографики и верхних управляющих
    символов эта кодировка включает довольно много полезных
    символов; кроме того, присутствуют все дополнительные
    буквы, необходимые для записи украинского, белорусского,
    македонского и сербского языков.
    Семейство кодовых страниц KOI8.
    Семейство кодовых страниц ISO 88591 на ОС UNIX.
    1ISO Международная организация по стандартизации (International
    Organization for Standardization) организация, занимающаяся выпуском
    международных стандартов.
    55

    View Slide

  56. Кодирование текста
    Кодировки KOI8
    Нижняя часть таблицы кодировки (латиница) полностью
    соответствует кодировке ASCII. Разработчики KOI8 поместили
    символы русского алфавита в верхней части кодовой таблицы
    таким образом, что позиции кириллических символов
    соответствуют их фонетическим аналогам в английском
    алфавите в нижней части таблицы. Это означает, что если в
    тексте, написанном в KOI8, убрать восьмой бит каждого
    символа, то получается читабельный текст, хотя он и написан
    латинскими символами.
    Пример 3.1 (KOI8)
    Убрав старший бит во фразе Русский Текст ,
    получим rUSSKIJ tEKST .
    56

    View Slide

  57. Кодирование текста
    Кодировки KOI8
    Как следствие, символы кириллицы оказались расположены не в
    алфавитном порядке.
    Существует несколько вариантов кодировки KOI8 для различных
    кириллических алфавитов, расширяющие основной алфавит за
    счёт определённых кодов, общий диапазон 192–255 с 32
    русскими буквами в двух регистрах остаётся неизменным во
    всех вариантах.
    KOI8-R стал фактически стандартом для русской кириллицы в
    1990-х годах в UNIX-подобных операционных системах и
    электронной почте.

    View Slide

  58. Кодирование текста
    Кодировки KOI8
    IETF1 утвердил несколько RFC2 по вариантам кодировки KOI8:
    KOI8-R русский и болгарский алфавит (RFC 1489).
    KOI8-U украинский алфавит (RFC 2319).
    В Microsoft Windows KOI8-R присвоен код страницы 20866,
    KOI8-U 21866.
    1Internet Engineering Task Force (специальная комиссия
    интернет-разработок) открытое международное сообщество
    проектировщиков, учёных, сетевых операторов и провайдеров, созданное в
    1986 году, которое занимается развитием протоколов и архитектуры
    интернета.
    2Request for Comments запрос комментариев документ из серии
    пронумерованных информационных документов Интернета, содержащих
    технические спецификации и стандарты, широко применяемые во
    всемирной сети. Название Request for Comments ещё можно перевести
    как заявка на обсуждение или тема для обсуждения . В настоящее
    время первичной публикацией документов RFC занимается IETF под
    эгидой открытой организации Общество Интернета (англ. Internet Society,
    ISOC). Правами на RFC обладает именно Общество Интернета.

    View Slide

  59. Кодирование текста
    Кодировки KOI8
    Другие кодировки KOI8:
    KOI8-RU русско-белоруска-украинская.
    KOI8-C кавказская.
    KOI8-T таджикская.
    KOI8-O славянская (старая орфография).
    KOI8-E, KOI8-CS, KOI8-Unified, KOI8-F некириллические
    варианты KOI8.
    Стандарт RFC 1489 предписывает наличие графических
    символов рамок (псевдографики), однако это требование
    выполняется довольно редко.
    59

    View Slide

  60. Кодирование текста
    Кодировки ISO 8859
    Определение
    ISO 8859 семейство ASCII-совместимых кодовых страниц,
    разработанное совместными усилиями ISO и IECa.
    aМеждународная электротехническая комиссия.
    На 2006 г. это семейство состоит из 16 кодовых страниц.
    Кириллица, включающая символы славянских языков
    (белорусский, болгарский, македонский, русский, сербский и
    частично украинский) задаётся кодовой страницей ISO 8859-5
    (Latin/Cyrillic).
    Кодировки серии ISO 8859 применялись главным образом на
    UNIX- и GNU/Linux-подобных системах, а также для
    кодирования веб-страниц (поскольку большинство веб-серверов
    работают на платформе UNIX/GNU).
    60

    View Slide

  61. Кодирование текста
    Кодировки ISO 8859
    Замечание: Поскольку кодировки ISO 8859
    разрабатывались как средства для обмена информацией,
    а не как средства обеспечения высококачественной
    типографики, то в них не включены такие символы, как
    парные кавычки, тире различной длины, лигатуры и
    т. п. (хотя там всё же присутствуют такие символы,
    как неразрывный пробел и символ мягкого переноса).
    Зато довольно много места (область 0x80–0x9F)
    зарезервировано под верхние управляющие символы ,
    предназначенные для управления терминалами.
    В системах MS Windows используются кодировки Windows,
    некоторые из которых совместимы с ISO 8859, но включают
    больше графических символов за счёт использования области
    0x80–0x9F.

    View Slide

  62. Кодирование текста
    Кодировки ISO 8859
    Поскольку различные страницы ISO 8859 разрабатывались
    совместно, они обладают некоторой взаимной совместимостью.
    Например, все семь символов расширенной латиницы,
    используемые в немецком языке, стоят на одинаковых позициях
    во всех кодовых страницах, включающих эти символы.
    Страницы Latin-1 Latin-4 обладают ещё большей степенью
    совместимости: каждый символ, представленный в любых двух
    из этих страниц, стоит в них на одинаковых позициях.
    62

    View Slide

  63. Кодирование текста
    Кодировки Unicode
    К концу 1980-х годов стандартом стали 8-битные символы, при
    этом существовало множество разных 8-битных кодировок и
    постоянно появлялись новые.
    Это объяснялось как постоянным расширением круга
    поддерживаемых языков, так и стремлением создать кодировку,
    частично совместимую с какой-нибудь другой (характерный
    пример появление альтернативной кодировки для русского
    языка, обусловленное эксплуатацией западных программ,
    созданных для кодировки CP 437).
    Использование различных кодовых страниц создаёт много
    неудобств как для пользователей, так и для программистов.
    Если код символа имеет размер 8 бит, то кодовая страница
    может содержать максимум 256 символов.
    Часть символов используется как управляющие, поэтому число
    печатных символов редко превышает 223. Очевидна
    недостаточность всякой 8-битной кодовой страницы для
    представления многоязычных текстов.

    View Slide

  64. Кодирование текста
    Кодировки Unicode
    В результате появилась необходимость решения нескольких
    проблем:
    Проблема отображения документов в неправильной кодировке:
    её можно было решить либо последовательным
    внедрением методов указания используемой
    кодировки, либо внедрением единой для всех
    кодировки.
    Проблема ограниченности набора символов: её можно было
    решить либо переключением шрифтов внутри
    документа, либо внедрением широкой
    кодировки. Переключение шрифтов издавна
    практиковалось в текстовых процессорах, причём
    часто использовались шрифты с нестандартной
    кодировкой, т. н. dingbat fonts . В итоге при
    попытке перенести документ в другую систему все
    нестандартные символы превращались в
    непредвиденные символы.
    64

    View Slide

  65. Кодирование текста
    Кодировки Unicode
    Проблема преобразования одной кодировки в другую: её можно
    было решить либо составлением таблиц
    перекодировки для каждой пары кодировок, либо
    использованием промежуточного преобразования в
    третью кодировку, включающую все символы всех
    кодировок.
    Проблема дублирования шрифтов: традиционно для каждой
    кодировки делался свой шрифт, даже если эти
    кодировки частично (или полностью) совпадали по
    набору символов. Эту проблему можно было
    решить, делая большие шрифты, из которых
    потом выбираются нужные для данной кодировки
    символы, однако это требует создания единого
    реестра символов, чтобы определять, чему что
    соответствует.

    View Slide

  66. Кодирование текста
    Кодировки Unicode
    Было признано необходимым создание единой широкой
    кодировки. Кодировки с переменной длиной символа, широко
    использующиеся в Восточной Азии, были признаны слишком
    сложными в использовании, поэтому было решено использовать
    символы фиксированной ширины. Использование 32-битных
    символов казалось слишком расточительным, поэтому было
    решено использовать 16-битные.
    В последние годы получил широкое распространение Unicode
    как альтернатива традиционным кодовым страницам.
    Определение
    Unicode (юникод или уникод) стандарт кодирования
    символов, позволяющий представить знаки практически всех
    письменных языков.

    View Slide

  67. Кодирование текста
    Кодировки Unicode
    Стандарт предложен в 1991 году некоммерческой организацией
    Консорциум Unicode (Unicode Consortium, Unicode Inc.),
    объединяющей крупнейшие IT-корпорации. Применение этого
    стандарта позволяет закодировать очень большое число
    символов из разных письменностей: в документах Unicode могут
    соседствовать китайские иероглифы, математические символы,
    буквы греческого алфавита, латиницы и кириллицы, при этом
    становятся ненужными кодовые страницы.
    67

    View Slide

  68. Кодирование текста
    Кодировки Unicode
    Стандарт состоит из двух основных разделов:
    универсальный набор символов (UCS, Universal Character Set)
    задаёт однозначное соответствие символов кодам
    элементам кодового пространства,
    представляющим неотрицательные целые числа;
    семейство кодировок (UTF, Unicode Transformation Format)
    определяет машинное представление
    последовательности кодов UCS.
    Для обозначения символов Unicode используется запись вида
    U+xxxx (для кодов 0 . . . FFFF), или U+xxxxx (для кодов
    10000 . . . FFFFF), или U+xxxxxx (для кодов 100000
    . . . 10FFFF), где x шестнадцатеричные цифры.
    Пример 3.2 (Unicode)
    Символ я (U+044F) имеет код 044F16 = 11031010.
    68

    View Slide

  69. Кодирование текста
    Кодировки Unicode
    Коды в стандарте Unicode разделены на несколько областей.
    Область с кодами от U+0000 до U+007F содержит символы
    набора ASCII с соответствующими кодами.
    Далее расположены области знаков различных письменностей,
    знаки пунктуации и технические символы. Часть кодов
    зарезервирована для использования в будущем. Под символы
    кириллицы выделены области знаков с кодами от U+0400 до
    U+052F, от U+2DE0 до U+2DFF, от U+A640 до U+A69F.
    Первая версия Unicode представляла собой кодировку с
    фиксированным размером символа в 16 бит, общее число кодов
    было 216 = 65 536. Отсюда происходит практика обозначения
    символов четырьмя шестнадцатеричными цифрами (например,
    U+041D).

    View Slide

  70. Кодирование текста
    Кодировки Unicode
    При этом планировалось кодировать не все существующие
    символы, а только те, которые необходимы в повседневном
    обиходе. Редко используемые символы должны были
    размещаться в области символов для частного использования
    (Private Use Area), которая первоначально занимала коды
    U+D800 . . . U+F8FF. Чтобы использовать Unicode также и в
    качестве промежуточного звена при преобразовании разных
    кодировок друг в друга, в него включили все символы,
    представленные во всех более-менее известных кодировках.
    В дальнейшем было принято решение кодировать все символы и
    в связи с этим значительно расширить кодовую область.

    View Slide

  71. Кодирование текста
    Кодировка UTF-16
    Поскольку в ряде компьютерных систем (в первую очередь
    Windows NT) фиксированные 16-битные символы уже
    использовались в качестве кодировки по умолчанию, было
    решено все наиболее важные знаки кодировать только в
    пределах первых 65 536 позиций (Basic Multilingual Plane, BMP).
    Остальное пространство используется для Дополнительных
    символов (Supplementary Characters) систем письма
    вымерших языков или очень редко используемых китайских
    иероглифов, математических и музыкальных символов.
    Для совместимости со старыми 16-битными системами была
    изобретена система UTF-16, где первые 65 536 позиций
    отображаются непосредственно как 16-битные числа, а
    остальные представляются в виде суррогатных пар (первый
    элемент пары из области U+D800 . . . U+DBFF, второй элемент
    пары из области U+DC00 . . . DFFF).

    View Slide

  72. Кодирование текста
    Кодировки UTF-16
    Для суррогатных пар была использована часть кодового
    пространства (2048 позиций), ранее отведённого для символов
    для частного использования .
    В UTF-16 можно отобразить только 220 + 216 − 2048 (1 112 064)
    символов, это число и было выбрано в качестве окончательной
    величины кодового пространства Unicode.
    Хотя кодовая область Unicode была расширена за пределы 216
    уже в версии 2.0, первые символы в верхней области были
    размещены только в версии 3.1. В настоящее время действует
    стандарт Unicode 5.1 (с 2008 г.).

    View Slide

  73. Кодирование текста
    Кодировка UTF-8
    Формат UTF-8 был изобретён 2 сентября 1992 г. Кеном
    Томпсоном (Kenneth Thompson) и Робом Пайком (Rob Pike) и
    реализован в Plan 9. Сейчас стандарт UTF-8 официально
    закреплён в документах RFC 3629 и ISO/IEC 10646 Annex D.
    Определение
    UTF-8 (Unicode Transformation Format формат
    преобразования Unicode) в настоящее время
    распространённая кодировка, реализующая представление
    Unicode, совместимое с 8-битным кодированием текста.
    В UTF-8 любой байт со значением меньше 128 изображает
    символ ASCII с тем же кодом. Остальные символы Unicode
    изображаются последовательностями длиной от 2 до 6 байтов
    (реально только до 4 байт, поскольку использование кодов
    больше 221 не планируется).
    73

    View Slide

  74. Кодирование текста
    Кодировка UTF-8
    Таким образом, символы латинского алфавита, знаки
    препинания и управляющие символы ASCII записываются
    кодами US-ASCII, a все остальные символы кодируются при
    помощи нескольких октетов со старшим битом 1. Это приводит
    к следующим эффектам.
    Даже если программа не распознаёт Unicode, то латинские
    буквы, арабские цифры и знаки препинания будут отображаться
    правильно.
    В случае если латинские буквы и простейшие знаки препинания
    (включая пробел) занимают существенный объём текста, UTF-8
    даёт выигрыш по объёму по сравнению с UTF-16.
    На первый взгляд может показаться, что UTF-16 удобнее, так
    как в ней большинство символов кодируется ровно двумя
    байтами. Однако это сводится на нет необходимостью
    поддержки суррогатных пар, о которых часто забывают при
    использовании UTF-16, реализовывая лишь поддержку
    символов UCS-2.

    View Slide

  75. Кодирование текста
    Кодировка UTF-8
    Символы UTF-8 получаются из Unicode следующим образом:
    Unicode UTF-8
    U+00000000–U+0000007F 0xxxxxxx
    U+00000080–U+000007FF 110xxxxx 10xxxxxx
    U+00000800–U+0000FFFF 1110xxxx 10xxxxxx 10xxxxxx
    U+00010000–U+001FFFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
    Замечание: Символы, закодированные в UTF-8, могут
    быть длиной до шести байт, однако стандарт Unicode
    не определяет символов выше U+10FFFF, поэтому
    символы Unicode могут иметь максимальный размер в
    4 байта в UTF-8.
    Хотя формы записи UTF-8 и UTF-32 позволяют кодировать до
    231 (2 147 483 648) кодовых позиций, было решено использовать
    лишь 1 112 064 для совместимости с UTF-16.
    75

    View Slide

  76. Кодирование текста
    Кодировка UTF-8
    Этого более чем достаточно сегодня (в версии 5.1)
    используется немногим более 100 000 кодовых позиций.
    Кодовое пространство разбито на 17 плоскостей по 216 (65 536)
    символов. Нулевая плоскость называется базовой, в ней
    расположены символы наиболее употребительных
    письменностей.
    Первая плоскость используется, в основном, для исторических
    письменностей, вторая для редко используемых иероглифов
    ККЯ1, третья зарезервирована для архаичных китайских
    иероглифов. Плоскости 15 и 16 выделены для частного
    употребления.
    1ККЯ (CJK) письменности, основанные на китайской (китайская,
    корейская, японская).

    View Slide

  77. Кодирование текста
    Управляющие символы
    Определение
    Управляющие символы элементы данной кодировки,
    которым не приписано графическое представление, но которые
    используются для управления устройствами, организации
    передачи данных и других целей.
    Сейчас для этих целей применяются форматы файлов, языки
    управления устройствами (Postscript, PCL) и сетевые протоколы.
    Поэтому многие управляющие символы сейчас или не
    используются вообще, или используются не по назначению.
    77

    View Slide

  78. Кодирование текста
    Управляющие символы
    Стандарт POSIX1 требует обязательного наличия лишь восьми
    управляющих символов \0, \a, \b, \t, \n, \v, \l, \r.
    Символы с кодом 0 ÷ 31 используется как управляющие.
    1POSIX R (Portable Operating System Interface for UNIX переносимый
    интерфейс операционных систем UNIX) набор стандартов, описывающих
    интерфейсы между операционной системой и прикладной программой.
    Стандарт создан для обеспечения совместимости различных
    UNIX-подобных операционных систем и переносимости прикладных
    программ на уровне исходного кода, но может быть использован и для
    не-UNIX систем. Серия стандартов POSIX была разработана комитетом
    1003 IEEE. Международная организация по стандартизации (ISO)
    совместно c Международной электротехнической комиссией (IEC) приняли
    данный стандарт (POSIX) под названием ISO/IEC 9945.
    78

    View Slide

  79. Регулярные выражения
    79

    View Slide

  80. Регулярные выражения
    Введение
    В конце XX века регулярные выражения произвели прорыв в
    электронной обработке текста.
    Определение
    Регулярные выражения (regular expressions, жарг.
    регэкспы или регексы ) система поиска текстовых
    фрагментов в электронных документах, основанная на
    синтаксическом разборе текста и специальной системе записи
    образцов для поиска.
    Определение
    Образец (pattern) задающий правило поиска шаблон
    (маска).
    Регулярные выражения являются важной составной частью
    текстовых редакторов и процессоров, утилит для поиска и
    изменения текста на основе выбранных правил.
    80

    View Slide

  81. Регулярные выражения
    Введение
    Многие языки программирования используют их для работы со
    строками. Например, Java, Perl, PHP, .NET Framework,
    JavaScript, Python, Ruby, Tcl имеют встроенную поддержку
    регулярных выражений.
    Набор утилит (включая редактор sed и фильтр grep),
    поставляемых в дистрибутивах UNIX/Linux, одним из первых
    способствовал популяризации понятия регулярных выражений.
    Сейчас регулярные выражения поддерживают многие
    текстовые редакторы и процессоры, редакторы разметки.
    81

    View Slide

  82. Регулярные выражения
    Введение
    Регулярные выражения представляют собой мощный и очень
    гибкий язык описаний для поиска строк по шаблону. С
    помощью регулярных выражений можно:
    проверять, соответствует ли вся строка целиком заданному
    шаблону;
    находить в строке подстроки, удовлетворяющие
    заданному шаблону;
    извлекать из строки подстроки, соответствующие заданному
    шаблону;
    изменять в строке подстроки, соответствующие шаблону.
    82

    View Slide

  83. Регулярные выражения
    Синтаксис
    Любой символ, кроме специальных:
    \ [ ] ^ $. | ? * + ( ) { }
    является регулярным выражением себя.
    Конкатенация регулярных выражений является регулярным
    выражением.
    83

    View Slide

  84. Регулярные выражения
    Синтаксис
    Метасимволы:
    ^ в начале регулярного выражения указывает на начало
    строки.
    $ в конце регулярного выражения указывает на конец
    строки.
    . любой символ (кроме обыкновенного newline).
    [ ] символьный класс, указывает на один из символов,
    приведённых внутри; Набор символов в квадратных скобках
    позволяют указать интерпретатору регулярных выражений,
    что на данном месте в строке может стоять один из
    перечисленных символов.
    [^ ] указывает на один из символов, кроме приведённых
    внутри.
    84

    View Slide

  85. Регулярные выражения
    Синтаксис
    Группировка
    Круглые скобки используются для определения области
    действия и приоритета операций. Шаблон внутри группы
    обрабатывается как единое целое и может быть
    квантифицирован.
    85

    View Slide

  86. Регулярные выражения
    Синтаксис
    Перечисление
    | (вертикальная черта) разделяет допустимые варианты.
    Пример 3.3 (Перечисление)
    gray|grey соответствует gray или grey.
    Следует помнить, что перебор вариантов выполняется слева
    направо, как они указаны.
    Если требуется указать перечень вариантов внутри более
    сложного регулярного выражения, то этот перечень нужно
    заключить в группу.
    Пример 3.4 (Перечисление)
    gr(a|e)y описывает строку gray или grey.
    В случае с односимвольными альтернативами предпочтителен
    вариант gr[ae]y, так как сравнение с символьным классом
    выполняется проще, чем обработка группы с проверкой на все её
    возможные модификаторы и генерацией обратной связи.

    View Slide

  87. Регулярные выражения
    Синтаксис
    \ перед любым символом, кроме цифр и ‘(’ , ‘)’ ,
    означает этот символ.
    Метасимволы могут быть предварены символом ‘\’
    (обратная косая черта) ( экранированы , защищены )
    для представления их самих в качестве символов текста.
    Можно экранировать целую последовательность символов,
    заключив её между \Q и \E.
    \(x\) (где x регулярное выражение) указывает на x.
    \d (где d цифра) указывает копию d-того выражения,
    которое заключалось в скобки ‘\(’ и ‘\)’.
    87

    View Slide

  88. Регулярные выражения
    Синтаксис
    \n вставленный newline (новая строка).
    \b конец слова.
    \B не граница слова.
    \G предыдущий успешный поиск.
    88

    View Slide

  89. Регулярные выражения
    Синтаксис
    Квантификация
    Определение
    Квантификатор множитель повторения, указывается после
    символа, символьного класса или группы и определяет, сколько
    раз предшествующее выражение может встречаться.
    Квантификатор может относиться более чем к одному символу в
    регулярном выражении, только если это символьный класс
    или группа.
    {n} ровно n;
    {m,n} от m до n включительно;
    {m,} не менее m;
    {,n} не более n;
    * ноль или более;
    + одно или более;
    ? ноль или одно.
    89

    View Slide

  90. Регулярные выражения
    Примеры квантификации
    Пример 3.5 (Поиск тэгов)
    <.*> найдёт весь текст в строке от первой открывающей
    скобки тэга до закрывающейся скобки последнего тэга ( жадная
    квантификация это стремление захватить максимально
    длинную строку, которая соответствует шаблону). Это может
    оказаться значительной проблемой. Если в тексте есть более
    одного HTML-тега, то этому выражению соответствует целиком
    строка, содержащая множество тегов.
    <.*?> найдёт все тэги в строке ( ленивая квантификация
    это стремление захватить максимально короткую строку,
    которая соответствует шаблону). Использование ленивых
    квантификаторов может повлечь за собой обратную проблему,
    когда выражению соответствует слишком короткая, в частности,
    пустая строка.
    <[^>]*> найдёт все тэги в строке.
    90

    View Slide

  91. Регулярные выражения
    Пример
    Общей проблемой как жадных, так и ленивых выражений
    являются точки возврата для перебора вариантов выражения.
    Точки ставятся после каждой итерации квантификатора. Если
    интерпретатор не нашёл соответствия после квантификатора, то
    он начинает возвращаться по всем установленным точкам,
    пересчитывая оттуда выражение по-другому.
    91

    View Slide

  92. Регулярные выражения
    Пример
    Пример 3.6 (Поиск тэгов, ревнивая квантификация)
    <.*+> весь не пустой текст в строке от первой открывающей
    скобки тэга до закрывающейся скобки последнего тэга
    ( ревнивая (сверхжадная) квантификация ).
    В отличие от обычной (жадной) квантификации, ревнивая
    квантификация не только старается найти максимально
    длинный вариант, но ещё и не позволяет алгоритму
    возвращаться к предыдущим шагам поиска для того, чтобы
    найти возможные соответствия для оставшейся части
    регулярного выражения.
    Использование ревнивых квантификаторов увеличивает скорость
    поиска, особенно в тех случаях, когда строка не соответствует
    регулярному выражению. Кроме того, ревнивые
    квантификаторы могут быть использованы для исключения
    нежелательных совпадений.
    92

    View Slide

  93. Регулярные выражения
    Модификаторы
    Модификаторы действуют с момента вхождения и до конца
    регулярного выражения или противоположного модификатора.
    Некоторые интерпретаторы могут применить модификатор ко
    всему выражению, а не с момента его вхождения.
    (?i) включает нечувствительность выражения к регистру
    символов (от case insensitivity);
    (?-i) выключает.
    (?s) включает режим соответствия точки символам
    переноса строки и возврата каретки;
    (?-s) выключает.
    (?m) символы ˆ и $ вызывают соответствие только после
    и до символов новой строки;
    (?-m) символы ˆ и $ вызывают соответствие только с
    началом и концом строки.

    View Slide

  94. Регулярные выражения
    Модификаторы
    (?x) включает режим без учёта пробелов между
    частями регулярного выражения и позволяет использовать
    # для комментариев;
    (?-x) выключает.
    Несколько модификаторов можно объединять в одну группу.
    Пример 3.7 (Переключение режимов)
    (?i-sm) такая группа включает режим i, m и выключает
    режим s.
    Если использование модификаторов требуется только в
    пределах группы, то нужный шаблон указывается внутри группы
    после модификаторов и двоеточия.
    Пример 3.8 (Переключение режимов и группировка)
    (?-i)(?i:tV)set найдёт TVset, но не TVSET.
    94

    View Slide

  95. Регулярные выражения
    Комментарии
    Для добавления комментариев в регулярное выражение можно
    использовать группы-комментарии вида (?#комментарий).
    Такая группа интерпретатором полностью игнорируется и не
    проверяется на вхождение в текст.
    Пример 3.9 (Комментарии)
    Выражение А(?#тут комментарий)Б соответствует строке АБ.

    View Slide

  96. Регулярные выражения
    Редактор SED
    Определение
    SED неинтерактивный текстовый редактор, предназначенный
    для пакетного редактирования файлов.
    Полезен для:
    редактирования очень больших файлов;
    редактирования файлов любой величины, если
    последовательность комманд редактирования является
    слишком длинной и сложной и, следовательно, неудобной
    для выполнения интерактивного редактирования;
    выполнения множества раз одной и той же функции
    редактирования.
    96

    View Slide

  97. Регулярные выражения
    Редактор SED
    SED копирует строку из input (стандартный или указываемый
    набор файлов) в pattern space (некоторая область) и к этой
    строке применяет все команды, адреса которых попадают в
    pattern space. Затем pattern space копируется в output.
    Фактически в pattern space находится одна строка, за
    исключением функции "N".
    Формат:
    sed [-n] [-e script] [-f sfile] [files]

    View Slide

  98. Регулярные выражения
    Редактор SED
    script набор команд редактирования SED, который
    может содержать до 200 команд или до 10000 байт;
    sfile файл со скриптом SED;
    files файлы, предназначенные для
    SED-редактирования;
    -n указывает, что в output выводятся только те
    строки, к которым применялась команда p.
    Флаг -e может быть опущен, если он присутствует один.
    Команда SED:
    [address [,address]] function [arguments]

    View Slide

  99. Регулярные выражения
    Редактор SED
    Адресация в командах SED
    С помощью адресации происходит отбор строк для
    редактирования.
    Адрес:
    десятичный номер строки;
    $ последняя строка input;
    регулярное выражение.
    Если адреса не указаны, то команда применяется ко всем
    pattern space.
    99

    View Slide

  100. Регулярные выражения
    Редактор SED
    Если присутствует один адрес, то команда применяется ко всем
    тем pattern space, куда попадает этот адрес.
    Если указаны два адреса, то они ограничивают область
    применения команды.
    Для осуществления отбора строк для редактирования в адресах
    команд SED допускается использование регулярных выражений,
    заключённых в “/ /”.
    100

    View Slide

  101. Регулярные выражения
    Редактор SED
    Функции SED
    В скобках указано максимальное число адресов.
    (1) a \text добавить text после указанной строки
    (вывести), потом считать следующую.
    (2) b label перейти на метку label, устанавливаемую, с
    помощью функции ‘:’, если label пуст, то перейти
    в конец скрипта.
    (2) c \text удалить pattern space и вывести text на output.
    (2) d удалить pattern space.
    (2) D удалить pattern space до вставленной newline.
    (2) g заместить содержимое pattern space
    содержимым буфера hold space.
    (2) G добавить к содержимому pattern space
    содержимое буфера hold space.

    View Slide

  102. Регулярные выражения
    Редактор SED
    (2) h заместить содержимое буфера hold space на
    содержимое pattern space.
    (2) H добавить к содержимому буфера hold space
    содержимое pattern space.
    (1) i вывести текст на output перед указанной строкой.
    (2) n вывести pattern space на output и считать
    следующую строку.
    (2) N добавить следующую строку к pattern space,
    разделяя строки вставленным newline.
    (2) p скопировать pattern space на output.
    (2) P скопировать pattern space до первой вставленной
    newline на output.
    (1) q переход на конец input. Вывести указанную
    строку, (если нет флага -n ) и завершить работу
    SED.

    View Slide

  103. Регулярные выражения
    Редактор SED
    (2) r rfile читать содердимое rfile и вывести его на
    output прежде чтения следующей строки.
    (2) s функция контекстной замены.
    (2) t label перейти на метку label, устанавливаемую с
    помощью функции ‘:’, если для этой строки была
    осуществлена замена с помощью функции "s".
    Флаг осуществления замены восстанавливается при
    чтении следующей строки или при выполнении
    функции "s".
    (2) w wfile добавить pattern space к концу файла wfile.
    Максимально можно использовать до 10 открытых
    файлов.
    (2) x поменять местами содержимое pattern space и
    буфера hold space.
    (2) y /str1/str2/ заменить все вхождения символов из str1
    на соответствующие из str2. Длины строк должны
    быть равными.

    View Slide

  104. Регулярные выражения
    Редактор SED
    (2) ! func применять функцию func (или группу функций в
    {}) к строкам НЕ попадающим в указанные адреса.
    (0) : label устанавливает метку label для перехода по "b"
    и "t" командам.
    (1) = выводит номер строки на output как строку.
    (2) {. . . } выполняет функции от ‘{’ до ‘}’, только когда
    выбрано pattern space (группировка функций).
    (0) пустая команда (игнороруется).
    # комментарий. ("#n" в скрипте равносильно
    установке флага -n)
    104

    View Slide

  105. Регулярные выражения
    Редактор SED
    Примеры
    Пример 3.10 (Регулярные выражения в SED)
    Печатать первые 7 линий файла: sed 7q
    Печатать только те строки, которые совпадают с регулярным
    выражением:
    sed -n ’/regexp/p’ или sed ’/regexp/!d’
    Печать строк, совпадающих с регулярными выражениями AAA,
    BBB и CCC одновременно (в любой последовательности):
    sed ’/AAA/!d; /BBB/!d; /CCC/!d’
    Печатать абзац, если он содержит AAA или BBB, или CCC (абзацы
    разделяет пустая строка):
    sed -e ’/./{H;$!d;}’ -e ’x;/AAA/b’ -e ’/BBB/b’ -e ’/CCC/b’ -e d
    Печатать строки длиной, равной или большей 65 символов:
    sed -n ’/^.{65}/p’
    105

    View Slide

  106. Регулярные выражения
    Редактор SED
    Пример 3.11 (Регулярные выражения в SED)
    Печатать часть файла, начиная от совпадения с регулярным
    выражением regexp и до конца файла:
    sed -n ’/regexp/,$p’
    Печатать часть файла между regexpA regexpB (включительно,
    регистро-зависимый):
    sed -n ’/regexpA/,/regexpB/p’
    Перевернуть последовательность строк:
    sed -n ’1!G;h;$p’
    Удалить дубликаты последовательных строк в файле:
    sed ’$!N; /^\(.*\)\n\1$/!P; D’
    Удалить все пустрые строки из файла:
    sed ’/^$/d’ или sed ’/./!d’
    Получить заголовок и обратный адрес из письма:
    sed ’/^Reply-To:/q; /^From:/h; /./d;g;q’
    106

    View Slide

  107. Регулярные выражения
    Редактор SED
    Функция контекстной замены
    Формат:
    s/Регулярное выражение/Замена/флаги
    Функция "s" заменяет вхождение Регулярного выражения в
    pattern space на Замену.
    Регулярное выражение может быть заключено не в “/ /” а в
    любые другие символы (не ␣ (пробел) и не newline (\n)).
    Замена любой набор символов. Используются специальные
    символы:
    & заменяется на строку, указанную в регулярном
    выражении.
    \d указывает на d-тое выражение (где d цифра),
    заключённое в “\(”, “\)” в регулярном выражении.

    View Slide

  108. Регулярные выражения
    Редактор SED
    Флаги:
    g глобальная замена: заменить все вхождения в
    строке;
    p печатать (выводить на output) строки, в которых
    была осуществлена замена;
    w wfile выводить в файл wfile строки, в которых была
    осуществлена замена.

    View Slide

  109. Регулярные выражения
    Редактор SED
    Пример 3.12 (Замена в SED)
    Заменить в каждой строке первое вхождение "to" (если есть),
    на "by" и изменённые строки сохранить в файле "changes":
    s/to/by/w changes
    Добавить скобку и пробел в начало каждой строки (цитирование
    почтового сообщения):
    sed ’s/^/> /’
    Заменить в строках, где встречается вхождение "iiii", первое
    вхождение подстроки "oleg" или "Oleg" на "Oleg V.
    Zhurenkov", изменённые строки выводить на печать:
    /iiii/s/[Oo]leg/Oleg V. Zhurenkov/p

    View Slide

  110. Регулярные выражения
    Редактор SED
    Пример 3.13 (Замена в SED)
    Заменить в строке каждое вхождение одного из знаков ‘.’, ‘,’,
    ‘;’, ‘:’, ‘?’ на "*sign&*", где & будет тем знаком, который стоял
    прежде (например, ‘.’ на "*sign.*", ‘?’ на "*sign?*" и т. д.:
    s/[.,;:?]/*sign&*/g
    Удалить большинство HTML тегов (включая многострочные):
    sed -e :a -e ’s/<[^>]*>//g;/Перевернуть каждую строку в файле задом наперёд:
    sed ’/\n/!G;s/\(.\)\(.*\n\)/&\2\1/;//D;s/.//’
    Удалить дубликаты непоследовательных строк в файле:
    sed -n ’G; s/\n/&&/; /^\([ -~]*\n\).*\n\1/d; s/\n//; h; P’

    View Slide

  111. Языки разметки
    111

    View Slide

  112. Языки разметки
    Понятие разметки
    Термин разметка (markup) произошёл от словосочетания
    marking up (помечание, размечание) из традиционной
    издательской практики, когда язык разметки выглядел как
    обычные символические печатные инструкции на полях
    рукописи. Целые века эта задача была посильна в основном
    только типографам-печатникам, которых называли
    разметчик (markup men), они размечали текст для указания
    гарнитуры шрифта, его стиля и размера, которые необходимо
    было применить к каждой части текста.
    Кроме типографов-печатников разметка использовалась
    редакторами, корректорами, издателями и графическими
    дизайнерами.
    112

    View Slide

  113. Языки разметки
    Понятие разметки
    Определение
    Язык разметки (текста) в компьютерной терминологии
    набор символов или последовательностей, вставляемых в текст
    для передачи информации о его выводе или строении.
    Язык разметки принадлежит классу компьютерных языков.
    Текстовый документ, написанный с использованием языка
    разметки, содержит не только сам текст (как последовательность
    слов и знаков препинания), но и дополнительную информацию о
    различных его участках. Например, указание на заголовки,
    выделения, списки и т. д. В более сложных случаях язык
    разметки позволяет вставлять в документ нетекстовые данные,
    интерактивные элементы и содержание других документов.
    113

    View Slide

  114. Языки разметки
    Понятие разметки
    Идея использовать языки разметки была впервые высказана
    издателем Вильямом Тьюнниклиффом (William W. Tunnicliffe)
    на конференции, известной как generic coding , в 1967 г.
    В 1970-х гг. Тьюнниклифф руководил разработкой стандарта
    под названием GenCode для издательской индустрии и позже
    занял пост руководителя небезызвестной ISO (International
    Organization For Starndartization).

    View Slide

  115. Языки разметки
    Понятие разметки
    Однако, отцом языков разметки обычно называют научного
    работника IBM Чарльза Голдфарба (Charles Goldfarb).
    Голдфарб додумался до основной идеи, пока работал на
    примитивной системе управления документами,
    предназначенной для адвокатских контор в 1969 г., позже он
    принимал участие в создании языка IBM GML.
    Некоторые ранние реализации компьютерных языков разметки
    можно обнаружить в утилитах обработки текста (например troff,
    nroff). В этих системах команды форматирования вставляются в
    текст документа так, что программы обработки текста могут
    форматировать текст согласно спецификациям редактора.

    View Slide

  116. Языки разметки
    Логическая и визуальная разметки
    Различают логическую и визуальную разметки. В первом
    случае речь идёт только о том, какую роль играет данный
    участок документа в его общей структуре (например, данная
    строка является заголовком ). Во втором определяется, как
    именно будет отображаться этот элемент (например, данную
    строку следует отображать жирным шрифтом ).
    Идея языков разметки состоит в том, что визуальное
    отображение документа должно автоматически получаться из
    логической разметки и не зависеть от его непосредственного
    содержания.

    View Slide

  117. Языки разметки
    Логическая и визуальная разметки
    Это упрощает автоматическую обработку документа и его
    отображение в различных условиях (например, один и тот же
    файл может по-разному отображаться на экране компьютера,
    мобильного телефона и на печати, поскольку свойства этих
    устройств вывода существенно различаются). Однако это
    правило часто нарушается: например, создавая документ в
    редакторе наподобие MS Word, пользователь может выделять
    заголовки жирным шрифтом, но нигде не указывать, что эта
    строка является заголовком.
    Первым языком с чётким и ясным различием между структурой
    и видом документа был Scribe. Он был создан и описан в
    докторской диссертации Брайана Рейда (Brian Reid) в 1980 г.
    Scribe был революционным в количестве способов обработки, не
    в последнюю очередь из-за введённой идеи стилей, отделённых
    от собственно текста и грамматики и использованием
    управляющих описательных элементов.

    View Slide

  118. Языки разметки
    Логическая и визуальная разметки
    Scribe оказал влияние на разработку языка GML (позже SGML),
    а так же он является прямым предком языков HTML и L
    A
    TEX.
    Языки разметки используются везде, где требуется вывод
    форматированного текста:
    в типографии (SGML, TEX, PostScript, PDF);
    пользовательских интерфейсах компьютеров (Microsoft
    Office, OpenOffice, LibreOffice, WinEdit, . . . );
    WWW (HTML, XHTML, XML, WML, VML, PGML, SVG,
    MathML).
    WML (Wireless Markup Language язык беспроводной
    разметки ) язык разметки документов для использования в
    сотовых телефонах и других мобильных устройствах по
    стандарту WAP.
    118

    View Slide

  119. Языки разметки
    Логическая и визуальная разметки
    VML (Vector Markup Language язык векторной разметки)
    разработан фирмой Microsoft для описания векторной
    графики. VML был представлен W3C в 1998 г. компаниями
    Microsoft, Macromedia и др. Примерно в то же время Adobe,
    Sun Microsystems и несколько других компаний подали на
    рассмотрение документы о языке PGML. Оба эти языка позднее
    стали основой для SVG.
    Фрагменты на VML помещаются внутрь веб-страниц, среди
    обычного HTML-кода, и описывают их графические элементы.
    VML пока поддерживается лишь немногими программами, среди
    которых Internet Explorer 5.0+ и Microsoft Office 2000+.
    Google Maps использует VML для визуализации векторов на IE.
    Для написания исходных текстов Википедии, её участники
    используют особый язык разметки Вики-разметку, а для
    отображения сложных математических формул язык TEX.

    View Slide

  120. Языки разметки
    Легковесные языки разметки
    Определение
    Языки, предназначенные для простого и быстрого написания
    текста в простом текстовом редакторе, называются
    легковесными языками разметки (lightweight markup
    language).
    Особенности таких языков:
    минимум функций;
    небольшой набор управляющих команд;
    легки в освоении;
    исходный текст на таком языке читается с такой же
    лёгкостью, как и готовый документ.

    View Slide

  121. Языки разметки
    Легковесные языки разметки
    Применяются они там, где человеку приходится подготавливать
    текст в обычном текстовом редакторе (блоги, форумы, вики),
    либо там, где важно, чтобы пользователь с обычным текстовым
    редактором также мог прочитать текст. Наиболее
    распространённые легковесные языки разметки:
    BBCode (Bulletin Board Code) язык разметки,
    используемый для форматирования сообщений на многих
    электронных досках объявлений (BBS) и форумах. Для
    форматирования текста используются теги, подобные тегам
    HTML, но, в отличие от них, заключённые не в угловые, а в
    квадратные скобки. Перед отображением страницы движок
    форума производит разбор текста и преобразование его в
    HTML- или XHTML-код.
    121

    View Slide

  122. Языки разметки
    Легковесные языки разметки
    Markdown (маркдаун) язык разметки, созданный
    Джоном Грубером (John Gruber) и Аароном Шварцем
    (Aaron H. Swartz) с целью создания максимально
    удобочитаемого и удобного в публикации легковесного
    языка разметки. Многие идеи языка были позаимствованы
    из существующих соглашений по разметке текста в
    электронных письмах. Реализации языка Markdown
    преобразуют текст в формате Markdown в валидный,
    правильно построенный XHTML и заменяет левые угловые
    скобки ( < ) и амперсанды ( & ) на соответствующие
    коды сущностей. Первой реализацией Markdown стала
    написанная Грубером программа на Perl, однако, спустя
    некоторое время, появилось множество реализаций от
    сторонних разработчиков. Реализация на Perl
    распространяется по лицензии типа BSD. Реализации
    Markdown на различных языках программирования
    включены (или доступны в качестве плагина) во многие

    View Slide

  123. Языки разметки
    Легковесные языки разметки
    Textile простой язык разметки, позволяющий
    пользователям получать код HTML из своего текста.
    Разработчик Дин Аллен (Dean Allen). Используется в
    CMS Textpattern и некоторых других.
    Вики-разметка используется для оформления текста на
    веб-сайтах и позволяет упростить доступ к возможностям
    языка HTML. Страницы, оформленные с применением
    вики-текста, предварительно преобразуются в HTML для
    просмотра в веб-браузере, преобразование реализует
    специальное программное обеспечение вики-движок.
    Различные системы автодокументирования (например,
    Javadoc, doxygen, docstrip).
    123

    View Slide

  124. Языки разметки
    SGML
    Идея GML появилась в 1969 г., а впервые он был представлен в
    1973 г.
    Определение
    GML (Generalized Markup Language) обобщённый язык
    разметки.
    В 1975 г. Голдфарб переехал из Кембриджа, Массачусетс в
    Силиконовую долину, где стал проектировщиком в IBM Almaden
    Research Center. Там он убедил управленцев IBM использовать
    GML в коммерческих целях как часть фирменного средства
    формирования документов (Document Composition Facility),
    GML широко использовался в корпорации и за её пределами в
    течение нескольких лет.
    Разработка языка SGML неофициально началась в 1978 г. и в
    конечном итоге привела к созданию стандарта SGML,
    основанном на GML и GenCode. Голдфарб стал председателем
    комитета SGML.
    124

    View Slide

  125. Языки разметки
    SGML
    Определение
    SGML (Standard Generalized Markup Language) стандартный
    обобщённый язык разметки, метаязык, на котором можно
    определять язык разметки для документов.
    Иначе говоря, SGML это система определения языков
    разметки. Авторы размечают свои документы, вводя
    структурную, представительную и семантическую информацию
    параллельно с основным содержимым.
    SGML стандартизован ISO: ISO 8879:1986 Information
    processing Text and office systems Standard Generalized
    Markup Language (SGML) в октябре 1986 года.

    View Slide

  126. Языки разметки
    SGML
    Изначально SGML был разработан для совместного
    использования машинно-читаемых документов в больших
    правительственных и аэрокосмических проектах. Он активно
    использовался в печатной и издательской сфере, но его
    сложность затруднила его широкое распространение для
    повседневного использования.
    Основные части документа SGML:
    SGML-декларация определяет, какие символы и ограничители
    могут появляться в документе.
    SGML декларация определяет самый нижний,
    лексический уровень SGML-документа:
    используемый алфавит;
    спецсимволы;
    разделители.
    126

    View Slide

  127. Языки разметки
    SGML
    Document Type Definition определяет синтаксис конструкций
    разметки. DTD может включать дополнительные
    определения, такие как символьные
    ссылки-мнемоники.
    Спецификация семантики также даёт ограничения
    синтаксиса, которые не могут быть выражены
    внутри DTD.
    Содержимое SGML-документа как минимум, должен быть
    корневой элемент.
    127

    View Slide

  128. Языки разметки
    SGML
    Пример 3.14 (Пример SGML декларации)
    CHARSET
    BASESET "ISO 646-1983//CHARSET International Reference
    Version (IRV)//ESC 2/5 4/0"
    DESCSET
    0 9 UNUSED
    9 2 9
    11 2 UNUSED
    13 1 13
    14 18 UNUSED
    32 95 32
    127 1 UNUSED
    CAPACITY PUBLIC "ISO 8879-1986//CAPACITY Reference//EN"
    SCOPE DOCUMENT
    SYNTAX PUBLIC "ISO 8879-1986//SYNTAX Reference//EN"
    FEATURES
    MINIMIZE DATATAG NO OMITTAG NO RANK NO
    SHORTTAG NO
    LINK SIMPLE NO IMPLICIT NO EXPLICIT NO
    OTHER CONCUR NO SUBDOC NO FORMAL NO
    APPINFO NONE
    >
    128

    View Slide

  129. Языки разметки
    SGML
    SGML предоставляет множество вариантов синтаксической
    разметки для использования различными приложениями.
    Изменяя SGML-декларацию, можно даже отказаться от
    использования угловых скобок (хотя этот синтаксис считается
    стандартным concrete reference syntax).
    Пример 3.15 (Пример синтаксиса SGML)

    Что такое SGML?
    Standard Generalized Markup Language

    HTML и XML произошли от SGML.
    Приложениями SGML являются также SGML Docbook
    (документирование) и Z Format (типография и
    документирование).

    View Slide

  130. Языки разметки
    XML
    XML является подмножеством SGML, разработанное для
    упрощения процесса машинного разбора документа.
    Определение
    XML eXtensible Markup Language (расширяемый язык
    разметки) рекомендованный W3C язык разметки,
    представляющий собой свод общих синтаксических правил.
    XML основан на концепции документов, состоящих из
    последовательностей сущностей. Каждая сущность включает
    один или более элементов, каждый элемент может иметь 0 или
    более атрибутов.
    Допустимые типы элементов в XML-документе, соотношения
    между элементами и списком их атрибутов задаются в DTD.

    View Slide

  131. Языки разметки
    Правила создания XML-документа
    Регистр символов учитывается.
    Правильно оформленный XML-документ состоит из
    необязательного пролога, элементов и, возможно,
    эпилога, включающего инструкции по обработке документа
    и комментарии.
    В документе должен присутствовать корневой элемент,
    охватывающий всё содержимое документа и не
    появляющийся внутри других элементов.
    Каждый открывающий тэг, имеющий содержание, должен
    иметь закрывающий тэг. В отличие от HTML, нельзя
    опускать закрывающие тэги. Для тэгов пустых элементов
    можно использовать синтаксис .
    Вложенность тэгов строго контролируется.
    Каждый элемент имеет тип, а пустой и открывающий тэги
    могут иметь атрибуты. Каждый атрибут имеет тип и
    некоторый набор возможных значений.
    131

    View Slide

  132. Языки разметки
    Правила создания XML-документа
    Вся информация, располагающаяся между начальным и
    конечными тэгами, рассматривается в XML как данные и
    поэтому учитываются все символы форматирования (т. е.
    пробелы, переводы строк, табуляции не игнорируются, как в
    HTML).
    Все значения атрибутов, используемых в определении
    тэгов, должны быть заключены в кавычки.
    Комментариями является любая область данных,
    заключённая между последовательностями символов “”.
    Комментарии пропускаются анализатором и поэтому при
    разборе структуры документа в качестве значащей
    информации не рассматриваются.
    В начале документа помещается XML-декларация, в
    которой указывается версия XML, язык разметки
    документа, дополнительная информация.
    В прологе документа (после XML-декларации)
    132

    View Slide

  133. Языки разметки
    Правила создания XML-документа
    Сама разметка документа может задаваться как внутри
    документа, так и во внешних файлах.
    Пример 3.16 (Декларация типа документа внутри документа)
    standalone="yes"?>
    ]>
    Пример 3.17 (Декларация типа документа во внешнем
    документе)


    133

    View Slide

  134. Языки разметки
    TEX
    Определение
    TEX система компьютерной вёрстки, язык программирования
    для подготовки публикаций научных текстов со сложными
    формулами, разработанная американским профессором
    информатики Дональдом Кнутом в целях создания
    компьютерной типографии.
    Название произносится как тех (от греч. τ ´
    εχνη
    искусство , мастерство ).
    Дональд Кнут (Donald E. Knuth) известный математик и
    программист1.
    1Всемирную известность он приобрёл после публикации монографии
    Искусство программирования .

    View Slide

  135. Языки разметки
    TEX
    TEX содержит средства для секционирования документов, для
    работы с перекрёстными ссылками, управления шрифтами, и
    т. д. Многие считают TEX лучшим языком для набора сложных
    математических формул. В частности, из-за этих возможностей,
    TEX популярен в академических кругах, особенно среди
    математиков и физиков.
    135

    View Slide

  136. Языки разметки
    Обзор издательских систем (ИС)
    Системы визуального проектирования WYSIWYG (What
    You See Is What You Get):
    QuarkXpress;
    PageMaker, FrameMaker, InDesign (Adobe);
    Corel Word Perfect, Corel Draw (Corel);
    Scribus;
    TeXmacs, LyX;
    . . .
    MS Word не является ИС! ИС от Microsoft MS Office Publisher.
    Однако многие издательства принимают небольшие статьи в формате
    RTF (формата doc не существует).
    Для обмена используется XML или файлы формата RTF.
    Определение
    RTF (Rich Text Format, формат обогащённого текста ) свободный
    межплатформенный формат хранения размеченных текстовых
    документов, предложенный Microsoft и др.

    View Slide

  137. Языки разметки
    Обзор издательских систем (ИС)
    Первая версия стандарта RTF появилась в 1987 г., с тех пор
    спецификация формата несколько раз изменялась, поэтому
    имеет место несовместимость rtf-файлов разных форматов.
    RTF-документы поддерживаются большинством современных
    текстовых редакторов (под Microsoft Windows это, как правило,
    осуществляется с помощью стандартных библиотек, входящих в
    состав операционной системы).
    Доступность издательского ПО с функцией WYSIWYG
    вытеснила большинство языков разметки и логического
    проектирования среди обычных пользователей, хотя серьёзная
    издательская работа по-прежнему использует разметку для
    специфических не визуальных структур текста, а
    WYSIWYG-редакторы сейчас чаще всего сохраняют документы в
    форматах, основанных на языках разметки.
    137

    View Slide

  138. Языки разметки
    Обзор издательских систем (ИС)
    Формат ODF
    Определение
    OpenDocument Format, ODF (Open Document Format for Office
    Application открытый формат документов для офисных
    приложений) открытый формат файлов документов для
    хранения и обмена редактируемыми офисными документами, в
    том числе текстовыми документами (такими как заметки,
    отчёты и книги), электронными таблицами, рисунками, базами
    данных, презентациями.
    Стандарт был разработан индустриальным сообществом OASIS
    и основан на XML-формате, принят как международный
    стандарт ISO/IEC 26300 1 мая 2006 года.

    View Slide

  139. Языки разметки
    Обзор издательских систем (ИС)
    Стандарт был совместно и публично разработан различными
    организациями, доступен для всех и может быть использован
    без ограничений. OpenDocument представляет собой
    альтернативу частным закрытым форматам (включая Word
    (.doc), Excel (.xls) и PowerPoint (.ppt) форматы,
    используемые в Microsoft Office 97–2003), а также формату
    Microsoft Office Open XML.
    Пользователи, сохраняющие свои данные в открытом формате,
    таком как OpenDocument, избегают опасности быть загнанными
    в угол единственным поставщиком, они свободны выбрать
    другое программное обеспечение, если их сегодняшний
    поставщик уйдёт с рынка, поднимет цены, изменит своё
    программное обеспечение или поменяет условия лицензионного
    соглашения на более строгие.
    139

    View Slide

  140. Языки разметки
    Обзор издательских систем (ИС)
    OpenDocument является единственным стандартом для
    редактируемых офисных документов, утверждённым
    независимым комитетом по стандартам и реализованным
    несколькими поставщиками программного обеспечения.
    OpenDocument может быть использован любым поставщиком
    ПО, включая, в том числе, поставщиков закрытого
    программного обеспечения и разработчиков, использующих
    GNU GPL.
    Первоначальная версия Microsoft Office 2007 не имела
    поддержки OpenDocument. Microsoft Office 2007 поддерживает
    формат OpenDocument, начиная с SP2. Однако поддержка этого
    формата в Microsoft Office далека от совершенства, в частности,
    говорится об отсутствии поддержки зашифрованных документов
    и о сохранении формул не в том формате, в каком это делают
    другие программы, поддерживающие OpenDocument.

    View Slide

  141. Языки разметки
    Обзор издательских систем (ИС)
    7 февраля 2007 г. Sun Microsystems, основоположник
    разработки пакета OpenOffice.org, выпустила
    свободнораспространяемое расширение для Microsoft Office,
    позволяющее производить чтение и запись формата ODF Sun
    ODF Plugin for Microsoft Office.
    Microsoft финансирует свободный проект плагина для Microsoft
    Office для пакетного преобразования документов, ODF Converter,
    под BSD-like лицензией на SourceForge.net. 2 февраля 2007 года
    была выпущена версия 1.0 плагина к Word версий 10–12
    (XP-2007) на 5 языках (не включая русский). В планах проекта
    был выпуск плагинов для Excel и PowerPoint к ноябрю 2007 года.
    21 мая 2008 года Microsoft объявила о будущей поддержке
    ODF в Microsoft Office 2007, которая и была реализована в
    Service Pack 2. Европейская комиссия назначила расследование с
    целью разобраться, приведёт ли это к лучшей совместимости и
    более широкому выбору для пользователя.

    View Slide

  142. Языки разметки
    Обзор издательских систем (ИС)
    19 апреля 2010 года компания Oracle, к которой после покупки
    ею компании Sun Microsystems, разработчика плагина
    поддержки ODF для Microsoft Office, перешли все права на него,
    закрыла свободный доступ к плагину.
    Помимо Microsoft Office, формат OpenDocument (в частности,
    .odt) поддерживает (наряду с форматом Office Open XML,
    разработанным Microsoft) редактор WordPad, входящий в
    состав Windows 7.
    142

    View Slide

  143. Языки разметки
    Обзор издательских систем (ИС)
    Реализации ODF:
    Apache OpenOffice (бывш. StarOffice, OpenOffice.org, Oracle
    Open Office), LibreOffice;
    IBM Lotus Symphony;
    IBM Productivity Tools (в составе IBM Lotus Notes);
    KOffice;
    AbiWord;
    Scribus;
    Textmaker;
    Visioo Writer;
    ODFReader;
    NeoOffice;
    Google Docs, бывший Writely;
    AjaxWrite;
    Zoho Writer;
    КП ОФИС;
    Википедия:Книги.
    143

    View Slide

  144. Языки разметки
    Обзор издательских систем (ИС)
    По оценкам организации The Document Foundation, курирующей
    разработку LibreOffice, этот офисный пакет применяют примерно
    20–30 млн. пользователей GNU/Linux и еще 30 40 млн.
    пользователей Windows. LibreOffice сегодня поставляется в
    составе большинства основных дистрибутивов GNU/Linux.
    144

    View Slide

  145. Языки разметки
    Обзор издательских систем (ИС)
    ODF в государственных стандартах:
    Россия (ГОСТ Р ИСО/МЭК 26300-2010. Введён в действие
    с 1 июня 2011 года);
    Дания (с января 2010 года);
    Швеция (госстандарт SS-ISO/IEC 26300:2008 с августа
    2008 года);
    Италия;
    Корея;
    Хорватия;
    ЮАР;
    Бразилия (с апреля 2008 года);
    Венесуэла (с октября 2008 года).
    145

    View Slide

  146. Языки разметки
    Обзор издательских систем (ИС)
    ODF активно применяется в странах и организациях:
    Аргентина (обязателен для правительства с сентября 2007
    года);
    Норвегия (обязательный с 2009 года);
    Уругвай (рекомендуется с июня 2008 года);
    Бельгия;
    Германия;
    Малайзия;
    Нидерланды;
    Финляндия;
    Штат Массачусетс в США;
    Штат Уттар-Прадеш в Индии (веб-сайт верховного суда
    Allahabad High Court);
    NATO.
    146

    View Slide

  147. Языки разметки
    Обзор издательских систем (ИС)
    Системы логического проектирования WYSIWYM
    (What You See Is What You Mean), основанные на текстовом
    процессоре TEX:
    PlainTEX;
    L
    A
    TEX, SLiTEX, AMS-TEX, L
    A
    TEX2ε, L
    A
    TEX3, ConTEXt, Omega;
    fpTEX, teTEX, TEXLive;
    emTEX (MS DOS, OS/2);
    MiKTEX (Windows);
    ozTEX (Apple/Macintosh);
    pcTEX (Y&Y Inc.);
    Scientific Word (TCI Software Research Inc.);
    Personal TEX;
    TrueTEX;
    . . .
    147

    View Slide

  148. Языки разметки
    L
    A
    TEX
    В начале 80-х гг. Лесли Лампортом (Leslie Lamport) была
    разработана издательская система на базе TEX а, названная им
    L
    A
    TEX. . .
    Преимущества ИС L
    A
    TEX2ε:
    соответствие стандарту SGML;
    полное разделение содержания документа с его
    оформлением благодаря концепции общей разметки
    (основываясь на опыте профессиональных типографских
    дизайнеров);
    совершенное полиграфическое качество;
    большое количество выходных форматов;
    полная совместимость для разных платформ;
    Свободное распространение.
    148

    View Slide

  149. Языки разметки
    Команды в L
    A
    TEX 2ε
    Исходный TEXовский файл является обычным текстовым
    файлом, содержащим, кроме текста, управляющие команды.
    Самая первая команда в исходном файле
    \documentclass{класс} определение класса документа.
    Сам текст документа должен быть написан между двумя
    командами:
    Пример 3.18 (Тело документа в L
    A
    TEX2ε)
    \begin{document}
    . . .
    \end{document}
    Подобные команды называются окружениями (environment),
    или процедурами.
    В исходном файле можно комментировать строки знаком ‘%’. ,
    закомментированные строки не компилируются.
    Строго говоря, команды можно разделить на логосы,
    декларации, собственно команды и окружения.
    149

    View Slide

  150. Языки разметки
    L
    A
    TEX 2ε
    Преамбула вводная часть исходного файла, предшествующая
    самому документу.
    \documentclass[опции]{класс}[дата] определяет класс
    документа, опции дополнительные параметры, дата
    указывает дату выпуска наиболее старой версии класса,
    пригодного для компиляции (записывается в формате
    гггг/мм/дд).
    \usepackage[опции]{пакет}[дата] подключает
    дополнительные пакеты.
    150

    View Slide

  151. Языки разметки
    L
    A
    TEX 2ε
    Пример 3.19 (Простая статья в L
    A
    TEX2ε)
    \documentclass[a4paper,10pt]{article}
    \usepackage[cp1251]{inputenc}
    \usepackage[russian]{babel}
    \title{Пример статьи} \author{Журенков О. В.}
    \begin{document}
    \maketitle
    \begin{abstract}
    Очень простой пример
    \end{abstract}
    \section{Первый раздел} Какой-то текст.
    \end{document}

    View Slide

  152. Дополнительная литература I
    Мельников, В. П. Информационные технологии [Текст] /
    В. П. Мельников.
    М.: Академия, 2009.
    432 с.
    2000 экз.
    ISBN 978-5-7695-6646-2.
    Левин, В. И. История информационных технологий
    [Текст] / В. И. Левин.
    М.: Интерент-Университет Информационных Технологий;
    БИНОМ. Лаборатория знаний, 2007.
    336 с. (Основы информационных технологий.)
    ISBN 978-5-94774-677-8.
    152

    View Slide

  153. Дополнительная литература II
    Гойвертс, Я. Регулярные выражения. Сборник рецептов
    [Текст] / Я. Гойвертс, С. Левитан.
    СПб.: Символ-Плюс, 2009.
    608 с.
    ISBN 978-5-93286-181-3.
    Основы работы в OpenOffice [Электронный ресурс] /
    T. Astleitner, R. Barnes, A. Belzunce и др.
    [Б. м.]: Интернет-университет информационных технологий
    ИНТУИТ.ру, 2007. Режим доступа: http:
    //www.intuit.ru/department/office/openofficebasics.
    Грэтцер, Г. Первые шаги в L
    A
    TEX’е [Текст] / Г. Грэтцер.
    М.: Мир, 2000.
    172 с.
    153

    View Slide

  154. Дополнительная литература III
    Котельников, И. А. L
    A
    TEX по русски [Текст] / И. А.
    Котельников, П. З. Чеботаев.
    3-е, переработанное и дополненное изд.
    Новосибирск: Сибирский хронограф, 2004.
    496 с.
    ISBN 5-87550-195-2.
    на обложке: Настольная издательская система L
    A
    TEX по
    русски .
    Гуссенс, М. Путеводитель по пакету L
    A
    TEX и его
    расширению L
    A
    TEX2ε[Текст]: [Пер. с англ.] / М. Гуссенс,
    Ф. Миттельбах, А. Самарин; под ред. И. А. Маховой.
    М.: Мир, 1999.
    606 с.
    ISBN 5-03-003325-4 (русск.).
    ISBN 0-201-54199-8 (англ.).
    РФФИ №97-01-14165.
    154

    View Slide

  155. Дополнительная литература IV
    Гуссенс, М. Путеводитель по пакету L
    A
    TEX и его
    Web-приложениям [Текст]: [Пер. с англ.] / М. Гуссенс,
    С. Ратц; под ред. Б. В. Тоботраса.
    М.: Мир, 2001.
    604 с.
    ISBN 5-03-003387-4.
    155

    View Slide

  156. Часть IV
    Работа с графической информацией

    View Slide

  157. Содержание I
    14 Основные понятия
    История компьютерной графики
    Основные области применения
    Классификация
    15 Растровая графика
    Дополнительные характеристики
    Цветовые палитры
    Интенсивность тона
    Динамический диапазон
    Гамма-коррекция
    Альфа-композиция
    16 Векторная графика
    Достоинства и недостатки
    17 Фрактальная графика
    18 Трёхмерная графика
    Рендеринг
    Методы визуализации
    157

    View Slide

  158. Содержание II
    Шейдеры
    Математическая модель
    Визуализаторы
    19 Графические редакторы
    Выводы
    20 Форматы файлов
    Растровые файлы
    Алгоритмы сжатия
    Векторные файлы
    21 Конвертеры файлов
    NetPBM
    ImageMagick
    22 Редакторы научной графики
    GNUplot
    Синтаксис
    158

    View Slide

  159. Основные понятия
    Определение
    Компьютерная графика (машинная графика) область
    деятельности, в которой компьютеры используются в качестве
    инструмента как для создания изображений, так и для
    обработки визуальной информации, полученной из реального
    мира.
    Также компьютерной графикой называют результат такой
    деятельности.
    159

    View Slide

  160. Основные понятия
    История компьютерной графики
    Первые вычислительные машины не имели отдельных средств
    для работы с графикой, однако уже использовались для
    получения и обработки изображений. Программируя память
    первых ЭВМ, построенную на основе матрицы ламп, можно
    было получать узоры.
    В 1961 г. программист Стив Рассел (Stephen "Slug"Russell)
    возглавил проект по созданию первой компьютерной игры с
    графикой. Создание игры Spacewar! ( Космическая война )
    заняло около 200 человеко-часов. Игра была создана на машине
    PDP-1.

    View Slide

  161. Основные понятия
    История компьютерной графики
    Рис. 4.1: Spacewar! на компьютере PDP-1
    161

    View Slide

  162. Основные понятия
    История компьютерной графики
    В начале 1960-х гг. американский учёный Айвен Сазерленд
    (Ivan Edward Sutherland) создал программно-аппаратный
    комплекс Sketchpad, который позволял рисовать точки, линии и
    окружности на трубке цифровым пером. Поддерживались
    базовые действия с примитивами: перемещение, копирование и
    др. По сути, это был первый векторный редактор,
    реализованный на компьютере. Также программу можно назвать
    первым графическим интерфейсом, причём она являлась
    таковой ещё до появления самого термина.
    В 1960-х гг. появились разработки в промышленных
    приложениях компьютерной графики.
    Норман Тейлор (Norman Taylor), Джек Гилмор (Jack Gilmore) и
    др. из фирмы Itek в 1962 г. разработали цифровую
    электронную чертёжную машину EDM, основанную на
    PDP-1.
    В 1964 г. General Motors совместно с IBM представила
    систему автоматизированного проектирования DAC-1.

    View Slide

  163. Основные понятия
    История компьютерной графики
    В 1968 г. группой под
    руководством
    Н. Н. Константинова была
    создана компьютерная
    математическая модель
    движения кошки. БЭСМ-4,
    выполняя написанную программу
    решения дифференциальных
    уравнений, рисовала мультфильм
    Кошечка , и это для своего
    времени было прорывом. Для
    визуализации использовался
    алфавитно-цифровой принтер.
    Рис. 4.2: Кадр мультфильма
    Кошечка
    Стремительный прогресс компьютерной графики начался с
    появлением возможности запоминать изображения и выводить
    их на компьютерном дисплее (электронно-лучевой трубке).

    View Slide

  164. Основные понятия
    Основные области применения
    Разработки в области компьютерной графики сначала
    развивались лишь в научных учреждениях. Постепенно
    компьютерная графика прочно вошла в повседневную жизнь,
    стало возможным вести коммерчески успешные проекты в этой
    области.

    View Slide

  165. Основные понятия
    Основные области применения
    Основные сферы применения технологий компьютерной
    графики:
    графический интерфейс пользователя;
    спецэффекты, визуальные эффекты (VFX), цифровая
    кинематография;
    компьютерная графика для кино и телевидения;
    цифровое телевидение, Всемирная паутина,
    видеоконференции;
    компьютерные игры, системы виртуальной
    реальности (например, тренажёры управления самолётом);
    цифровая фотография и существенно возросшие
    возможности по обработке фотографий;
    визуализация научных и деловых данных;
    системы автоматизированного проектирования;
    компьютерная томография;
    лазерная графика.
    165

    View Slide

  166. Основные понятия
    Классификация
    По способам задания изображений можно выделить категории:
    двумерная (2D) графика:
    растровая;
    векторная;
    фрактальная;
    трёхмерная (3D) графика.
    Все графические файлы и программы для работы с ними можно
    разделить на векторные и растровые.
    Всякое изображение в растровой графике рассматривается как
    совокупность точек разного цвета.
    Определение
    Графическая информация в растровой графике это
    совокупность данных о цвете каждого пикселя.

    View Slide

  167. Основные понятия
    Классификация
    Определение
    П´
    иксель (от picture element или
    picture сell) наименьший
    логический элемент двумерного
    цифрового изображения в растровой
    графике.
    Пиксель представляет собой
    неделимый объект прямоугольной
    (обычно квадратной) или круглой
    формы, обладающий определённым
    цветом и, возможно, прозрачностью.
    Растровое компьютерное изображение
    состоит из пикселей, расположенных
    по строкам и столбцам.
    Рис. 4.3: Растровый
    рисунок с демонстрацией
    пикселизации (хорошо
    видны пиксели
    изображения)
    167

    View Slide

  168. Основные понятия
    Классификация
    Векторный подход рассматривает изображение как совокупность
    простых элементов: отрезков, дуг, эллипсов, прямоугольников и
    пр., которые называются графическими примитивами.
    Определение
    Графическая информация в векторной графике это данные,
    однозначно определяющие все графические примитивы,
    составляющие рисунок.
    Например, кривая на рис. 4.4
    задана командой
    \qbezier(5,5)(15,35)(75,55).
    s
    A
    c
    B
    s
    C
    ¢
    ¢
    ¢
    ¢


    Рис. 4.4: Векторный рисунок, из
    которого был получен рис. 4.3

    View Slide

  169. Растровая графика
    Растровые файлы содержат последовательный набор цветовых
    описаний всех точек.
    Для монитора эти точки называются пикселями (pixels), а для
    принтера и сканера точками (dots), заполняющими холст .
    ГОСТ 27459-87:
    Определение
    Пиксель наименьший элемент поверхности визуализации,
    которому может быть независимым образом заданы цвет,
    интенсивность и другие характеристики изображения.
    В связи с этим разрешения устройств выражают в ppi (pixels
    per inch) или в dpi (dots per inch).
    169

    View Slide

  170. Растровая графика
    Дополнительные характеристики
    Определение
    Зернистость размер пикселя
    монитора.
    Определение
    Растр изображение,
    построенное из отдельных
    элементов (точек), как правило,
    расположенных регулярно.
    В большинстве приложений
    компьютерной графики
    растровое изображение
    представляется двумерным
    массивом пикселей.
    Рис. 4.5: Фрагмент матрицы
    ЖК монитора (0,78 × 0,78 мм),
    увеличенный в 46 раз
    170

    View Slide

  171. Растровая графика
    Дополнительные характеристики
    Определение
    Растр в технических устройствах (в системах отображения
    графической информации) последовательность строк,
    возникающая в результате работы системы развёртки (печати).
    Определение
    Линиатура плотность растра принтера или сканера,
    измеряется в lpi (lines per inch), или в линиях-на-сантиметр .
    Переводной коэффициент 2,54 (150 lpi = 59 л/см).
    Линиатура параметр, характеризующий растровую структуру
    количеством линий на единицу длины.
    Определение
    Глубина цвета (качество цветопередачи, битность
    изображения) количество бит для задания любого цвета при
    кодировании одного пикселя палитры.
    171

    View Slide

  172. Растровая графика
    Цветовые палитры
    Существует несколько основных цветовых палитр:
    BW (чёрно-белая) 1 бит.
    CGA (4 градации серого) 2 бита.
    8-цветная 3 бита.
    Эту палитру использовали устаревшие персональные
    компьютеры с TV-выходом.
    EGA (16-цветная) 4 бита.
    256 цветов 8 бит = 1 байт.
    8-битные видеорежимы появились вместе с ростом объёмов
    памяти компьютеров. Основное своё распространение
    получили с конца 1980-х гг. В середине 1990-х гг., с
    появлением доступных 1–2-мегабайтных видеоплат, на
    рабочих столах ОС 8-битные режимы уступили пальму
    первенства 16-битным.
    172

    View Slide

  173. Растровая графика
    Цветовые палитры
    В играх они продержались несколько дольше из-за высокой
    скорости, например StarCraft (1998) работал в режиме
    640 × 480 × 8 и не замедлялся на компьютерах класса
    Pentium-100 даже в массовых боях. Вышедший в 2000 г.
    Grand Prix 3 использовал 8-битные режимы в программном
    рендеринге.
    Широкое распространение получили лишь некоторые
    8-битные палитры.
    Индексированная ( 256 цветов) 8 бит.
    Из широкого цветового пространства выбираются любые
    цвета. Их значения хранятся в специальной таблице
    палитре. В каждом из пикселей изображения хранится
    номер цвета в палитре (от 0 до 255).
    Grayscale (серая) 256 оттенков серого.
    Однородные палитры 256 оттенков одного цвета.
    173

    View Slide

  174. Растровая графика
    Цветовые палитры
    RGB ,
    HSB ,. . . (16 777 216
    цветов) 3 байта.
    Red, Green, Blue
    аддитивная цветовая
    модель, как правило
    описывающая способ
    синтеза цвета для
    цветовоспроизведения.
    Аддитивной она
    называется потому, что
    цвета получаются путём
    добавления (англ.
    addition) к чёрному.
    Рис. 4.6: Аддитивное смешение цветов

    View Slide

  175. Растровая графика
    Цветовые палитры
    Иначе говоря, если цвет экрана, освещённого цветным
    прожектором, обозначается в RGB как (r1, g1, b1), а цвет
    того же экрана, освещённого другим прожектором, (r2,
    g2, b2), то при освещении двумя прожекторами цвет экрана
    будет (r1+r2, g1+g2, b1+b2).
    Изображение в данной цветовой модели состоит из трёх
    каналов. При смешении основных цветов (основными
    цветами считаются красный, зелёный и синий), например
    синего (B) и красного (R), мы получаем пурпурный (M,
    magenta), при смешении зелёного (G) и красного (R)
    жёлтый (Y, yellow), при смешении зелёного (G) и синего (B)
    циановый (С, cyan). При смешении всех трёх цветовых
    компонентов мы получаем белый цвет (W).
    В телевизорах и мониторах применяются три электронные
    пушки (светодиода, светофильтра) для красного, зелёного и
    синего каналов.

    View Slide

  176. Растровая графика
    Цветовые палитры
    CMYK (4 294 967 296
    цветов) 4 байта.
    Cyan, Magenta, Yellow,
    blacK субтрактивная
    схема формирования цвета,
    используемая прежде всего
    в полиграфии для
    стандартной триадной
    печати. Схема CMYK, как
    правило, обладает
    сравнительно небольшим
    цветовым охватом.
    Субтрактивный означает
    вычитаемый из
    белого вычитаются
    первичные цвета.
    Рис. 4.7: Схема субтрактивного
    синтеза в CMYK
    176

    View Slide

  177. Растровая графика
    Цветовые палитры
    CIE Lab .
    а б
    Рис. 4.8: Плоскость ab, соответствующая L = 25% (а) и L = 75% (б)
    177

    View Slide

  178. Растровая графика
    Цветовые палитры
    В цветовом пространстве CIE Lab значение светлоты
    отделено от значения хроматической составляющей цвета
    (тон, насыщенность). Светлота задана координатой L
    (изменяется от 0 до 100, от самого тёмного до самого
    светлого), хроматическая составляющая двумя
    полярными координатами a и b. Первая обозначает
    положение цвета в диапазоне от зелёного до пурпурного,
    вторая от синего до жёлтого.
    В отличие от цветовых пространств RGB или CMYK,
    которые являются, по сути, набором аппаратных данных
    для воспроизведения цвета на бумаге или на экране
    монитора (цвет может зависеть от типа печатной машины,
    марки красок, влажности воздуха в цеху или производителя
    монитора и его настроек), CIE Lab однозначно определяет
    цвет.

    View Slide

  179. Растровая графика
    Цветовые палитры
    Поэтому CIE Lab нашёл широкое применение в
    программном обеспечении для обработки изображений в
    качестве промежуточного цветового пространства, через
    которое происходит конвертирование данных между
    другими цветовыми пространствами (например из RGB
    сканера в CMYK печатного процесса). При этом особые
    свойства CIE Lab сделали редактирование в этом
    пространстве мощным инструментом цветокоррекции.
    Благодаря характеру определения цвета в CIE Lab
    появляется возможность отдельно воздействовать на
    яркость, контраст изображения и на его цвет. Во многих
    случаях это позволяет ускорить обработку изображений,
    например, при допечатной подготовке.

    View Slide

  180. Растровая графика
    Цветовые палитры
    Lab предоставляет возможность избирательного
    воздействия на отдельные цвета в изображении, усиления
    цветового контраста, незаменимыми являются и
    возможности, которые это цветовое пространство
    предоставляет для борьбы с шумом на цифровых
    фотографиях.
    Для любой палитры количество всевозможных цветов
    Nцв. = 2b , где b число бит (глубина цвета), необходимых
    для кодирования цвета.
    Размер файла тесно связан с размером холста (в пикселях по
    вертикали и горизонтали) и с глубиной цвета.
    Размер растрового графического файла (без сжатия и
    заголовков): высота × ширина × глубина цвета .
    180

    View Slide

  181. Растровая графика
    Цветовые палитры
    Пример 4.1 (Размер растрового файла)
    Рассмотрим растровой файл размером 10 × 10 и чёрно-белым
    изображением буквы ‘K’.
    0 0 0 0 0 0 0 0 0 0
    0 0 0 1 0 0 0 1 0 0
    0 0 0 1 0 0 1 0 0 0
    0 0 0 1 0 1 0 0 0 0
    0 0 0 1 1 0 0 0 0 0
    0 0 0 1 0 1 0 0 0 0
    0 0 0 1 0 0 1 0 0 0
    0 0 0 1 0 0 0 1 0 0
    0 0 0 0 0 0 0 0 0 0
    0 0 0 0 0 0 0 0 0 0
    Рис. 4.9:
    Для кодирования изображения в
    растровой форме на таком экране
    требуется 100 бит (1 бит на пик-
    сель).
    Представим этот код в виде бито-
    вой матрицы, в которой строки и
    столбцы соответствуют строкам и
    столбцам растровой сетки. Пусть 1
    обозначает закрашенный пиксель,
    а 0 не закрашенный.
    Тот же рисунок в серой шкале
    займёт 100 × 8 = 800 бит = 100 б,
    в RGB-палитре 300 б, в CMYK-
    палитре 400 б.

    View Slide

  182. Растровая графика
    Интенсивность тона
    Определение
    Интенсивность тона или светлота (lightness) имеет N = 256
    градаций.
    Большее число не воспринимается. Для этого ячейка растра
    должна быть 16 × 16 точек.
    Вообще:
    N =
    dpi
    lpi
    2
    + 1 или lpi =
    dpi

    N − 1
    .
    Абсолютно чёрный цвет соответствует 100% заполнению цветом
    ячейки растра.
    182

    View Slide

  183. Растровая графика
    Интенсивность тона
    При этом используется разный способ заполнения ячейки:
    амплитудная модуляция заполнение от центра (радиусом,
    соответствующим интенсивности);
    частотная модуляция периодическое заполнение (с частотой,
    соответствующей интенсивности);
    стохастическое растрирование (квазислучайное заполнение)
    хаотичное заполнение (со средней плотностью,
    соответствующей интенсивности).
    Рис. 4.10: Три способа заполнения ячейки растра: амплитудная
    модуляция, частотная модуляция и квазислучайное заполнение
    183

    View Slide

  184. Растровая графика
    Интенсивность тона
    При печати полноцветных изображений каждый последующий
    растр поворачивается на определённый угол:
    C голубой 105◦;
    M пурпурный 75◦;
    Y жёлтый 90◦;
    K чёрный 45◦.
    При этом ячейка растра становится косоугольной, и для
    воспроизведения 256 градаций на устройстве с линиатурой
    150 lpi уже недостаточно разрешения 16 × 150 = 2400 dpi. Для
    профессиональных фотоэкспонирующих устройств принято
    минимальное разрешение 2540 dpi (коэффициент поправки
    ∼ 1,06).

    View Slide

  185. Растровая графика
    Динамический диапазон
    Качество воспроизведения тоновых изображений оценивается
    динамическим диапазоном D:
    D = lg
    1
    ρ
    , ρ =

    J0
    ; D = lg
    1
    σ
    , σ =

    J0
    .
    Здесь J0 падающий световой поток, Jρ отражённый
    световой поток, ρ коэффициент отражения, Jσ прошедший
    световой поток, σ коэффициент пропускания.
    185

    View Slide

  186. Растровая графика
    Гамма-коррекция
    Определение
    Гамма-коррекция коррекция функции яркости в
    зависимости от характеристик устройства вывода.
    Повышение показателя гамма-коррекции позволяет повысить
    контрастность, разборчивость тёмных участков изображения, не
    делая при этом чрезмерно контрастными или яркими светлые
    детали снимка.
    Информация о яркости в аналоговом виде в телевидении, а
    также в цифровом виде, в большинстве распространённых
    графических форматов хранится в нелинейной шкале. Яркость
    пикселя I (или яркости составляющих цвета, красной, зелёной и
    синей по отдельности) на экране монитора можно считать
    I ∼ V γ,
    где V численное значение цвета, а γ показатель
    гамма-коррекции.
    186

    View Slide

  187. Растровая графика
    Гамма-коррекция
    Примером может служить гамма-коррекция изображения на
    электронно-лучевых трубках (ЭЛТ). Значение γ = 1
    соответствует идеальному монитору, который имеет
    линейную зависимость отображения от белого к чёрному. Но
    таких мониторов не бывает зависимость, в особенности для
    ЭЛТ, нелинейна. Большее значение γ означает более высокую
    нелинейность этой зависимости. Стандартное значение γ для
    стандарта видеоизображений NTSC 2,2. Для дисплеев
    компьютера значение γ обычно находится в пределах от 1,5 до
    2,0.

    View Slide

  188. Растровая графика
    Альфа-композиция
    Определение
    Альфа-композиция обозначает процесс комбинирования
    изображения с фоном с целью создания эффекта частичной
    прозрачности.
    Этот метод часто применяется для многопроходной обработки
    изображения по частям с последующей комбинацией этих
    частей в единое двумерное результирующее изображение.
    Рис. 4.11: Пример работы альфа-композитных операторов over, in,
    out, atop и xor

    View Slide

  189. Растровая графика
    Альфа-композиция
    Альфа-канал (маска-канал) позволяет объединить
    переходную прозрачность с изображением. Формат GIF
    поддерживает простую бинарную прозрачность (когда любой
    пиксель может быть либо полностью прозрачным, либо
    абсолютно непрозрачным). Формат PNG позволяет
    использовать 254 или 65534 уровня частичной прозрачности.
    Все три типа PNG изображений ( TrueColor , GrayScale и
    индексированная палитра) могут содержать
    альфа-информацию, хотя обычно она применяется лишь с
    TrueColor изображениями. Вместо того чтобы сохранять три
    байта для каждого пикселя (красный, зелёный и синий, RGB),
    сохраняются четыре: красный, зелёный, синий и альфа, таким
    образом получается палитра RGBA.

    View Slide

  190. Растровая графика
    Альфа-композиция
    Такая переходная прозрачность позволяет создавать
    спецэффекты , хорошо выглядящие на любом фоне.
    Например, эффекта фотовиньетки для портрета можно
    добиться путём установки полностью непрозрачной центральной
    области (для лица и плеч), прозрачной остальной обстановки и
    созданием плавного перехода между двумя этими различными
    областями. Соответственно, портрет будет плавно осветляться
    на белом фоне и затемняться на чёрном. Ещё один спецэффект
    с прозрачностью это отбрасывание тени.
    190

    View Slide

  191. Растровая графика
    Альфа-композиция
    Прозрачность наиболее важна для маленьких изображений,
    обычно используемых на веб-страницах, вроде цветных
    (круглых) маркеров или причудливого текста.
    Альфа-композиция позволяет использовать сглаживание
    (anti-aliasing), создавая иллюзию гладких кривых на сетке
    прямоугольных пикселей, плавно изменяя их цвета, что
    позволяет добиться округлых изображений, хорошо
    отображаемых как на белом, так и на любом другом фоне.
    Таким образом одно и то же изображение может быть
    многократно использовано в нескольких местах без
    призрачного эффекта, свойственного GIF-изображениям.
    Windows XP поддерживает 32-битные значки (иконки) 24-бита
    цвета RGB и 8-битный альфа канал. Это позволяет отображать
    значки со сглаженными (размытыми) краями и тенью, которые
    сочетаются с любым фоном.

    View Slide

  192. Векторная графика
    Любое изображение на мониторе, в силу его плоскости,
    становится растровым, так как монитор это матрица, он
    состоит из столбцов и строк. Трёхмерная графика существует
    лишь в нашем воображении, так как то, что мы видим на
    мониторе это проекция трёхмерной фигуры, а уже создаём
    пространство мы сами. Таким образом, визуализация графики
    бывает только растровая и векторная, а способ визуализации
    это только растр (набор пикселей), а от количества этих
    пикселей зависит способ задания изображения.
    В графических файлах векторного формата содержатся
    описания графических примитивов, составляющих рисунок.
    В векторном представлении буква К это три линии (см.
    пример 4.9). Всякая линия описывается указанием координат её
    концов, например, line(X1,Y1,X2,Y2). Тогда изображение
    буквы К можно описать следующим образом:
    line(4,2,4,8) line(5,5,8,2) line(5,5,8,8).
    Для цветного изображения, кроме координат, указывается ещё
    один параметр цвет линии.

    View Slide

  193. Векторная графика
    Графические файлы векторных форматов содержат
    информацию о линиях и областях в виде уравнений кривых
    разного порядка и различных графических примитивов с
    указанием необходимых параметров.
    Положение и форма графических примитивов задаются в
    системе графических координат, связанных с экраном.
    Обычно начало координат расположено в верхнем левом углу
    экрана. Горизонтальная ось X направлена слева направо;
    вертикальная ось Y сверху вниз.
    Отрезок прямой линии однозначно определяется указанием
    координат его концов; окружность координатами центра и
    радиусом; многоугольник координатами его углов;
    закрашенная область граничной линией, типами линий и
    заливки, цветом линии и заливки и пр.

    View Slide

  194. Векторная графика
    Достоинства и недостатки
    К достоинствам векторной графики можно отнести следующие
    её свойства:
    изображения в векторных форматах не зависят от
    разрешения устройства вывода;
    графические файлы векторного типа имеют относительно
    небольшие размеры;
    векторные изображения легко масштабируются без
    потери качества.
    Основным недостатком векторной графики является то, что она
    не позволяет получать изображения фотографического
    качества.
    194

    View Slide

  195. Векторная графика
    Достоинства и недостатки
    Замечание: Различие в представлении графической
    информации в растровом и векторном форматах
    существует лишь для графических файлов. При выводе
    на экран любого изображения в видеопамяти
    формируется информация растрового типа,
    содержащая сведения о цвете каждого пикселя.
    195

    View Slide

  196. Фрактальная графика
    Определение
    Фрактал объект, отдельные элементы которого наследуют
    свойства родительских структур.
    Поскольку более детальное описание элементов меньшего
    масштаба происходит по простому алгоритму, описать такой
    объект можно всего лишь несколькими математическими
    уравнениями.
    Фракталы позволяют описывать целые классы изображений,
    для детального описания которых требуется относительно мало
    памяти. С другой стороны, к изображениям вне этих классов
    фракталы применимы слабо.
    196

    View Slide

  197. Фрактальная графика
    Рис. 4.12: Фрактальный рисунок
    197

    View Slide

  198. Трёхмерная графика
    Трёхмерная графика оперирует с объектами в трёхмерном
    пространстве. Обычно результаты 3D-графики представляют
    собой плоскую картинку, проекцию.
    Трёхмерная компьютерная графика широко используется в
    кино, компьютерных играх.
    В трёхмерной компьютерной графике все объекты обычно
    представляются как набор поверхностей или частиц.
    Определение
    Минимальную поверхность называют полигоном.
    В качестве полигона обычно выбирают треугольники.
    Всеми визуальными преобразованиями в 3D-графике
    управляют матрицы. В компьютерной графике используется
    три вида матриц:
    поворота;
    сдвига;
    масштабирования.
    198

    View Slide

  199. Трёхмерная графика
    Любой полигон можно представить в виде набора из координат
    его вершин. Так, у треугольника будет 3 вершины.
    Координаты каждой вершины представляют собой вектор
    (x, y, z).
    Умножив вектор на соответствующую матрицу, мы получим
    новый вектор.
    Сделав такое преобразование со всеми вершинами полигона,
    получим новый полигон, а преобразовав все полигоны, получим
    новый объект, повёрнутый/сдвинутый/масштабированный
    относительно исходного.

    View Slide

  200. Трёхмерная графика
    Рендеринг
    Статические и динамические изображения получаются в
    проекции в результате рендеринга.
    Определение
    Рендеринг (rendering визуализация) процесс получения
    изображения по модели с помощью компьютерной программы.
    Здесь модель это описание любых объектов или явлений на
    строго определённом языке или в виде структуры данных. Такое
    описание может содержать геометрические данные, положение
    точки наблюдателя, информацию об освещении, напряжённость
    физического поля, степени наличия какого-то вещества и пр.
    Обычно в компьютерной графике (художественной и
    технической) под рендерингом понимают создание плоского
    изображения (картинки) по разработанной 3D-сцене.
    Изображение это цифровое растровое изображение.
    Синонимом в данном контексте является визуализация.
    200

    View Slide

  201. Трёхмерная графика
    Рендеринг
    Визуализация один из наиболее важных разделов в
    компьютерной графике, который на практике тесным образом
    связан с остальными разделами.
    Существуют встроенные и отдельные программные продукты,
    выполняющие рендеринг. Обычно программные пакеты
    трёхмерного моделирования и анимации включают в себя также
    и функцию рендеринга.
    В зависимости от цели различают пре-рендеринг как
    достаточно медленный процесс визуализации, применяющийся в
    основном при создании видео, и рендеринг в реальном
    режиме (времени), применяемый в компьютерных играх.
    Последний часто использует 3D-ускорители.
    Определение
    Компьютерная программа, производящая рендеринг,
    называется рендером (render), или рендерером (renderer).
    201

    View Slide

  202. Трёхмерная графика
    Методы визуализации
    На текущий момент разработано множество алгоритмов
    визуализации. Существующее программное обеспечение может
    использовать несколько алгоритмов для получения конечного
    изображения.
    Трассирование каждого луча света в сцене непрактично и
    занимает неприемлемо долгое время. Даже трассирование
    малого количества лучей, достаточного, чтобы получить
    изображение, занимает чрезмерно много времени, если не
    применяется аппроксимация (сэмплирование).
    Вследствие этого было разработано четыре группы методов,
    более эффективных, чем моделирование всех лучей света,
    освещающих сцену.
    1 Растеризация (rasterization) и метод сканирования
    строк (scanline rendering). Визуализация производится
    проецированием объектов сцены на экран без рассмотрения
    эффекта перспективы относительно наблюдателя.
    202

    View Slide

  203. Трёхмерная графика
    Методы визуализации
    2 Ray casting. Сцена рассматривается как наблюдаемая из
    определённой точки. Из точки наблюдения на объекты
    сцены направляются лучи, с помощью которых
    определяется цвет пикселя на двумерном экране. При этом
    лучи прекращают своё распространение (в отличие от
    метода обратного трассирования), когда достигают любого
    объекта сцены либо её фона. Возможно используются
    какие-то очень простые техники добавления оптических
    эффектов. Эффект перспективы получается естественным
    образом в случае, когда бросаемые лучи запускаются под
    углом, зависящим от положения пикселя на экране и
    максимального угла обзора камеры.
    3 Глобальное освещение (global illumination, radiosity).
    Использует математику конечных элементов, чтобы
    симулировать диффузное распространение света от
    поверхностей и при этом достигать эффектов мягкости
    освещения.
    203

    View Slide

  204. Трёхмерная графика
    Методы визуализации
    4 Трассировка лучей (ray tracing). Из точки наблюдения
    на объекты сцены направляются лучи, с помощью которых
    определяется цвет пикселя на двумерном экране. Но при
    этом луч не прекращает своё распространение, а
    разделяется на три компонента луча, каждый из которых
    вносит свой вклад в цвет пикселя на двумерном экране:
    отражённый, теневой и преломлённый. Количество таких
    разделений на компоненты определяет глубину
    трассирования и влияет на качество и фотореалистичность
    изображения. Благодаря своим концептуальным
    особенностям метод позволяет получить фотореалистичные
    изображения, но при этом он очень ресурсоёмкий, и процесс
    визуализации занимает значительные периоды времени.

    View Slide

  205. Трёхмерная графика
    Шейдеры
    Определение
    Шейдер (shader) это программа для определения
    окончательных параметров объекта или изображения.
    Она может включать в себя произвольной сложности описание
    поглощения и рассеяния света, наложения текстуры, отражение
    и преломление, затенение, смещение поверхности и эффекты
    пост-обработки.
    Программируемые шейдеры обладают высокой
    эффективностью и гибкостью. Сложные с виду поверхности
    могут быть визуализированы при помощи простых
    геометрических форм. Например, шейдеры могут быть
    использованы для рисования поверхности из трёхмерной
    керамической плитки на абсолютно плоской поверхности.
    205

    View Slide

  206. Трёхмерная графика
    Шейдеры
    В программных графических движках вся цепочка рендеринга
    от определения видимых частей сцены до наложения
    текстуры писалась разработчиком игры. В эту цепочку можно
    было включать собственные нестандартные видеоэффекты. Но с
    появлением видеоакселераторов разработчик оказался
    ограничен тем набором эффектов, который заложен в
    аппаратное обеспечение.
    Вот два примера. Попробуйте нырнуть под воду в Quake 2 на
    программном и на OpenGL-рендеринге. При всём качестве
    аппаратно ускоренной картинки, вода там просто синий
    светофильтр, в то время как в программном есть эффект плеска
    воды. В Counter-Strike эффект ослепления от светошумовой
    гранаты на аппаратном рендеринге белая вспышка, на
    программном белая вспышка и пикселизированный экран.
    206

    View Slide

  207. Трёхмерная графика
    Шейдеры
    Для того чтобы составлять сложные видеоэффекты из
    атомарных операций, и были изобретены шейдеры.
    Предшественниками шейдеров были процедурная генерация
    текстур (широко применявшаяся в Unreal для создания
    анимированных текстур воды и огня) и мультитекстурирование
    (на нём был основан язык шейдеров, применявшийся в
    Quake 3). Но и эти механизмы не обеспечивают такой гибкости,
    как шейдеры.
    207

    View Slide

  208. Трёхмерная графика
    Шейдеры
    В настоящее время шейдеры делятся на четыре типа:
    вершинные;
    геометрические;
    параллаксные;
    фрагментные (пиксельные).
    Вершинный шейдер оперирует данными, сопоставленными с
    вершинами многогранников. К таким данным, в частности,
    относятся координаты вершины в пространстве, текстурные
    координаты, тангенс-вектор, вектор бинормали, вектор нормали.
    Вершинный шейдер может быть использован для видового и
    перспективного преобразования вершин, генерации текстурных
    координат, расчёта освещения и т. д.
    208

    View Slide

  209. Трёхмерная графика
    Шейдеры
    Геометрический шейдер, в отличие от вершинного, способен
    обработать не только одну вершину, но и целый примитив. Это
    может быть отрезок (две вершины) и треугольник (три
    вершины), а при наличии информации о смежных вершинах
    (adjacency) может быть обработано до шести вершин для
    треугольного примитива. Кроме того, геометрический шейдер
    способен генерировать примитивы на лету , не задействуя при
    этом центральный процессор. Впервые данный шейдер начал
    использоваться на видеокартах nVidia серии 8. Фрагментный
    шейдер работает с фрагментами изображения. Под фрагментом
    изображения в данном случае понимается пиксель, которому
    поставлен в соответствие некоторый набор атрибутов, таких как
    цвет, глубина, текстурные координаты. Фрагментный шейдер
    используется на последней стадии графического конвейера для
    формирования фрагмента изображения.

    View Slide

  210. Трёхмерная графика
    Шейдеры
    Шейдерные языки обычно содержат специальные типы
    данных, такие как цвет и нормаль. Поскольку компьютерная
    графика имеет множество сфер приложения, для
    удовлетворения различных потребностей рынка было создано
    большое количество шейдерных языков.
    Впервые использованные в системе RenderMan компании Pixar,
    шейдеры получали всё большее распространение со снижением
    цен на компьютеры. Основное преимущество от использования
    шейдеров их гибкость, упрощающая и удешевляющая цикл
    разработки программы и при этом повышающая сложность и
    достоверность визуализируемых сцен.

    View Slide

  211. Трёхмерная графика
    Шейдеры
    Шейдерный язык RenderMan является фактическим
    стандартом для профессионального рендеринга. API
    RenderMan, разработанный Робом Куком (Rob Cook),
    используется во всех работах студии Pixar и не только. В 2004 г.
    этот пакет использовали в съёмках тридцати пяти из тридцати
    девяти фильмов, номинированных на Оскар в категории
    Лучшие визуальные эффекты . RenderMan также является
    первым из реализованных шейдерных языков.
    nVidia Gelato представляет собой оригинальную гибридную
    систему рендеринга изображений и анимации трёхмерных сцен
    и объектов, использующую для расчётов центральные
    процессоры и аппаратные возможности профессиональных
    видеокарт серии Quadro FX.

    View Slide

  212. Трёхмерная графика
    Шейдеры
    Шейдерный язык OpenGL носит название GLSL (The
    OpenGL Shading Language). GLSL основан на языке ANSI C.
    Большинство возможностей языка ANSI C сохранено, к ним
    добавлены векторные и матричные типы данных, часто
    применяющиеся при работе с трёхмерной графикой. В контексте
    GLSL шейдером называется независимо компилируемая
    единица, написанная на этом языке. Программой называется
    набор откомпилированных шейдеров, связанных вместе.
    Низкоуровневый шейдерный язык DirectX (DirectX ASM)
    по синтаксису сходен с Ассемблером. Существует несколько
    версий, различающихся по набору команд, а также по
    требуемому оборудованию, есть разделение на вершинные
    (vertex) и пиксельные (pixel) шейдеры.

    View Slide

  213. Трёхмерная графика
    Шейдеры
    Высокоуровневый шейдерный язык DirectX HLSL (HLSL
    High Level Shader Language) является надстройкой над
    DirectX ASM. По синтаксису сходен с C, позволяет
    использовать структуры, процедуры и функции.
    Язык программирования Cg разработан nVidia совместно
    с Microsoft (такой же по сути язык от Microsoft HLSL,
    включён в DirectX 9). Cg расшифровывается как C for
    Graphics . Язык использует схожие с C типы (int, float), а
    также специальный 16-битный тип с плавающей запятой
    half, обладает оптимизацией в виде упакованных массивов.
    Поддерживаются функции и структуры (см. рис. 4.13).
    Несмотря на то, что язык разработан nVidia, он без проблем
    работает и с видеокартами ATI.
    Следует учесть, что все шейдерные программы обладают
    своими особенностями, которые следует получить от
    разработчика.
    213

    View Slide

  214. Трёхмерная графика
    Шейдеры
    Рис. 4.13: Изображение, отрендеренное в POV-Ray 3.6. Модель
    игральной кости создана в Cinema 4D, остальное при помощи
    Rhinoceros 3D
    214

    View Slide

  215. Трёхмерная графика
    Математическая модель
    Передовое программное обеспечение обычно совмещает в себе
    несколько техник, чтобы получить достаточно качественное и
    фотореалистичное изображение за приемлемые затраты
    вычислительных ресурсов.
    Реализация механизма рендеринга всегда основывается на
    физической модели. Производимые вычисления относятся к той
    или иной физической или абстрактной модели. Основные идеи
    просты для понимания, но сложны для применения.
    215

    View Slide

  216. Трёхмерная графика
    Математическая модель
    Основное уравнение
    Ключом к теоретическому обоснованию моделей рендеринга
    служит уравнение рендеринга. Оно является наиболее полным
    формальным описанием части рендеринга, не относящейся к
    восприятию конечного изображения. Все модели представляют
    собой какое-то приближённое решение этого уравнения.
    Lo(x, ω) = Le(x, ω) +

    fr(x, ω , ω)Li(x, ω )(ω · n)dω ,
    где Lo количество светового излучения, исходящего из
    определённой точки в определённом направлении; Le
    собственное излучение; Li приходящее излучение; fr
    коэффициент отражения.

    View Slide

  217. Трёхмерная графика
    Математическая модель
    Иначе говоря, количество светового излучения, исходящего из
    определённой точки в определённом направлении, есть
    собственное излучение и отражённое излучение. Отражённое
    излучение есть сумма по всем направлениям приходящего
    излучения, умноженного на коэффициент отражения из данного
    угла.
    Объединяя в одном уравнении приходящий свет с исходящим в
    одной точке, это уравнение составляет описание всего светового
    потока в заданной системе.

    View Slide

  218. Трёхмерная графика
    Визуализаторы
    Определение
    Визуализаторы (рендереры) программное обеспечение для
    рендеринга.
    Ниже перечислены наиболее распространённые рендереры.
    3Delight;
    AIR;
    ART;
    AQSIS;
    Angel;
    BMRT (Blue Moon Rendering Tools) (распространение
    прекращено);
    Brazil R/S;
    BusyRay;
    Entropy (продажи прекращены);

    View Slide

  219. Трёхмерная графика
    Визуализаторы
    finalRender;
    Fryrender;
    Gelato (разработка прекращена в связи с покупкой nVidia,
    mental ray);
    Holomatix Renditio (интерактивный raytracer);
    Indigo Renderer;
    mental ray;
    Kerkythea;
    LuxRender;
    Maxwell Render;
    Meridian;
    219

    View Slide

  220. Трёхмерная графика
    Визуализаторы
    POV-Ray;
    Pixie;
    RenderDotC;
    RenderMan (PhotoRealistic RenderMan, Pixar’s RenderMan);
    Sunflow;
    Turtle;
    V-Ray;
    YafRay;
    Octane Render;
    Arion Renderer.
    220

    View Slide

  221. Трёхмерная графика
    Визуализаторы
    Рендереры работающие в реальном времени
    VrayRT;
    FinalRender;
    iray;
    Shaderlight;
    Showcase;
    Rendition;
    Brazil IR.
    221

    View Slide

  222. Трёхмерная графика
    Визуализаторы
    Пакеты трёхмерного моделирования, имеющие
    собственные рендереры
    Autodesk 3ds Max (Scanline);
    Autodesk Maya (Software Hardware, Vector);
    Blender;
    NewTek LightWave 3D;
    Maxon Cinema 4D (Advanced Render);
    SketchUp;
    Daz3D Bryce;
    Luxology Modo;
    e-on Software Vue;
    SideFX Houdini;
    Terragen, Terragen 2.
    222

    View Slide

  223. Графические редакторы
    Для создания и редактирования рисунков на компьютере
    используются графические редакторы. Графические
    редакторы также разделяются на растровые и векторные.
    Редактирование растровых файлов заключается в изменении
    значений цветов пикселей с помощью различных инструментов
    и графических функций (т. н. фильтров), а также
    вырезания/копирования/вставки фрагментов растрового
    изображения.
    Наиболее известные представители этого семейства программ
    Adobe Photoshop, Corel Photopaint, GIMP.

    View Slide

  224. Графические редакторы
    Работа в векторных редакторах напоминает работу с
    конструктором: в любое время можно внести изменения в
    рисунок, изменив свойства объектов, добавив или удалив объект.
    Наиболее известные представители данного класса ПО Corel
    Draw, Adobe llustrator, Adobe InDesign, Inkscape, sK1, Adobe
    Flash, f4l.
    3D редакторы тоже векторные.
    Наибольшую известность получили такие редакторы, как Maya,
    3ds Max, Bryce, Blender.

    View Slide

  225. Графические редакторы
    Выводы
    Рисовать сложные графические изображения, особенно когда не
    известно разрешение окончательного устройства вывода,
    удобнее в векторном редакторе. Размер такого файла, как
    правило, в несколько раз меньше растрового.
    Обрабатывать полноцветные рисунки, редактировать
    фотоизображения (с уже заданными размерами и разрешением)
    лучше в редакторе растровой графики.

    View Slide

  226. Форматы файлов
    226

    View Slide

  227. Форматы файлов
    Растровые файлы
    BMP (Windows Bitmap, .bmp) формат Microsoft Windows.
    PCX (.pcx) формат Z-Soft, имеет алгоритм сжатия без
    потерь, оптимизированный для BW-файлов.
    TIFF (Tagged Image File Format, .tif, .tiff) наилучший
    формат хранения растровых изображений, поддерживает
    различные цветовые схемы, алгоритм сжатия без потерь
    LZW и алгоритм сжатия с потерями JPEG. Поддерживается
    почти всеми издательскими и графическими пакетами.
    RAW (.raw) простой формат растровых изображений
    глубиной цвета 256, в котором каждый пиксель
    представляется одним байтом (или символом).
    227

    View Slide

  228. Форматы файлов
    Растровые файлы
    GIF(87) (Graphics Interchange Format, .gif) выходной
    формат растровых изображений (рисованного типа) для
    электронных публикаций, поддерживается почти всеми
    издательскими и графическими пакетами, сжатие достигается
    за счёт индексации цветов (до 256).
    GIF(89a) (Graphics Interchange Format, .gif) появилась
    возможность чересстрочной загрузки, задания прозрачного
    цвета и покадровой анимации.
    PhotoCD (.pcd) формат Kodak, имеет 5 фиксированных
    уровней разрешения: Base (512 × 768), Base/4, Base × 4,
    Base/16, Base × 16; имеет алгоритм сжатия с потерями.

    View Slide

  229. Форматы файлов
    Растровые файлы
    JPEG (Joint Photographic Experts Group, .jpeg, .jpg, .jpe,
    .jfif) выходной формат растровых изображений
    (фотографического типа) для электронных публикаций,
    поддерживается почти всеми издательскими и графическими
    пакетами, имеет мощный регулируемый алгоритм сжатия с
    потерями, возможность чересстрочной загрузки.
    Поддерживается сжатие цветных (24 бит) и серых изображений.
    При сохранении можно указать степень качества (степень
    сжатия), которую обычно задают в некоторых условных
    единицах (например, от 1 до 100 или от 1 до 10). Большее
    число соответствует лучшему качеству, но при этом
    увеличивается размер файла. Чаще всего разница в качестве
    между 90% и 100% на глаз уже практически не воспринимается.

    View Slide

  230. Форматы файлов
    Растровые файлы
    При сжатии изображение переводится в цветовую систему
    YCbCr (YUV) (подробнее см. на стр. 367, 381). Далее каналы
    изображения Cb и Cr, отвечающие за цвет, уменьшаются в 2
    раза (по линейному масштабу) формат 2:1:1. Уже на этом
    этапе необходимо хранить только четверть информации о цвете
    изображения.
    Реже используется уменьшение цветовой информации в 4 раза
    (4:1:1) или сохранение размеров цветовых каналов как есть
    (1:1:1). Количество программ, которые поддерживают
    сохранение в таком виде, относительно невелико. Далее
    цветовые каналы изображения, включая чёрно-белый канал Y,
    разбиваются на блоки 8 × 8 пикселей. Каждый блок
    подвергается дискретно-косинусному преобразованию.
    Полученные коэффициенты подвергаются квантованию и
    упаковываются с помощью кодов Хаффмана.

    View Slide

  231. Форматы файлов
    Растровые файлы
    Матрица, используемая для квантования коэффициентов,
    хранится вместе с изображением. Обычно она строится так, что
    высокочастотные коэффициенты подвергаются более сильному
    квантованию, чем низкочастотные. Это приводит к огрублению
    мелких деталей на изображении. Чем выше степень сжатия, тем
    более сильному квантованию подвергаются все коэффициенты.
    231

    View Slide

  232. Форматы файлов
    Растровые файлы
    Определение
    Progressive JPEG способ записи сжатого изображения, при
    котором старшие (низкочастотные) коэффициенты находятся в
    начале файла.
    Это позволяет получить уменьшенное изображение при загрузке
    лишь небольшой части файла и повышать детализацию
    изображения по мере загрузки оставшейся части. Поэтому
    Progressive JPEG получил широкое распространение в
    Интернете.
    Демонстрация различной степени сжатия представлена на
    рис. 4.14.

    View Slide

  233. Рис. 4.14: Фотография заката в формате JPEG с уменьшением
    233

    View Slide

  234. Форматы файлов
    Растровые файлы
    В целом алгоритм основан на дискретном косинусоидальном
    преобразовании (ДКП), которое является разновидностью
    дискретного преобразования Фурье, применяемом к матрице
    изображения для получения некоторой новой матрицы
    коэффициентов. Для получения исходного изображения
    применяется обратное преобразование. ДКП раскладывает
    изображение по амплитудам некоторых частот. Таким образом,
    при преобразовании мы получаем матрицу, в которой
    многие коэффициенты либо близки, либо равны нулю.
    Кроме того, благодаря несовершенству человеческого
    зрения можно аппроксимировать коэффициенты более
    грубо без заметной потери качества изображения. Для
    этого используется квантование коэффициентов. В самом
    простом случае это арифметический побитовый сдвиг вправо.
    При этом преобразовании теряется часть информации, но могут
    достигаться большие коэффициенты сжатия.

    View Slide

  235. Форматы файлов
    Растровые файлы
    Процесс сжатия по схеме JPEG включает ряд этапов:
    преобразование изображения в оптимальное цветовое
    пространство;
    субдискретизация компонентов цветности усреднением
    групп пикселей;
    применение дискретных косинусных преобразований для
    уменьшения избыточности данных изображения;
    квантование каждого блока коэффициентов ДКП с
    применением весовых функций, оптимизированных с
    учётом визуального восприятия человеком;
    кодирование результирующих коэффициентов (данных
    изображения) с применением алгоритма группового
    кодирования и алгоритма Хаффмана для удаления
    избыточности информации.
    235

    View Slide

  236. Форматы файлов
    Растровые файлы
    JPEG 2000 (.jp2) графический формат, который вместо
    дискретного косинусного преобразования, характерного для
    JPEG, использует технологию вейвлет-преобразования,
    основывающуюся на представлении сигнала в виде
    суперпозиции некоторых базовых функций волновых пакетов.
    Изображения JPEG 2000 по сравнению с JPEG более гладкие и
    чёткие, а размер файла при одинаковом качестве уменьшается
    ещё на 30%. JPEG 2000 полностью свободен от главного
    недостатка своего предшественника: благодаря использованию
    вейвлетов, изображения в этом формате не содержат
    знаменитой решётки из блоков по 8 пикселей. Новый формат
    также, как и JPEG, поддерживает так называемое
    прогрессивное сжатие , позволяющее по мере загрузки видеть
    сначала размытое, но затем всё более чёткое изображение.

    View Slide

  237. Форматы файлов
    Растровые файлы
    JPEG 2000 во многом сходен с форматом сжатия изображений
    ICER, который используется NASA. Компрессор изображений
    ICER был разработан для сжатия изображений на устройствах,
    работающих в открытом космосе.
    Пока этот формат мало распространён и поддерживается не
    всеми современными браузерами. Среди поддерживающих jp2
    браузеров Konqueror, Safari и Mozilla Firefox (через Quicktime).
    JPEG 2000 не является свободным от патентованных алгоритмов
    сжатия, но усилиями комитета JPEG достигнуто согласие, что в
    составе этого формата они могут использоваться бесплатно.
    Всегда одним из самых больших преимуществ стандартов,
    выпущенных комитетом JPEG, было то, что они могут быть
    реализованы в базовой конфигурации без каких-либо
    лицензионных выплат. Новый стандарт JPEG 2000 был
    подготовлен с учётом этой возможности, согласие было
    достигнуто между 20 большими организациями-держателями
    большинства патентов в области сжатия.

    View Slide

  238. Форматы файлов
    Растровые файлы
    Разумеется, неопределённые и скрытые патенты могут всё ещё
    представлять опасность. Тем не менее JPEG 2000 стоит
    рассматривать как более защищённый от притязаний формат,
    чем JPEG или MP3, для которых подобная работа велась на
    гораздо более низком уровне.
    Однако, не обращая внимания на свободность лицензирования
    патентов, JPEG 2000 всё равно не может соответствовать
    Debian Free Software Guidelines (тест на свободность
    программного обеспечения). Это может затруднить адаптацию
    JPEG 2000 к требованиям веба, так как это исключит свободные
    веб-браузеры (особо отметим браузеры, основанные на Gecko) и
    популярные веб-приложения LAMP1.
    1LAMP акроним, обозначающий набор (комплекс) серверного
    программного обеспечения, широко используемый во Всемирной паутине.
    LAMP назван по первым буквам входящих в его состав компонентов: Linux,
    Apache, MySQL, PHP
    238

    View Slide

  239. Форматы файлов
    Растровые файлы
    Артефакты, возникающие при
    сжатии алгоритмом JPEG 2000,
    отличаются от артефактов,
    возникающих при сжатии
    алгоритмом JPEG
    присутствуют незначительные
    искажения на изображениях при
    высокой степени компрессии
    (см. рис. 4.15).
    Часто фотографическое
    изображение может быть сжато
    в отношении 1/20 к
    оригинальному размеру без
    появления значительных
    искажений.
    Рис. 4.15: Артефакты компрессии
    JPEG 2000 (числа показывают
    степень сжатия)
    239

    View Slide

  240. Форматы файлов
    Растровые файлы
    Основные области применения этого стандарта:
    цифровой кинематограф;
    мультимедийные устройства (цифровые камеры, КПК, 3G
    мобильные телефоны, цифровые факсы, принтеры,
    сканеры);
    клиент/серверные взаимодействия (Интернет, базы данных
    изображений, потоковое видео, видео-серверы);
    военное (HD-спутниковые изображения, обнаружение
    движения, распределённые сети и хранилища);
    медицинские изображения;
    хранение видео;
    сенсорные устройства, цифровые устройства/архивы.
    240

    View Slide

  241. Форматы файлов
    Растровые файлы
    Основные преимущества JPEG 2000 по сравнению с JPEG:
    Большая степень сжатия: на высоких битрейтах, где
    артефакты незначительны, JPEG 2000 имеет степень
    сжатия в среднем на 20% больше, чем JPEG (см. рис. 4.16).
    На низких битрейтах JPEG 2000 также имеет преимущество
    над основными режимами JPEG. Большая степень сжатия
    достигается благодаря использованию дискретного
    вейвлет-преобразования и более сложного энтропийного
    кодирования.
    Масштабируемость фрагментов изображений: JPEG 2000
    обеспечивает бесшовное сжатие разных компонентов
    изображения, с каждым компонентом хранится от 1 до 16
    бит на сэмпл. Благодаря разбиению на блоки, можно
    хранить изображения разных разрешений в одном кодовом
    потоке.
    241

    View Slide

  242. Форматы файлов
    Растровые файлы
    Прогрессивное декодирование и масштабируемость
    отношения сигнал/шум: JPEG 2000 обеспечивает
    эффективную организацию кодового потока, которая
    позволяет просматривать файл с меньшей разрешающей
    способностью или с меньшим качеством.
    Сжатие как с потерями, так и без потерь. Сжатие без
    потерь обеспечивается путём использования обратимого
    (целочисленного) вейвлет-преобразования.
    Произвольный доступ к кодовому потоку, также иногда
    называемый доступом к областям интереса (Region of
    interest): кодовый поток JPEG 2000 обеспечивает несколько
    механизмов для поддержки произвольного доступа, также
    поддерживается несколько степеней разбиения на части
    (области интереса).
    242

    View Slide

  243. Форматы файлов
    Растровые файлы
    Устойчивость к ошибкам: JPEG 2000 устойчив к битовым
    ошибкам, которые вносятся зашумлёнными каналами связи.
    Это достигается путём вставки маркеров ресинхронизации,
    кодирования данных в относительно небольшие
    независимые блоки и обеспечение механизмов для
    нахождения и локализации ошибок внутри каждого блока.
    Возможность последовательной сборки: JPEG 2000
    обеспечивает возможность последовательного
    декодирования и вывода изображения сверху вниз без
    необходимости буферизации всего изображения.
    Гибкий формат файла: форматы файлов JP2 и JPX
    обеспечивают хранение информации о цветовых
    пространствах, метаданных и информации для
    согласованного доступа в сетевых приложениях,
    взаимодействующих с помощью протокола JPEG Part 9
    JPIP.
    243

    View Slide

  244. Форматы файлов
    Растровые файлы
    Рис. 4.16: Сравнение JPEG и JPEG 2000 244

    View Slide

  245. Форматы файлов
    Растровые файлы
    PNG (Portable Network Graphics, .png) выходной формат
    растровых изображений для электронных публикаций,
    поддерживается почти всеми издательскими и графическими
    пакетами. Поддерживаются палитры: серая 16 бит,
    индексированная 24 бит и полноцветная 48 бит; Z-сжатие без
    потерь (использует открытый, не запатентованный алгоритм
    сжатия DEFLATE); двумерная чересстрочная развёртка;
    прозрачный цвет; возможность гамма-коррекции;
    опциональная поддержка альфа-канала; возможность
    расширения формата пользовательскими блоками (на этом
    основан, в частности, формат APNG).
    PNG был создан как для улучшения, так и для замены формата
    GIF графическим форматом, не требующим лицензии для
    использования, а также, в некоторой степени, для замены
    значительно более сложного формата TIFF.

    View Slide

  246. Форматы файлов
    Растровые файлы
    Днём рождения PNG можно считать 4 января 1995 г., когда
    Томас Боутелл (Thomas Boutell) предложил в ряде конференций
    Usenet создать свободный формат, который был бы не хуже GIF.
    Через три недели после публикации идеи были разработаны
    четыре версии нового формата. Вначале он имел название PBF
    (Portable Bitmap Format), а нынешнее имя получил 23 января
    1995 г. Уже в декабре того же года спецификация PNG версии
    0.92 была рассмотрена консорциумом W3C, а с выходом 1
    октября 1996 г. версии 1.0 PNG был рекомендован в качестве
    полноправного сетевого формата.
    Хотя формат JPEG 2000 поддерживает сжатие без потерь, он
    не предназначен для усовершенствования наилучшего формата
    сжатия без потерь.

    View Slide

  247. Форматы файлов
    Растровые файлы
    Формат PNG более
    эффективен для
    изображений, содержащих
    одноцветные области (при
    небольшом количестве
    цветов например, < 1000),
    и поддерживает специальные
    функциональные
    возможности, которых нет у
    JPEG 2000 (см. рис. 4.17).
    Рис. 4.17: Визуализация
    изображения в формате PNG с
    8-битным каналом прозрачности
    ( шахматный фон обычно
    используется в графических
    редакторах для обозначения
    прозрачного фона)
    Считается, что в текущей реализации стандартов применение
    PNG более эффективно для сжатия диаграмм, а JPEG 2000
    для сжатия фотографических изображений.
    247

    View Slide

  248. Форматы файлов
    Растровые файлы
    MNG (Multiple-image Network Graphics, .mng) формат
    графических файлов для создания анимированных изображений,
    поддерживает все возможности алгоритмов сжатия PNG и
    JPEG (в том числе альфа-канал и гамма-коррекцию).
    Поддерживается в браузере Konqueror, в браузере Mozilla
    только с 2000 до 2003 г.
    MNG близко связан с PNG. Когда в 1995 г началась разработка
    формата PNG, разработчики решили не включать поддержку
    анимации, так как в то время эта особенность использовалась
    редко. Тем не менее, началась работа над MNG версией PNG
    с поддержкой анимации. Первая версия спецификации MNG
    вышла 31 января 2001 г.
    В настоящий момент MNG не поддерживается популярными ПО
    и браузерами. На его смену пришёл формат APNG, который
    намного проще MNG.

    View Slide

  249. Форматы файлов
    Растровые файлы
    APNG (animated PNG, .png) формат изображений,
    основанный на формате PNG с возможностью хранения
    анимации (аналогично GIF).
    APNG это расширенный формат PNG. Первый кадр PNG
    анимации хранится как обыкновенный поток PNG. Декодеры, не
    поддерживающие APNG, просто отобразят этот кадр. Все
    кадры, кроме первого, хранятся в дополнительных блоках
    APNG, который хранит информацию о количестве кадров и
    повторений анимации.
    Чтобы уменьшить размер, APNG использует промежуточный
    буфер (спецификация называет его кадровым буфером).
    Каждый кадр имеет свой режим работы с кадровым буфером:
    None сохранять кадр в кадровый буфер;
    Background очищать кадровый буфер;
    Previous не сохранять кадр в кадровый буфер.

    View Slide

  250. Форматы файлов
    Растровые файлы
    Спецификация APNG была разработана Стюартом
    Парментером (Stuart Parmenter) и Владимиром Вукичевичем
    (Vladimir Vuki´
    cevi´
    c) из Mozilla Corporation (Mozilla Foundation)
    для хранения элементов интерфейса, таких как анимация
    загрузки. Mozilla ранее отказалась от MNG (более мощного
    формата, поддерживающего все возможности APNG) из-за
    немалого размера MNG-библиотеки; декодер APNG,
    построенный прямо на библиотеке PNG, был намного меньше.
    APNG был плохо встречен людьми, сопровождавшими
    спецификации PNG и MNG, они подчёркивали, что PNG это
    формат для неподвижных изображений . APNG хранит все
    кадры, кроме первого, в дополнительных блоках PNG-файла, и
    работающие с PNG программы будут игнорировать их.

    View Slide

  251. Форматы файлов
    Растровые файлы
    В числе возражений невозможно договориться с сервером о
    том, что выдавать: PNG или APNG, сложно отличить один от
    другого, а старая программа даже не предупредит о
    дополнительных кадрах. Таким образом, в Mozilla повторили ту
    же ошибку, которую совершили разработчики GIF 15 лет назад.
    Глен Рэндерс-Пёрсон (Glenn Randers-Pehrson) предложил дать
    APNG новый MIME-тип (наподобие video/png), но Mozilla
    отказалась от этих предложений в пользу полной обратной
    совместимости.
    20 апреля 2007 г. группа PNG официально отказалась признать
    APNG. Были и другие предложения простейшего анимационного
    формата, основанного на PNG, но не прошли и они.
    В Mozilla Firefox APNG появился в версии 3 (23 марта 2007 г.).
    Но поскольку libpng поддерживается всё той же группой PNG,
    поддержки формата APNG, скорее всего, в ней никогда не будет.

    View Slide

  252. Форматы файлов
    Растровые файлы
    Браузер Iceweasel в Debian долго не поддерживал APNG, но и он
    в 2011 г. перешёл с официальной библиотеки на модификацию
    Mozilla.
    Роль Mozilla в продвижении формата APNG сравнивается с
    ролью Netscape в продвижении анимационного GIF.
    APNG используется для слайдшоу во многих форматах
    цифрового радио.
    Поддерживается ПО KSquirrel, XnView, ImageJ, Imagine,
    TweakPNG.
    Не поддерживается ПО Adobe.

    View Slide

  253. Форматы файлов
    Растровые файлы
    Поддержка браузерами:
    Mozilla Firefox (с 3.0) а также другое ПО, основанное на
    Gecko (например, SeaMonkey);
    Opera (с 9.5) и Opera Mobile;
    Iceweasel.
    Не поддерживается:
    Internet Explorer и его надстройками;
    Konqueror;
    браузерами на основе WebKit (например, Safari, Google
    Chrome, Chromium, Maxthon 3);
    в связи с переходом на браузерный движок WebKit с Gecko
    поддержка APNG прекращена в браузерах Flock (с версии
    3.0 и выше) и Epiphany (с версии 2.28 и выше).
    253

    View Slide

  254. Форматы файлов
    Растровые файлы
    WebP (web picture, .webp) формат графических файлов,
    обеспечивающий возможность сжатия как с потерями, так и
    без потерь качества, предложенный компанией Google Inc. в
    2010 г.
    Основан на алгоритме сжатия неподвижных изображений
    (ключевых кадров) из видеокодека VP8, использует контейнер
    RIFF (подробнее о сжатии см. на стр. 262).
    Изображения в формате WebP, сжатые без потери качества,
    имеют размер на 28% меньший, чем PNG. Изображения в
    формате WebP с потерей качества имеют размер на 25–34%
    меньший, чем JPEG при равных значениях параметров.
    WebP также поддерживает прозрачность (альфа-канал).
    Форматы WebP и WebM продвигаются в качестве
    веб-стандартов компанией Google в рамках инициативы по
    уменьшению мирового интернет-трафика и улучшению качества
    интернет-технологий. WebP и WebM основаны на кодеке VP8,
    разработанном компанией On2 Technologies, впоследствии

    View Slide

  255. Форматы файлов
    Растровые файлы
    В настоящее время просмотр изображений в формате WebP
    поддерживается браузерами Google Chrome (начиная с 9 версии)
    и Opera (начиная с версии 11.10).
    Android поддерживает чтение и запись WebP изображений,
    начиная с версии 4.0. С помощью специальной
    JavaScript-библиотеки возможно отображение в браузерах,
    поддерживающих видео в формате WebM, в частности в Firefox
    4.0 и более новых.
    Существует также порт библиотеки libwebp под названием
    libwebpjs/libwebpas на JavaScript и ActionScript, позволяющий
    использовать WebP во всех популярных браузерах (поддержка
    IE6+ осуществляется с помощью дополнительного модуля Adobe
    Flash).

    View Slide

  256. Форматы файлов
    Растровые файлы
    MIFF (Magick Image File Format, .miff) платформенно
    независимый формат растровых изображений, состоит из
    текстового заголовка файла и бинарной части с растром.
    PAM (NetPBM, .pam) формат растровых изображений в
    виде 2-мерной целочисленной матрицы, параметры изображения
    определяются в заголовке файла; для BW палитры
    используются расширения .pbm, “Grayscale” .pgm, RGB
    .ppm, абстрактный формат для этих расширений .pnm.
    256

    View Slide

  257. Форматы файлов
    Растровые файлы
    DjVu (d´
    ej`
    a vu уже виденное , .djvu, .djv) технология
    сжатия изображений с потерями, разработанная специально для
    хранения сканированных документов книг, журналов,
    рукописей и прочее, где обилие формул, схем, рисунков и
    рукописных символов делает чрезвычайно трудоёмким их
    полноценное распознавание. Также является эффективным
    решением, если необходимо передать все нюансы оформления,
    например, исторических документов, где важное значение имеет
    не только содержание, но и цвет и фактура бумаги; дефекты
    пергамента: трещинки, следы от складывания; исправления,
    кляксы, отпечатки пальцев; следы, оставленные другими
    предметами.
    257

    View Slide

  258. Форматы файлов
    Растровые файлы
    DjVu стал основой для нескольких библиотек научных книг.
    Огромное количество книг в этом формате доступно в
    файлообменных сетях. Формат оптимизирован для передачи по
    сети таким образом, что страницу можно просматривать ещё до
    завершения скачивания. DjVu-файл может содержать текстовый
    (OCR) слой, что позволяет осуществлять полнотекстовый поиск
    по файлу. Кроме того, DjVu-файл может содержать встроенное
    интерактивное оглавление и активные ссылки, что позволяет
    реализовывать удобную навигацию в DjVu-книгах.
    258

    View Slide

  259. Форматы файлов
    Растровые файлы
    Для сжатия цветных изображений в DjVu применяется
    специальная технология, разделяющая исходное изображение на
    три слоя: передний план, задний план и чёрно-белую
    (однобитовую) маску. Маска сохраняется с разрешением
    исходного файла; именно она содержит изображение текста и
    прочие чёткие детали. Разрешение заднего плана, в котором
    остаются иллюстрации и текстура страницы, понижается для
    экономии места. Передний план содержит цветовую
    информацию о деталях, не попавших в задний план; его
    разрешение понижается ещё сильнее. Затем задний и передний
    планы сжимаются с помощью вейвлет-преобразования, а
    маска алгоритмом JB2.
    Особенностью алгоритма JB2 является то, что он ищет на
    странице повторяющиеся символы и сохраняет их изображение
    только один раз. В многостраничных документах каждые
    несколько подряд идущих страниц пользуются общим
    словарём изображений.

    View Slide

  260. Форматы файлов
    Растровые файлы
    Для сжатия большинства книг можно обойтись только двумя
    цветами. В этом случае используется всего один слой, что
    позволяет достичь рекордной степени сжатия. В типичной книге
    с чёрно-белыми иллюстрациями, отсканированной с
    разрешением 600 dpi, средний размер страницы составляет
    около 15 Кб, т. е. приблизительно в 100 раз меньше, чем
    исходный файл. Однако при этом не стоит забывать, что в DjVu
    используется сжатие данных с потерями. Для особо важных
    документов, возможно, будет разумнее использовать более
    надёжные форматы: PNG, JPEG 2000, TIFF и т. п. В общей
    сложности выигрыш объёма в этом случае составляет 4–10 раз.

    View Slide

  261. Форматы файлов
    Растровые файлы
    В основе формата DjVu лежат несколько технологий,
    разработанных в AT&T. Это:
    алгоритм отделения текста от фона на отсканированном
    изображении;
    вейвлетный алгоритм сжатия фона IW44;
    алгоритм сжатия чёрно-белых изображений JB2;
    универсальный алгоритм сжатия ZP;
    алгоритм распаковки по запросу ;
    алгоритм маскировки изображений.
    261

    View Slide

  262. Форматы файлов
    Алгоритмы сжатия
    Определение
    Сжатие без потерь (lossless data compression) метод
    сжатия информации, при использовании которого
    закодированная информация может быть восстановлена с
    точностью до бита.
    При этом оригинальные данные полностью восстанавливаются
    из сжатого состояния. Этот тип сжатия принципиально
    отличается от сжатия данных с потерями. Для каждого из
    типов цифровой информации, как правило, существуют свои
    оптимальные алгоритмы сжатия без потерь.
    Сжатие данных без потерь используется во многих
    приложениях. Например, оно используется в популярном
    файловом формате ZIP и UNIX-утилите Gzip. Оно также
    используется как компонент в сжатии с потерями.
    262

    View Slide

  263. Форматы файлов
    Алгоритмы сжатия
    Сжатие без потерь используется, когда важна идентичность
    сжатых данных оригиналу. Обычный пример исполняемые
    файлы и исходный код. Некоторые графические файловые
    форматы (PNG, GIF и др.) используют только сжатие без
    потерь, тогда как другие (TIFF, JPEG 2000, MNG и др.) могут
    использовать сжатие как с потерями, так и без.
    Определение
    Сжатие с потерями это метод сжатия данных (data
    compression), когда распакованный файл отличается от
    оригинального, но достаточно близок для того, чтобы быть
    полезным каким-то образом.
    Этот тип сжатия часто используется для сжатия звука или
    изображений, а также в Интернете, особенно в потоковой
    передаче данных и телефонии. Эти методы часто называются
    кодеками.

    View Slide

  264. Форматы файлов
    Алгоритмы сжатия
    Определение
    Кодек (от кодер-декодер) программный модуль,
    реализующий упаковку и распаковку звука или видео.
    Существуют две основные схемы сжатия с потерями:
    1 В предсказывающих кодеках предыдущие и/или
    последующие данные используются для того, чтобы
    предсказать текущий фрейм. Ошибка между
    предсказанными данными и реальными вместе с
    добавочной информацией, необходимой для производства
    предсказания, затем квантизуется и кодируется.
    2 В трансформирующих кодеках берутся фреймы
    (изображений или звука), разрезаются на небольшие
    сегменты, трансформируются в новое базисное
    пространство и производится квантизация. Результат затем
    сжимается энтропийными методами.
    264

    View Slide

  265. Форматы файлов
    Алгоритмы сжатия
    В некоторых системах эти две техники комбинируются путём
    использования трансформирующих кодеков для сжатия
    ошибочных сигналов, сгенерированных на стадии предсказания.
    Преимущество методов сжатия с потерями над методами
    сжатия без потерь состоит в том, что первые существенно
    превосходят по степени сжатия, продолжая удовлетворять
    поставленным требованиям.
    Распакованный файл может очень сильно отличаться от
    оригинала на уровне сравнения бит в бит , но практически
    неотличим для человеческого уха или глаза в большинстве
    практических применений.

    View Slide

  266. Форматы файлов
    Алгоритмы сжатия
    Много методов основано на особенностях строения органов
    чувств человека. Психоакустическая модель определяет то, как
    сильно звук может быть сжат без ухудшения воспринимаемого
    качества звука.
    Определение
    Недостатки, причинённые сжатием с потерями, которые заметны
    для человеческого уха или глаза, известны как артефакты
    сжатия.

    View Slide

  267. Форматы файлов
    Алгоритмы сжатия
    Звуковые данные, прошедшие сжатие с потерями, не
    принимаются судами как вещественные доказательства (и даже
    не берутся во внимание) по причине того, что информация,
    прошедшая сжатие, приобретает артефакты сжатия и теряет
    естественные шумы среды, из которой производилась запись, в
    связи с чем невозможно установить, подлинная ли запись или
    синтезированная. Поэтому важные записи рекомендуется
    производить в форматах импульсно-кодовой модуляции (ИКМ,
    или Pulse Code Modulation, PCM) (PCM, см. стр. 299) или
    использовать плёночный диктофон.
    Фотографии, записанные в формате JPEG, могут быть приняты
    судом (несмотря на то, что данные прошли сжатие с потерями).
    Но при этом должен быть предоставлен фотоаппарат, которым
    они сделаны, или соответствующая фототаблица
    цветопередачи.

    View Slide

  268. Форматы файлов
    Векторные файлы
    WMF (Windows MetaFile, .wmf) формат MS Windows,
    цветовая палитра 256 цв, используется в галереях офисных и
    пр. пакетов.
    EMF (Microsoft Enhanced MetaFile, .emf) формат
    MS Windows, цветовая палитра RGB, поддерживается далеко
    не всеми программами.
    SVG (Scalable Vector Graphics, .svg) формат,
    разработанный для внедрения векторной графики в
    веб-документы, записывается в виде структурированного (XML)
    текста.
    268

    View Slide

  269. Форматы файлов
    Векторные файлы
    PS (PostScript, .ps) платформенно независимый
    переносимый формат описания страниц фирмы Adobe,
    используется для описания многостраничных документов. Язык
    программирования высокого уровня со стековой организацией.
    Поддерживаются все линейные преобразования. Есть
    возможность создавать библиотеки цветов, шрифтов, форм,
    изображений, полутонов и узоров. Для сжатия используются
    алгоритмы JPEG и LZW.
    EPS (Encapsulated PostScript, .eps) платформенно
    независимый переносимый формат описания любых
    графических изображений в соответствии с соглашениями по
    структурированию документов в формате PostScript.

    View Slide

  270. Форматы файлов
    Векторные файлы
    PDF (Portable Document Format, .pdf) платформенно
    независимый переносимый формат описания документов
    фирмы Adobe, имеет два алгоритма сжатия: ZIP (без потерь)
    и JPEG (с потерями).
    270

    View Slide

  271. Конвертеры файлов
    271

    View Slide

  272. Конвертеры файлов
    NetPBM
    NetPBM распространяется бесплатно. Автор Джеф Посканзер
    (Jef Poskanzer).
    Использует свой формат PAM для промежуточного хранения
    растра, понимает множество входных и выходных растровых
    форматов и PS.
    Представляет из себя большой набор утилит, несколько
    динамических библиотек и скриптов на shell и Perl.
    272

    View Slide

  273. Конвертеры файлов
    NetPBM
    Пример 4.2 (NetPBM: GIF −→ EPS)
    Для конвертации GIF-файла в EPS надо использовать утилиты
    giftopnm и pnmtops:
    giftopnm file.gif | pnmtops > file.eps
    Полный синтаксис:
    giftopnm [–alphaout=alpha-filename,-] [-verbose]
    [-comments] [-image=N,all] [GIFfile]
    pnmtops [-scale=s] [-dpi=N[xN]] [-imagewidth=n]
    [-imageheight=n] [-width=N] [-height=N] [-equalpixels]
    [-turn|-noturn] [-rle|-runlength] [-flate] [-ascii85]
    [-nocenter] [-nosetpage] [-level=N] [-psfilter]
    [-noshowpage] [pnmfile]

    View Slide

  274. Конвертеры файлов
    ImageMagick
    ImageMagick свободно распространяемая коллекция утилит
    для чтения, записи и редактирования файлов как растровых,
    так и векторных форматов (более 88 основных форматов!), от
    ImageMagick Studio, разработчики Джон Кристи John Cristy
    и Глен Рэндерс-Пёрсон (Glenn Randers-Pehrson).
    Предыдущий пример:
    Пример 4.3 (ImageMagick: GIF −→ EPS)
    convert.exe file.gif file.eps
    Пример 4.4 (Фрагмент пакетного файла для генерации файлов
    предпросмотра)
    for %%f in (*.jpg) do convert -size 120x120 %%f
    -resize 120x120 +profile "*" thumbnail/%%f
    Полное описание всех возможностей редактора с большим
    количеством примеров можно найти на официальном сайте:
    imagemagick.org.

    View Slide

  275. Редакторы научной графики
    275

    View Slide

  276. Редакторы научной графики
    GNUplot
    GNUplot управляемая командами интерактивная
    программа составления графиков, созданная Томасом
    Вильямсом (Thomas Williams) и Колином Келли (Colin Kelley).
    Эта программа распространяется свободно (“as is”), отличается
    компактностью и мобильностью. Она работает на различных
    платформах: UNIX/Linux, MS DOS, VMS, Windows и др., а
    созданные в ней макрофайлы (обычно с расширением .plt)
    независимы от платформы.
    276

    View Slide

  277. GNUplot
    Синтаксис
    Программа чувствительна к регистру, имена команд можно
    сокращать. В строке может быть любое количество команд,
    отделяемых ‘;’. Строки заключаются в двойные или одинарные
    кавычки.
    Запуск:
    gnuplot
    После этого можно писать команды.
    Запуск в пакетном режиме:
    gnuplot макрофайл
    Кроме того, GNUplot можно использовать в конвейере (вместе с
    другими командами и программами).

    View Slide

  278. GNUplot
    Синтаксис
    Выход:
    quit или exit
    Помощь
    help или ? вывод содержания;
    help команда вывод справки о команде;
    help тема вывод справки по указанной теме;
    show all вывод текущих значений всех переменных.
    В описаниях команд необязательные аргументы указываются в
    квадратных скобках (‘[. . . ]’).
    278

    View Slide

  279. GNUplot
    Синтаксис
    Редактирование командной строки
    GNUplot поддерживает стиль редактирования EMACS, а в
    версиях для MS DOS и WINDOWS клавиши управления
    курсором. Клавиша Esc очищает командную строку. GNUplot
    также поддерживает историю команд.
    Графические устройства
    GNUplot поддерживает все существующие графические
    (внешние) устройства. Посмотреть полный список доступных
    устройств можно с помощью команды set terminal .
    set terminal устройство [опции] установка в качестве
    выходного указанное графическое устройство.
    show terminal выводит установленное графическое
    устройство.
    279

    View Slide

  280. GNUplot
    Синтаксис
    Макрофайлы
    save [functions|variables|set] ’файл’ сохраняет в
    файле определённые пользователем функции, переменные,
    настройки.
    Имя файла пишется с произвольным расширением.
    Пример 4.5 (Сохранение файлов в GNUplot)
    save ’work.gnu’
    save functions ’func.dat’
    save var ’var.dat’
    save set ’options.dat’
    280

    View Slide

  281. GNUplot
    Синтаксис
    load ’файл’ считывает файл.
    cd ’директория’ изменяет текущую директорию.
    pwd выводит текущую директорию.
    Внутри файла возможно применение символов ‘\’ для
    продолжения строки (ставится в конце строки) и ‘#’ для
    комментирования строки.
    281

    View Slide

  282. GNUplot
    Синтаксис
    Построение графиков
    Двумерный график:
    plot [диапазон] {функция |
    {’файл’ [модификации]}} [axes оси]
    [title ’заголовок’ | notitle]
    [with стиль], ...
    Трёхмерный график:
    splot [диапазон] {функция |
    {’файл’ [модификации]}} [axes оси]
    [title ’заголовок’ | notitle]
    [with стиль], ...
    Диапазон задаётся в виде интервала [a:b], первый интервал
    относится к оси X, второй к оси Y .
    282

    View Slide

  283. GNUplot
    Синтаксис
    Функция записывается с использованием арифметических
    знаков и стандартных функций, кроме того, можно использовать
    операторы языка C (для возведения в степень используется
    оператор Фортрана ‘**’).
    Функции могут быть параметрическими (t,u,v).
    Пример 4.6 (Функции в GNUplot)
    plot sin(x)
    f(x)=sin(x)
    plot f(x)
    plot sin(x),cos(x)
    set param
    plot sin(t),cos(t+pi/2*3)
    283

    View Slide

  284. GNUplot
    Синтаксис
    Данные для графиков могут быть записаны в файл. Файл
    состоит из данных, записанных в столбцы и разделённых
    пробелами. Данные делятся на блоки 2-мя пустыми строками.
    Одна пустая строка обозначает разрыв (при использовании
    линии). В файле данных также можно комментировать записи
    символом ‘#’.
    Данные могут быть записаны в экспоненциальном формате, с
    использованием символов ‘e’, ‘E’ ‘d’, ‘D’, ‘q’ или ‘Q’. Если
    записан только один столбец, эти данные принимаются за y, а
    соответствующие значения x считаются целыми, начиная с 0.
    Имя файла может отсутствовать (‘’), тогда берётся ранее
    считанный файл. Если задать имя ‘-’, то данные можно вводить
    в командной строке, закончив ввод символом ‘e’.

    View Slide

  285. GNUplot
    Синтаксис
    В качестве модификаторов могут использоваться следующие
    параметры: index, every, thru, using, smooth.
    Параметр оси используется, чтобы выбрать оси, для которых
    график должен масштабироваться; этот параметр может
    принимать одно из четырёх возможных значения:
    x1y1 естественный масштаб;
    x2y2 масштабирование по обоим осям;
    x1y2 масштабирование по оси Y;
    x2y1 масштабирование по оси X.
    Опция title задаёт заголовок для каждого набора данных,
    который записывается в легенде.
    285

    View Slide

  286. GNUplot
    Синтаксис
    Параметр стиль задаёт стиль линии графика и может
    принимать одно из следующих значений: lines, points,
    linespoints, impulses, dots, steps, fsteps, histeps,
    errorbars, xerrorbars, yerrorbars, xyerrorbars, boxes,
    boxerrorbars, boxxyerrorbars, financebars, candlesticks,
    vector.
    В качестве модификации стиля можно изменить тип, стиль,
    толщину линии, тип и размер точек.
    286

    View Slide

  287. GNUplot
    Синтаксис
    Установки параметров
    Для установки параметров используется
    команда set параметр [опции] . Опции для каждого
    параметра различны.
    Часто используются такие параметры, как title заголовок
    графика; xlabel, ylabel, zlabel подписи по осям. Полный
    перечень изменяемых параметров можно посмотреть, используя
    справку.
    Для вывода значений параметров используется команда
    show параметр . Для вывода значений всех переменных
    используется команда show all .
    287

    View Slide

  288. Дополнительная литература I
    Петров, М. Компьютерная графика [Текст] / М. Петров,
    В. Молочков.
    Второе изд.
    СПб.: Питер, 2006.
    816 с.: ил.; 70 × 100/16 мм (170 × 240 мм, увеличенный).
    ISBN 5-94723-758-X.
    Алгоритмические основы растровой машинной графики
    [Текст] / Д. В. Иванов, А. С. Карпов, Кузьмин и др.
    М.: Интерент-Университет Информационных Технологий;
    БИНОМ. Лаборатория знаний, 2007.
    286 с. (Основы информатики и математики).
    ISBN 978-5-94774-654-9.
    288

    View Slide

  289. Дополнительная литература II
    Кариев, Ч. А. Масштабируемая векторная графика
    (Scalable Vector Graphics) [Электронный ресурс] / Ч. А.
    Кариев.
    М.: Интернет-университет информационных технологий
    ИНТУИТ.ру, 2007. Режим доступа:
    http://www.intuit.ru/department/graphics/svg/.
    Царик, С. В. Основы работы с CorelDRAW X3
    [Электронный ресурс] / С. В. Царик.
    М.: Интернет-университет информационных технологий
    ИНТУИТ.ру, 2008. Режим доступа:
    http://www.intuit.ru/department/graphics/corelx3/.
    289

    View Slide

  290. Дополнительная литература III
    Платонова, Н. С. Создание информационного буклета в
    Adobe Photoshop и Adobe Illustrator [Электронный ресурс] /
    Н. С. Платонова.
    М.: Интернет-университет информационных технологий
    ИНТУИТ.ру, 2009. Режим доступа:
    http://www.intuit.ru/department/school/adobephill/.
    Бондаренко, С. В. Основы 3ds Max 2009 [Электронный
    ресурс] / С. В. Бондаренко, М. Ю. Бондаренко.
    М.: Интернет-университет информационных технологий
    ИНТУИТ.ру, 2008. Режим доступа: http:
    //www.intuit.ru/department/graphics/base3dmax2009/.
    290

    View Slide

  291. Дополнительная литература IV
    Платонова, Н. С. Создание компьютерной анимации в
    Adobe Flash CS3 Professional [Электронный ресурс] / Н. С.
    Платонова.
    М.: Интернет-университет информационных технологий
    ИНТУИТ.ру, 2009. Режим доступа: http:
    //www.intuit.ru/department/school/adobeflashcs3p/.
    Ватолин, Д. С. Методы сжатия изображений
    [Электронный ресурс] / Д. С. Ватолин.
    М.: Интернет-университет информационных технологий
    ИНТУИТ.ру, 2007. Режим доступа: http:
    //www.intuit.ru/department/graphics/compression/.
    291

    View Slide

  292. Часть V
    Работа с аудио информацией

    View Slide

  293. Содержание I
    23 Основные понятия
    Уровень аудиосигнала
    Аналого-цифровое преобразование
    Динамический диапазон
    ПО для работы с аудиоинформацией
    24 Форматы аудиофайлов
    Интерфейс музыкальных инструментов
    Караоке
    Звуковые файлы выборок
    MPEG
    Vorbis
    293

    View Slide

  294. Основные понятия
    Самые первые компьютеры разрабатывались и применялись для
    выполнения сложных математических вычислений. За
    полувековую историю развития вычислительной техники
    производительность компьютеров увеличилась в миллионы раз,
    и при этом в тысячи раз уменьшились их размеры. И хотя
    по-прежнему любая обработка информации на компьютере
    сводится в конечном итоге к математическим операциям,
    вычислительная мощность современной техники позволяет
    производить цифровую обработку звуковой и визуальной
    информации, а малые габариты и невысокая стоимость техники
    (по сравнению с первыми компьютерами) делает её применение
    действительно массовым.
    Компьютер способен обрабатывать только цифровые сигналы
    дискретные во времени и квантованные по уровню.

    View Slide

  295. Основные понятия
    Любая информация, хранимая и обрабатываемая на
    компьютере, независимо от её вида (текст, таблицы, рисунки,
    музыка и т. п.), преобразовывается для обработки и хранения в
    двоичный цифровой код. Поэтому аналоговый сигнал
    подвергается аналого-цифровому преобразованию (АЦП):
    звуковая (аудио) информация преобразуется в цифровой код.
    Обрабатывается сигнал (подавление шумов, динамическая
    обработка, фильтрация, обработка эффектами, монтаж и т. д.) в
    цифровой форме. Вся дальнейшая работа с такой информацией
    сводится к различным математическим преобразованиям
    цифровых данных, и поэтому такая обработка называется
    цифровой.

    View Slide

  296. Основные понятия
    Для вывода цифровой записи на акустическую систему, которая
    по своей сути является аналоговым элементом, требуется
    произвести обратное, цифро-аналоговое преобразование
    (ЦАП).
    Определение
    Аналого-цифровой преобразователь (АЦП) устройство,
    преобразующее входной аналоговый сигнал в дискретный код
    (цифровой сигнал). Обратное преобразование осуществляется
    при помощи цифро-аналогового преобразователя (ЦАП).

    View Slide

  297. Основные понятия
    Уровень аудиосигнала
    Аудиосигнал является случайным процессом. Его акустические
    или электрические характеристики непрерывно изменяются во
    времени. Графически аудиосигнал можно изобразить в виде
    совокупности реализаций случайных функций.
    Если каждая из функций представляет собой изменяющееся во
    времени звуковое давление pзв.(t) или напряжение Uзв.(t) в
    течение определённого интервала времени Tнаб., то такие
    зависимости принято называть графиками изменения
    мгновенных значений аудиосигнала во времени, или
    временными диаграммами сигнала.

    View Slide

  298. Основные понятия
    Уровень аудиосигнала
    Определение
    Уровень аудиосигнала характеризует сигнал в определённый
    момент и представляет собой выраженную в децибелах
    выпрямленную и усреднённую за некоторый предшествующий
    промежуток времени амплитуду ¯
    Uзв.(t1)a, отнесённую к
    некоторой условной величине U0.
    aЧерта сверху означает операцию усреднения во времени, t1
    текущий
    момент времени.
    Уровень определяется не только мгновенными значениями
    аудиосигнала, но и временной зависимостью множителя веса и
    длительностью памяти измерительного устройства. Поэтому,
    говоря об уровнях, следует обязательно учитывать временные
    характеристики приборов, которыми они измерены.
    298

    View Slide

  299. Основные понятия
    Аналого-цифровое преобразование
    В процессе работы АЦП происходит не только квантование
    сигнала по уровню, но и его дискретизация во времени.
    Сигнал, непрерывно изменяющийся во времени, заменяют
    рядом отсчётов этого сигнала. Обычно отсчёты сигнала берутся
    через одинаковые промежутки времени.
    Таким образом осуществляется импульсно-кодовая
    модуляция (ИКМ, англ. Pulse Code Modulation, PCM). Не
    только звук, но и другие виды аналоговых данных (видео,
    виртуальные миры, данные телеметрии) допускают применение
    ИКМ.

    View Slide

  300. Основные понятия
    Аналого-цифровое преобразование
    Аналоговый сигнал s(t) дискретизируется при помощи
    дискретизатора (амплитудно-импульсного элемента,
    реагирующего на дискретные равноотстоящие значения входного
    сигнала) в моменты времени t = nT, n = 0, 1, 2, 3, . . . (см.
    рис. 5.1).
    Рис. 5.1: Дискретизация сигнала
    На выходе дискретизатора образуется последовательность
    выборок s(nT) = s(t)|t=nT .
    300

    View Slide

  301. Основные понятия
    Аналого-цифровое преобразование
    Если отсчёты получать через слишком большие интервалы
    времени, то при дискретизации может произойти потеря
    информации: важные изменения сигнала могут быть
    пропущены преобразователем, особенно если они произойдут
    не в те моменты, когда были взяты отсчёты. Следовательно,
    отсчёты требуется брать с максимальной частотой.
    Естественным ограничением является быстродействие
    преобразователя. Кроме того, чем больше отсчётов приходится
    в единицу времени, тем больше памяти необходимо для
    хранения информации.

    View Slide

  302. Основные понятия
    Аналого-цифровое преобразование
    Проблема отыскания разумного компромисса между частотой
    взятия отсчётов сигнала и расходованием ресурсов трактов
    преобразования и передачи информации возникла задолго до
    того, как на свет появились первые звуковые карты. В
    результате исследований было сформулировано правило,
    которое в отечественной научно-технической литературе принято
    называть теоремой Котельникова (в англоязычной литературе
    теоремой Найквиста-Шеннона или теоремой отсчётов).

    View Slide

  303. Основные понятия
    Аналого-цифровое преобразование
    Теорема 5.1 (Котельникова (Найквиста-Шеннона))
    Если аналоговый сигнал s(t) имеет ограниченный спектр, то он
    может быть восстановлен однозначно и без потерь по своим
    дискретным отсчётам, взятым с частотой строго большей
    удвоенной максимальной частоты спектра Fmax:
    Fд > 2Fmax.
    Суть теоремы Котельникова можно объяснить следующим
    образом. Сигнал, представленный последовательностью
    дискретных отсчётов, можно вновь преобразовать в исходный
    (непрерывный) вид без потери информации только в том
    случае, если интервал межу соседними отсчётами не превышает
    половины периода самого высокочастотного колебания,
    содержащегося в спектре сигнала.

    View Slide

  304. Основные понятия
    Аналого-цифровое преобразование
    Иначе говоря, восстановить без искажений можно только
    сигнал, спектр которого ограничен некоторой частотой Fmax.
    Теоретически все реальные сигналы имеют бесконечные
    спектры. Чтобы избежать искажений сигнала при его
    дискретизации, появляющихся по этой причине, сигнал вначале
    пропускают через фильтр, подавляющий в нем все частоты,
    которые превышают заданное значение Fmax, и лишь затем
    производят дискретизацию.
    Частота Fд, согласно теореме Котельникова, с которой следует
    брать отсчёты, составляет Fд = 2Fmax

    View Slide

  305. Основные понятия
    Аналого-цифровое преобразование
    Частота дискретизации:
    В стандарте CD 44,1 кГц.
    Для цифровых аудиомагнитофонов 48 кГц.
    Звуковые карты, как правило, способны работать в
    широком диапазоне частот дискретизации. Практически все
    современные звуковые карты поддерживают 16-битное
    представление звука с частотой квантования 44,1 и 48 кГц.
    Более дорогие профессиональные звуковые карты
    поддерживают 24-битное представление звука с частотой
    квантования 96 кГц.
    Чем больше разрядов в устройствах ЦАП и АЦП, тем лучше.
    Дело в том, что непрерывный (аналоговый) сигнал
    преобразуется в цифровой с некоторой погрешностью. Эта
    погрешность тем больше, чем меньше уровней квантования
    сигнала, т. е. чем дальше отстоят друг от друга допустимые
    значения квантованного сигнала.

    View Slide

  306. Основные понятия
    Аналого-цифровое преобразование
    Число уровней квантования зависит от разрядности АЦП/ЦАП.
    Определение
    Погрешности, возникающие в результате замены аналогового
    сигнала рядом отсчётов, квантованных по уровню, называют
    шумом квантования.
    Определение
    Уровень шумов квантования ∆ связан с разрядностью АЦП
    через число уровней квантования N как ∆ = 20 lg(1/N).
    306

    View Slide

  307. Основные понятия
    Аналого-цифровое преобразование
    Пример 5.2 (Уровень шумов квантования)
    Для 3-разрядного АЦП (см. рис. 5.4) N = 8, и ∆ = −18 дБ;
    для 8-разрядного N = 256, ∆ = −48 дБ;
    для 16-разрядного N = 65 536, ∆ = −96 дБ;
    для 18-разрядного АЦП N = 262 144, ∆ = −108 дБ;
    для 20-разрядного АЦП N = 1 648 576, ∆ = −120 дБ.
    Из примера видно, что с ростом разрядности АЦП уменьшается
    шум квантования. Приемлемым считается 16-разрядное
    представление сигнала, являющееся в настоящее время
    стандартным для воспроизведения звука, записанного в
    цифровой форме.

    View Slide

  308. Основные понятия
    Аналого-цифровое преобразование
    С точки зрения снижения уровня шумов квантования
    дальнейшее увеличение разрядности АЦП нецелесообразно, т. к.
    уровень шумов, возникших по другим причинам (тепловые
    шумы, а также импульсные помехи, генерируемые элементами
    схем компьютера и распространяющиеся либо по цепям
    питания, либо в виде электромагнитных волн), все равно
    оказывается значительно выше, чем −96 дБ.
    Обычно шум квантования представляют как разность
    соответствующих значений реального и квантованного по
    уровню сигналов (см. рис. 5.2 а–б). Такое представление не
    совсем верно.

    View Slide

  309. Основные понятия
    Аналого-цифровое преобразование
    Рис. 5.2: Квантование сигнала (интерполяция нулевого порядка)
    309

    View Slide

  310. Основные понятия
    Аналого-цифровое преобразование
    На рис. 5.2 а на самом деле цифровой сигнал не показан.
    Ступенчатая линия это отображение аналогового сигнала,
    восстановленного из цифрового с использованием интерполяции
    нулевого порядка. Если из исходного аналогового сигнала
    вычесть эту ступенчатую линию, то получится очень странная и
    некрасивая линия (см. рис. 5.2 б). Некоторые считают, что это и
    есть шум квантования. Но, во-первых, почему нужно заменять
    цифровой сигнал непрерывными ступеньками, а не наклонными
    отрезками прямых линий или кривыми? Во-вторых, в
    действительности мы имеем право сравнивать непрерывные и
    дискретные сигналы только в моменты, соответствующие
    дискретным отсчётам. Поэтому и шум квантования следует
    представлять последовательностью дискретных отсчётов (см.
    рис. 5.2 в).

    View Slide

  311. Основные понятия
    Аналого-цифровое преобразование
    Восстановление аналогового сигнала s(t) по его дискретному
    представлению последовательности выборок s(nT)
    сводится к использованию различных интерполяционных
    процедур.

    View Slide

  312. Основные понятия
    Аналого-цифровое преобразование
    Рис. 5.3: Квантование сигнала (интерполяция первого порядка)

    View Slide

  313. Основные понятия
    Аналого-цифровое преобразование
    Клиппирование
    Из рис. 5.4 видно, что в случае превышения сигналом значения
    самого верхнего уровня квантования ( старшего кванта), а
    также в случае, когда значение сигнала оказывается меньше
    нижнего уровня квантования ( младшего кванта), т. е. при
    ограничении сигнала, возникают искажения. Они могут быть
    гораздо более заметными по сравнению с шумом квантования.
    313

    View Slide

  314. Основные понятия
    Аналого-цифровое преобразование
    Рис. 5.4: Квантование сигнала по уровню и искажения при
    клиппировании сигнала
    314

    View Slide

  315. Основные понятия
    Аналого-цифровое преобразование
    Для исключения искажений этого типа динамические
    диапазоны сигнала и АЦП должны соответствовать друг другу:
    значения сигнала должны располагаться между уровнями,
    соответствующими младшему и старшему квантам.
    При записи внешних источников звука это достигается с
    помощью регулировки их уровня, кроме того, применяется
    сжатие (компрессия) динамического диапазона.

    View Slide

  316. Основные понятия
    Динамический диапазон
    Определение
    Динамический диапазон аудиосигнала это отношение
    максимальной звуковой амплитуды к минимальной (Umax/Umin).
    Динамические диапазоны музыкальных и речевых акустических
    сигналов разных типов, измеренные с помощью приборов,
    показания которых соответствуют восприятию уровня громкости
    на слух (при tизм. = 60), составляют в среднем:
    60 дБ для симфонического оркестра;
    47 дБ для хора;
    35 дБ для эстрадной музыки и солистов-вокалистов;
    25 дБ для речи дикторов;
    20 дБ для джаз-оркестра.
    При воспроизведении речи максимальный акустический уровень
    составляет 80–86 дБ, а при воспроизведении музыки до
    90–100 дБ.

    View Slide

  317. Основные понятия
    Динамический диапазон
    В звуковых редакторах предусмотрена операция нормализации
    амплитуды сигнала. После её применения либо наименьшее
    значение уровня сигнала станет равным верхнему уровню
    младшего кванта, либо наибольшее нижнему уровню
    старшего кванта (на рис. 5.4, соответственно, числа 1 и 6).
    Таким образом, от ограничения сигнал сверху и снизу будет
    защищён промежутками шириной в один квант. Разумеется,
    если при записи уже имело место ограничение амплитуды, то
    нормализация не избавит сигнал от искажения. Кроме того,
    операцию нормализации вообще не рекомендуется лишний раз
    применять при представлении цифрового звука 16-ю и менее
    битами.

    View Slide

  318. Основные понятия
    Динамический диапазон
    Для нормированного
    сигнала относительная
    величина
    максимальной
    погрешности
    квантования равна
    1/N, где N число
    уровней квантования.
    Этой же величиной,
    представленной в
    логарифмических
    единицах
    (децибелах),
    оценивается уровень
    шумов квантования
    АЦП звуковой карты.

    View Slide

  319. Основные понятия
    ПО для работы с аудиоинформацией
    Самые первые персональные компьютеры имели лишь
    возможность вывода на встроенный динамик звукового тона
    определённой высоты и длительности. Меняя высоту и
    длительность тона, а также продолжительность пауз между
    звуками, программисты заставляли компьютер проигрывать
    несложные мелодии. Однако это не было полноценным
    воспроизведением звука.
    Ситуация значительно поменялась в лучшую сторону после
    разработки технологий качественной оцифровки звуковой
    информации, используемой для записи звука на
    компакт-диски. К этому времени компьютеры уже
    научились воспроизводить звуки не через встроенный
    динамик, а через подключаемую акустическую стереосистему.
    При этом качество звука стало соответствовать требованиям
    самых взыскательных меломанов.

    View Slide

  320. Основные понятия
    ПО для работы с аудиоинформацией
    Всю работу пользователя со звуковыми файлами можно
    разделить на:
    воспроизведение (медиаплейеры: Windows Media Player,
    Power DVD, SMPlayer, Winamp, Aimp, Clementine, amaroK,
    Rhytmbox, VLC; симуляторы: NemeSys GigaStudio,
    Propellerhead Software Reason, Rebirth, Bristol);
    редактирование (аудиоредакторы: Sound Forge, Cool Edit
    → Adobe Audition, Cakewalk Sonar, Audacity);
    создание (музыкальные редакторы-секвенсоры:
    FrootyLoops, BEAST, Hydrogen; MIDI-редакторы: MuseScore,
    Guitar Pro, TuxGuitar).
    Воспроизведение звукового файла это наиболее типичный
    пример его использования. Осуществляется воспроизведение с
    помощью специальных программ, называемых по аналогии с
    бытовыми приборами плейерами или проигрывателями .
    Плейеров существует очень много, и даже в любой настольной
    операционной системе имеется плейер.
    320

    View Slide

  321. Основные понятия
    ПО для работы с аудиоинформацией
    При вставке в дисковод звукового компакт-диска (так же, как и
    DVD) его воспроизведение начинается автоматически, а
    пользователь при желании имеет возможность выбирать
    нужную композицию. Если на компакт-диске находятся записи в
    формате MPEG, то, как правило, на этих дисках присутствует
    автоматически запускаемый плейер для их прослушивания. Если
    же его нет, можно воспользоваться другим проигрывателем.
    Запись, или создание собственных аудиофайлов, также
    возможна лишь с применением специальных программ. В ОС
    Windows включена программа Звукозапись, но её возможности
    не выдерживают никакой критики.

    View Slide

  322. различными функциями для удобного просмотра фильмов. В
    последнее время большое количество фильмов
    распространяется на дисках DVD. Для их проигрывания
    необходима установка специализированного плейера, после чего
    воспроизведение DVD будет также выполняться автоматически
    при вставке диска в дисковод.
    322

    View Slide

  323. Основные понятия
    ПО для работы с аудиоинформацией
    Аудиофайлы без всяких проблем могут копироваться,
    перемещаться, удаляться, переименовываться. Т. е., работа с
    ними не отличается от работы с любыми другими файлами.
    Если же звук записан на аудио компакт-диске, то скопировать
    его можно только с помощью специальных программ. При таком
    копировании создаются файлы формата WAV , MP3, Ogg или
    других распространённых форматов.
    323

    View Slide

  324. Форматы аудиофайлов
    324

    View Slide

  325. Форматы аудиофайлов
    Интерфейс музыкальных инструментов
    MOD (.mod, .nst, .m15) файл, содержащий музыкальную
    композицию. В MOD-файле хранятся партитура музыкального
    произведения и инструменты, которыми она играется.
    MOD-файл состоит из трёх частей: заголовка, паттернов и
    сэмплов.
    В паттернах находится партитура музыкального произведения.
    Определение
    Сэмпл (sample) относительно небольшой оцифрованный
    звуковой фрагмент.
    Каждый сэмпл представляет собой инструмент.
    Существует также понятие песня (song) это модуль без
    сэмплов.
    325

    View Slide

  326. Форматы аудиофайлов
    Интерфейс музыкальных инструментов
    MIDI (.mid) файл содержит заголовок, описывающий
    формат файла и любое число дорожек.
    Определение
    MIDI (Musical Instrument Digital Interface цифровой
    интерфейс музыкальных инструментов) технический стандарт
    на формат обмена данными между электронными
    музыкальными инструментами, который описывает протокол,
    цифровой интерфейс и разъёмы.
    MIDI представляет собой не оцифрованную запись звука, а
    специальный набор команд, по которым компьютер сам
    синтезирует мелодию, имитируя звучание реальных
    музыкальных инструментов. Данный формат широко
    использовался в первых мобильных телефонах для различных
    мелодий звонка.
    326

    View Slide

  327. Форматы аудиофайлов
    Интерфейс музыкальных инструментов
    Интерфейс позволяет единообразно кодировать в цифровой
    форме такие данные, как: нажатие клавиш, настройку громкости
    и других акустических параметров, выбор тембра, темпа,
    тональности и др., с точной привязкой во времени. В системе
    кодировок присутствует множество свободных команд, которые
    производители, программисты и пользователи могут
    использовать по своему усмотрению. Поэтому интерфейс MIDI
    позволяет, помимо исполнения музыки, синхронизировать
    управление другим оборудованием, например осветительным,
    пиротехническим и т. п. Одна MIDI ссылка может нести до
    шестнадцати каналов информации, каждый из которых может
    быть направлен на отдельное устройство.
    Последовательность MIDI-команд может быть записана на
    любой цифровой носитель в виде файла, передана по любым
    каналам связи. Воспроизводящее устройство или программа
    называется синтезатором (ом) MIDI и фактически является
    автоматическим музыкальным инструментом.

    View Slide

  328. Форматы аудиофайлов
    Караоке
    MIDI-караоке (.kar) неофициальное расширение
    MIDI-файлов.
    К музыке добавляется текст, который может выводиться при
    проигрывании с помощью специальной программы (например,
    Encore, KMid или PyKaraoke), но не влияет на проигрывание
    обычными MIDI-плейерами. Для файлов в этом формате
    используется расширение .kar.
    Для успешного создания караоке желательно, чтобы в этом
    файле имелся трек с темой (мелодией).
    328

    View Slide

  329. Форматы аудиофайлов
    Караоке
    UltraStar один из популярных форматов, представляет
    собой наборы файлов для программы UltraStar (и совместимых
    с ней).
    Главный файл записан в текстовом формате и содержит
    название, автора, версию, стиль, язык, фон, текст (разбитый на
    кусочки со своими высотой и продолжительностью) песни, а
    также имена файлов с обложкой песни и фоном, используемым
    в процессе пения, и самой композицией. Последнее поле
    называется MP3 , но могут использоваться и файлы других
    форматов.
    329

    View Slide

  330. Форматы аудиофайлов
    Караоке
    EMP (.emp) один из последних караоке форматов для
    программы Encore и совместимых с ней.
    Это файл, включающий в себя фонограмму (как правило,
    минусовая мелодия с бэк вокалом) и текст песни,
    синхронизированный по слогам. Данный формат в настоящее
    время набирает всё больше популярности в караоке клубах. В
    большинстве случаев в качестве фонограммы используются
    оригинальные минуса, под которые поют сами певцы.

    View Slide

  331. Форматы аудиофайлов
    Звуковые файлы выборок
    Определение
    Выборка (отсчёт, сэмпл) это значение, которое подаётся на
    вход ЦАП или получается из АЦП в результате ИКМ, обычно
    целое число (8 или 16 бит).
    Выборка характеризует амплитуду звукового сигнала. Частота
    выдачи выборки определяется в килогерцах (кГц, kHz), или
    выборок/секунду. Кроме этого, выборка может идти по одному
    каналу (моно), двум (стерео) или большему числу каналов
    (обычно 5 или 7).
    331

    View Slide

  332. Форматы аудиофайлов
    Звуковые файлы выборок
    Есть несколько распространённых формата файлов выборок, с
    расширениями:
    .wav для формата WAV файла-контейнера от Microsoft,
    подвида RIFF (см. стр. 411). Этот контейнер как правило
    используется для хранения несжатого звука в ИКМ. Однако
    контейнер не налагает каких-либо ограничений на
    используемый алгоритм кодирования.
    .voc для формата VOC от Creative Labs, этот формат
    использовался в звуковых картах Soundblaster.
    .sam, .raw просто сама выборка, записанная в двоичном
    виде, вы, должны знать с какой частотой её проиграть.
    332

    View Slide

  333. Форматы аудиофайлов
    Звуковые файлы выборок
    .txt простой формат текстового представления ASCII
    содержит всю необходимую информацию в заголовке:
    количество сэмплов (отсчётов), разрядность сэмплов, число
    каналов, частота дискретизации и флаг нормализации.
    После заголовка следуют сами сэмплы (по одному в строке,
    если несколько каналов, то сэмплы располагаются в
    колонках, 1 левый канал, 2 правый), их амплитуда
    выражена целыми числами в отсутствии нормализации и
    числами по модулю 1 в случае нормализованных сэмплов.
    Файл .txt, разумеется, занимает гораздо больше места
    места, чем бинарные файлы .sam и .raw.
    333

    View Slide

  334. Форматы аудиофайлов
    Звуковые файлы выборок
    За качество приходилось расплачиваться большим размером
    оцифрованной звуковой информации. Для примера, на один
    компакт-диск ёмкостью 650 МБ можно уместить более 340
    тысяч страниц несжатого неформатированного текста, и всего
    лишь 74 минуты звуковой записи (около 20 песен). К тому же,
    использование компакт-дисков для хранения музыки имеет и
    отрицательные стороны. Пользоваться ими невероятно просто:
    достаточно вставить такой диск в компьютер или CD-плейер,
    как тут же зазвучит музыка. Но переписать понравившуюся
    композицию с диска без специального программного
    обеспечения не удастся, равно как и записать свою сборку песен
    на компакт-диск. Но даже при наличии такой возможности
    объём одной песни будет равен примерно 50 МБ, что во времена
    начала развития цифровой обработки звука было очень
    ощутимой величиной.

    View Slide

  335. Форматы аудиофайлов
    Звуковые файлы выборок
    По этой причине разрабатываются и постоянно
    совершенствуются технологии сжатия звука.
    Для прослушивания любого сжатого аудиофайла необходимо
    наличие кодека. При отсутствии необходимого кодека в
    системе воспроизведение сжатого звукового файла будет
    невозможным. Стоит заметить, что большинство
    распространённых аудиокодеков (так же, как и видеокодеков))
    уже присутствует в операционных системах GNU/Linux.

    View Slide

  336. Форматы аудиофайлов
    MPEG
    На сегодняшний день наиболее популярным и распространённым
    является формат сжатия MPEG. Данный формат позволяет за
    счёт удаления практически не воспринимаемых на слух частот и
    дополнительной компрессии оставшейся информации уменьшать
    размер звуковых файлов в 10 и более раз практически без
    потери качества. Стандартная музыкальная композиция в этом
    формате занимает всего 4–5 МБ, что делает более удобным
    создание больших коллекций музыки и обмен музыкальными
    файлами между разными людьми, в том числе с помощью
    Интернета.
    Стандарт сжатия MPEG разработан Экспертной группой
    кинематографии (Moving Picture Experts Group).
    Определение
    MPEG это семейство стандартов на сжатие аудио- и
    видеофайлов.
    336

    View Slide

  337. Форматы аудиофайлов
    MPEG
    Существуют разные стандарты MPEG (как их ещё иногда
    называют фазы): MPEG-1, MPEG-2, MPEG-3, MPEG-4, MPEG-7,
    MPEG-21. MPEG состоит из трёх частей: Audio, Video, System
    (для объединения и синхронизации двух первых).
    По стандарту MPEG-1 потоки видео- и аудиоданных передаются
    со скоростью 150 килобайт в секунду с такой же скоростью,
    как и односкоростной CD-ROM проигрыватель и управляются
    путём выборки ключевых видеокадров и заполнением только
    областей, изменяющихся между кадрами. MPEG-1 обеспечивает
    качество видеоизображения более низкое, чем видео,
    передаваемое по телевизионному стандарту.

    View Slide

  338. Форматы аудиофайлов
    MPEG
    MP3 (.mp3) технология сжатия и расширение аудиофайлов
    формата MPEG-1 Layer 3.
    Существуют и другие технологии сжатия, позволяющие
    уменьшать размеры файлов без потери или с незначительной
    потерей качества.
    О характеристике битрейт будет рассказано в разделе 6 на
    стр. 372.

    View Slide

  339. Форматы аудиофайлов
    Vorbis
    Определение
    Vorbis свободный формат сжатия звука с потерями,
    превосходящим по качеству MPEG (MP3).
    Официально появился летом 2002 г. Психоакустическая модель,
    используемая в Vorbis, по принципам действия близка к MP3 и
    подобным, однако математическая обработка и практическая
    реализация этой модели существенно отличаются, что
    позволило авторам объявить свой формат совершенно
    независимым от всех предшественников.
    Для хранения аудиоданных в формате Vorbis чаще всего
    применяется медиаконтейнер Ogg, такой файл обычно
    называется двойным именем Ogg/Vorbis или Ogg Vorbis .
    Однако Ogg Vorbis называют и сам кодек без контейнера, так
    как он является частью проекта Ogg.
    339

    View Slide

  340. Форматы аудиофайлов
    Vorbis
    Ogg (.ogg) открытый стандарт формата
    мультимедиаконтейнера, являющийся основным файловым и
    потоковым форматом для мультимедиакодеков фонда
    Xiph.Org, а также название проекта, занимающегося
    разработкой этого формата и кодеков для него.
    Как и все технологии, разрабатываемые под эгидой Xiph.Org,
    Ogg является открытым и свободным стандартом, не имеющим
    патентных или лицензионных ограничений.

    View Slide

  341. Дополнительная литература I
    Петелин, Р. Музыкальный компьютер. Секреты мастерства
    [Текст] / Р. Петелин, Ю. Петелин.
    СПб.: БХВ-Петербург; Арлит, 2001.
    608 с.: ил.; 70 × 100/16 мм.
    5000 экз.
    ISBN 5-94157-053-8.
    Заика, А. Цифровой звук и mp3-плееры [Электронный
    ресурс] / А. Заика.
    М.: Интернет-университет информационных технологий
    ИНТУИТ.ру, 2009. Режим доступа:
    http://www.intuit.ru/studies/courses/511/367/info.
    341

    View Slide

  342. Дополнительная литература II
    Каллахан, И. Практика разработки web-страниц
    [Электронный ресурс] / Ивэн Каллахан.
    М.: Интернет-университет информационных технологий
    ИНТУИТ.ру, 2006. Режим доступа:
    http://www.intuit.ru/studies/courses/120/120/info.
    Ватолин, Д. С. Методы сжатия изображений
    [Электронный ресурс] / Д. С. Ватолин.
    М.: Интернет-университет информационных технологий
    ИНТУИТ.ру, 2007. Режим доступа: http:
    //www.intuit.ru/department/graphics/compression/.
    342

    View Slide

  343. Часть VI
    Работа с видеоинформацией

    View Slide

  344. Содержание I
    25 Основные понятия
    26 Характеристики видеосигнала
    Частота кадров
    Стандарт разложения
    Соотношение сторон экрана
    Разрешающая способность
    Цветовое разрешение
    Ширина видеопотока (битрейт)
    27 Формирование цифрового видеосигнала
    Компонентное видео
    Одноматричные системы
    Трёхматричные системы
    Уровни видео
    28 Форматы цифрового кодирования и сжатия
    Видеопоток
    Видеокомпрессия
    Форматы цифровой видеозаписи

    View Slide

  345. Основные понятия
    Определение
    Видео (от лат. video смотрю, вижу) электронная
    технология формирования, записи, обработки, передачи,
    хранения и воспроизведения сигналов изображения, основанная
    на принципах телевидения, а также аудиовизуальное
    произведение, записанное на физическом носителе
    (видеокассете, видеодиске и т. п.).
    Определение
    Видеозапись электронная технология записи визуальной
    информации, представленной в форме видеосигнала или
    цифрового потока видеоданных, на физический носитель с
    целью сохранения этой информации и возможности
    последующего её воспроизведения и отображения на устройстве
    вывода (монитора, экрана или дисплея).

    View Slide

  346. Основные понятия
    Основное отличие цифровой видеозаписи от аналоговой
    видеозаписи в том, что вместо аналогового видеосигнала
    записываются цифровые данные. Цифровое видео может
    распространяться на различных видеоносителях, посредством
    цифровых видеоинтерфейсов в виде потока данных или файлов.
    Цифровая обработка видеоинформации во многом похожа на
    цифровую обработку звука. Современные компьютеры
    позволяют создавать, хранить, обрабатывать и воспроизводить
    видеоинформацию очень высокого качества. Конечно, для этого
    требуются значительная вычислительная мощность и большие
    объёмы дискового пространства.
    346

    View Slide

  347. Характеристики видеосигнала
    347

    View Slide

  348. Характеристики видеосигнала
    Частота кадров
    Частота кадров (количество кадров в секунду) это число
    неподвижных изображений, сменяющих друг друга при показе 1
    секунды видеозаписи и создающих эффект движения объектов
    на экране. Чем больше частота кадров, тем более плавным и
    естественным будет казаться движение.
    Минимальный показатель, при котором движение будет
    восприниматься однородным, примерно 16 кадров в секунду
    (это значение индивидуально для каждого человека). В
    кинематографе стандартная частота съёмки и проекции
    составляет 24 кадра в секунду.
    Системы телевидения PAL и SECAM используют 25 кадров в
    секунду (25 fps или 25 Гц), а система NTSC использует 30 кадров
    в секунду (точнее, 29,97 fps из-за необходимости кратного
    соответствия частоте поднесущей). Компьютерное видео
    хорошего качества, как правило, использует частоту 30 кадров в
    секунду.

    View Slide

  349. Характеристики видеосигнала
    Частота кадров
    Верхняя пороговая частота мерцания, воспринимаемая
    человеческим мозгом, составляет 39–42 Гц и индивидуальна для
    каждого человека, а также зависит от условий наблюдения.
    Некоторые современные профессиональные видеокамеры могут
    снимать с частотой до 120 кадров в секунду. Специальные
    камеры снимают с частотой до 1000 кадров в секунду, что
    необходимо, например, для детального изучения траектории
    полёта пули или структуры взрыва. Сверхскоростные
    киносъёмочные аппараты могут снимать несколько миллионов
    кадров в секунду. В них киноплёнка неподвижна и расположена
    на внутренней поверхности специального барабана, а
    изображение развёртывается вращающейся призмой.
    349

    View Slide

  350. Характеристики видеосигнала
    Частота кадров
    Существует и бескадровое видео.
    Принцип работы заключается в следующем:
    светочувствительные сенсоры с большой частотой передают
    данные о своём состоянии, которые параллельно записываются
    на носитель.
    Отдельных кадров при этом нет только массивы информации
    с каждого из датчиков (пикселей) об их изменении во времени.
    При воспроизведении также нет кадров на экране пиксели
    меняют свой цвет в соответствии с записанными массивами.
    Если пиксель не менял цвет, то он и не обновляется. Для
    наилучшего просмотра такого видео требуется специальный
    монитор.
    350

    View Slide

  351. Характеристики видеосигнала
    Стандарт разложения
    Определение
    Стандарт разложения определяет параметры телевизионной
    развёртки, применяемой для преобразования двумерного
    изображения в одномерный видеосигнал или поток данных.
    В конечном счёте, от стандарта разложения зависит
    количество элементов изображения и кадровая частота.
    Развёртка может быть прогрессивной (построчной) или
    чересстрочной. При прогрессивной развёртке все
    горизонтальные линии (строки) изображения отображаются
    поочерёдно одна за другой.
    351

    View Slide

  352. Характеристики видеосигнала
    Стандарт разложения
    При чересстрочной развёртке каждый кадр разбивается на
    два поля (полукадра), каждое из которых содержит чётные или
    нечётные строки; за время одного кадра передаются два поля,
    увеличивая частоту мерцания кинескопа выше физиологического
    порога заметности. Чересстрочная развёртка была
    компромиссом, чтобы иметь возможность передачи по каналу с
    ограниченной полосой пропускания изображения с достаточно
    большой разрешающей способностью. Аналогично в
    кинопроекторах использовался двухлопастный обтюратор,
    повышающий частоту мельканий на экране с 24 до 48 Гц.
    Недостатками чересстрочной развёртки являются:
    расщепление вертикальных границ горизонтально
    движущихся объектов (эффект гребёнки );
    заметность мерцания на тонких фактурах.
    352

    View Slide

  353. Характеристики видеосигнала
    Стандарт разложения
    Несмотря на недостатки чересстрочная развёртка
    используется до сегодняшнего дня в телевидении стандартной
    чёткости вследствие повсеместного распространения
    телевизоров, поддерживающих только такие стандарты.
    Чересстрочную развёртку часто называют на английский
    манер интерлейс (interlace) или интерлейсинг.
    Телевизоры с кинескопом, оснащённые развёрткой 100 Гц,
    мерцают с частотой, которая не воспринимается глазом. В
    таких приемниках изображение с чересстрочной развёрткой
    отображается с удвоением кадров.
    ЖК- и LED-мониторы (телевизоры) вообще избавлены от
    мерцания. В таких приборах можно говорить только о скорости
    обновления изображения, поэтому чересстрочная развёртка в
    них является лишь мерой условности, не влияющей на
    отображение.

    View Slide

  354. Характеристики видеосигнала
    Стандарт разложения
    Определение
    Для подавления негативных эффектов, возникающих при
    просмотре чересстрочного видео на экране с прогрессивной
    развёрткой, применяются специальные математические
    методы, называемые деинтерлейсингом.
    Новые цифровые стандарты телевидения, например HDTV
    предусматривают прогрессивную развёртку. Новейшие
    технологии позволяют имитировать прогрессивную развёртку
    при показе видео с чересстрочной развёрткой. Последнюю
    обычно обозначают символом i после указания вертикального
    разрешения.
    Пример 6.1 (Характеристики видео с чересстрочной развёрткой)
    720 × 576i × 50
    354

    View Slide

  355. Характеристики видеосигнала
    Стандарт разложения
    Прогрессивную развёртку обозначают символом p .
    Пример 6.2 (Характеристики видео с прогрессивной развёрткой)
    1280 × 720p × 50
    Также для отличия частоты кадров или полей может
    обозначаться такими же символами кадровая частота.
    Пример 6.3 (Частота кадров видео с различной развёрткой)
    24p, 50i, 50p
    355

    View Slide

  356. Характеристики видеосигнала
    Соотношение сторон экрана
    Определение
    Aspect ratio соотношение ширины и высоты кадра (сторон
    экрана).
    Соотношение сторон важнейший параметр любой
    видеозаписи. С конца XIX века немые кинофильмы и в
    последующем фильмы классического формата имели
    соотношение сторон экрана 4:3 (4 единицы в ширину к 3
    единицам в высоту; в кинематографе записывается как 1,33:1).
    Считалось, что экран с таким соотношением сторон близок к
    полю зрения человеческого глаза.
    Появившееся вскоре телевидение переняло это соотношение и
    почти все аналоговые телесистемы (и, следовательно,
    телевизоры) имели соотношение сторон экрана 4:3. Первые
    компьютерные мониторы также унаследовали телевизионный
    стандарт соотношения сторон.
    356

    View Slide

  357. Характеристики видеосигнала
    Соотношение сторон экрана
    Однако в кинематографе уже в начале 1950-х годов с
    появлением панорамного, широкоэкранного и
    широкоформатного кино представления об идеальном экране
    пошатнулись. Широкоэкранные кинематографические системы
    обладали соотношениями сторон до 2,75:1, стремясь к
    максимальному эффекту присутствия , чтобы сделать
    границы кадра малозаметными.
    Главная причина заключается в том, что поле бинокулярного
    зрения человека приближается к соотношению 2:1. Чтобы
    приблизить форму кадра к естественному полю зрения (и,
    следовательно, усилить восприятие фильма), и разрабатывались
    киносистемы с панорамным кадром. Демонстрация
    широкоэкранных фильмов по телевидению требовала или
    обрезки изображения при помощи пансканирования, или
    добавления пустых полей сверху и снизу, чтобы вписать фильм
    в экран. Оба способа приводили к потерям частей изображения
    или его качества.

    View Slide

  358. Характеристики видеосигнала
    Соотношение сторон экрана
    Сравнение распространённых форматов кино представлено на
    рис. 6.1. Сейчас формат 1,33:1 вообще не используется в
    кинематографе, полностью уступив место кадру 1,85:1. Поэтому
    при выборе соотношения сторон экрана телевидения высокой
    чёткости был одобрен стандарт 16:9 (1,78:1), более близкий
    распространённым форматам кино.
    Рис. 6.1: Сравнение форматов
    358

    View Slide

  359. Характеристики видеосигнала
    Соотношение сторон экрана
    Цифровое телевидение стандартной чёткости в основном также
    ориентируется на соотношение 16:9, применяя цифровое
    анаморфирование. Всё это, по замыслу создателей, призвано
    глубже погрузить зрителя в атмосферу просматриваемого
    видеофильма. Есть и альтернативные объяснения перехода на
    широкий формат: возможность проката в залах, изначально не
    приспособленных для кино, стремление к ухудшению качества
    пиратских видеокопий и телевизионных копий.
    359

    View Slide

  360. Характеристики видеосигнала
    Разрешающая способность
    Любой цифровой видеосигнал, по аналогии с разрешением
    компьютерных мониторов, также характеризуется разрешением
    (горизонтальным и вертикальным), измеряемым в пикселях.
    При оцифровке аналогового видео стандартной чёткости
    разрешение составляет 720 × 5761 пикселей для европейского
    стандарта разложения 625/50 (PAL и SECAM) при частоте
    кадров 50 Герц (два поля, 2 × 25); и 720 × 480 пикселей для
    американского стандарта 525/60 (NTSC) при частоте 59,94 Герц
    (два поля, 2 × 29, 97).
    1Первым числом обозначается количество точек в строке
    (горизонтальное разрешение), а вторым числом количество активных
    строк, участвующих в построении изображения (вертикальное
    разрешение).
    360

    View Slide

  361. Характеристики видеосигнала
    Разрешающая способность
    Стандарт цифрового телевидения высокого разрешения
    HDTV (high-definition TV) предполагает разрешения до
    1920 × 1080 при частоте обновления 50 Гц (60 Гц для США) с
    прогрессивной развёрткой (1920 пикселей на строку, 1080 строк).
    Для телевидения стандартной чёткости цифровое разрешение не
    совпадает с обозначением стандарта разложения, поскольку не
    учитывает избыточную информацию, передаваемую только в
    аналоговом телевидении.
    361

    View Slide

  362. Характеристики видеосигнала
    Разрешающая способность
    Телевидение сверхвысокой чёткости или Ultra HDTV (Ultra
    High Definition Television), также UHDV (Ultra High Definition
    Video) включает в себя два уровня: 4K UHDTV (2160p) с
    разрешением 3840 × 2160 (8,3 мегапикселя) и 8K UHDTV
    (4320p) с разрешением 7680 × 4320 (33,2 мегапикселя).
    Стандарт предложен отделом японской телекомпании NHK
    NHK Science & Technical Research Laboratories и принят
    Международным союзом электросвязи в августе 2012 г.
    Телекомпания NHK уже реализовала на практике систему в
    формате 8K UHDTV. Разрешающая способность этого
    стандарта считается приблизительно равной разрешению
    кинопленки IMAX и по информационной ёмкости примерно в
    16 раз превосходит HDTV.

    View Slide

  363. Характеристики видеосигнала
    Разрешающая способность
    Разрешение трёхмерного видео измеряется в вокселях.
    Определение
    Воксель (от volumetric и pixel) элемент объёмного
    изображения, содержащий значение элемента растра в
    трёхмерном пространстве, представляющих точки в трёхмерном
    пространстве (кубики).
    Воксели являются аналогами пикселов для трёхмерного
    пространства. Воксельные модели часто используются в
    компьютерных играх (см. рис. 6.2 а), а также для визуализации
    и анализа медицинской и научной информации (см. рис. 6.2 б).
    Благодаря тому, что трёхмерная матрица хранит значение
    вокселя для каждого единичного элемента объёмного
    пространства, воксельные модели хорошо подходят для
    моделирования непрерывных сред и полей значений, в то время
    как векторные более предназначены для моделирования
    дискретных объектов.
    363

    View Slide

  364. Характеристики видеосигнала
    Разрешающая способность
    а б
    Рис. 6.2: Воксельные модели: а мухомора (8 × 8 × 8); б головы
    человека (по данным магнитно-резонансного томографа,
    64 × 64 × 150) с использованием алгоритма marching-cubes
    364

    View Slide

  365. Характеристики видеосигнала
    Разрешающая способность
    Для простого трёхмерного видео сейчас используется в
    основном разрешение 512 × 512 × 512.
    Определение
    Доксель это воксель, изменяющийся во времени.
    Как ряд картинок составляет анимацию, так и ряд воксельных
    моделей во времени могут составлять трёхмерную анимацию.
    Воксели и доксели давно используются в компьютерных играх,
    однако их использование ограниченно из-за серьёзных
    требований к аппаратной части. Чаще всего в играх воксели
    используются для отрисовки моделей. Иногда используются
    воксельные ландшафты вместо обычного поля высот это
    позволяет создавать более сложные пространства с пещерами и
    мостами. Одной из самых важных возможностей воксельных
    ландшафтов, интерьеров и объектов является возможность их
    динамического изменения и разрушения в реальном времени.
    365

    View Slide

  366. Характеристики видеосигнала
    Цветовое разрешение
    Количество цветов и цветовое разрешение видеозаписи
    описывается цветовыми моделями. В компьютерной технике
    применяется в основном RGB (и αRGB), реже HSV (HSB), а в
    печатной технике CMYK. Количество цветов, которое может
    отобразить монитор или проектор, зависит от качества
    монитора или проектора.
    Для стандарта PAL применяется цветовая модель YUV (см.
    рис. 2),
    для SECAM модель YDbDr (разновидность YUV),
    для NTSC модель YIQ.

    View Slide

  367. Характеристики видеосигнала
    Цветовое разрешение
    Рис. 6.3:
    Фотография
    и её YUV-
    компоненты
    Определение
    YUV цветовая модель, в которой цвет
    представляется как 3 компоненты яркость (Y) и
    две цветоразностных (U и V).
    Конверсия в RGB и обратно осуществляется по
    следующим формулам:
    R = Y + 1,13983 × V;
    G = Y − 0,39465 × U − 0,58060 × V;
    B = Y + 2,03211 × U.
    Y = 0,299 × R + 0,587 × G + 0,114 × B;
    U = −0,14713 × R − 0,28886 × G + 0,436 × B;
    V = 0,615 × R − 0,51499 × G − 0,10001 × B.

    View Slide

  368. Характеристики видеосигнала
    Цветовое разрешение
    Определение
    YIQ цветовая модель, в которой цвет представляется как 3
    компоненты яркость (Y) и две искусственных
    цветоразностных: I (синфазный сигнал) и Q (квадратурный
    сигнал).
    Конверсия в RGB и обратно осуществляется по следующим
    формулам:
    R = Y + 0,956 × I + 0,623 × Q;
    G = Y − 0,272 × I − 0,648 × Q;
    B = Y − 1,105 × I + 1,705 × Q.
    Y = 0,299 × R + 0,587 × G + 0,114 × B;
    I = 0,596 × R − 0,274 × G − 0,322 × B;
    Q = 0,211 × R − 0,522 × G + 0,311 × B.
    368

    View Slide

  369. Характеристики видеосигнала
    Цветовое разрешение
    Количество цветов в видеозаписи определяется числом бит,
    отведённым для кодирования цвета каждого пикселя bpp (bits
    per pixel), также как и в компьютерной графике. В
    компьютерной технике имеется стандарт и 32 бита на пиксель
    (αRGB), но этот дополнительный α-байт (8 бит) используется
    для кодирования коэффициента прозрачности пикселя (α), а не
    для передачи цвета (RGB). При обработке пикселя
    видеоадаптером RGB-значение будет изменено в зависимости от
    значения α-байта и цвета подлежащего пикселя (который станет
    виден через прозрачный пиксель), а затем α-байт будет
    отброшен и на монитор пойдёт только цветовой сигнал RGB.
    Человеческий глаз может воспринять, по разным подсчётам, от
    5 до 10 миллионов оттенков цветов.

    View Slide

  370. Характеристики видеосигнала
    Цветовое разрешение
    Определение
    Цветовая субдискретизация (chroma subsampling)
    технология кодирования изображений со снижением цветового
    разрешения, при которой частота выборки цветоразностных
    сигналов может быть меньше частоты выборки яркостного
    сигнала.
    Основана на особенности человеческого зрения, выраженной
    большей чувствительностью к перепадам яркости, чем цвета.
    Цветовая субдискретизация является важным способом
    снижения скорости цифрового потока видеоданных (цифровое
    сжатие видеоинформации).
    Используется в системах аналогового и цифрового телевидения,
    цифровой видеозаписи и алгоритмах сжатия изображений, таких
    как JPEG.
    370

    View Slide

  371. Характеристики видеосигнала
    Цветовое разрешение
    На практике кодирование изображений осуществляется
    уменьшением разрешения в цветоразностных каналах при
    сохранении разрешения в канале яркости.
    371

    View Slide

  372. Характеристики видеосигнала
    Ширина видеопотока (битрейт)
    Определение
    Ширина видеопотока (скорость), или битрейт (bit rate)
    это количество обрабатываемых бит видеоинформации за
    секунду времени (измеряется бит/с бит в секунду или,
    чаще, Мбит/с мегабит в секунду; в английском
    обозначении bit/s и Mbit/s соответственно).
    Чем выше ширина видеопотока, тем, как правило, лучше
    качество видео.
    Пример 6.4 (Битрейт)
    Для формата VideoCD битрейт ∼ 1 Мбит/с,
    для DVD ∼ 5 Мбит/с,
    для HDTV ∼ 10 Мбит/с.

    View Slide

  373. Характеристики видеосигнала
    Ширина видеопотока (битрейт)
    При помощи скорости видеопотока также очень удобно
    оценивать качество видео при его передаче через Интернет.
    Битрейт принято использовать при измерении эффективной
    скорости передачи информации по каналу, т. е. скорости
    передачи полезной информации . Помимо таковой, по каналу
    может передаваться служебная информация, например,
    стартовые и стоповые биты при асинхронной передаче по
    интерфейсу RS-232 или контрольные символы при избыточном
    кодировании.
    Определение
    Скорость передачи информации, учитывающую полную
    пропускную способность канала, измеряют в бодах.
    373

    View Slide

  374. Характеристики видеосигнала
    Ширина видеопотока (битрейт)
    По аналогии со звуковыми файлами все видеофайлы
    сжимаются с помощью различных кодеков. Видеокодеков
    существует даже больше, чем аудиокодеков, поэтому актуальна
    проблема нахождения нужного кодека для просмотра
    видеофайлов. Если необходимый кодек отсутствует в системе, то
    такое видео просмотреть не удастся. Особенностью видеофайлов
    является также то, что в них, как правило, включена и звуковая
    информация, для воспроизведения которой могут также
    понадобиться соответствующие аудиокодеки.
    В форматах потокового видео и аудио (например, MPEG и
    MP3), использующих сжатие c потерей качества, параметр
    битрейт выражает степень сжатия потока и, тем самым,
    определяет размер канала, для которого сжат поток данных.
    Чаще всего битрейт звука и видео измеряют в килобитах в
    секунду (kilobit per second, kbps), реже в мегабитах в секунду
    (в основном для видео).

    View Slide

  375. Характеристики видеосигнала
    Ширина видеопотока (битрейт)
    Различают 3 режима сжатия потоковых данных:
    1 С постоянным битрейтом (constant bit rate, CBR)
    вариант кодирования потоковых данных, при котором
    пользователь изначально задаёт необходимый битрейт,
    который не меняется на протяжении всего файла.
    Его главное достоинство возможность довольно точно
    предсказать размер конечного файла.
    Однако вариант с постоянным битрейтом не очень
    подходит для музыкальных произведений и видео, звучание
    (сцены) которых динамично изменяется во времени, так как
    не обеспечивает оптимального соотношения
    размер/качество.

    View Slide

  376. Характеристики видеосигнала
    Ширина видеопотока (битрейт)
    2 С переменным битрейтом (variable bit rate, VBR)
    кодек выбирает значение битрейта исходя из параметров
    (уровня желаемого качества), причём в течение
    кодируемого фрагмента битрейт может изменяться. При
    сжатии звука нужный битрейт определяется на основе
    психоакустической модели. Данный метод даёт наилучшее
    соотношение качество/размер выходного файла, однако
    точный его размер оказывается очень плохо предсказуем. В
    зависимости от характера звука (или изображения в случае
    кодирования видео) размер полученного файла может
    отличаться в несколько раз.
    376

    View Slide

  377. Характеристики видеосигнала
    Ширина видеопотока (битрейт)
    3 С усреднённым битрейтом (average bitrate, ABR)
    гибрид постоянного и переменного битрейтов: битрейт в
    кбит/c задаётся пользователем, а программа варьирует его
    в некоторых пределах. Однако, в отличие от VBR, кодер с
    осторожностью использует максимально и минимально
    возможные значения битрейта, дабы не рисковать выйти
    за заданную пользователем среднюю величину. Также этот
    метод позволяет наиболее гибко задавать битрейт (для
    аудио это может быть любым числом между 8 и 320 кбит/с
    против чисел, кратных 16 в методе CBR) и с гораздо
    большей (по сравнению с VBR) точностью предсказывать
    размер выходного файла.
    377

    View Slide

  378. Характеристики видеосигнала
    Ширина видеопотока (битрейт)
    Концепция VBR сейчас очень популярна, она призвана
    максимально сохранить качество видео, уменьшая при этом
    суммарный объём передаваемого видеопотока. В VBR на
    быстрых сценах движения ширина видеопотока возрастает, а на
    медленных сценах, где картинка меняется медленно, ширина
    потока падает. Это очень удобно для буферизованных
    видеотрансляций и передачи сохранённого видеоматериала по
    компьютерным сетям. Но для безбуферных систем реального
    времени и для прямого эфира (например, для телеконференций)
    это не подходит в этих случаях необходимо использовать
    постоянную скорость видеопотока.

    View Slide

  379. Формирование цифрового видеосигнала
    379

    View Slide

  380. Формирование цифрового видеосигнала
    Компонентное видео
    Оптическое изображение формируется с помощью объектива на
    светочувствительной матрице современных видео- и
    телевизионных камер, цифровых фотоаппаратов,
    фотовидеокамер мобильных телефонов, смартфонов или
    планшетов, веб-камер, камер систем видеонаблюдения и многих
    других устройств. С помощью различных систем производится
    цветоделение светового потока для получения монохромных
    полутоновых компонент трёх основных цветов с последующем их
    кодированием в модели YCbCr.
    380

    View Slide

  381. Формирование цифрового видеосигнала
    Компонентное видео
    Определение
    YCbCr (YCbCr), или Y’CbCr
    (Y’CbCr), или Y Pb/Cb Pr/Cr
    семейство цветовых
    пространств, которое
    используются для передачи
    цветных изображений в видео и
    цифровой фотографии, где Y
    компонента яркости (Y’
    означает, что интенсивность
    света кодируется нелинейно с
    помощью гамма-коррекции), Cb
    и Cr являются синей и красной
    цветоразностными
    компонентами (см. рис. 6.4).
    Рис. 6.4: Плоскость CbCr при
    постоянной яркости Y’=0,5
    381

    View Slide

  382. Формирование цифрового видеосигнала
    Компонентное видео
    Y’CbCr не является абсолютным цветовым пространством,
    скорее, это способ кодирования информации сигналов RGB.
    Для систем отображения используются сигналы основных
    цветов RGB (красный, зелёный и синий). Эти сигналы не
    являются эффективными для хранения и передачи
    изображений, так как они имеют большую избыточность.
    382

    View Slide

  383. Формирование цифрового видеосигнала
    Компонентное видео
    Рис. 6.5: Цветное изображение
    и его компоненты Y, Cb и Cr
    Перевод в систему Y’CbCr
    позволяет передать информацию о
    яркости с полным разрешением, а
    для цветоразностных компонент
    произвести субдискретизацию, т. е.
    выборку с уменьшением числа
    передаваемых элементов
    изображения, так как человеческий
    глаз менее чувствителен к
    перепадам цвета. Это повышает
    эффективность системы, позволяя
    уменьшить поток видеоданных.
    Значение, выраженное в Y’CbCr,
    будет предсказуемо, если первично
    использовались сигналы основных
    цветов RGB.
    383

    View Slide

  384. Формирование цифрового видеосигнала
    Компонентное видео
    Y’CbCr часто путают с цветовым пространством YUV, и, как
    правило, термины YCbCr и YUV используются как
    взаимозаменяемые, что приводит к некоторой путанице. Когда
    речь идёт о видео или сигналах в цифровой форме, термин
    YUV в основном означает Y’CbCr.
    Сигналы Y’CbCr (до нормирования и смещения для перевода
    сигналов в цифровую форму) называют YPbPr.

    View Slide

  385. Формирование цифрового видеосигнала
    Компонентное видео
    Они формируются с применением гамма-коррекции из
    соответствующих RGB источников следующим образом:
    Y = KR · R + (1 − KR − KB) · G + KB · B
    PB =
    1
    2
    ·
    B − Y
    1 − KB
    PR =
    1
    2
    ·
    R − Y
    1 − KR
    ,
    где KB и KR коэффициенты, которые обычно выводятся из
    определения соответствующего пространства RGB.
    Здесь апостроф ’ означает компоненты с гамма-коррекцией,
    поэтому R , G и B располагаются в пределах от 0 до 1, где 0
    соответствует минимальной интенсивности (например, для
    отображения чёрного цвета) и 1 соответствует максимуму
    (например, для отображения белого цвета).
    385

    View Slide

  386. Формирование цифрового видеосигнала
    Компонентное видео
    Результирующее значение яркости (Y) будет иметь пределы от 0
    до 1, а значения цветности (PB и PR) будут расположены в
    пределах от −0,5 до +0,5. Обратный процесс преобразования
    может быть легко получен путём обращения представленных
    выше уравнений.
    При представлении сигналов в цифровой форме результат
    нормируется и округляется и, как правило, добавляется
    смещение. Так, например, нормирование и смещение,
    применяемое к компоненте Y’ согласно спецификации
    (например, MPEG-2), приводит к значению 16 для чёрного и
    значению 235 для белого при использовании 8-битного
    представления. Стандарт имеет 8-битные цифровые версии Cb и
    Cr, нормированные в другом диапазоне: от 16 до 240.

    View Slide

  387. Формирование цифрового видеосигнала
    Компонентное видео
    Нормирование приводит к использованию меньшего диапазона
    цифровых значений. В этом случае имеется некоторый запас,
    который может быть использован в случае превышения порога
    входными данными, таким образом устраняя необходимость их
    отсечения. Дополнительные диапазоны могут быть
    использованы для расширения цветовой палитры, как,
    например, в пространстве xvYCC .
    Так как в пространстве YCRCB можно представить существенно
    более широкую гамму значений сигнала, чем поддерживаемая в
    соответствующих диапазонах сигналов R, G и B, то существует
    вероятность получения таких сигналов Y, CR и CB, которые,
    несмотря на пригодность каждого из них по отдельности, могут
    при преобразовании к RGB привести к получению значений,
    лежащих вне допустимых пределов.
    387

    View Slide

  388. Формирование цифрового видеосигнала
    Компонентное видео
    Это можно предотвратить, наложив ограничения на сигналы Y,
    CR и CB, также такие ограничения применяются для
    поддержания значений яркости и цветовых оттенков, при этом
    субъективные искажения минимизируются посредством потери
    только насыщенности цвета.
    Форма Y’CbCr, которая была определена для телевидения
    стандартной чёткости (стандарт МСЭ-R BT.601, бывшая CCIR
    601) для использования с цифровыми компонентным видео, она
    формируется из соответствующего пространства RGB
    следующим образом: KB = 0,114, KR = 0,299.

    View Slide

  389. Формирование цифрового видеосигнала
    Одноматричные системы
    Видеосигнал формируется из последовательности кадров
    отдельных изображений, элементы которого считываются со
    светочувствительного элемента камеры (ПЗС1 или
    КМОП-матрица2). Для получения цветного видеоизображения
    применяют специальную RGB-фильтрацию элементов
    изображения, чтобы на каждый отдельный элемент (пиксель)
    приходилось по три значения цвета красного, зелёного и
    синего.
    Такой метод применяется в недорогих одноматричных
    видеокамерах, во всех цифровых фотоаппаратах с поддержкой
    видеозаписи и других видах устройств, где к качеству
    видеозаписи не предъявляются повышенные требования.
    1ПЗС (прибор с зарядовой связью) специализированная аналоговая
    интегральная микросхема, состоящая из светочувствительных фотодиодов,
    выполненная на основе кремния.
    2КМОП-матрица светочувствительная матрица, выполненная на
    основе КМОП-технологии.

    View Slide

  390. Формирование цифрового видеосигнала
    Трёхматричные системы
    Для профессиональной видеосъёмки применяются более
    сложные трёхматричные системы, где оптическое
    цветоделение производится при помощи дихроичной призмы.
    Каждое из цветоделённых изображений попадает на отдельную
    матрицу, с которой считываются элементы кадра, затем
    формируется видеосигнал отдельной компоненты.
    Рис. 6.6: Преобразование полученных с трёх ПЗС-матриц компонент
    RGB в Y’CrCb
    390

    View Slide

  391. Формирование цифрового видеосигнала
    Трёхматричные системы
    После применения гамма-коррекции сигналов R, G, B
    производится их преобразование для получения сигнала яркости
    Y’ и двух цветоразностных сигналов: R’-Y’ и B’-Y’.
    Для перевода компонентного видеосигнала в цифровую форму
    применяется кодирование по следующим формулам (в
    соответствии с рекомендациями ITU-R 601):
    Y = 0,299 · R + 0,587 · G + 0,114 · B ,
    CR = 0,713 · (R − Y ),
    CB = 0,564 · (B − Y ).
    При передаче таких сигналов возможно восстановление
    исходных составляющих цветов: красной (R), синей (B) и
    зелёной (G), которые используются в большинстве систем
    отображения видеоинформации, например в мониторах.
    391

    View Slide

  392. Формирование цифрового видеосигнала
    Уровни видео
    Полученные компоненты Y’, Cr, Cb квантуются с разрядностью 8
    или 10 бит. Однако не все уровни используются для передачи
    сигналов яркости. Для 8 битного кодирования из 256 доступных
    уровней только 220 используются для передачи сигнала яркости
    (диапазон 16-235), а остальные для сигналов синхронизации.
    При 10-битном кодировании для передачи сигнала яркости
    используется 877 уровней. Для цветовых компонент
    используется только 225 уровней в 8-битной системе и только
    897 дискретных уровней видео в 10-битной системе.
    392

    View Slide

  393. Форматы цифрового кодирования и сжатия
    393

    View Slide

  394. Форматы цифрового кодирования и сжатия
    Видеопоток
    Как уже говорилось, видеопоток это временная
    последовательность кадров определённого формата,
    закодированная в битовый поток.
    Расчёт размера получаемого видеофайла, содержащего
    несжатый видеопоток, производится исходя из размера кадра
    (W и H), частоты кадров (F), глубины цвета (b) и цветовой
    субдискретизации (основные форматы субдискретизации см. на
    рис. 6.7).

    View Slide

  395. Форматы цифрового кодирования и сжатия
    Видеопоток
    Рис. 6.7: Основные форматы цветовой субдискретизации
    395

    View Slide

  396. Форматы цифрового кодирования и сжатия
    Видеопоток
    Пример 6.5 (Скорость передачи несжатого видеопотока с
    чересстрочной развёрткой разрядностью 10 бит и цветовой
    субдискретизацией 4:2:2)
    Для представления в пространстве Y’, Cr, Cb расчитываются
    следующие составляющие:
    количество пикселей в кадре для яркостной
    компоненты = 720 × 576 = 414720;
    количество пикселей в кадре для каждой цветностной
    компоненты = 360 × 576 = 207360;
    число битов в кадре
    = 10 × 414720 + 10 × 207360 × 2 = 8294400 = 8,29 Мбит;
    скорость передачи данных (BR)
    = 8,29 × 25 = 207,36 Мбит/с;
    размер видео = 207,36 Мбит/с · 3600 с = 746496 Мбит =
    93312 Мбайт = 86,9 ГБ.

    View Slide

  397. Форматы цифрового кодирования и сжатия
    Видеопоток
    Расчёт скорости передачи данных:
    для формата 4:4:4
    R = b × 3 × W × H × F;
    для формата 4:2:2
    R = b×(W +0,5×W ×2)×H×F = b×2×W ×H×F;
    для формата 4:1:1
    R = b×(W+0,25×W×2)×H×F = b×1,5×W×H×F;
    для формата 4:2:0
    R = b×(W×H+0,5×W×0,5×H×2)×F = b×1,5×W×H×F.
    Здесь R скорость передачи данных, бит/с; W и H ширина
    и высота кадра в пикселях; b разрядность для каждой
    компоненты, бит на пиксель; F кадровая частота, кадров/с.

    View Slide

  398. Форматы цифрового кодирования и сжатия
    Видеокомпрессия
    Из-за относительно высокой скорости передачи несжатого
    видеопотока широко используются алгоритмы сжатия видео
    видеокомпрессии. Видеокомпрессия позволяет сократить
    избыточность видеоданных и уменьшить передаваемый поток,
    юлагодаря чему можно передавать видео по каналам связи с
    меньшей пропускной способностью или сохранять видеофайлы
    на носителях с меньшей ёмкостью.

    View Slide

  399. Форматы цифрового кодирования и сжатия
    Видеокомпрессия
    Одна из наиболее мощных технологий, позволяющих повысить
    степень сжатия, это компенсация движения. При любой
    современной системе сжатия видео последующие кадры в потоке
    используют похожесть областей в предыдущих кадрах для
    увеличения степени сжатия. Однако из-за движения каких-либо
    объектов в кадре (или самой камеры) использование подобия
    соседних кадров было неполным.
    Технология компенсации движения позволяет находить
    похожие участки, даже если они сдвинуты относительно
    предыдущего кадра.

    View Slide

  400. Форматы цифрового кодирования и сжатия
    Видеокомпрессия
    Современное цифровое телевещание стало доступным именно
    благодаря видеокомпрессии. Телевизионные станции могут
    транслировать не только видео высокой чёткости (HDTV), но и
    несколько телеканалов в одном физическом телеканале (6 МГц).
    Хотя большинство видеоконтента сегодня транслируется с
    использованием стандарта сжатия видео MPEG-2, тем не менее,
    новые и более эффективные стандарты сжатия видео уже
    используются в телевещании, например, H.264 и VC-1.
    400

    View Slide

  401. Форматы цифрового кодирования и сжатия
    Форматы цифровой видеозаписи
    Кроме разнообразия кодеков работу с видеофайлами усложняет
    наличие большого числа форматов файлов. Форматы AVI,
    MPG, MOV , MKV одни из самых распространённых. Файлы
    этих форматов могут свободно копироваться, работа с ними не
    отличается от работы с другими файлами. Однако существуют и
    другие форматы, в которые встроена защита от копирования.
    Такие файлы нельзя обычным способом скопировать с одного
    диска на другой. Их можно только просматривать на
    компьютере или бытовой видеоаппаратуре.
    Однако, несмотря на наличие вышеупомянутых проблем, на
    правильно настроенном компьютере воспроизведение
    видеофайлов не сложнее воспроизведения аудиофайлов и так же
    осуществляется с помощью плейеров.

    View Slide

  402. Форматы цифрового кодирования и сжатия
    Форматы цифровой видеозаписи
    Встроенный в настольные ОС (Windows, GNU/Linux, Mac)
    плейеры могут воспроизводить не только музыку, но и видео,
    поэтому при вставке в дисковод компакт-диска с видеозаписью
    или DVD автоматически начинается его воспроизведение. Кроме
    встроенного плейера можно устанавливать и использовать
    другие видеопроигрыватели (перечень наиболее
    распространённых медиаплееров приводился ранее, на стр. 320).
    Большинство из них также оснащены различными функциями
    для удобного просмотра фильмов.
    402

    View Slide

  403. Форматы цифрового кодирования и сжатия
    Форматы цифровой видеозаписи
    Медиаконтейнер
    Определение
    Медиаконтейнер (media container) или
    мультимедиаконтейнер формат файла или потоковый
    формат (поток необязательно должен быть сохранён в виде
    файла), чьи спецификации определяют только способ
    сохранения данных (а не алгоритм кодирования) в пределах
    одного файла.
    Медиаконтейнер определяет, сколько метаданных фактически
    может быть сохранено, вместе с тем, он не определяет
    кодирование самих данных. Медиаконтейнер фактически
    является метаформатом, так как он хранит данные и
    информацию о том, как данные будут сохраняться
    непосредственно внутри файла.

    View Slide

  404. Форматы цифрового кодирования и сжатия
    Форматы цифровой видеозаписи
    Как следствие из этого, программа, которая способна корректно
    идентифицировать и открыть файл (прочитать поток),
    записанный в каком-либо формате, впоследствии может быть не
    способна декодировать фактические данные, записанные внутри
    медиаконтейнера, так как или метаданные в медиаконтейнере
    являются недостаточными, или программное обеспечение
    неспособно декодировать данные, закодированные в
    медиаконтейнере.
    В теории формат-контейнер способен хранить любой тип
    данных, однако на практике для каждого типа данных
    существуют отдельные группы контейнеров. Эти группы
    настроены для специфических требований и информации,
    которая будет сохраняться в них. Медиаконтейнеры являются
    типичным примером такой группы файловых контейнеров,
    которые предназначены для сохранения медиаинформации,
    которая условно делится на изображения, видео и аудио.

    View Slide

  405. Форматы цифрового кодирования и сжатия
    Форматы цифровой видеозаписи
    В случае фильмов медиаконтейнер должен не только сохранять
    видео- и аудиопоток, но и при воспроизведении обеспечивать их
    синхронизацию.
    Также в медиаконтейнере может сохраняться несколько
    однотипных потоков, например фильм (видеопоток) с
    несколькими звуковыми дорожками (аудиопотоками) и
    субтитрами (текстовыми потоками).
    Некоторые медиаконтейнеры предназначены для сохранения
    только аудиоданных: AIFF (формат файла IFF, широко
    используемый на платформе Mac OS), WAV (формат файла
    RIFF, широко используемый на платформе Microsoft Windows),
    XMF (Extensible Music Format расширяемый формат музыки).
    Некоторые медиаконтейнеры предназначены для сохранения
    только статических изображений: TIFF, FITS (Flexible Image
    Transport System гибкая транспортная система изображения)
    медиаконтейнер для статичных изображений, необработанных
    данных (raw data) и связанных метаданных.

    View Slide

  406. Форматы цифрового кодирования и сжатия
    Форматы цифровой видеозаписи
    Большинство медиаконтейнеров приспособлено для сохранения
    всех или почти всех типов медиаинформации, включая аудио,
    видео и текст.
    3gp (.3gp) используется на многих мобильных телефонах
    (основан на стандартизированном ISO формате медиафайлов,
    определён спецификаций MPEG-4 Part 12).
    ANIM для цифровой анимации на линейке классических
    компьютеров Commodore Amiga, следует основным
    спецификациям IFF ILBM (формат для хранения растровых
    изображений).
    ASF (.asf) (Advanced Systems Format продвинутый
    системный формат) стандартный медиаконтейнер для
    форматов Microsoft WMA и WMV .
    406

    View Slide

  407. Форматы цифрового кодирования и сжатия
    Форматы цифровой видеозаписи
    AVI (.avi) (Audio Video Interleave чередование аудио и
    видео) стандартный для Windows, базируется на формате
    RIFF, один из самых распространённых.
    CDXL устаревший медиаконтейнер, разработанный
    корпорацией Commodore International в конце 1980-х и
    начале 1990-х гг. для компьютерной платформы Amiga.
    DVR-MS (.dvr) (Digital Video Recording Microsoft)
    проприетарный, разработанный Microsoft и базирующийся на
    ASF, использует видео стандарта MPEG-2 и аудио стандартов
    MPEG-1 Layer II или Dolby Digital AC-3 (ATSC A/52).
    IFF (.iff) (Interchange File Format чередующийся
    файловый формат) первый платформенно-независимый
    медиаконтейнер.

    View Slide

  408. Форматы цифрового кодирования и сжатия
    Форматы цифровой видеозаписи
    FLV (.flv) (Flash Video) медиаконтейнер, используемый
    для передачи видео через Интернет. Используется многими
    сервисами видеохостинга, такими как YouTube, Google Video,
    RuTube, Вконтакте. Хотя описание формата контейнера было
    открыто, кодеки защищены патентами и остаются
    собственническими.
    Matroska (.mkv) (MKV , Матрёшка) открытый свободный
    стандарт и медиаконтейнер.
    MPEG-TS (.mpg, .mpeg) (MPEG-2 transport stream
    транспортный поток MPEG) для цифрового
    широковещательного телевидения. Содержит несколько видео- и
    аудиопотоков и расписание телепрограмм (Electronic Program
    Guide).

    View Slide

  409. Форматы цифрового кодирования и сжатия
    Форматы цифровой видеозаписи
    MP4 (.mp4) (MPEG-4 Part 14) медиаконтейнер,
    поддерживающий аудио и видео из группы MPEG-4.
    M4V (.m4v) на базе MPEG-4 Part 14 с добавлением
    возможности DRM-защиты1 и поддержки кодека AC32.
    MOV (.mov) разработан Apple для мультимедийного
    фреймворка QuickTime.
    1DRM (digital rights management) технические средства защиты
    авторских прав, программные или программно-аппаратные средства,
    которые затрудняют создание копий защищаемых произведений
    (распространяемых в электронной форме), либо позволяют отследить
    создание таких копий.
    2AC3 аудиокодек системы Dolby Digital.

    View Slide

  410. Форматы цифрового кодирования и сжатия
    Форматы цифровой видеозаписи
    MXF (.mxv) (Material eXchange Format формат обмена
    данными) контейнер для профессионального хранения и
    обработки видео- и аудиоматериалов.
    Ogg (.ogg) для аудиокодека Vorbis от Xiph.org и
    видеокодека Theora мультимедиапроекта Ogg.
    OGM (.ogm) (Ogg Media) для кодеков от Xiph.org, более не
    поддерживаемый и формально отторгнутый Xiph.org.
    RealMedia (.rm, .ram, .rmvb) проприетарный стандарт
    фирмы RealNetworks Products and Services на формат
    медиафайлов и на потоковое вещание (RealVideo и RealAudio).
    410

    View Slide

  411. Форматы цифрового кодирования и сжатия
    Форматы цифровой видеозаписи
    RIFF (Resource Interchange File Format) для хранения
    потоковых мультимедиа-данных (видео, аудио, возможно текст).
    Наиболее известными форматами, использующими этот
    контейнер, являются: AVI (видео), WAV (аудио), RMI
    (MIDI-треки).
    VOB (.vob) (DVD-Video Object или Versioned Object Base)
    формат файлов, используемый для хранения DVD-Video. VOB
    это мультимедийный контейнерный формат файла, основанный
    на MPEG-2, и способный содержать в себе несколько потоков
    видео/аудио, субтитры, а также меню фильма.
    WMV (.wmv) (Windows Media Video) система
    видеокодирования, разработанная Microsoft для хранения и
    трансляции видеоинформации в проприетарных форматах
    Microsoft. Входит в мультимедийный пакет Windows Media.
    411

    View Slide

  412. Дополнительная литература I
    Петров, М. Компьютерная графика [Текст] / М. Петров,
    В. Молочков.
    Второе изд.
    СПб.: Питер, 2006.
    816 с.: ил.; 70 × 100/16 мм (170 × 240 мм, увеличенный).
    ISBN 5-94723-758-X.
    Алгоритмические основы растровой машинной графики
    [Текст] / Д. В. Иванов, А. С. Карпов, Кузьмин и др.
    М.: Интерент-Университет Информационных Технологий;
    БИНОМ. Лаборатория знаний, 2007.
    286 с. (Основы информатики и математики).
    ISBN 978-5-94774-654-9.
    412

    View Slide

  413. Дополнительная литература II
    Спиридонов, О. Создание видеоуроков в camtasia studio
    [Электронный ресурс] / О. Спиридонов.
    М.: Интернет-университет информационных технологий
    ИНТУИТ.ру, 2012. Режим доступа:
    http://www.intuit.ru/studies/courses/2290/590/info.
    Каллахан, И. Практика разработки web-страниц
    [Электронный ресурс] / Ивэн Каллахан.
    М.: Интернет-университет информационных технологий
    ИНТУИТ.ру, 2006. Режим доступа:
    http://www.intuit.ru/studies/courses/120/120/info.
    Ватолин, Д. С. Методы сжатия изображений
    [Электронный ресурс] / Д. С. Ватолин.
    М.: Интернет-университет информационных технологий
    ИНТУИТ.ру, 2007. Режим доступа: http:
    //www.intuit.ru/department/graphics/compression/.
    413

    View Slide

  414. Часть VII
    Интернет/интранет технологии

    View Slide

  415. Содержание I
    29 Основные понятия
    Интернет
    Интранет
    30 История Интернет
    Современное состояние
    Интернет в России
    31 Юридические аспекты
    32 Интернет-технологии
    Электронная почта
    Передача файлов
    Новости
    World Wide Web
    Платёжная система
    IP-телефония
    Интернет-радио
    Интернет-телевидение
    33 Интранет
    415

    View Slide

  416. Содержание II
    Программные компоненты
    Преимущества и недостатки
    Готовые решения интранет-технологий

    View Slide

  417. Основные понятия
    417

    View Slide

  418. Основные понятия
    Интернет
    Определение
    Интернет (Internet, от Interconnected Networks объединённые
    сети; сленг. инет, нет) глобальная телекоммуникационная
    сеть информационных и вычислительных ресурсов.
    Интернет служит физической основой для WWW (World Wide
    Web Всемирная паутина). Часто упоминается как
    Всемирная сеть, Глобальная сеть, либо просто Сеть (см.
    рис. 7.1).
    Когда слово интернет (internet) написано со строчной буквы,
    оно означает просто объединение сетей (interconnected networks)
    посредством маршрутизации пакетов данных. В этом случае не
    имеется в виду глобальное информационное пространство
    Интернет (Internet). В неанглоязычной или нетехнической
    среде эти понятия обычно не различают.
    418

    View Slide

  419. Основные понятия
    Интернет
    Рис. 7.1: Примерное графическое изображение связей между сетями
    Интернета (изображены только связи между серверами)
    419

    View Slide

  420. Основные понятия
    Интернет
    Словарь русского языка Российской академии наук под
    редакцией В. В. Лопатина рекомендует написание слова с
    прописной буквы: Интернет (род. падеж Интернета).
    Написание со строчной буквы используется в сложных словах,
    таких как интернет-портал , интернет-магазин .
    В настоящее время, когда слово Интернет употребляется в
    обиходе, чаще всего имеется в виду Всемирная паутина и
    доступная в ней информация, а не сама физическая сеть.
    420

    View Slide

  421. Основные понятия
    Интранет
    Определение
    Интранет (intranet, также употребляется термин
    интрасеть ) внутренняя частная сеть организации.
    Термин впервые появился 19 апреля 1995 г. в Digital News &
    Review в статье технического редактора Стивена Лотона
    (Stephen Lawton).
    Интранет это Интернет в миниатюре, который основан на
    протоколе IP для обмена и совместного использования
    некоторой информации внутри организации. Это могут быть
    списки сотрудников, списки телефонов партнёров и заказчиков.
    Чаще всего под этим термином имеют в виду только видимую
    часть интранет внутренний веб-сайт организации.

    View Slide

  422. Основные понятия
    Интранет
    Основанный на базовых протоколах HTTP и HTTPS и
    организованный по принципу клиент-сервер, интранет-сайт
    доступен с любого компьютера через браузер. Таким образом,
    интранет это как бы частный Интернет, ограниченный
    виртуальным пространством отдельно взятой организации.
    Интранет может использовать защищённые публичные каналы
    связи (VPN), входящие в Интернет, с защитой передаваемых
    данных и мерами по пресечению проникновения извне на
    корпоративные узлы.
    Приложения в интранет основаны на применении
    интернет-технологий, в первую очередь, веб-технологий.

    View Slide

  423. История Интернет
    В 1957 г. после запуска Советским Союзом искусственного
    спутника Земли Министерство обороны США
    посчитало, что на случай войны Америке нужна
    надёжная система передачи информации.
    Агентство передовых оборонных исследовательских
    проектов США (DARPA) предложило разработать
    компьютерную сеть. Разработка такой сети была
    поручена Калифорнийскому университету в
    Лос-Анджелесе, Стэнфордскому
    исследовательскому центру, Университету штата
    Юта и Университету штата Калифорния в
    Санта-Барбаре.

    View Slide

  424. История Интернет
    В 1969 г. сеть |textbf]ARPANET (Advanced Research
    Projects Agency Network) объединила четыре
    учреждения-разработчика. Эти работы
    финансировались Министерством обороны США.
    Затем сеть ARPANET начала активно расти и
    развиваться, её начали использовать учёные из
    разных областей науки.
    Первый сервер ARPANET был установлен 1
    сентября 1969 года в Калифорнийском
    университете в Лос-Анджелесе, на компьютере
    Honeywell DP-516 с 24 кБ оперативной памяти.
    К 1971 г. была разработана первая программа для отправки
    электронной почты по сети. Эта программа сразу
    стала очень популярна.

    View Slide

  425. История Интернет
    В 1973 г. к сети были подключены через трансатлантический
    телефонный кабель первые иностранные
    организации из Великобритании и Норвегии, сеть
    стала международной.
    В 1970-х годах сеть в основном использовалась для
    пересылки электронной почты, тогда же
    появились первые списки почтовой рассылки,
    новостные группы и доски объявлений. Однако
    в то время сеть ещё не могла легко
    взаимодействовать с другими сетями,
    построенными на других технических стандартах. К
    концу 1970-х годов начали бурно развиваться
    протоколы передачи данных, которые были
    стандартизированы в 1982 83 годах.

    View Slide

  426. История Интернет
    1 января 1983 г. сеть ARPANET перешла с протокола NCP на
    TCP/IP, который успешно применяется до сих пор
    для объединения (или, как ещё говорят,
    наслоения ) сетей. Именно в 1983 г. термин
    Интернет закрепился за сетью ARPANET.
    В 1984 г. была разработана система доменных имён
    (Domain Name System, DNS).
    У сети ARPANET появился серьёзный соперник:
    Национальный научный фонд США (NSF) основал
    обширную межуниверситетскую сеть NSFNet
    (National Science Foundation Network), которая
    включала более мелкие сети (в том числе Usenet и
    Bitnet) и имела гораздо б´
    ольшую пропускную
    способность, чем ARPANET. К этой сети за год
    подключились около 10 000. компьютеров, звание
    Интернет начало плавно переходить к NSFNet.

    View Slide

  427. История Интернет
    В 1988 г. был разработан протокол IRC (Internet Relay Chat),
    благодаря чему в Интернете стало возможно
    общение в реальном времени (чат).
    В 1989 г. в Европейском совете по ядерным исследованиям
    (Conseil Europ´
    een pour la Recherche Nucl´
    eaire,
    CERN) родилась концепция Всемирной паутины. Её
    предложил знаменитый британский учёный Тим
    Бернерс-Ли (Timothy John Tim Berners-Lee), в
    течение двух лет он разработал HTTP, HTML и
    URL.
    В 1990 г. ARPANET прекратила своё существование,
    полностью проиграв конкуренцию NSFNet.
    Состоялось первое подключение к Интернету по
    телефонной линии (так называемый дозвон
    Dialup access).
    427

    View Slide

  428. История Интернет
    В 1991 г. WWW стала общедоступна в Интернете.
    В 1993 г. Появился веб-браузер NCSA Mosaic. Всемирная
    паутина набирала популярность.
    В 1995 г. NSFNet вернулась к роли исследовательской сети.
    Маршрутизацией всего трафика Интернета стали
    заниматься сетевые провайдеры, а не
    суперкомпьютеры Национального научного фонда.
    WWW стала основным поставщиком
    информации в Интернете, обогнав по трафику
    протокол пересылки файлов FTP.
    Был образован Консорциум WWW (W3C).

    View Slide

  429. История Интернет
    В 1990-е годы Интернет объединил в себе большинство
    существовавших тогда сетей (хотя некоторые, как Фидонет,
    остались обособленными). Объединение выглядело
    привлекательным благодаря отсутствию единого руководства, а
    также открытости технических стандартов Интернета, что
    делало сети независимыми от бизнеса и конкретных компаний.
    Можно сказать, что Всемирная паутина преобразила
    Интернет и создала его современный облик. С 1996 г.
    Всемирная паутина почти полностью подменяет собой понятие
    Интернет .
    К 1997 г. в Интернете насчитывалось ∼ 107 компьютеров,
    было зарегистрировано более 106 доменных имён. Интернет
    стал очень популярным средством для обмена информацией.
    В течение пяти лет Интернет достиг аудитории свыше 50
    миллионов пользователей. Другим средствам массовой
    информации требовалось гораздо больше времени для
    достижения такой популярности.

    View Slide

  430. История Интернет
    Современное состояние
    Эксперты подсчитали, что число пользователей Интернета в
    мире к концу 2013 г. достигнет 2,7 млрд. человек (39%
    населения Земли). Европа сохраняет за собой лидерство в
    обеспечении доступа населения к Интернету. Там всемирной
    паутиной охвачено 75% жителей. Стоимость услуг
    фиксированной широкополосной связи за последние пять лет
    снизилась на 82%. Это позволило увеличить число людей,
    подключенных к такой связи на дому. В Европе самая дешёвая
    широкополосная связь (если соизмерять её с валовым
    национальным доходом на душу населения).
    По количеству пользователей Интернета первое место в мире
    занимает Китай: 564 млн. человек. Далее идут США, Япония,
    Индия и Бразилия.

    View Slide

  431. История Интернет
    Современное состояние
    В настоящее время подключиться к Интернету можно через
    спутники связи, радиоканалы, кабельное телевидение, телефон,
    сотовую связь, специальные оптико-волоконные линии и даже
    электропровода. Всемирная сеть стала неотъемлемой частью
    жизни в развитых и развивающихся странах.
    Рост числа мобильных пользователей делает распространение
    глобальной сети подлинно повсеместным. К концу 2008 года
    количество устройств, подключенных к Интернету, превысило
    1,5 млрд, включая компьютеры, телефоны и игровые приставки.
    В 2013 году число мобильных устройств, подключенных к
    Интернету, превзошло количество персональных компьютеров.

    View Slide

  432. История Интернет
    Современное состояние
    Кроме того, ожидается большой приток т. н. интернет-вещей
    физических объектов, подключенных к Интернету. Сегодня
    из полутора триллионов различных предметов к Интернету
    подключено лишь 10 миллиардов (в 2000 г. таких было лишь 200
    миллионов). Как ожидается, к 2022 г. к Интернету подключат
    50 миллиардов физических объектов.
    432

    View Slide

  433. История Интернет
    Современное состояние
    Устройства становятся всё более миниатюрными, и скоро
    физические объекты, подключенные к Интернету, будет трудно
    заметить невооружённым глазом:
    компьютеры размером с крупинку соли (1 × 1 × 1 мм) будут
    включать в себя солнечную батарею, тонкоплёночную
    батарейку, оперативную память, датчик давления,
    беспроводное радиоустройство и антенну;
    видеокамеры размером с зерно (1 × 1 × 1 мм) уже сегодня
    работают с разрешением 250 × 250 пикселей;
    датчики размером с пылинку (0,05 × 0,005 мм) могут
    измерять температуру и давление, распознавать движение и
    передавать по Сети полученные данные.
    433

    View Slide

  434. История Интернет
    Современное состояние
    Впрочем, как отмечают аналитики, Интернет пока не обогнал по
    популярности другие информационные источники.
    10% пользователей обращаются к онлайновым ресурсам
    ежедневно,
    9% выходят в Интернет несколько раз в неделю,
    7% несколько раз в месяц,
    3% эпизодически (не менее одного раза в полгода).
    Всемирная компьютерная сеть Интернет вместе с ПК образует
    технологическую основу для развития международной
    концепции Всемирного информационного общества .
    434

    View Slide

  435. История Интернет
    Интернет в России
    Свобода доступа пользователей Интернета к информационным
    ресурсам не ограничивается государственными границами и/или
    национальными доменами, но языковые границы сохраняются.
    Преобладающим языком Интернета является английский язык.
    Вторым по популярности является китайский язык, а третьим
    испанский. Русский язык занимает 9 место.
    Язык является одним из часто используемых признаков деления
    Интернета, наряду с делением по государствам, регионам и
    доменам первого уровня. Название языковых сфер Интернета
    даётся по названию используемого языка.
    Определение
    Русскоязычная часть Интернета получила название Русский
    Интернет , или Рунет.
    435

    View Slide

  436. История Интернет
    Интернет в России
    Более узкое определение гласит, что
    Определение
    Рунет это часть Всемирной паутины, принадлежащая к
    национальным доменам .su, .ru и .рф.
    1987–1994 годы стали ключевыми в зарождении русскоязычного
    Интернета. 28 августа 1990 года профессиональная научная
    сеть, выросшая в недрах Института атомной энергии им.
    И. В. Курчатова и ИПК Минавтопрома и объединившая
    учёных-физиков и программистов, соединилась с мировой сетью
    Интернет, положив начало современным российским сетям. 19
    сентября 1990 года был зарегистрирован домен первого уровня
    .su в базе данных Международного информационного центра
    InterNIC. В результате этого Советский Союз стал доступен
    через Интернет. 7 апреля 1994 года в InterNIC был
    зарегистрирован российский домен .ru.
    436

    View Slide

  437. История Интернет
    Интернет в России
    Домен .рф позволяет использовать в доменном имени
    кириллические символы. По статистике Технического центра
    Интернет , на конец 2010 года в зоне .рф зарегистрировано
    около 700 тыс. доменов. По данным Координационного центра
    национального домена сети Интернет, из доменных имён в зоне
    .рф, зарегистрированных к настоящему времени, только 8%
    представляют собой общеупотребительные слова русского
    языка. Ещё 30% образованы несколькими словами, все
    остальные домены представляют собой имена людей,
    литературных персонажей, названий компаний. Подавляющее
    большинство имён принадлежит владельцам товарных знаков.
    Почти половина имён была зарегистрирована в Москве, ещё 9%
    в Московской области, 8% в Санкт-Петербурге.

    View Slide

  438. История Интернет
    Интернет в России
    По количеству пользователей Интернета Россия в 2012 году
    вышла на первое место в Европе, которое ранее занимала
    Германия и на шестое место в мире.
    В России, согласно исследованию Всероссийского центра
    изучения общественного мнения (ВЦИОМ), в 2005 году
    Интернетом пользовались 10% жителей России,
    в 2006 13%,
    а в 2008 году этот показатель достиг 20%, за этот год число
    интернет-абонентов Ростелеком в Барнауле выросло на 300%.
    C 2011 по 2013 г. в России число пользователей интернета
    выросло с 52% до 62%. Регулярно пользуются сетью 95%
    студентов, 89% управленцев и 88% специалистов. Среди всех
    пользователей интернета 15% пенсионеры.

    View Slide

  439. История Интернет
    Интернет в России
    В России почти все средние школы с 2008 года оснащены
    компьютерами с доступом к сети Интернет и базовыми пакетами
    программ для обучения информатике, работе с персональными
    компьютерами и сетью Интернет.
    39% пользователей заходят в интернет для поиска и
    прослушивания музыки, 38% ищут и смотрят фильмы, 24%
    читают книги онлайн, также 24% делают покупки.
    По данным аналитической компании TNS на февраль 2013 года,
    хотя бы раз в месяц в Интернет выходит 76,5 млн. россиян
    (53% от всего населения страны).
    Сейчас в России ежедневно Интернетом пользуются около 50
    млн. человек.

    View Slide

  440. История Интернет
    Интернет в России
    По данным J‘son and Partners Consulting прирост
    домашних широкополосных интернет-подключений в России
    за 1-е полугодие 2011 г. составило 9% (в Сибири 11%).
    В Алтайском крае число жителей, использующих
    широкополосный доступ по итогам 2010 г. составляло 20%. За
    первое полугодие 2011 г. число таких абонентов выросло до 25%
    (всего 250 000). По данным специалистов ТТК-ЗС, уровень
    проникновения Интернет в Барнауле составляет 55%, а в
    городах края 30%. По данным Алтайского филиала
    Ростелеком, в 2010 г. количество пользователей
    широкополосного доступа в крае увеличилось до 45%, а впервом
    полугодии 2011 г. ещё на 30%.
    440

    View Slide

  441. История Интернет
    Интернет в России
    Аудитория мобильного Рунета в 2013 г. составила 18,4 млн.
    Большинство пользователей мобильного интернета (49%)
    выходят в сеть с помощью смартфонов. За 2012 год доля
    обычных сотовых телефонов сократилась в полтора раза и
    составила 34%. Доля планшетов, наоборот, выросла с 6% до
    16%.
    По сообщению РИА Новости около 95% владельцев смартфонов
    в России используют его для SMS-сообщений, по 66% для
    интернет-сёрфинга и работы с приложениями, более 50% для
    общения в соцсетях и проверки электронной почты. Мобильные
    покупки совершают лишь 17% обладателей смартфонов.
    Самыми популярными приложениями в России остаются игры,
    соцсети и карты, а по использованию мобильных
    бизнес-сервисов российские пользователи уступают только
    британцам.

    View Slide

  442. Юридические аспекты
    У Интернета нет собственника, так как он является
    совокупностью сетей, которые имеют различную
    географическую принадлежность.
    Интернет нельзя выключить целиком, поскольку
    маршрутизаторы сетей не имеют единого внешнего
    управления.
    Интернет стал достоянием всего человечества.
    В Интернете имеется много полезных и вредных свойств,
    эксплуатируемых заинтересованными лицами.
    Интернет, прежде всего, средство открытого хранения и
    распространения информации. По маршруту
    транспортировки незашифрованная информация может
    быть перехвачена и прочитана.
    442

    View Slide

  443. Юридические аспекты
    Интернет может связать каждый компьютер с любым
    другим, подключенным к Сети, так же, как и телефонная
    сеть (если телефон имеет автоответчик, он способен
    распространять информацию, записанную в него, любому
    позвонившему).
    Сайты в Интернете распространяют информацию
    индивидуально, по инициативе читателя.
    Спам-серверы и зомби-сети распространяют
    информацию по инициативе отправителя и забивают
    почтовые ящики пользователей электронной почты спамом
    точно так же, как забивают реальные почтовые ящики
    распространители рекламных листовок и брошюр.
    443

    View Slide

  444. Юридические аспекты
    Распространение информации в Интернете имеет такую же
    природу, как и слухи в социальной среде. Если к
    информации есть большой интерес, она распространяется
    широко и быстро, нет интереса нет распространения.
    Чтение информации, полученной из Интернета или
    любой другой сети ЭВМ, относится, как правило, к
    непубличному воспроизведению произведения.
    За распространение информации (разглашение) в
    Интернете (если это государственная или иная тайна,
    клевета, другие запрещённые законом к распространению
    сведения) возможна юридическая ответственность по
    законам того места, откуда информация введена.
    444

    View Slide

  445. Интернет-технологии
    445

    View Slide

  446. Интернет-технологии
    Электронная почта
    Определение
    Электронная почта (email, e-mail, от electronic mail)
    технология и предоставляемые ею услуги по пересылке и
    получению электронных сообщений (называемых письма или
    электронные письма ) по распределённой (в том числе
    глобальной) компьютерной сети.
    Электронная почта была одним из первых видов сетевого
    сервиса, разработанных в Интернете. Хотя первоначально
    основной целью установления сетевых коммуникаций между
    физически удаленными друг от друга машинами был обмен
    файлами и использование вычислительных ресурсов
    компьютеров, разработчики сети обнаружили, что одной из
    наиболее популярных сетевых услуг стала пересылка личных
    сообщений. Сегодня электронная почта является важнейшим
    сервисом любой сети, а не только Интернета.

    View Slide

  447. Интернет-технологии
    Электронная почта
    Основным отличием электронной почты от прочих систем
    передачи сообщений (например, служб мгновенных сообщений)
    является возможность отложенной доставки и развитая (и
    запутанная из-за длительного времени развития) система
    взаимодействия между независимыми почтовыми серверами.
    Электронная почта предусматривает передачу сообщений от
    одного пользователя, имеющего определённый компьютерный
    адрес, к другому. Она позволяет людям, находящимся на
    больших расстояниях, быстро связаться друг с другом. E-mail
    может быть использована как для того, чтобы переслать
    важную служебную информацию, так и для того, чтобы просто
    передать привет своему другу. Электронная почта может быть
    использована для передачи файлов своему адресату.

    View Slide

  448. Интернет-технологии
    Электронная почта
    Согласно стандарту в теле письма могут находиться только
    символы ASCII. Поэтому при использовании национальных
    кодировок или различных форм представления информации
    (HTML, RTF, бинарные файлы) текст письма кодируется по
    стандарту MIME1 и не может быть прочитан без использования
    декодера или почтового клиента с таким декодером.
    Общепринятым в мире протоколом обмена электронной
    почтой является SMTP (Simple mail transfer protocol, протокол
    передачи почты). В типовой реализации он использует DNS для
    определения правил пересылки почты (хотя в частных системах,
    вроде Microsoft Exchange, SMTP может действовать исходя из
    информации из других источников).
    1MIME (Multipurpose Internet Mail Extensions) спецификация для
    кодирования информации и форматирования сообщений таким образом,
    чтобы их можно было пересылать по Интернету, стандарт, описывающий
    передачу различных типов данных по электронной почте.
    448

    View Slide

  449. Интернет-технологии
    Электронная почта
    После попадания почты на конечный сервер, он осуществляет
    временное или постоянное хранение принятой почты.
    Существует две различные модели работы с почтой: концепция
    почтового ящика и хранилища почты.
    В концепции почтового ящика почта на сервере хранится
    временно, в ограниченном объёме (аналогично почтовому ящику
    для бумажной почты), а пользователь периодически обращается
    к ящику и забирает письма (т. е. почтовый клиент скачивает
    копию письма к себе и удаляет оригинал из почтового ящика).
    На основании этой концепции действует протокол POP3.

    View Slide

  450. Интернет-технологии
    Электронная почта
    Концепция постоянного хранения подразумевает, что вся
    корреспонденция, связанная с почтовым ящиком (включая
    копии отправленных писем), хранится на сервере, а
    пользователь обращается к хранилищу (иногда его по
    традиции так же называют почтовым ящиком ) для
    просмотра корреспонденции (как новой, так и архива) и
    написания новых писем (включая ответы на другие письма). На
    этом принципе действует протокол IMAP и большинство
    веб-интерфейсов бесплатных почтовых служб. Подобное
    хранение почтовой переписки требует значительно больших
    мощностей от почтовых серверов, в результате во многих
    случаях происходит разделение между почтовыми серверами,
    пересылающими почту, и серверами хранения писем.

    View Slide

  451. Интернет-технологии
    Электронная почта
    Почтовая система позволяет организовать сложные системы,
    основанные на пересылке почты от одного ко многим абонентам.
    Определение
    Рассылка электронной почты средство массовой
    коммуникации, группового общения и рекламы.
    Рассылка заключается в автоматизированной отправке
    сообщений электронной почты группе адресатов по заранее
    составленному списку.
    Определение
    Группы переписки специализированный тип почтовой
    рассылки, в которой письмо на адрес группы (обычный
    почтовый адрес, обработкой почты которого занимается
    специализированная программа) рассылается всем участникам
    группы.
    451

    View Slide

  452. Интернет-технологии
    Электронная почта
    Определение
    Спам (spam) рассылка коммерческой, политической и иной
    рекламы или иного вида сообщений лицам, не выражавшим
    желания их получать.
    Легальность массовой рассылки некоторых видов сообщений,
    для которых не требуется согласие получателей, может быть
    закреплена в законодательстве страны. Например, это может
    касаться сообщений о надвигающихся стихийных бедствиях,
    массовой мобилизации граждан и т. п. В общепринятом
    значении термин спам в русском языке впервые стал
    употребляться применительно к рассылке электронных писем.
    Незапрошенные сообщения в системах мгновенного обмена
    сообщениями (например, ICQ) носят название SPIM (Spam over
    IM).
    452

    View Slide

  453. Интернет-технологии
    Электронная почта
    Электронная почта (вместе с новостными группами Usenet)
    по мере роста популярности стала использоваться для рассылки
    незапрошенных рекламных сообщений, аналогично тому, как
    раскидываются рекламные брошюры в обычные почтовые
    ящики. Однако, в отличие от существенной стоимости бумажной
    рассылки, отправка значительного количества (миллионов и
    миллиардов) сообщений практически ничего не стоит
    отправителю. Это привело к непропорциональному росту
    количества и размера рекламных рассылок. По мере
    ужесточения запрета на размещение рекламы сообщения
    разделились на легитимные рассылки (на которые обычно
    подписывается пользователь и от которых он может отказаться
    в любой момент) и нелегитимные (собственно и называемые
    спамом).

    View Slide

  454. Интернет-технологии
    Электронная почта
    По утверждению компании Лаборатория Касперского, в мае
    2009 года объём спама составил 70–90% от общей почтовой
    переписки (т. е. превысил объём полезной почтовой нагрузки в
    2–10 раз). Для борьбы со спамом были разработаны различные
    механизмы: чёрные списки отправителей, серые списки,
    требующие повторного обращения почтового сервера для
    отправки, контекстные фильтры. Одним из последствий
    внедрения средств борьбы со спамом стала вероятность
    ошибочно положительного решения относительно спама, т. е.
    часть писем, не являющихся спамом, стала помечаться как
    спам. В случае агрессивной антиспам-политики (уничтожение
    писем, кажущихся спамом, в автоматическом режиме без
    уведомления отправителя/получателя) это приводит к
    труднообнаруживаемым проблемам с прохождением почты.
    454

    View Slide

  455. Интернет-технологии
    Электронная почта
    Для рассылки спама в настоящий момент активно
    используются все возможные технические ухищрения (открытые
    релеи, ботнеты, поддельные сообщения о невозможности
    доставки, прокси-серверы, бесплатные серверы электронной
    почты, допускающие автоматизацию отправки почты). Самой
    крупной почтовой службой, допускающей отправку спама
    является Mail.ru, поэтому многие сервисы автоматической
    регистрации пользователей отказываются регистрировать
    клиентов с почтовым ящиком на mail.ru.

    View Slide

  456. Интернет-технологии
    Передача файлов
    Определение
    FTP (File Transfer Protocol) протокол, предназначенный для
    передачи файлов в компьютерных сетях.
    FTP позволяет подключаться к серверам FTP, просматривать
    содержимое каталогов и загружать файлы с сервера или на
    сервер; кроме того, возможен режим передачи файлов между
    серверами.
    FTP является одним из старейших прикладных протоколов,
    появившимся задолго до HTTP, в 1971 году. До начала 90-х
    годов на долю FTP приходилось около половины трафика в сети
    Интернет. Он и сегодня широко используется для
    распространения ПО и доступа к удалённым хостам.
    456

    View Slide

  457. Интернет-технологии
    Передача файлов
    FTP не разрабатывался как защищённый (особенно по
    нынешним меркам) протокол и имеет многочисленные
    уязвимости в защите. Протокол не шифруется, при
    аутентификации передаёт логин и пароль открытым текстом.
    Если злоумышленник находится в одном сегменте сети с
    пользователем FTP, то он может перехватить логин и пароль
    пользователя, или, при наличии специального ПО, получать
    передаваемые по FTP файлы без авторизации.
    FTP не может зашифровать свой трафик, все передачи
    открытый текст, поэтому имена пользователей, пароли, команды
    и данные могут быть прочитаны кем угодно, способным
    перехватить пакет по сети. Эта проблема характерна для многих
    спецификаций интернет-протоколов (в их числе SMTP, Telnet,
    POP, IMAP), разработанных до создания таких механизмов
    шифрования, как TLS (Transport Layer Security) и SSL (Secure
    Socket Layers).

    View Slide

  458. Интернет-технологии
    Передача файлов
    Чтобы предотвратить перехват трафика, необходимо
    использовать протокол шифрования данных SSL или более
    защищённый SSH, который поддерживается многими
    современными FTP-серверами и некоторыми FTP-клиентами.
    Обычное решение этой проблемы использовать
    безопасные , TLS-защищённые версии уязвимых протоколов
    (FTPS для FTP, TelnetS для Telnet и т. д.) или же другой, более
    защищённый протокол, вроде SFTP/SCP, предоставляемого с
    большинством реализаций протокола SSL.
    458

    View Slide

  459. Интернет-технологии
    Передача файлов
    Файлообменные сети
    Определение
    Файлообменная сеть собирательное название сетей для
    совместного использования файлов.
    Часто в основе файлообменных сетей лежат одноранговые
    компьютерные сети, основанные на равноправии узлов,
    участвующих в обмене файлами.
    Несмотря на то, что каждый участник файлообменной сети
    является и клиентом и сервером, необходима инфраструктура
    для объединения разрозненных клиентов между собой в
    определённое сообщество. В централизованных
    файлообменных сетях служебную информацию хранят
    индексационные серверы.
    459

    View Slide

  460. Интернет-технологии
    Передача файлов
    Достоинством является относительная простота
    программирования такой сети и небольшой объём служебной
    информации, передаваемой на серверы. Закрытие сетей Napster
    и WinMX показало ненадёжность централизованных
    файлообменных сетей. Индексационные серверы могут
    быть отключены по разным причинам (технический сбой,
    разорение владеющей компании, судебное решение). В таком
    случае сеть перестаёт функционировать.
    Частично централизованные файлообменные сети
    обладают повышенной надёжностью, т. к. хранят необходимую
    информацию не только на серверах, но и на других узлах (хабах
    или даже клиентах). К таким сетям относится Direct Connect
    и сети, организованные по протоколу BitTorrent.

    View Slide

  461. Интернет-технологии
    Передача файлов
    Определение
    BitTorrent ( битовый поток ) пиринговый (P2P) сетевой
    протокол для совместного обмена файлами через Интернет.
    Файлы передаются частями, каждый torrent-клиент, получая
    (скачивая) эти части, в то же время отдаёт (закачивает) их
    другим клиентам, что снижает нагрузку и зависимость от
    каждого клиента-источника и обеспечивает избыточность
    данных. Протокол был создан Брэмом Коэном (Bram Cohen),
    написавшим первый torrent-клиент BitTorrent на языке Python 4
    апреля 2001 г. Запуск первой версии состоялся 2 июля 2001 г.
    Существует множество других программ-клиентов для обмена
    файлами по протоколу BitTorrent.
    461

    View Slide

  462. Интернет-технологии
    Передача файлов
    В новых версиях протокола можно работать без центрального
    сервера (трекера, tracker), бестрекерная система
    (trackerless). Отказ трекера в таких системах не приводит к
    автоматическому отказу всей сети.
    В BitTorrent-клиентах, начиная с версии 4.2.0, реализована
    функция бестрекерной работы, базирующаяся на протоколе
    Kademlia. В таких системах трекер доступен на клиентах, в
    форме распределённой хэш-таблицы (DHT).
    В настоящее время совместимы между собой клиенты BitComet,
    µTorrent, Deluge, KTorrent, Transmission и официальный клиент
    BitTorrent.

    View Slide

  463. Интернет-технологии
    Передача файлов
    Децентрализованные файлообменные сети функционируют
    вообще без индексационных серверов. Хотя объём
    передаваемой служебной информации в них больше, надёжность
    их гораздо выше. Пока не существует способа насильно
    остановить функционирование такой сети. К таким сетям
    относятся Gnutella, Overnet, Kad, RetroShare.
    Сочетая скорость централизованных сетей и надёжность
    децентрализованных, создаются гибридные сети, в которых
    используются независимые индексационные серверы,
    постоянно синхронизирующие информацию между собой. Таким
    образом, при выходе из строя одного из них, сеть продолжает
    функционировать. К таким сетям относятся eDonkey2000,
    OpenNap.

    View Slide

  464. Интернет-технологии
    Передача файлов
    Интернет-сервис Shareman комплекс для ОС Windows,
    включающий диспетчер файлов, менеджер загрузок,
    файлообменный клиент и чат. Shareman не является
    хранилищем файлов или FTP-сервером и не содержит в себе
    электронные версии публикуемых пользователями файлов.
    Сервис осуществляет только переключение запросов
    пользователей друг к другу.
    Кроме того, большую популярность получили такие
    мултисетевые клиенты с подобным сервисом, как Shareaza (для
    ОС Windows), MLDonkey и giFT (кроссплатформенные).

    View Slide

  465. Интернет-технологии
    Новости
    Группы новостей
    Определение
    Группа новостей (newsgroup) виртуальное вместилище
    сообщений работающее по протоколу NNTP.
    Иногда вместо термина группа новостей не вполне грамотно
    используется термин конференция.
    Группы обозначаются названиями, состоящими из слов,
    разделённых точками.
    Пример 7.1 (Группа Emacs)
    gnu.emacs.help
    fido7.ru.linux.redhat
    Группа новостей сетевой форум пользователей,
    организованный для ведения дискуссий и обмена новостями.
    465

    View Slide

  466. Интернет-технологии
    Новости
    Чтение и отправка сообщений осуществляются программой,
    запускающейся на компьютере пользователя и соединяющейся с
    сервером новостей.
    Термин группа новостей является сугубо техническим и ничего
    не говорит о принадлежности, назначении или правилах
    управления новостным ресурсом. Большинство существующих
    групп новостей принадлежит Usenet, однако т. к.
    NNTP-технологию используют не только в Usenet, то
    существуют группы новостей, не имеющие к Usenet никакого
    отношения, частные, управляемые по своим правилам.
    Из не-Usenet-овских групп для русскоязычных пользователей
    представляет особый интерес шлюз fido7. Узел
    ddt.demos.su(2:5020/400) обеспечивает шлюзование
    конференций Fidonet в Интернет в виде групп новостей.
    466

    View Slide

  467. Интернет-технологии
    Новости
    Определение
    NNTP (Network News Transfer Protocol) сетевой протокол,
    распространения, запрашивания, размещения и получения групп
    новостей при взаимодействии между сервером групп новостей и
    клиентом.
    По строению он во многом сходен с протоколом приёма и
    передачи электронной почты SMTP.
    Существует вариация протокола NNTP, называемая NNRP.
    NNRP (Network News Readers Protocol) отличается от NNTP
    только набором поддерживаемых команд, и предназначена для
    чтения новостных групп с сервера новостей клиентским ПО в
    режиме онлайн.
    Сейчас группа новостей утратила былую популярность, на
    смену пришли новые технологии.

    View Slide

  468. Интернет-технологии
    Новости
    Ленты новостей
    Определение
    RSS семейство XML-форматов, предназначенных для
    описания лент новостей, анонсов статей, изменений в
    блогах и т. п.
    Информация из различных источников, представленная в
    формате RSS, может быть собрана, обработана и представлена
    пользователю в удобном для него виде специальными
    программами-агрегаторами или онлайн сервисами.
    Основная идея реорганизации информации о веб-сайтах
    относится ещё к 1995 г., когда разработчики из
    исследовательской лаборатории Apple Computer разработали
    Метаконтент Framework.
    468

    View Slide

  469. Интернет-технологии
    Новости
    В разных версиях аббревиатура RSS имела
    разные расшифровки:
    Rich Site Summary (RSS 0.9x)
    обогащённая сводка сайта;
    RDF Site Summary (RSS 0.9 и 1.0)
    сводка сайта с применением
    инфраструктуры описания ресурсов;
    Really Simple Syndication (RSS 2.x)
    очень простой сбор сводной информации.
    Рис. 7.2: Значок
    RSS, используемый
    во многих браузерах
    и агрегаторах
    Разработка того, что впоследствии стало известно как RSS,
    началась в 1997 г. Первую известность эта технология получила,
    когда компания Netscape использовала её для наполнения
    каналов своего портала Netcenter.
    Вскоре эта технология уже использовалась для трансляции
    контента на многих новостных сайтах: BBC, CNET, CNN, Disney,
    Forbes, Wired, Red Herring, Slashdot, ZDNet и др. Really Simple
    Syndication (очень простое приобретение информации).
    469

    View Slide

  470. Интернет-технологии
    Новости
    Из-за существования нескольких различных версий формата
    RSS-каналов программы-агрегаторы должны уметь работать со
    всеми вариантами, что создаёт некоторые трудности их
    разработчикам.
    Проблемы совместимости возникают также при вставке в
    RSS-описания небольших HTML-фрагментов, которые в одних
    случаях оформляются как CDATA узлы, а в других как
    HTML-кодированные PCDATA узлы. Существуют проблемы с
    различными форматами представления дат и метаданных, таких
    как частота обновления.
    В июне 2006 года появился конкурент RSS формат Atom.
    Определение
    Atom общее название двух связанных веб-технологий:
    формата для описания ресурсов на веб-сайтах и протокола для
    их публикации.
    470

    View Slide

  471. Интернет-технологии
    Новости
    Формат Atom, как и RSS, основан на XML и позволяет
    описывать наборы веб-ресурсов новостные ленты, анонсы
    статей в блоге и тому подобное. Он решает те же задачи, что
    RSS, но возник позже и учёл многие его недостатки.
    Формат сейчас активно поддерживается компанией Google во
    многих её проектах.
    Протокол публикации Atom (также AtomPub, от Atom Publishing
    Protocol) основан на HTTP и позволяет создавать, изменять и
    удалять ресурсы, собранные в коллекции на веб-сайте
    (примером коллекции может служить блог). Содержимое
    коллекций описывается в формате Atom, а для управления им
    используются стандартные методы HTTP.
    471

    View Slide

  472. Интернет-технологии
    World Wide Web
    Определение
    Всемирная паутина (World Wide Web, WWW)
    распределённая система, предоставляющая доступ к связанным
    между собой документам, расположенным на различных
    компьютерах, подключенных к Интернету.
    Для отображения электронных документов, размещённых в сети,
    используется специальная программа браузер. В России (см.
    рис. 7.3), на май 2012 г., лидирует по популярности браузер
    Chrome (30,21%), за ним следуют Firefox (24,51%), Opera
    (21,04%), Internet Explorer (20,67%), Safari (2,72%).
    Дальнейшая конкуренция браузеров разворачивается на фронте
    мобильных устройств (см. рис. 7.4). Так, Mozilla Foundation
    объявили о совместной с Samsung работе над новым
    браузерным движком Servo для сотовых телефонов, а Google
    уже представила новый движок с открытым кодом Blink,
    которым также воспользуется Opera.
    472

    View Slide

  473. Интернет-технологии
    World Wide Web
    Рис. 7.3: Статистика браузеров Рунета (по данным LiveInternet)
    473

    View Slide

  474. Интернет-технологии
    World Wide Web
    Рис. 7.4: Статистика использования браузеров в Рунете за сентябрь
    2012 (по данным hi-planet.ru)
    474

    View Slide

  475. Интернет-технологии
    World Wide Web
    Первый в мире сайт info.cern.ch появился в 1990 году, его
    создатель Тим Бернерс-Ли (Timothy John Tim
    Berners-Lee). Он опубликовал на сайте описание новой
    технологии World Wide Web, основанной на протоколе
    передачи данных HTTP, системе адресации URI и языке
    гипертекстовой разметки HTML. Также на сайте были описаны
    принципы установки и работы серверов и браузеров. Сайт стал и
    первым в мире интернет-каталогом, так как позже Тим
    Бернерс-Ли разместил на нём список ссылок на другие сайты.
    Все инструменты, необходимые для работы первого сайта,
    Бернерс-Ли подготовил ещё раньше в конце 1990 г. появились
    первый гипертекстовый браузер WWW с функционалом
    веб-редактора, первый сервер на базе NeXTcube и первые
    веб-страницы.
    475

    View Slide

  476. Интернет-технологии
    World Wide Web
    Отец веба считал, что гипертекст может служить основой
    для сетей обмена данными, и ему удалось претворить свою
    идею в жизнь. Ещё в 1980 году Тим Бернерс-Ли создал
    гипертекстовое программное обеспечение Enquire, использующее
    для хранения данных случайные ассоциации. Затем, работая в
    Европейском центре ядерных исследований в Женеве (CERN),
    он предложил коллегам публиковать гипертекстовые документы,
    связанные между собой гиперссылками. Тим Бернерс-Ли
    продемонстрировал возможность гипертекстового доступа к
    внутренним поисковику и документам, а также новостным
    ресурсам Интернета. В результате, в мае 1991 г. в CERN был
    утверждён стандарт WWW.
    В настоящее время Тим Бернерс-Ли возглавляет основанный им
    Консорциум Всемирной паутины (World Wide Web Consortium,
    W3C), который занимается разработкой и внедрением
    стандартов Интернета.

    View Slide

  477. Интернет-технологии
    World Wide Web
    Информация на сайтах может отображаться как пассивно (т. е.
    пользователь может только считывать её), так и активно
    тогда пользователь может добавлять информацию и
    редактировать её. К способам активного отображения
    информации во Всемирной паутине относятся:
    гостевые книги;
    форумы;
    чаты;
    блоги;
    wiki-проекты;
    интернет-магазины;
    интернет-аукционы;
    социальные сети;
    системы управления контентом (CMS) (наиболее
    популярные CMS см. на рис. 7.5).
    477

    View Slide

  478. Интернет-технологии
    World Wide Web
    Рис. 7.5: Рейтинг-обзор коробочных CMS Тэглайн-2012 tagline.ru
    Рейтинг CMS можно посмотреть так же на ratingruneta.ru.
    478

    View Slide

  479. Интернет-технологии
    Платёжная система
    Определение
    Платёжная система совокупность правил, процедур и
    технической инфраструктуры, обеспечивающих перевод
    стоимости от одного субъекта экономики к другому.
    Платёжные системы являются заменителями расчётов
    наличными деньгами при осуществлении внутренних и
    международных платежей и являются базовыми сервисами,
    предоставляемыми банками и другими профильными
    финансовыми институтами. Самым большим сервисом такого
    рода является система SWIFT (Society for Worldwide Interbank
    Financial Telecommunications, Сообщество всемирных
    межбанковских финансовых телекоммуникаций)
    международная межбанковская система передачи информации и
    совершения платежей.
    479

    View Slide

  480. Интернет-технологии
    Платёжная система
    SWIFT кооперативное общество, созданное по бельгийскому
    законодательству в 1973 г., принадлежащее его членам более
    чем 9000 банков из 209 стран (на 2010 г.). В настоящее время
    членами SWIFT являются более 10 000 организаций, в том
    числе около 1000 корпораций.
    Расширенными формами платёжных систем являются:
    проведение финансовых транзакций с помощью банкоматов,
    платёжных киосков, POS-терминалов, карт с хранимой денежной
    стоимостью, электронных кошельков; проведение транзакций на
    валютных рынках, рынках фьючерсов, деривативов и опционов.
    Электронная платёжная система является подвидом
    платёжной системы, которая обеспечивает осуществление
    транзакций электронных платежей через сети (обычно
    Интернет) или платёжные чипы.

    View Slide

  481. Интернет-технологии
    Платёжная система
    Российские электронные платёжные системы:
    CyberPlat первая российская система (с 1998 г.),
    работает также на рынках стран СНГ, Европы, Азии и
    Северной Америки, общее число пунктов обслуживания
    более 760 тыс., по состоянию на 1 января 2013 года
    участниками этой платёжной системы являлись 270 банков.
    Яндекс.Деньги с 2002 г., валюта только российский
    рубль, реализует идею электронных денег.
    RBK Money сервис известен с 2008 г. (бывший RUpay, с
    2002 г.), сотрудничает с более чем 30 000
    интернет-магазинов и обслуживает свыше 4 миллионов
    пользователей, общее количество мест приёма превышает
    250 тысяч и покрывает всю территорию РФ.
    MoneyMail электронная платёжная система ЗАО
    Инвестиционный Банк ФИНАМ , на рынке с 2004 г.
    481

    View Slide

  482. Интернет-технологии
    Платёжная система
    Z-Payment действует с 2006 г., интегрирует различные
    виды оплаты (банковские переводы, оплата по SMS, оплата
    пластиковой картой и др.), владельцы компании Zorbit
    (инвестор) и Транзактор (разработчик), юридический
    адрес находится в Белизе, почтовый в Англии.
    ICQMoney запущена в конце 2007 года, позволяет
    осуществлять платёжи, переводы виртуальных денежных
    средств между пользователями (в качестве идентификатора
    используется ICQ-номер), система интегрируется в
    ICQ-мессенджеры, в расчетах используется собственная
    виртуальная валюта юнит (UNI, 1 юнит = 10 рублей).
    Кроме рубля можно использовать украинскую гривну и
    молдавский лей. Организаторами и собственниками этой
    системы являются Matrix Capital International LTD
    (Гонконг) и ООО Дельта Кей (Россия).
    482

    View Slide

  483. Интернет-технологии
    Платёжная система
    Wirex позволяет отправлять, получать, переводить
    денежные средства в разных валютах, использовать в
    режиме реального времени p2p платёжи и накапливать
    средства, работает с другими системами (Epassporte,
    WebMoney, PayPal); действует с 2008 г., собственник
    неизвестен (по некоторым сведениям, он известен под
    ником Hardman).
    QIWI (QIWI plc) сервис, запущенный в 2008 г. компанией
    Объединённая система моментальных платежей
    (ОСМП), позволяющий производить платёжи с
    использованием различных устройств (в т. ч.
    QIWI-терминалов) и каналов связи в России, странах СНГ и
    США, при этом наличные и электронные расчёты
    объединены в единую систему.
    483

    View Slide

  484. Интернет-технологии
    Платёжная система
    Единый кошелек с 2008 г., кроме РФ работает на
    рынках Украины, Белоруссии, Казахстана, ЮАР, США,
    входит в состав мультисервиса W1, предлагающего помимо
    различных мультиплатформенных платёжных инструментов
    услуги IP-телефонии (под брендом Единый телефон ).
    IntellectMoney электронная дисконтно-платёжная
    система, предназначенная для оплаты товаров и услуг в
    интернете и ориентированная на работу с дисконтными
    программами торговых и сервисных предприятий,
    функционирует с 2009 г.
    484

    View Slide

  485. Интернет-технологии
    Платёжная система
    TeleMoney позволяет совершать платёжи в Интернете,
    оплачивать товары или услуги в магазинах, которые
    подключены к системе, взаиморасчеты ведутся в российских
    рублях, за совершённые в системе операции пользователи
    получают бонусы (проценты). Система создана компанией
    WebDiscovery в 2010 г., по состоянию на 2012 г. является
    собственностью компании ООО Комфорт плюс .
    Монета.Ру электронная платёжная система для
    пользователей, агрегатор платёжных методов для
    магазинов и современная биллинговая платформа для
    небольших и средних компаний. Образована в 2012 г. как
    небанковская кредитная организация (НКО)
    МОНЕТА.РУ .
    485

    View Slide

  486. Интернет-технологии
    Платёжная система
    WebMoney международная система расчётов и среда для
    ведения бизнеса в сети (не является платёжной системой!),
    валюты российский рубль, евро, доллар США, гривна и др.
    Для работы в системе можно использовать клиентскую
    программу WM Keeper Classic для ОС Windows, либо веб-версии
    WM Keeper Light или WM Keeper Mini, позволяющие
    использовать систему пользователям любых ОС, либо WM
    Keeper Mobile для сотовых телефонов.
    Владельцем и администратором системы является
    зарегистрированная в Лондоне компания WM Transfer Ltd.
    Техническая поддержка и разработка ПО находятся в России,
    главный центр аттестации располагается в Москве.
    486

    View Slide

  487. Интернет-технологии
    Платёжная система
    Зарубежные платёжные системы. Из зарубежных
    платёжных систем стоит выделить лишь две.
    PayPal крупнейшая дебетовая электронная платёжная
    система, в октябре 2002 г. поглощена корпорацией eBay. По
    состоянию на 2012 г. PayPal работает в 190 странах (хотя не во
    всех предоставляется полный набор услуг), имеет более 164 млн.
    зарегистрированных пользователей, работает с 24
    национальными валютами.
    Компания PayPal Inc. основана в марте 2000 г. группой
    студентов, в первые же месяцы существования компания начала
    обслуживать электронные аукционы, с октября 2002 г. с
    помощью PayPal осуществляется более чем 50% сделок
    аукциона eBay. Большинство главных конкурентов PayPal к
    настоящему времени закрылись.

    View Slide

  488. Интернет-технологии
    Платёжная система
    В Соединённых Штатах PayPal лицензирован в качестве
    финансовой организации, занимающейся денежными
    переводами. Для российских пользователей системы PayPal
    возможность приёма платёжей на счёт появилась лишь в
    октябре 2011 г., однако вывод средств со счёта для российских
    пользователей до недавнего времени был возможен только в
    американские банки. 13 марта 2013 г. Центральный банк России
    одобрил заявку Paypal на получение лицензии небанковской
    кредитной организации и теперь клиенты смогут выводить
    денежные средства из Paypal на счета российских банков.

    View Slide

  489. Интернет-технологии
    Платёжная система
    В марте 2012 г. PayPal представила новое устройство под
    названием PayPal Here, которое позволит рассчитываться
    посредством кредитной карты через мобильный телефон. Пока
    поддерживается iPhone, в будущем планируется поддержка
    телефонов с ОС Android.
    PayPal Here представляет собой кардридер, который
    присоединяется к телефону через вход для наушников.
    Нововведение ориентировано в первую очередь на
    представителей малого бизнеса и мелких розничных торговцев.
    Как обычно, платёжная система будет взимать комиссию от
    суммы платежа.

    View Slide

  490. Интернет-технологии
    Платёжная система
    Все вышеперечисленные платёжные системы ориентированы на
    работу с реальной валютой, однако существуют системы,
    созданные для работы с валютой виртуальной (кибервалютой).
    Биткоин (Bitcoin) пиринговая (децентрализованная)
    электронная платёжная система, использующая одноимённые
    единицы для учёта.
    Биткоины могут использоваться для электронной оплаты
    товаров и услуг у продавцов, готовых их принимать. Есть
    возможность обмена на обычные деньги через
    специализированные площадки для торгов или обменники.

    View Slide

  491. Интернет-технологии
    Платёжная система
    Как указано на сайте организаторов (bitcoin.org),
    Определение
    Биткоин (Bitcoin) это цифровая валюта, протокол и
    программное обеспечение, которые включают в себя
    мгновенные P2P транзакции;
    платежи по всему миру;
    низкую/нулевую стоимость обработки транзакций;
    и многое другое.
    Биткоин использует P2P-технологию, функционируя без
    центрального контролирующего органа; обработка транзакций и
    эмиссия производятся коллективно, усилиями сети. Благодаря
    своим уникальным свойствам, Биткоин открывает новые
    горизонты возможностей, которые не предоставляла до этого ни
    одна платёжная система.

    View Slide

  492. Интернет-технологии
    Платёжная система
    Базовым элементом этой платёжной системы является
    кросс-платформенная программа-клиент, запущенная на
    множестве компьютеров клиентов и соединяющая их между
    собой в одноранговую сеть. Для обеспечения функционирования
    и защиты системы используются криптографические методы.
    Программное обеспечение разрабатывается коллективно, как
    свободный проект с открытым исходным кодом.
    Главная особеннось децентрализованная эмиссия новых
    биткоинов, которой может воспользоваться любой желающий,
    но в строго ограниченных количествах и только путём
    предоставления вычислительных ресурсов компьютера,
    использующихся с целью защиты платёжной системы от
    повторного расходования средств (участник системы
    предоставляет свой компьютер для проведения вычислений, а
    взамен получает биткоины).

    View Slide

  493. Интернет-технологии
    Платёжная система
    Весной 2013 г. эксперты Лаборатории Касперского
    обнаружили вредоносную кампанию в Skype: злоумышленники
    заманивают пользователей перейти по вредоносной ссылке,
    конечной целью является мошенническая генерация биткоинов.
    В разгар кампании количество переходов по вредоносной ссылке
    составляло в среднем 2,7 раза в секунду. Чаще всего по ссылке
    переходили пользователи из России, Украины, Болгарии, Китая,
    Тайваня и Италии.
    Вместе с вредоносной программой на компьютер пользователя
    устанавливалась специальная программа для генерации
    биткоинов.
    Кампания стартовала, когда курс биткоина достиг исторического
    максимума 173 USD за монету, при том, что ещё в 2011 году
    за неё не давали более 2 USD.

    View Slide

  494. Интернет-технологии
    IP-телефония
    Передача голосовых сообщений через сеть с пакетной
    коммутацией впервые была реализована в 1993 г. Данная
    технология получила название VoIP. Одним из частных
    приложений данной технологии является IP-телефония услуга
    по передаче телефонных разговоров абонентов по протоколу IP.
    Определение
    VoIP (Voice over IP; IP-телефония) система связи,
    обеспечивающая передачу речевого сигнала по сети Интернет
    или по любым другим IP-сетям.
    Сигнал по каналу связи передаётся в цифровом виде и, как
    правило, перед передачей преобразовывается (сжимается) с тем,
    чтобы удалить избыточность.
    494

    View Slide

  495. Интернет-технологии
    IP-телефония
    Основными преимуществами технологии VoIP является
    сокращение требуемой полосы пропускания, что обеспечивается
    учётом статистических характеристик речевого трафика;
    блокировкой передачи пауз (диалоговых, слоговых,
    смысловых и др.), которые могут составлять до 40–50%
    времени занятия канала передачи;
    высокой избыточностью речевого сигнала и его сжатием
    (без потери качества при восстановлении) до уровня
    20–40% исходного сигнала.
    Трафик VoIP критичен к задержкам пакетов в сети, но обладает
    устойчивостью к потерям отдельных пакетов. Так, потеря до 5%
    пакетов не приводит к ухудшению разборчивости речи.
    495

    View Slide

  496. Интернет-технологии
    IP-телефония
    При передаче телефонного трафика по технологии VoIP должны
    учитываться жёсткие требования стандарта ISO 9000 к качеству
    услуг, характеризующие:
    качество установления соединения, определяемое в
    основном быстротой установления соединения,
    качество соединения, показателем которого являются
    сквозные (воспринимаемые пользователем) задержки и
    качество воспринимаемой речи.
    Технология стала популярной во всём мире с начала XXI века и
    в настоящее время широко используется как частными
    пользователями, так и в корпоративном секторе. Применение
    систем IP-телефонии позволяет компаниям-операторам связи
    значительно снизить стоимость звонков (особенно
    международных) и интегрировать телефонию с сервисами
    Интернета, предоставлять интеллектуальные услуги.

    View Slide

  497. Интернет-технологии
    IP-телефония
    VoIP применяется также и для передачи звука в системах
    IP-видеонаблюдения, в системах оповещения, при трансляции
    вебинаров, при просмотре фильмов в режиме он-лайн и т. п.
    Для осуществления технологии VoIP могут использоваться
    разлнообразные протоколы и кодеки. Самые популярные
    программы и сети, использующие VoIP Skype, SIPNET и
    Ekiga.
    497

    View Slide

  498. Интернет-технологии
    IP-телефония
    Skype бесплатное проприетарное программное обеспечение с
    закрытым кодом, обеспечивающее шифрованную голосовую
    связь и видеосвязь через Интернет между компьютерами по
    технологии VoIP, используя технологии пиринговых сетей, а
    также платные услуги для звонков на мобильные и
    стационарные телефоны. Skype основана в 2003 г., по состоянию
    на конец 2010 г. имеет 663 миллиона пользователей. 10 мая
    2011 г. Microsoft приобрела Skype. Большинство разработчиков
    и 44% работников общего отдела находятся в Таллине и Тарту,
    Эстония.
    Некоторые сетевые администраторы запретили использование
    Skype в корпоративных, правительственных, домашних и
    образовательных сетях, ссылаясь на причины ненадлежащего
    использования ресурсов, чрезмерной пропускной способности и
    проблем безопасности.

    View Slide

  499. Интернет-технологии
    IP-телефония
    Программа также позволяет совершать конференц-звонки (до 25
    голосовых абонентов, включая инициатора), видеозвонки (в том
    числе видеоконференции до 10 абонентов), а также
    обеспечивает передачу текстовых сообщений (чат) и передачу
    файлов. Есть возможность вместо изображения с веб-камеры
    передавать изображение с экрана монитора.
    Программные клиенты Skype выпущены для Windows, Mac OS,
    Linux (правда, впоследствии для многих версий GNU/Linux
    проект был закрыт), iOS, Windows Phone, HP webOS, Android,
    PSP, Symbian. Также была выпущена версия для Java.

    View Slide

  500. Интернет-технологии
    IP-телефония
    В отличие от многих других программ IP-телефонии, для
    передачи данных Skype использует P2P-архитектуру. Каталог
    пользователей Skype распределён по компьютерам
    пользователей сети Skype, что позволяет сети легко
    масштабироваться до очень больших размеров (в данный
    момент более 100 млн. пользователей, 15–25 млн. онлайн) без
    дорогой инфраструктуры централизованных серверов.
    Кроме того, Skype может маршрутизировать звонки через
    компьютеры других пользователей. Это позволяет соединяться
    друг с другом пользователям, находящимся за NAT или
    брандмауэром, однако создаёт дополнительную нагрузку на
    компьютеры и каналы пользователей, подключенных к
    Интернету напрямую.

    View Slide

  501. Интернет-технологии
    IP-телефония
    Единственным центральным элементом для Skype является
    сервер идентификации, на котором хранятся учётные записи
    пользователей и резервные копии их списков контактов.
    Центральный сервер нужен только для установки связи. После
    того как связь установлена, компьютеры пересылают голосовые
    данные напрямую друг другу (если между ними есть прямая
    связь) или через Skype-посредник (суперузел компьютер, у
    которого есть внешний IP-адрес и открыт TCP-порт для Skype).
    В частности, если два компьютера, находящиеся внутри одной
    локальной сети, установили между собой Skype-соединение, то
    связь с Интернетом можно прервать и разговор будет
    продолжаться вплоть до его завершения пользователями или
    какого-либо сбоя связи внутри локальной сети.

    View Slide

  502. Интернет-технологии
    IP-телефония
    SIPNET первая российская сеть IP-телефонии. Разработчик
    сети компания Тарио Комьюникейшнс (входит в группу
    TARIO). Начало коммерческой эксплуатации ноябрь 2005 г.
    Сеть SIPNET построена на базе кластерной платформы
    CommuniGate Pro, передача голосовых пакетов организована по
    протоколу SIP (Session Initiation Protocol, протокол установления
    сеанса).
    VoIP технологии SIPNET успешно применяются другими
    компаниями: голосовые сервисы SIPNET интегрированы в
    популярный мессенджер Mail.ru Агент.
    Приложение NetCall для iPhone позволяет звонить с мобильного
    телефона по низким тарифам SIPNET даже при отсутствии
    доступа в Интернет.

    View Slide

  503. Интернет-технологии
    IP-телефония
    Ekiga свободное и открытое приложение IP-телефонии и для
    проведения видеоконференций, которое ранее называлось
    GnomeMeeting.
    Ekiga является частью графической среды GNOME, также
    работает в Windows. Ekiga поддерживает протоколы SIP и H.323
    (с помощью OpenH323) и способна взаимодействовать с
    другими SIP- и H.323-совместимыми клиентами, а также с
    Microsoft NetMeeting. Поддерживает множество аудио- и
    видеокодеков высокого качества.
    Первая версия программы была написана Дамьеном Сандрасом
    (Damien Sandras) в качестве дипломной работы. Сегодня она
    разрабатывается сообществом под руководством Сандраса.
    Распространяется на условиях GNU GPL.

    View Slide

  504. Интернет-технологии
    Интернет-радио
    Определение
    Интернет-радио (веб-радио) группа технологий передачи
    потоковых аудиоданных через сеть Интернет.
    Также в качестве термина интернет-радио или веб-радио
    может пониматься радиостанция, использующая для вещания
    технологию потокового вещания в Интернет.
    Кроме потока звуковых данных обычно передаются также
    текстовые данные, чтобы в плеере отображалась информация о
    станции и о текущей композиции.
    В качестве станции могут выступать обычная
    программа-аудиоплеер со специальным плагином-кодеком или
    специализированная программа (например, ICes, EzStream, SAM
    Broadcaster), а также аппаратное устройство, преобразующее
    аналоговый аудиопоток в цифровой.
    504

    View Slide

  505. Интернет-технологии
    Интернет-радио
    Существует большое количество серверов интернет-вещания.
    Наиболее распространён сервер Shoutcast компании Nullsoft,
    разработанный специально для своего проигрывателя Winamp.
    Совместимый с Shoutcast сервер Icecast обладает гораздо
    большей функциональностью, распространяется свободно (на
    условиях GNU GPL) и бесплатно. В отличие от Shoutcast, Icecast
    способен передавать несколько аудиопотоков и требует меньше
    ресурсов на аудиопоток, чаще обновляется, поддерживает
    UTF-теги и разные форматы аудио, однако он намного сложнее
    в настройке.
    Серверы могут различаться по форматам аудиоданных,
    например: MP3, Ogg/Vorbis, RealAudio.

    View Slide

  506. Интернет-технологии
    Интернет-радио
    Некоторые проигрыватели также поддерживают вещание.
    Например к JetAudio прилагается JetCast, предоставляющий
    возможность комментировать радиопоток с помощью
    микрофона, сайт-статус и чат.
    В качестве клиента можно использовать любой
    мультимедиа-проигрыватель, поддерживающий потоковое аудио
    и способный декодировать формат, в котором вещает сервер.
    Следует заметить, что интернет-радио к эфирному
    радиовещанию никакого отношения не имеет.
    506

    View Slide

  507. Интернет-технологии
    Интернет-телевидение
    Определение
    IPTV (Internet Protocol Television, телевидение межсетевого
    протокола) система, использующая двухсторонний цифровой
    сигнал радиопередачи, который посылается через
    переключенную телефонную или кабельную сеть посредством
    широкополосного подключения.
    IPTV базируется на декодировании видео IP и преобразовании
    его в стандартные телевизионные сигналы.
    По прогнозам Pyramid Research, в этом году число абонентов
    IPTV в мире превысит 100 млн.
    С приобретением Mediaroom компания Ericsson стала
    крупнейшим в мире производителем средств IP-телевидения и
    мультиэкранных технологий.
    Ericsson совместно с оператором Korea Telecom скоро начнёт
    тестирование нового видеокодека HEVC и трансляции видео в
    формате сверхвысокой четкости 4K.
    507

    View Slide

  508. Интернет-технологии
    Интернет-телевидение
    IPTV система позволяет реализовать:
    управление пакетом подписки каждого пользователя;
    защиту содержания телевидения на любом уровне;
    трансляцию каналов в формате MPEG-2, MPEG-4;
    представление телевизионных программ;
    функцию регистрации телевизионных передач;
    поиск прошлых телевизионных передач для просмотра;
    функцию паузы для телеканала в режиме реального
    времени;
    индивидуальный пакет телеканалов для каждого
    пользователя.
    508

    View Slide

  509. Интранет
    509

    View Slide

  510. Интранет
    Программные компоненты
    Составными частями интранет, обычно, являются:
    почтовый сервер;
    веб-сервер;
    СУБД;
    интерпретаторы сценариев;
    сервер сообщений;
    сервер новостей;
    сервер внутрикорпоративной телефонии;
    веб-браузеры.
    510

    View Slide

  511. Интранет
    Преимущества и недостатки
    Преимущества интранет-технологий:
    Высокая производительность при совместной работе
    над какими-то общими проектами.
    Лёгкий доступ персонала к данным.
    Гибкий уровень взаимодействия: можно менять
    бизнес-схемы взаимодействия как по вертикали, так и по
    горизонтали.
    Мгновенная публикация данных на ресурсах интранет
    позволяет специфические корпоративные знания всегда
    поддерживать в форме и легко получать отовсюду в
    компании, используя интернет-технологии и гипермедиа.
    Например: служебные инструкции, внутренние правила,
    стандарты, службы рассылки новостей, и даже обучение на
    рабочем месте.
    Проведение в жизнь общей корпоративной культуры.
    511

    View Slide

  512. Интранет
    Преимущества и недостатки
    Преимущества веб-сайта в Интранет перед клиентскими
    программами архитектуры клиент-сервер:
    Не требуется инсталляция программы-клиента на
    компьютерах пользователей (в качестве неё используется
    браузер). Соответственно, при изменениях
    функциональности корпоративной информационной
    системы обновление клиентского ПО также не требуется.
    Сокращение временных издержек на рутинных операциях по
    вводу различных данных, благодаря использованию
    веб-форм вместо обмена данными по электронной почте.
    Кросс-платформенная совместимость стандартный
    браузер на Microsoft Windows, Mac OS, и GNU/Linux, UNIX.
    Большой выбор свободного ПО.
    512

    View Slide

  513. Интранет
    Преимущества и недостатки
    Недостатки интранет-технологий
    Сеть может быть взломана удалённо.
    Лёгкий доступ к корпоративным данным может
    спровоцировать их утечку к конкурентам через
    недобросовестного работника.
    513

    View Slide

  514. Интранет
    Готовые решения интранет-технологий
    Microsoft Share Point Services.
    Softline DeskWork интранет-портал на платформе
    SharePoint.
    Point4All (от Cyscom, IBS Datafort и Softkey, на базе
    Sharepoint) площадка, на которой представлено решение
    актуальных бизнес-задач: наём сотрудников, управление
    персоналом и проектами, хранение документов и файлов и
    совместный доступ к ним, объединение в одну базу всех
    контактов из разных систем и ПК, CRM и др.
    TopS BI Intranet Portal (от TopS BI на базе Sharepoint).
    1С-Битрикс: Корпоративный портал (от 1С-Битрикс).
    PBWorks (бывший PBWiki) инструмент для совместной
    работы.
    514

    View Slide

  515. Интранет
    Готовые решения интранет-технологий
    Google Wave экспериментальное универсальное средство
    коммуникации, а также созданные для этого компанией
    Google технологии и программное обеспечение. Google
    Wave призвана соединить в себе функции электронной
    почты, мгновенной передачи сообщений, чата, веб-форума,
    вики, совместного создания и редактирования документов с
    системой управления версиями и социальной организацией
    сети.
    18 мая 2010 г. Google Wave стал доступен для свободной
    регистрации, а 4 августа 2010 г. было опубликовано
    сообщение о прекращении разработки Google Wave как
    самостоятельного продукта. Основанием для отказа от
    Google Wave названо то, что Google Wave не получил
    достаточно широкого распространения.
    30 апреля 2012 г. проект был закрыт. Все разработки были
    переданы Apache Software Foundation, которые стали
    развивать серверный продукт под названием Wave in a Box.

    View Slide

  516. Интранет
    Готовые решения интранет-технологий
    Google Apps набор служб, предоставляемый компанией
    Google для использования своего доменного имени для
    совместного ведения бизнеса.
    Эта служба, как и Google Wave, основана на облачных
    вычислениях и поддерживает несколько веб-приложений с
    функциональностью как у традиционных офисных пакетов и
    включает: Gmail, Google Calendar, Google Talk, Google Docs
    и Google Sites.
    В январе 2013 г. в России заработала первая
    автоматическая система распространения Google Apps для
    бизнеса с широким выбором способов оплаты.
    516

    View Slide

  517. Дополнительная литература I
    ИНТЕРНЕТ-ТЕХНОЛОГИИ в федеральной целевой
    программе Электронная Россия (2002–2010 годы)
    [Текст] / А. В. Волокитин, А. И. Панкратов, А. В.
    Солдатенков и др.; под ред. Л. Д. Реймана.
    М.: Известия: НТЦ ФИОРД-ИНФО , 2003.
    272 с. (Справочное пособие).
    ISBN 5-206-00620-3.
    Берлин, А. Н. Основные протоколы интернет [Текст] /
    А. Н. Берлин.
    М.: Интерент-Университет Информационных Технологий;
    БИНОМ. Лаборатория знаний, 2008.
    504 с.
    517

    View Slide

  518. Дополнительная литература II
    Берлин, А. Н. Основные протоколы интернет
    [Электронный ресурс] / А. Н. Берлин.
    М.: Интернет-университет информационных технологий
    ИНТУИТ.ру, 2008. Режим доступа: http:
    //www.intuit.ru/department/network/internetprot/.
    Кариев, Ч. А. Всемирная Сеть (WWW) использование и
    приложения [Электронный ресурс] / Ч. А. Кариев.
    М.: Интернет-университет информационных технологий
    ИНТУИТ.ру, 2008. Режим доступа:
    http://www.intuit.ru/department/internet/wwwua/.
    Каллахан, И. Практика разработки web-страниц
    [Электронный ресурс] / Ивэн Каллахан.
    М.: Интернет-университет информационных технологий
    ИНТУИТ.ру, 2006. Режим доступа:
    http://www.intuit.ru/studies/courses/120/120/info.
    518

    View Slide

  519. Часть VIII
    Data Mining

    View Slide

  520. Содержание I
    34 Основные понятия
    Понятие статистики
    Понятие визуализации
    Понятие искусственного интеллекта
    Распознавание образов
    Классификация стадий Data Mining
    35 Задачи Data Mining
    Классификация
    Процесс классификации
    Методы решения задач классификации
    Оценивание классификационных методов
    Кластеризация
    Методы решения задач кластеризации:
    Процесс кластеризации
    Прогнозирование
    Виды прогнозирования
    Методы прогнозирования
    Data Mining временных рядов
    520

    View Slide

  521. Содержание II
    Тренд, сезонность и цикл
    Рекомендации по выбору параметров прогнозирования
    Точность прогноза
    Поиск ассоциативных правил
    Ассоциативные правила
    Основные алгоритмы поиска ассоциативных правил
    Обобщённые ассоциативные правила
    Численные ассоциативные правила
    36 Основные направления Data Mining
    Text Mining
    Web Mining
    Web Content Mining
    Web Usage Mining
    Call Mining
    521

    View Slide

  522. Основные понятия
    Определение
    Data Mining интеллектуальный анализ данных выявление
    скрытых закономерностей или взаимосвязей между
    переменными в больших массивах необработанных (сырых)
    данных.
    Data Mining это процесс поддержки принятия решений,
    основанный на поиске в данных скрытых закономерностей
    (шаблонов информации).
    Английский термин Data Mining не имеет однозначного
    перевода на русский язык (добыча данных, вскрытие данных,
    информационная проходка, извлечение данных/информации),
    поэтому в большинстве случаев используется в оригинале.
    Наиболее удачным непрямым переводом считается термин
    интеллектуальный анализ данных.

    View Slide

  523. Основные понятия
    Термин Data Mining введён Григорием Пятецким-Шапиро
    (Gregory Piatetsky-Shapiro) в 1989 г.: Data Mining это процесс
    обнаружения в сырых данных ранее неизвестных,
    нетривиальных, практически полезных и доступных
    интерпретации знаний, необходимых для принятия решений в
    различных сферах человеческой деятельности .
    Data Mining это процесс, цель которого обнаружить новые
    значимые корреляции, образцы и тенденции в результате
    просеивания большого объёма хранимых данных с
    использованием методик распознавания образцов плюс
    применение статистических и математических методов
    (определение Gartner Group).
    Data Mining это процесс выделения, исследования и
    моделирования больших объёмов данных для обнаружения
    неизвестных до этого структур (patterns) с целью достижения
    преимуществ в бизнесе (определение SAS Institute).

    View Slide

  524. Основные понятия
    Суть и цель технологии Data Mining можно охарактеризовать
    так: это технология, которая предназначена для поиска в
    больших объёмах данных неочевидных, объективных и полезных
    на практике закономерностей.
    В основу технологии Data Mining положена концепция
    шаблонов (patterns), которые представляют собой
    закономерности, свойственные подвыборкам данных, которые
    могут быть выражены в форме, понятной человеку.
    Data Mining включает методы и модели статистического
    анализа и машинного обучения, дистанцируясь от них в сторону
    автоматического анализа данных.
    Инструменты Data Mining позволяют проводить анализ данных
    предметными специалистами (аналитиками), не владеющими
    соответствующими математическими знаниями. Такие
    инструменты позволяют выделить информацию из огромного
    количества неявных и неструктурированных данных,
    накопившихся за многие годы работы организации, и
    представить её в виде, пригодном для использования.

    View Slide

  525. Основные понятия
    Способ быстрого анализа информации в базе данных с целью
    отыскания аномалий и трендов на основе Data Mining получил
    название OLAP. Термин предложил Эдгар Кодд (Edgar Codd),
    опубликовавший в 1993 году 12 законов аналитической
    обработки в реальном времени .
    Определение
    OLAP (OnLine Analytical Processing, аналитическая обработка в
    реальном времени) технология обработки информации,
    включающая составление и динамическую публикацию отчётов
    и документов.
    OLAP используется аналитиками для быстрой обработки
    сложных запросов к базе данных, служит для подготовки
    бизнес-отчётов по продажам, маркетингу, в целях управления.
    525

    View Slide

  526. Основные понятия
    Data Mining мультидисциплинарная область, возникшая и
    развивающаяся на базе таких наук, как:
    теория баз данных;
    прикладная статистика;
    визуализация;
    искусственный интеллект;
    теория алгоритмов;
    распознавание образов;
    и др.
    526

    View Slide

  527. Основные понятия
    Понятие статистики
    Определение
    Статистика это наука о методах сбора данных, их обработки
    и анализа для выявления закономерностей, присущих
    изучаемому явлению.
    Статистика является совокупностью методов планирования
    эксперимента, сбора данных, их представления и обобщения, а
    также анализа и получения выводов на основании этих данных.
    Статистика оперирует данными, полученными в результате
    наблюдений либо экспериментов.
    Выделяют описательную статистику, теорию оценивания и
    теорию проверки гипотез.

    View Slide

  528. Основные понятия
    Понятие статистики
    Описательная статистика есть совокупность эмпирических
    методов, используемых для визуализации и интерпретации
    данных (расчёт выборочных характеристик, таблицы,
    диаграммы, графики и т. д.), как правило, не требующих
    предположений о вероятностной природе данных. Некоторые
    методы описательной статистики опираются на продвинутую
    теорию и возможности современных компьютеров. К ним
    относятся, в частности, кластерный анализ, нацеленный на
    выделение групп объектов, похожих друг на друга, и
    многомерное шкалирование, позволяющее наглядно
    представить объекты на плоскости.

    View Slide

  529. Основные понятия
    Понятие статистики
    Методы оценивания и проверки гипотез опираются на
    вероятностные модели происхождения данных. Эти модели
    делятся на параметрические (когда предполагается, что
    характеристики изучаемых объектов описываются посредством
    распределений, зависящих от (одного или нескольких) числовых
    параметров) и непараметрические (когда модели не связаны со
    спецификацией параметрического семейства для распределения
    изучаемых характеристик).
    В математической статистике оценивают параметры и функции
    от них, представляющие важные характеристики распределений
    (например, математическое ожидание, медиана, стандартное
    отклонение, квантили и др.), плотности и функции
    распределения и пр. Используют точечные и интервальные
    оценки.

    View Slide

  530. Основные понятия
    Понятие визуализации
    Определение
    Визуализация (рендеринг) термин в компьютерной
    графике, обозначающий процесс получения изображения по
    модели с помощью компьютерной программы.
    Здесь модель это описание объектов или явлений на строго
    определённом языке или в виде структуры данных.
    Примером визуализации могут служить радарные космические
    снимки, представляющие в виде изображения данные,
    полученные посредством радиолокационного сканирования
    поверхности космического тела, в диапазоне электромагнитных
    волн, невидимых человеческим глазом.
    530

    View Slide

  531. Основные понятия
    Понятие искусственного интеллекта
    Определение
    Искусственный интеллект (ИИ, AI от Artificial Intelligence)
    это наука о разработке интеллектуальных машин и систем,
    особенно интеллектуальных компьютерных программ,
    основанных на изучении человеческого интеллекта.
    Эта наука занимается моделированием человеческого
    интеллекта, так как с одной стороны, наблюдая за другими
    людьми, можно разработать более эффективные алгоритмы
    решения сложных проблемы, а с другой стороны, большинство
    работ в ИИ касаются изучения проблем, которые требуется
    решать человечеству на промышленном и технологическом
    уровне. Поэтому исследователи ИИ вольны использовать
    методы, которые не наблюдаются у людей, если это необходимо
    для решения конкретных проблем.
    531

    View Slide

  532. Основные понятия
    Понятие искусственного интеллекта
    Определение
    Интеллект способность системы создавать в ходе
    самообучения алгоритмы (в первую очередь эвристические) для
    решения задач определённого класса сложности и решать эти
    задачи с помощью разработанных алгоритмов.
    Это универсальное определение единое для человека и
    машины .
    532

    View Slide

  533. Основные понятия
    Понятие искусственного интеллекта
    Машинное обучение
    Определение
    Машинное обучение (machine learning) подраздел
    искусственного интеллекта, изучающий методы построения
    алгоритмов, способных обучаться.
    Различают два типа обучения. Обучение по прецедентам, или
    индуктивное обучение, основано на выявлении
    закономерностей в эмпирических данных. Дедуктивное
    обучение предполагает формализацию знаний экспертов и
    перенос их в базу знаний. Дедуктивное обучение принято
    относить к области экспертных систем, поэтому термины
    машинное обучение и обучение по прецедентам можно
    считать синонимами.
    533

    View Slide

  534. Основные понятия
    Понятие искусственного интеллекта
    Машинное обучение находится на стыке математической
    статистики, методов оптимизации и дискретной
    математики, но имеет также и собственную специфику,
    связанную с проблемами вычислительной эффективности и
    переобучения. Многие методы индуктивного обучения
    разрабатывались как альтернатива классическим
    статистическим подходам.

    View Slide

  535. Основные понятия
    Распознавание образов
    Определение
    Распознавание образов раздел кибернетики, развивающий
    теоретические основы и методы классификации и
    идентификации предметов, явлений, процессов, сигналов,
    ситуаций и других объектов, которые характеризуются конечным
    набором некоторых свойств и признаков.
    Такие задачи решаются довольно часто, например при переходе
    или проезде улицы по сигналам светофора. Распознавание цвета
    загоревшейся лампы светофора и знание правил дорожного
    движения позволяет принять правильное решение о том, можно
    или нельзя переходить улицу в данный момент.

    View Slide

  536. Основные понятия
    Распознавание образов
    В процессе биологической эволюции многие животные с
    помощью зрительного и слухового аппарата решили задачи
    распознавания образов достаточно хорошо. Создание
    искусственных систем распознавания образов остаётся
    сложной теоретической и технической проблемой.
    Необходимость в таком распознавании возникает в самых
    разных областях от военного дела и систем безопасности до
    оцифровки всевозможных аналоговых сигналов.
    Традиционно задачи распознавания образов включают в круг
    задач искусственного интеллекта.

    View Slide

  537. Основные понятия
    Распознавание образов
    3D-распознавание
    К сканированию и распознаванию текста сейчас уже все
    привыкли, хотя ещё 20 лет назад это представлялось
    невероятной технологией. В настоящее время появилась
    технология быстрого 3D-сканирования.
    Определение
    Flipping технология автоматизированного быстрого
    3D-сканирования (книг, журналов) и сохранения в файл (с
    распознаванием текста).
    В этой технологии, реализованной в 3D-Book
    (www.3d-book.com), 3 камеры позволяют компенсировать
    различные перегибы.
    537

    View Slide

  538. Основные понятия
    Распознавание образов
    Компания Вокорд на Московской выставке в апреле 2012 г.
    продемонстрировала промышленный образец своей системы для
    3D-реконструкции и идентификации лиц Vocord FaceControl
    3D, позволяющей в режиме реального времени распознавать
    лица людей в движении. Такая система может использоваться,
    например, спецслужбами для поиска правонарушителей или для
    контроля доступа сотрудников на предприятиях.
    Распознавание лиц в Vocord FaceControl 3D основано на
    принципиально новой технологии: система не просто выделяет и
    распознает лицо человека на фотографии, а делает снимки с
    разных ракурсов и строит 3D-модель лица, по которой идёт
    распознавание. Такая технология решает основные проблемы
    традиционных систем биометрической идентификации:
    чувствительность к повороту головы под разными ракурсами,
    макияжу и неконтролируемым условиям освещения.

    View Slide

  539. Основные понятия
    Распознавание образов
    Во многих крупных аэропортах США внедрено решение от IBM
    для распознавания, анализа лиц и выявления подозрительных
    людей.
    Вход сотрудников на один из спецобъектов Кремля теперь
    контролируется системой 3D-распознавания лиц, созданной в
    России.
    Компания Крок, официальный дистрибьютор решений от Artec
    Group, в ноябре 2012 г. завершила первое в своей практике
    внедрение системы распознавания лиц движущихся людей. Она
    реализована в центральном московском офисе компании: на
    входе в здание установлен турникет с Broadway 3D от Artec
    Group.
    539

    View Slide

  540. Основные понятия
    Распознавание образов
    На инсталляцию системы и регистрацию 500 человек (четверть
    штата компании желающие поучаствовать в проекте
    сотрудники) потребовалось всего четыре дня. По данным Крок,
    к тому времени решение уже используется несколькими
    крупными организациями по всему миру, в том числе
    Министерством иностранных дел в Катаре, крупным
    коммерческим банком в Испании и заводом электроники в
    Японии.
    Система 3D-распознавания обеспечивает высокий уровень
    безопасности, поскольку, в отличие от пропуска, трёхмерную
    модель лица гораздо сложнее подделать. Кроме того, данное
    решение позволяет задавать значение порога распознавания,
    снижая или повышая уровень безопасности на охраняемом
    объекте. Например, при высоком значении этого параметра
    система не пропустит даже близнеца зарегистрированного
    сотрудника.

    View Slide

  541. Основные понятия
    Распознавание образов
    В процессе регистрации камера Broadway 3D снимает
    трёхмерное изображение и строит математическую модель лица
    с субмиллиметровой точностью. Затем система формирует
    биометрический шаблон (3,5 кБ), который записывается в базу
    данных, ассоциируясь с карточкой и ID пользователя. Весь
    процесс регистрации занимает две секунды. В течение одной
    секунды устройство успевает проанализировать 40 тыс. точек на
    лице, построить точную модель лица, а также произвести
    сравнение с лицами в базе данных.
    В целом решение может работать в двух режимах
    идентификации и верификации. В первом случае система
    сопоставляет 3D-модель лица человека и его биометрический
    шаблон и при их совпадении пропускает человека. Во втором
    случае считывает карту-пропуск, а затем производит
    сравнение лица посетителя с соответствующим ему шаблоном в
    базе данных. Таким образом она проверяет, действительно ли
    пропуск принадлежит человеку, желающему войти в здание.

    View Slide

  542. Основные понятия
    Классификация стадий Data Mining
    Data Mining может состоять из двух или трёх стадий:
    1 свободный поиск;
    2 прогностическое моделирование;
    3 анализ исключений.
    542

    View Slide

  543. Основные понятия
    Классификация стадий Data Mining
    Свободный поиск
    Определение
    Свободный поиск (discovery) выявление закономерностей,
    исследование набора данных с целью поиска скрытых
    закономерностей.
    Система Data Mining на этой стадии определяет шаблоны, для
    получения которых в системах OLAP, например, аналитику
    необходимо обдумывать и создавать множество запросов. Здесь
    же аналитик освобождается от такой работы шаблоны ищет
    за него система. Особенно полезно применение данного подхода
    в сверхбольших базах данных, где уловить закономерность
    путём создания запросов достаточно сложно, для этого
    требуется перепробовать множество разнообразных вариантов.
    543

    View Slide

  544. Основные понятия
    Классификация стадий Data Mining
    Свободный поиск представлен такими действиями:
    выявление закономерностей условной логики (conditional
    logic);
    выявление закономерностей ассоциативной логики
    (associations and affinities);
    выявление трендов и колебаний (trends and variations).
    На стадии свободного поиска также должна осуществляться
    валидация закономерностей, т. е. проверка их достоверности
    на части данных, которые не принимали участие в
    формировании закономерностей. Цель валидации проверка
    достоверности найденных закономерностей. Обычно
    валидацию считают частью первой стадии, поскольку в
    реализации многих методов, в частности нейронных сетей и
    деревьев решений, предусмотрено деление общего множества
    данных на обучающее и проверочное, и последнее позволяет
    проверять достоверность полученных результатов.

    View Slide

  545. Основные понятия
    Классификация стадий Data Mining
    Прогностическое моделирование
    Прогностическое моделирование (predictive modeling)
    предполагает, что обнаруженные на предыдущем этапе
    закономерности используются непосредственно для
    прогнозирования.
    Прогностическое моделирование включает следующие
    действия:
    предсказание неизвестных значений (outcome prediction);
    прогнозирование развития процессов (forecasting).
    В процессе прогностического моделирования решаются
    задачи классификации и прогнозирования.
    545

    View Slide

  546. Основные понятия
    Классификация стадий Data Mining
    Анализ исключений
    На стадии анализа исключений (forensic analysis)
    анализируются исключения или аномалии, выявленные в
    найденных закономерностях.
    Действие, выполняемое на этой стадии, выявление
    отклонений (deviation detection).
    Для этого необходимо определить норму, которая
    рассчитывается на стадии свободного поиска.
    546

    View Slide

  547. Задачи Data Mining
    Основные задачи Data Mining: классификация,
    кластеризация, прогнозирование, поиск ассоциативных
    правил.
    547

    View Slide

  548. Задачи Data Mining
    Классификация
    Классификация является наиболее простой и одновременно
    наиболее часто решаемой задачей Data Mining.
    Определение
    Классификация процесс группировки объектов в
    соответствии с их общими признаками.
    Цель классификации построить модель, которая использует
    независимые атрибуты в качестве входных параметров и
    получает значение зависимого атрибута. Процесс
    классификации заключается в разбиении множества объектов на
    классы по определённому критерию. В результате создаётся
    классифицированная система, часто называемая также, как
    и процесс классификацией.
    Определение
    Классификация упорядоченное по некоторому принципу
    множество объектов.
    548

    View Slide

  549. Задачи Data Mining
    Процесс классификации
    Для проведения классификации с помощью математических
    методов необходимо иметь формальное описание объекта,
    которым можно оперировать, используя математический
    аппарат классификации.
    Определение
    Классификатором называется некая сущность, определяющая
    по вектору признаков, какому из предопределённых классов
    принадлежит объект.
    Набор исходных данных (или выборку данных) разбивают на два
    множества: обучающее и тестовое. Обучающее множество
    (training set) множество, которое включает данные,
    использующиеся для обучения (конструирования) модели.
    Такое множество содержит входные и выходные (целевые)
    значения примеров. Выходные значения предназначены для
    обучения модели.
    549

    View Slide

  550. Задачи Data Mining
    Процесс классификации
    Тестовое множество (test set) также содержит входные и
    выходные значения примеров. Здесь выходные значения
    используются для проверки работоспособности модели.
    Процесс классификации состоит из двух этапов:
    1 Конструирование модели (описание множества
    предопределённых классов):
    каждый пример набора данных относится к одному
    предопределённому классу;
    на этом этапе используется обучающее множество, на нём
    происходит конструирование модели;
    полученная модель представлена классификационными
    правилами, деревом решений или математической
    формулой.
    550

    View Slide

  551. Задачи Data Mining
    Процесс классификации
    2 Использование модели (классификация новых или
    неизвестных значений):
    1 оценка правильности (точности) модели:
    известные значения из тестового примера сравниваются с
    результатами использования полученной модели.
    уровень точности процент правильно
    классифицированных примеров в тестовом множестве;
    тестовое множество (множество, на котором тестируется
    построенная модель) не должно зависеть от обучающего
    множества;
    2 если точность модели допустима, возможно использование
    модели для классификации новых примеров, класс которых
    неизвестен.
    551

    View Slide

  552. Задачи Data Mining
    Методы решения задач классификации
    Для классификации используются различные методы (см.
    рис. 8.1).
    деревья решений;
    статистические методы (линейная регрессия, метод
    главных компонент);
    байесовская (наивная) классификация;
    искусственные нейронные сети;
    метод опорных векторов (SVM);
    метод ближайшего соседа (идея заключается в
    отыскании среди множества элементов, расположенных в
    многомерном метрическом пространстве, элементов близких
    к заданному, согласно некоторой функции близости);
    методы группового учёта аргументов (МГУА, GMDH),
    например, метод комплексирования аналогов;
    генетические алгоритмы.
    552

    View Slide

  553. Задачи Data Mining
    Методы решения задач классификации
    а) б)
    в) г)
    Рис. 8.1: Графическая интерпретация различных методов
    классификации: а исходные объекты; б линейная регрессия; в
    деревья решений; г более сложные методы
    553

    View Slide

  554. Задачи Data Mining
    Методы решения задач классификации
    Оценка точности классификации может проводиться при
    помощи кросс-проверки.
    Определение
    Кросс-проверка (cross-validation) это процедура оценки
    точности классификации на данных из тестового множества,
    которое также называют кросс-проверочным множеством.
    Точность классификации тестового множества сравнивается с
    точностью классификации обучающего множества. Если
    классификация тестового множества даёт приблизительно такие
    же результаты по точности, как и классификация обучающего
    множества, считается, что данная модель прошла
    кросс-проверку.
    554

    View Slide

  555. Задачи Data Mining
    Методы решения задач классификации
    Разделение на обучающее и тестовое множества осуществляется
    путём деления выборки в определённой пропорции, например
    обучающее множество две трети данных и тестовое одна
    треть данных. Этот способ следует использовать для выборок с
    большим количеством примеров. Если же выборка имеет малые
    объёмы, рекомендуется применять специальные методы, при
    использовании которых обучающая и тестовая выборки могут
    частично пересекаться.
    555

    View Slide

  556. Задачи Data Mining
    Оценивание классификационных методов
    Выбор методов классификации следует проводить, исходя из
    оценивания следующих характеристик:
    Скорость характеризует время, которое требуется на
    создание модели и её использование.
    Робастность устойчивость к каким-либо нарушениям
    исходных предпосылок. Под робастностью в
    статистике понимают нечувствительность к
    различным отклонениям и неоднородностям в
    выборке, связанным с теми или иными, в общем
    случае неизвестными, причинами. Это могут быть
    ошибки детектора, регистрирующего наблюдения,
    чьи-то добросовестные или намеренные попытки
    подогнать выборку до того, как она попадёт к
    статистику, ошибки оформления, вкравшиеся
    опечатки и т. п.

    View Slide

  557. Задачи Data Mining
    Оценивание классификационных методов
    Надёжность предусматривает возможность работы этих
    методов при наличии в наборе данных шумов и
    выбросов.
    Интерпретируемость обеспечивает возможность понимания
    модели аналитиком.
    557

    View Slide

  558. Задачи Data Mining
    Кластеризация
    Задача кластеризации сходна с задачей классификации,
    является её логическим продолжением, но её отличие состоит в
    том, что классы изучаемого набора данных заранее не
    предопределены.
    Определение
    Кластерный анализ (data clustering), кластеризация
    задача разбиения заданной выборки объектов (ситуаций) на
    подмножества, называемые кластерами, так, чтобы каждый
    кластер состоял из схожих объектов, а объекты разных
    кластеров существенно отличались.
    Переводится понятие кластер (cluster) как скопление ,
    гроздь .
    Если данные выборки представить как точки в пространстве
    признаков, то задача кластеризации сводится к определению
    сгущений точек .
    558

    View Slide

  559. Задачи Data Mining
    Кластеризация
    В качестве синонима термина кластеризация часто
    используются автоматическая классификация, обучение без
    учителя и таксономия.
    Цель кластеризации поиск существующих структур.
    Кластеризация является описательной процедурой, она не
    делает никаких статистических выводов, но даёт возможность
    провести разведочный анализ и изучить структуру данных .
    Кластер можно охарактеризовать как группу объектов, имеющих
    общие свойства.
    Кластер характеризуется двумя признаками:
    1 внутренней однородностью;
    2 внешней изолированностью.
    559

    View Slide

  560. Задачи Data Mining
    Кластеризация
    Вопрос, задаваемый аналитиками при решении многих задач,
    состоит в том, как организовать данные в наглядные структуры
    (т. е. развернуть таксономии )?
    Наибольшее применение кластеризация первоначально
    получила в таких науках, как биология, археология,
    антропология, психология. Для решения экономических задач
    кластеризация длительное время мало использовалась из-за
    специфики экономических данных и явлений. Сейчас известны
    широкие применения кластерного анализа в маркетинговых
    исследованиях. В криминалистике распространена практика
    проведения корреляционного и кластерного анализа.
    Сегодня спектр применения кластерного анализа очень широк:
    его используют в археологии, медицине, психологии, химии,
    биологии, государственном управлении, филологии,
    антропологии, социологии, маркетинге, криминалистике и
    других дисциплинах.

    View Slide

  561. Задачи Data Mining
    Кластеризация
    Однако универсальность применения привела к появлению
    большого количества несовместимых терминов, методов и
    подходов, затрудняющих однозначное использование и
    непротиворечивую интерпретацию кластерного анализа.
    Следует отметить, что в результате применения различных
    методов кластерного анализа могут быть получены кластеры
    различной формы. Например, возможны кластеры
    цепочного типа, когда кластеры представлены длинными
    цепочками , кластеры удлинённой формы и т. д., а некоторые
    методы могут создавать кластеры произвольной формы (см.
    рис. 8.2).
    Различные методы могут стремиться создавать кластеры
    определённых размеров (малых или крупных) либо предполагать
    в наборе данных наличие кластеров различного размера.
    Некоторые методы кластерного анализа особенно
    чувствительны к шумам или выбросам, другие менее
    чувствительны.

    View Slide

  562. Задачи Data Mining
    Кластеризация
    Рис. 8.2: Методы решения задач кластеризации
    На сегодняшний день разработано более сотни различных
    алгоритмов кластеризации.
    В результате применения различных методов кластеризации
    могут быть получены неодинаковые результаты, это нормально
    и является особенностью работы того или иного алгоритма.
    Данные особенности следует учитывать при выборе метода
    кластеризации.
    562

    View Slide

  563. Задачи Data Mining
    Методы решения задач кластеризации
    Алгоритмы, основанные на разделении данных
    (partitioning algorithms), в т. ч. итеративные:
    разделение объектов на k кластеров;
    итеративное перераспределение объектов для улучшения
    кластеризации.
    Иерархические алгоритмы (hierarchy algorithms). В их
    основе лежит агломерация: каждый объект первоначально
    является кластером, кластеры, соединяясь друг с другом,
    формируют больший кластер и т. д.
    Модельные методы (model-based methods): для
    нахождения кластеров используют модели, наиболее
    соответствующие данным.
    563

    View Slide

  564. Задачи Data Mining
    Кластеризация
    Методы, основанные на концентрации объектов
    (density-based methods):
    основаны на возможности соединения объектов;
    игнорируют шумы;
    находят кластеры произвольной формы.
    Грид-методы (grid-based methods): основаны на разбиении
    объектов в решётчатые структуры.
    564

    View Slide

  565. Задачи Data Mining
    Процесс кластеризации
    Процесс кластеризации зависит от выбранного метода и почти
    всегда является итеративным. Он может включать множество
    экспериментов по выбору разнообразных параметров, например
    меры расстояния, типа стандартизации переменных, количества
    кластеров и т. д. Однако эксперименты не должны быть
    самоцелью, ведь конечной целью кластеризации является
    получение содержательных сведений о структуре исследуемых
    данных. Полученные результаты требуют дальнейшей
    интерпретации, исследования и изучения свойств и
    характеристик объектов для возможности точного описания
    сформированных кластеров.

    View Slide

  566. Задачи Data Mining
    Процесс кластеризации
    Оценка качества кластеризации может быть проведена на
    основе следующих процедур:
    ручная проверка;
    установление контрольных точек и проверка на полученных
    кластерах;
    определение стабильности кластеризации путём
    добавления в модель новых переменных;
    создание и сравнение кластеров с использованием
    различных методов. Разные методы кластеризации могут
    создавать разные кластеры, и это является нормальным
    явлением. Однако создание схожих кластеров различными
    методами указывает на правильность кластеризации.
    566

    View Slide

  567. Задачи Data Mining
    Прогнозирование
    Задача прогнозирования может считаться одной из наиболее
    сложных задач Data Mining, она требует тщательного
    исследования исходного набора данных и методов, подходящих
    для анализа.
    Определение
    Прогноз (πρ´
    oγνωσιζ) предвидение, предсказание будущего с
    помощью научных методов или сам результат предсказания.
    Определение
    Прогноз это научная модель будущих событий, явлений и т. п.
    Определение
    Прогнозирование (forecasting) разработка прогноза, в
    узком значении специальное научное исследование
    конкретных перспектив развития какого-либо процесса.
    567

    View Slide

  568. Задачи Data Mining
    Прогнозирование
    Прогнозирование является одной из задач Data Mining и
    одновременно одним из ключевых моментов при принятии
    решений.
    Прогнозирование (prognosis), в широком понимании этого
    слова, определяется как опережающее отражение будущего.
    Целью прогнозирования является предсказание будущих
    событий.
    Определение
    Прогностика (prognostics) научная дисциплина, изучающая
    общие принципы и методы прогнозирования развития
    объектов любой природы, закономерности процесса разработки
    прогнозов.
    Как наука прогностика сформировалась в 70–80 годы ХХ
    столетия.
    568

    View Slide

  569. Задачи Data Mining
    Прогнозирование
    Прогнозирование направлено на определение тенденций
    динамики конкретного объекта или события на основе
    ретроспективных данных, т. е. анализа его состояния в прошлом
    и настоящем. Таким образом, решение задачи
    прогнозирования требует некоторой обучающей выборки
    данных.
    Прогнозирование установление функциональной
    зависимости между зависимыми и независимыми переменными.
    Прогнозирование является распространённой и востребованной
    задачей во многих областях человеческой деятельности. В
    результате прогнозирования уменьшается риск принятия
    неверных, необоснованных или субъективных решений.
    569

    View Slide

  570. Задачи Data Mining
    Прогнозирование
    Пример 8.1 (Прогнозирование рынков (market forecasting))
    Типичной в сфере маркетинга является прогнозирование рынков
    (market forecasting):
    прогноз продаж товаров (например, с целью определения
    нормы товарного запаса);
    прогнозирование продаж товаров, оказывающих влияние
    друг на друга;
    прогноз продаж в зависимости от внешних факторов.
    В результате решения данной задачи оцениваются перспективы
    развития конъюнктуры определённого рынка, изменения
    рыночных условий на будущие периоды, определяются
    тенденции рынка (структурные изменения, потребности
    покупателей, изменения цен).

    View Slide

  571. Задачи Data Mining
    Прогнозирование
    Пример 8.2 (Использование прогнозирования в прикладных
    задачах)
    прогноз котировок акций;
    прогноз погоды и климата;
    предсказание динамики преступности
    (увеличение/уменьшение, возрастные/социальные группы,
    виды преступлений);
    прогнозирование урожайности агрокультуры;
    предсказание очередного преступления серийного убийцы;
    прогнозирование финансовой устойчивости предприятия.
    Помимо климата, криминалистической, экономической и
    финансовой сферы, задачи прогнозирования ставятся в самых
    разнообразных областях: медицине, фармакологии, политике.

    View Slide

  572. Задачи Data Mining
    Виды прогнозирования
    Прогнозы делятся:
    по срокам:
    краткосрочные не более чем на 3% от объёма
    наблюдений или на 1–3 шага вперёд;
    среднесрочные на 3–5% от объёма наблюдений, но не
    более 7–12 шагов вперёд; также под этим
    типом прогноза понимают прогноз на один или
    половину сезонного цикла;
    долгосрочные более чем на 5% от объёма наблюдений;
    по масштабу:
    личные;
    на уровне предприятия (организации);
    местные;
    региональные;
    отраслевые;
    государственные;
    мировые (глобальные).
    572

    View Slide

  573. Задачи Data Mining
    Методы прогнозирования
    К основным методам прогнозирования относятся
    статистические методы (линейная регрессия) для
    краткосрочных и среднесрочных прогнозов;
    экспертные оценки (метод Дельфи);
    моделирование (искусственные нейронные сети, МГУА).
    Выбор метода прогнозирования зависит от многих факторов, в
    том числе от параметров прогнозирования. Выбор метода
    следует производить с учётом всех специфических особенностей
    набора ретроспективных данных и целей, с которыми он
    строится.
    В самых общих чертах решение задачи прогнозирования
    сводится к решению следующих подзадач:
    выбор модели прогнозирования;
    анализ адекватности и точности построенного
    прогноза.
    573

    View Slide

  574. Задачи Data Mining
    Методы прогнозирования
    Программное обеспечение Data Mining, используемое для
    прогнозирования, должно обеспечивать пользователя точным
    и достоверным прогнозом. Однако получение такого прогноза
    зависит не только от программного обеспечения и методов,
    заложенных в его основу, но также и от других факторов, среди
    которых полнота и достоверность исходных данных,
    своевременность и оперативность их пополнения, квалификация
    пользователя.
    574

    View Slide

  575. Задачи Data Mining
    Data Mining временных рядов
    Основой для прогнозирования служит историческая
    информация, хранящаяся в базе данных в виде временных
    рядов.
    Существует понятие Data Mining временных рядов
    (time-series Data Mining).
    Определение
    Временной ряд последовательность наблюдаемых значений
    какого-либо признака, упорядоченных в неслучайные моменты
    времени.
    Принципиальные отличия временного ряда от простой
    последовательности наблюдений:
    члены временного ряда, в отличие от элементов случайной
    выборки, не являются статистически независимыми;
    члены временного ряда не являются одинаково
    распределёнными.
    575

    View Slide

  576. Задачи Data Mining
    Data Mining временных рядов
    Отличием анализа временных рядов от анализа случайных
    выборок является предположение о равных промежутках
    времени между наблюдениями и их хронологический порядок.
    Привязка наблюдений ко времени играет здесь ключевую роль,
    тогда как при анализе случайной выборки она не имеет никакого
    значения.
    Пример 8.3 (Data Mining временных рядов)
    температура, влажность, ветер, и др. параметры погоды,
    измеренные через каждые 6 часов;
    данные биржевых торгов.
    Информация, накопленная в разнообразных базах данных
    предприятия, является временными рядами, если она
    расположена в хронологическом порядке и получена в
    последовательные моменты времени.
    576

    View Slide

  577. Задачи Data Mining
    Data Mining временных рядов
    Анализ временного ряда может осуществляться для
    достижения нескольких целей:
    Определение природы ряда (обнаружение шумов и
    выбросов, тренда, сезонной компоненты, циклической
    компоненты).
    Определение природы временного ряда может быть
    использовано как своеобразная разведка данных. Знание
    аналитика о наличии сезонной компоненты необходимо,
    например, для определения количества записей выборки,
    которое должно принимать участие в построении прогноза.
    Прогнозирование будущих значений ряда.
    577

    View Slide

  578. Задачи Data Mining
    Тренд, сезонность и цикл
    Основными составляющими временного ряда являются тренд
    и сезонная компонента.
    Определение
    Трендом называют неслучайную функцию, которая
    формируется под действием общих или долговременных
    тенденций, влияющих на временной ряд.
    Примером тренда может выступать, например, фактор роста
    исследуемого рынка.
    Тренд является систематической компонентой временного ряда,
    которая может изменяться во времени.
    578

    View Slide

  579. Задачи Data Mining
    Тренд, сезонность и цикл
    Автоматического способа обнаружения трендов во временных
    рядах не существует. Но если временной ряд включает
    монотонный тренд (т. е. отмечено его устойчивое возрастание
    или устойчивое убывание), анализировать временной ряд в
    большинстве случаев нетрудно.
    Задачи прогнозирования можно подразделить на две группы:
    Прогнозирование односерийных рядов.
    Эта группа включает задачи построения прогноза одной
    переменной по ретроспективным данным только этой
    переменной, без учёта влияния других переменных и
    факторов.
    Прогнозирование мультисерийных (взаимовлияющих)
    рядов.
    Эта группа включает задачи анализа, где необходимо
    учитывать взаимовлияющие факторы на одну или
    несколько переменных.
    579

    View Slide

  580. Задачи Data Mining
    Тренд, сезонность и цикл
    Ряды также бывают сезонными и несезонными. Это деление
    подразумевает наличие или отсутствие у временного ряда
    такой составляющей, как сезонность, т. е. включение сезонной
    компоненты.
    Определение
    Сезонная составляющая является периодически
    повторяющейся компонентой временного ряда.
    Свойство сезонности означает, что через примерно равные
    промежутки времени форма кривой, которая описывает
    поведение зависимой переменной, повторяет свои характерные
    очертания.
    Рассмотрим пример. На рис. 8.3 приведён фрагмент ряда,
    который иллюстрирует поведение переменной объёмы продажи
    товара Х за период, составляющий один месяц.
    580

    View Slide

  581. Задачи Data Mining
    Тренд, сезонность и цикл
    При изучении кривой, приведенной на рисунке, аналитик не
    может сделать предположений относительно повторяемости
    формы кривой через равные промежутки времени.
    Рис. 8.3: Фрагмент временного ряда за сезонный период
    581

    View Slide

  582. Задачи Data Mining
    Тренд, сезонность и цикл
    Однако при рассмотрении более продолжительного ряда (за 12
    месяцев), изображённого на рис. 8.4, можно увидеть явное
    наличие сезонной компоненты. Следовательно, о сезонности
    продаж можно говорить только тогда, когда рассматриваются
    данные за несколько месяцев.
    Таким образом, в процессе подготовки данных для
    прогнозирования аналитику следует определить, обладает ли
    ряд, который он анализирует, свойством сезонности.
    Рис. 8.4: Фрагмент временного ряда за 12 сезонных периодов
    582

    View Slide

  583. Задачи Data Mining
    Тренд, сезонность и цикл
    Определение наличия компоненты сезонности необходимо для
    того, чтобы входная информация обладала свойством
    репрезентативности.
    Ряд можно считать несезонным, если при рассмотрении его
    внешнего вида нельзя сделать предположений о повторяемости
    формы кривой через равные промежутки времени.
    Иногда по внешнему виду кривой ряда нельзя определить,
    является он сезонным или нет.
    Существует понятие сезонного мультиряда. В нём каждый
    ряд описывает поведение факторов, которые влияют на
    зависимую (целевую) переменную. Примером такого ряда
    могут служит ряды продаж нескольких товаров, подверженных
    сезонным колебаниям.

    View Slide

  584. Задачи Data Mining
    Тренд, сезонность и цикл
    При сборе данных и выборе факторов для решения задачи по
    прогнозированию в таких случаях следует учитывать, что
    влияние объёмов продаж товаров друг на друга здесь намного
    меньше, чем воздействие фактора сезонности.
    Важно не путать понятия сезонной компоненты ряда и
    сезонов природы. Несмотря на близость их звучания, эти
    понятия разнятся. Так, например, объёмы продаж мороженого
    летом намного больше, чем в другие сезоны, однако это
    является тенденцией спроса на данный товар.
    Очень часто тренд и сезонность присутствуют во временном
    ряде одновременно.
    Пример 8.4 (Прибыль фирмы, как тренд)
    Прибыль фирмы растёт на протяжении нескольких лет (т. е. во
    временном ряде присутствует тренд); ряд также содержит
    сезонную компоненту.

    View Slide

  585. Задачи Data Mining
    Тренд, сезонность и цикл
    Отличия циклической компоненты от сезонной:
    продолжительность цикла, как правило, больше, чем один
    сезонный период;
    циклы, в отличие от сезонных периодов, не имеют
    определённой продолжительности.
    При выполнении каких-либо преобразований понять природу
    временного ряда значительно проще, такими преобразованиями
    могут быть, например, удаление тренда и сглаживание ряда.
    585

    View Slide

  586. Задачи Data Mining
    Тренд, сезонность и цикл
    Перед началом прогнозирования необходимо ответить на
    следующие вопросы:
    Что нужно прогнозировать?
    При ответе на этот вопрос мы определяем переменные,
    которые будут прогнозироваться. Это может быть,
    например, уровень производства конкретного вида
    продукции в следующем квартале, прогноз суммы продажи
    этой продукции и т. д.
    При выборе переменных следует учитывать доступность
    ретроспективных данных, предпочтения лиц, принимающих
    решения, окончательную стоимость Data Mining. Часто
    при решении задач прогнозирования возникает
    необходимость предсказания не самой переменной, а
    изменений её значений.
    586

    View Slide

  587. Задачи Data Mining
    Тренд, сезонность и цикл
    В каких временн´
    ых элементах (параметрах)? Отвечая на
    этот вопрос необходимо определить значения следующих
    параметров:
    Период прогнозирования основная единица времени, на
    которую делается прогноз.
    Например, мы хотим узнать доход компании через месяц.
    Период прогнозирования для этой задачи месяц.
    Горизонт прогнозирования это число периодов в
    будущем, которые покрывает прогноз.
    Если мы хотим узнать прогноз на 12 месяцев вперёд, с
    данными по каждому месяцу, то период прогнозирования
    в этой задаче месяц, горизонт прогнозирования 12
    месяцев.
    Интервал прогнозирования частота, с которой делается
    новый прогноз.
    Интервал прогнозирования может совпадать с периодом
    прогнозирования.
    С какой точностью прогноз?
    587

    View Slide

  588. Задачи Data Mining
    Рекомендации по выбору параметров прогнозирования
    Горизонт прогнозирования должен быть не меньше, чем
    время, которое необходимо для реализации решения, принятого
    на основе этого прогноза. Только в этом случае
    прогнозирование будет иметь смысл.
    С увеличением горизонта прогнозирования точность
    прогноза, как правило, снижается, а с уменьшением
    повышается.
    Можно улучшить качество прогнозирования, уменьшая время,
    необходимое на реализацию решения, для которого реализуется
    прогноз, и, следовательно, уменьшив при этом горизонт и
    ошибку прогнозирования.

    View Slide

  589. Задачи Data Mining
    Рекомендации по выбору параметров прогнозирования
    При выборе интервала прогнозирования следует выбирать
    между двумя рисками: вовремя не определить изменения в
    анализируемом процессе и высокой стоимостью прогноза. При
    длительном интервале прогнозирования возникает риск не
    идентифицировать изменения, произошедшие в процессе, при
    коротком возрастают издержки на прогнозирование.
    При выборе интервала необходимо также учитывать
    стабильность анализируемого процесса и стоимость проведения
    прогноза.
    589

    View Slide

  590. Задачи Data Mining
    Точность прогноза
    Точность прогноза, требуемая для решения конкретной
    задачи, оказывает большое влияние на прогнозирующую
    систему. Ошибка прогнозирования зависит от используемой
    системы прогнозирования.
    Чем больше ресурсов имеет система, тем больше шансов
    получить более точный прогноз. Однако прогнозирование не
    может полностью уничтожить риски при принятии решений.
    Поэтому всегда учитывается возможная ошибка
    прогнозирования.
    Точность прогноза характеризуется ошибкой прогноза.
    Наиболее распространённые виды ошибок:
    Средняя ошибка вычисляется простым усреднением ошибок
    на каждом шаге.
    Недостаток этого вида ошибки положительные и
    отрицательные ошибки аннулируют друг друга.

    View Slide

  591. Задачи Data Mining
    Точность прогноза
    Средняя абсолютная ошибка рассчитывается как среднее
    абсолютных ошибок. Если она равна нулю, то мы
    имеем совершенный прогноз. В сравнении со
    средней квадратической ошибкой, эта мера не
    придаёт слишком большого значения выбросам.
    Сумма квадратов ошибок среднеквадратическая ошибка. Она
    вычисляется как сумма (или среднее) квадратов
    ошибок. Это наиболее часто используемая оценка
    точности прогноза.
    Относительная ошибка выражает качество подгонки в
    терминах относительных ошибок.
    591

    View Slide

  592. Задачи Data Mining
    Поиск ассоциативных правил
    Впервые задача поиска ассоциативных правил была
    предложена для нахождения типичных шаблонов покупок,
    совершаемых в супермаркетах, поэтому иногда её ещё называют
    анализом рыночной корзины (market basket analysis).
    Проблема поиска устойчивых связей в корзине покупателя
    (market-basket problem) служит одним из наиболее часто
    цитируемых примеров поиска ассоциативных правил. Задача
    состоит в том, чтобы определить, какие товары приобретаются
    покупателями вместе, так, чтобы специалисты по маркетингу
    могли соответствующим образом разместить эти товары в
    магазине для повышения объёма продаж, а также принять
    другие решения, способствующие продажам.
    Некоторые обнаруживаемые правила могут быть тривиальными,
    например, покупатели, которые покупают хлеб, также
    покупают и молоко . Другие интересные и экстраординарные,
    например покупатели, которые покупают подгузники, также
    покупают и пиво .

    View Slide

  593. Задачи Data Mining
    Поиск ассоциативных правил
    Способность обнаруживать интересные правила делает поиск
    ассоциативных правил ценным и способствующим поиску
    знаний.
    Поиск ассоциативных правил ключевая тема в
    интеллектуальном анализе данных. Поиск обнаруживает
    скрытые связи в данных, на первый взгляд, никак не связанных.
    Связи правила, которые превышают определённый порог,
    считаются интересными. Интересные правила дают возможность
    выполнять действия, основываясь на определённых шаблонах.
    Они также помогают в принятии и объяснении решений.

    View Slide

  594. Задачи Data Mining
    Ассоциативные правила
    Пусть имеется база данных, состоящая из покупательских
    транзакций.
    Определение
    Покупательская транзакция (рыночная корзина) это
    набор товаров, купленных покупателем за один визит.
    Пусть I = {i1, i2, i3, . . . in} множество (набор) товаров,
    называемых элементами. Пусть D множество транзакций,
    где каждая транзакция T это набор элементов из I, T ⊆ I.
    Каждая транзакция представляет собой бинарный вектор, где
    tk = 1, если ik элемент присутствует в транзакции, иначе
    tk = 0. Говорят, что транзакция T содержит X, некоторый
    набор элементов из I, если X ⊆ T .
    594

    View Slide

  595. Основные направления Data Mining
    Ассоциативные правила
    Определение
    Ассоциативным правилом называется импликация X ⇒ Y ,
    где X ⊆ I, Y ⊆ I и X ∩ Y = ∅.
    Правило X ⇒ Y имеет поддержку (support) s, если s%
    транзакций из D содержат X ∪ Y :
    supp(X ⇒ Y ) = supp(X ∪ Y ).
    Достоверность правила показывает, какова вероятность того,
    что из X следует Y . Правило X ⇒ Y справедливо с
    достоверностью (confidence) c, если c% транзакций из D,
    содержащих X, также содержат Y :
    conf(X ⇒ Y ) = supp(X ∪ Y )/ supp(X).
    Уровень достоверности, который должна превышать
    достоверность правила, называется интересностью
    (interestingness).

    View Slide

  596. Задачи Data Mining
    Ассоциативные правила
    Таким образом, правило не является тождеством, а выполняется
    только с некоторой вероятностью. Кроме того, в качестве X и Y
    может выступать набор элементов.
    Пример 8.5 (Ассоциативные правила для рыночной корзины)
    75% транзакций, содержащих хлеб, также содержат молоко.
    3% от общего числа всех транзакций содержат оба товара .
    75% это достоверность (confidence) правила, 3% это
    поддержка (support), или Хлеб ⇒ Молоко с
    вероятностью 75%.
    Алгоритмы поиска ассоциативных правил предназначены для
    нахождения всех правил X ⇒ Y , причём поддержка и
    достоверность этих правил должны быть выше некоторых
    наперёд определённых порогов, называемых соответственно
    минимальной поддержкой (minsupport) и минимальной
    достоверностью (minconfidence).

    View Slide

  597. Задачи Data Mining
    Ассоциативные правила
    Задача нахождения ассоциативных правил разбивается на
    две подзадачи:
    1 Нахождение всех наборов элементов, которые
    удовлетворяют порогу minsupport.
    Определение
    Наборы элементов, удовлетворяющие порогу minsupport,
    называются часто встречающимися.
    2 Генерация правил из наборов элементов, найденных
    согласно п. 1 с достоверностью, удовлетворяющей порогу
    minconfidence.

    View Slide

  598. Задачи Data Mining
    Основные алгоритмы поиска ассоциативных правил
    1 Apriori один из первых алгоритмов, эффективно
    решающих подобный класс задач.
    2 DHP.
    3 Partition.
    4 DIC.
    5 и др.
    Значения для параметров минимальная поддержка и
    минимальная достоверность выбираются таким образом,
    чтобы ограничить количество найденных правил. Если
    поддержка имеет большое значение, то алгоритмы будут
    находить правила, хорошо известные аналитикам или настолько
    очевидные, что нет никакого смысла проводить такой анализ.
    598

    View Slide

  599. Задачи Data Mining
    Основные алгоритмы поиска ассоциативных правил
    С другой стороны, низкое значение поддержки ведёт к
    генерации огромного количества правил, что, конечно, требует
    существенных вычислительных ресурсов. Тем не менее
    большинство интересных правил находится именно при низком
    значении порога поддержки. Хотя слишком низкое значение
    поддержки ведёт к генерации статистически необоснованных
    правил.
    Поиск ассоциативных правил совсем не тривиальная задача,
    как может показаться на первый взгляд. Одна из проблем
    заключается в алгоритмической сложности при нахождении
    часто встречающих наборов элементов, т. к. с ростом числа
    элементов в I (|I|) экспоненциально растёт число
    потенциальных наборов элементов.

    View Slide

  600. Задачи Data Mining
    Обобщённые ассоциативные правила
    При поиске ассоциативных правил мы предполагали, что все
    анализируемые элементы однородны.
    В анализе рыночной корзины товары имеют совершенно
    одинаковые атрибуты, за исключением названия. Однако не
    составит большого труда дополнить транзакцию информацией
    о том, в какую товарную группу входит товар и построить
    иерархию товаров. Приведём пример такой группировки
    (таксономии) в виде иерархической модели (см. рис. 8.5).
    Пусть нам дана база транзакций D и известно, в какие группы
    (таксоны) входят элементы. Тогда можно извлекать из данных
    правила, связывающие группы с группами, отдельные элементы
    с группами и т. д.
    Например, если покупатель купил товар из группы
    Безалкогольные напитки , то он купит и товар из группы
    Молочные продукты . Эти правила носят название
    обобщённых ассоциативных правил (generalized association
    rules).

    View Slide

  601. Задачи Data Mining
    Обобщённые ассоциативные правила
    Рис. 8.5: Пример группировки (таксономии) в виде иерархической
    модели
    601

    View Slide

  602. Задачи Data Mining
    Обобщённые ассоциативные правила
    Определение
    Обобщённым ассоциативным правилом называется
    импликация X ⇒ Y , где X ⊂ I, Y ⊂ I и X ∩ Y = ∅ и где ни
    один из элементов, входящих в набор Y , не является предком ни
    одного элемента, входящего в X.
    Поддержка и достоверность подсчитываются также, как и в
    случае ассоциативных правил
    Преимущества:
    1 Введение дополнительной информации о группировке
    элементов в виде иерархии помогает установить
    ассоциативные правила не только между отдельными
    элементами, но и между различными уровнями иерархии
    (группами).
    2 Отдельные элементы могут иметь недостаточную
    поддержку, но в целом группа может удовлетворять порогу
    minsupport.
    602

    View Slide

  603. Задачи Data Mining
    Обобщённые ассоциативные правила
    Для нахождения таких правил можно использовать любой из
    вышеназванных алгоритмов. Для этого каждую транзакцию
    нужно дополнить всеми предками каждого элемента, входящего
    в транзакцию. Однако применение в лоб этих алгоритмов
    неизбежно вызовет следующие проблемы:
    1 Элементы на верхних уровнях иерархии стремятся к
    значительно большим значениям поддержки по сравнению с
    элементами на нижних уровнях.
    2 С добавлением в транзакции групп увеличилось количество
    атрибутов и соответственно размерность входного
    пространства. Это усложняет задачу, а также ведёт к
    генерации большего количества правил.
    3 Появление избыточных правил, противоречащих
    определению обобщённого ассоциативного правила,
    например, Сок ⇒ Безалкогольные напитки . Очевидно,
    что практическая ценность такого открытия будет
    нулевой при 100% достоверности.
    603

    View Slide

  604. Задачи Data Mining
    Обобщённые ассоциативные правила
    Следовательно, нужны специальные операторы, удаляющие
    подобные избыточные правила.
    Для нахождения обобщённых ассоциативных правил желательно
    использование специализированного алгоритма, который
    устраняет вышеописанные проблемы и к тому же работает в 2–5
    раз быстрее, чем стандартный Apriori.
    Группировать элементы можно не только по вхождению в
    определённую товарную группу, но и по другим характеристикам,
    например по цене (дёшево, дорого), брэнду и т. д.
    604

    View Slide

  605. Задачи Data Mining
    Численные ассоциативные правила
    При поиске ассоциативных правил задача была существенно
    упрощена. По сути всё сводилось к тому, присутствует в
    транзакции элемент или нет. Если вернуться к анализу
    рыночной корзины, то мы рассматривали два состояния:
    куплен товар или нет, проигнорировав, например, информацию
    о том, сколько было куплено, кто купил, характеристики
    покупателя и т. д. И можно сказать, что рассматривали
    булевские ассоциативные правила.
    Если взять любую базу данных, каждая транзакция состоит из
    различных типов данных: числовых, категориальных и т. д. Для
    обработки таких записей и извлечения численных
    ассоциативных правил (quantitative association rules) был
    предложен соответствующий алгоритм поиска.
    Пример 8.6 (Численное ассоциативное правило)
    [Возраст: 30–35] и [Семейное положение: женат] [Месячный
    доход: 1000–1500 тугриков].
    605

    View Slide

  606. Задачи Data Mining
    Численные ассоциативные правила
    Помимо описанных выше ассоциативных правил существуют и
    другие, например:
    временн´
    ые ассоциативные правила для событий, связанных
    во времени;
    косвенные ассоциативные правила;
    ассоциативные правила c отрицанием
    Ассоциативные правила эффективно используются в
    сегментации покупателей по поведению при покупках, анализе
    предпочтений клиентов, планировании расположения товаров в
    супермаркетах, кросс-маркетинге, адресной рассылке. Однако
    сфера применения этих алгоритмов не ограничивается лишь
    одной торговлей. Их также успешно применяют и в других
    областях: медицине, для анализа посещений веб-страниц (Web
    Mining), для анализа текста (Text Mining), для анализа данных
    по переписи населения, в анализе и прогнозировании сбоев
    телекоммуникационного оборудования и т. д.

    View Slide

  607. Основные направления Data Mining
    Сейчас технология Data Mining используется практически во
    всех сферах деятельности человека, где накоплены
    ретроспективные данные.
    607

    View Slide

  608. Основные направления Data Mining
    Text Mining
    Text Mining охватывает новые методы для выполнения
    семантического анализа текстов, информационного
    поиска и управления.
    Синонимом Text Mining является KDT (Knowledge Discovering
    in Text поиск или обнаружение знаний в тексте).
    В отличие от технологии Data Mining, которая
    предусматривает анализ упорядоченной в некие структуры
    информации, технология Text Mining анализирует большие и
    сверхбольшие массивы неструктурированной информации.
    Программы Text Mining, реализующие эту задачу, должны
    некоторым образом оперировать естественным человеческим
    языком и при этом понимать семантику анализируемого текста.
    Один из методов, на котором основаны некоторые Text Mining
    системы, поиск так называемой подстроки в строке.
    608

    View Slide

  609. Основные направления Data Mining
    Web Mining
    Web Mining можно перевести как добыча данных в Web .
    Web Intelligence (веб-интеллект) призван открыть новую
    главу в развитии электронного бизнеса. Способность
    определять интересы и предпочтения каждого посетителя,
    наблюдая за его поведением, является серьёзным и критичным
    преимуществом конкурентной борьбы на рынке электронной
    коммерции.
    Системы Web Mining могут ответить на многие вопросы,
    например, кто из посетителей является потенциальным
    клиентом веб-магазина, какая группа клиентов веб-магазина
    приносит наибольший доход, каковы интересы определённого
    посетителя или группы посетителей.
    609

    View Slide

  610. Основные направления Data Mining
    Web Mining
    Технология Web Mining охватывает методы, которые способны
    на основе данных сайта обнаружить новые, ранее неизвестные,
    знания и которые в дальнейшем можно будет использовать на
    практике. Другими словами, технология Web Mining применяет
    технологию Data Mining для анализа неструктурированной,
    неоднородной, распределённой и значительной по объёму
    информации, содержащейся на веб-узлах.
    Web Mining делится на два основных направления: Web
    Content Mining и Web Usage Mining.
    610

    View Slide

  611. Основные направления Data Mining
    Web Content Mining
    Определение
    Web Content Mining подразумевает автоматический поиск и
    извлечение качественной информации из разнообразных
    источников Интернета, перегруженных информационным
    шумом .
    Здесь также идёт речь о различных средствах кластеризации и
    аннотировании документов. В этом направлении, в свою
    очередь, выделяют два подхода.
    Подход, основанный на агентах (agent based approach),
    включает такие системы:
    интеллектуальные поисковые агенты (Intelligent Search
    Agents);
    фильтрация информации / классификация;
    персонифицированные агенты сети.

    View Slide

  612. Основные направления Data Mining
    Web Content Mining
    Пример 8.7 (Системы интеллектуальных агентов поиска)
    Harvest (Brown и др., 1994);
    FAQ-Finder (Hammond и др., 1995);
    Information Manifold (Kirk и др., 1995);
    ILA (Information Learning Agent) (Perkowitz and Etzioni,
    1995);
    ShopBot (Doorenbos и др., 1996);
    OCCAM (Kwok and Weld, 1996), and ParaSite (Spertus, 1997).
    612

    View Slide

  613. Основные направления Data Mining
    Web Content Mining
    Подход, основанный на базах данных (database approach),
    включает системы:
    многоуровневые базы данных;
    системы веб-запросов (Web Query Systems).
    Пример 8.8 (Системы веб-запросов)
    TSIMMIS (Chawathe и др.., 1994).
    W3QL (Konopnicki и Shmueli, 1995),
    Lorel (Quass и др., 1995),
    UnQL (Buneman и др., 1995 and 1996),
    WebLog (Lakshmanan и др., 1996),
    613

    View Slide

  614. Основные направления Data Mining
    Web Usage Mining
    Определение
    Web Usage Mining обнаружение закономерностей в
    действиях групп пользователей веб-узла.
    Анализируется следующая информация:
    какие страницы просматривал пользователь;
    какова последовательность просмотра страниц;
    какие группы пользователей можно выделить среди общего
    их числа на основе истории просмотра веб-узла.
    Web Usage Mining включает следующие составляющие:
    предварительная обработка;
    операционная идентификация;
    инструменты обнаружения шаблонов;
    инструменты анализа шаблонов.

    View Slide

  615. Основные направления Data Mining
    Web Usage Mining
    При использовании Web Mining перед разработчиками
    возникает два типа задач. Первая касается сбора данных, вторая
    использования методов персонификации. В результате сбора
    некоторого объёма персонифицированных ретроспективных
    данных о конкретном клиенте, система накапливает
    определённые знания о нём и может рекомендовать ему,
    например, определённые наборы товаров или услуг. На основе
    информации о всех посетителях сайта веб-система может
    выявить определённые группы посетителей и также
    рекомендовать им товары или же предлагать товары в
    рассылках.

    View Slide

  616. Основные направления Data Mining
    Web Usage Mining
    Задачи Web Mining можно подразделить на такие категории:
    Предварительная обработка данных для Web Mining.
    Обнаружение шаблонов и открытие знаний с
    использованием ассоциативных правил, временных
    последовательностей, классификации и кластеризации;
    Анализ полученного знания.
    616

    View Slide

  617. Основные направления Data Mining
    Call Mining
    Call Mining добыча звонков , может стать популярным
    инструментом корпоративных информационных систем.
    Определение
    Технология Call Mining объединяет в себе распознавание
    речи, её анализ и Data Mining.
    Её цель упрощение поиска в аудиоархивах, содержащих записи
    переговоров между операторами и клиентами. При помощи этой
    технологии операторы могут обнаруживать недостатки в системе
    обслуживания клиентов, находить возможности увеличения
    продаж, а также выявлять тенденции в обращениях клиентов.
    617

    View Slide

  618. Основные направления Data Mining
    Call Mining
    Среди разработчиков новой технологии Call Mining компании:
    CallMiner,
    Nexidia,
    ScanSoft,
    Witness Systems.
    В технологии Call Mining разработано два подхода:
    на основе преобразования речи в текст;
    на базе фонетического анализа.
    618

    View Slide

  619. Основные направления Data Mining
    Call Mining
    Примером реализации первого подхода, основанного на
    преобразовании речи, является система CallMiner. В процессе
    Call Mining сначала используется система преобразования речи,
    затем следует её анализ, в ходе которого в зависимости от
    содержания разговоров формируется статистика телефонных
    вызовов. Полученная информация хранится в базе данных, в
    которой возможен поиск, извлечение и обработка.
    Пример реализации второго подхода фонетического анализа
    продукция компании Nexidia. При этом подходе речь
    разбивается на фонемы, являющиеся звуками или их
    сочетаниями. Такие элементы образуют распознаваемые
    фрагменты. При поиске определённых слов и их сочетаний
    система идентифицирует их с фонемами.

    View Slide

  620. Основные направления Data Mining
    Call Mining
    Аналитики отмечают, что за последние годы интерес к системам
    на основе Call Mining значительно возрос. Это объясняется тем
    фактом, что менеджеры высшего звена компаний, работающих в
    различных сферах, в т. ч. в области финансов, мобильной связи,
    авиабизнеса, не хотят тратить много времени на прослушивание
    звонков с целью обобщения информации или же выявления
    каких-либо фактов нарушений.
    Использование этих технологий повышает оперативность и
    снижает стоимость обработки информации.
    Типичная инсталляция продукции от разработчика Nexidia
    обходится в сумму от 100 до 300 тыс. долл. Стоимость
    внедрения системы CallMiner по преобразованию речи и набора
    аналитических приложений составляет около 450 тыс. долл.
    Приложения Audio Mining и Video Mining найдут со временем
    гораздо более широкое применение, например при индексации
    учебных видеофильмов и презентаций в медиабиблиотеках
    компаний.

    View Slide

  621. Дополнительная литература I
    Чубукова, И. А. Data Mining: учебное пособие [Текст] /
    И. А. Чубукова.
    М.: Интерент-Университет Информационных Технологий;
    БИНОМ. Лаборатория знаний, 2006.
    382 с.
    ISBN 5-94774-522-4 (БИНОМ.ЛЗ).
    Чубукова, И. А. Data mining: учебное пособие
    [Электронный ресурс] / И. А. Чубукова.
    М.: Интернет-университет информационных технологий
    ИНТУИТ.ру, 2006. Режим доступа:
    http://www.intuit.ru/department/se/msd/.
    621

    View Slide

  622. Дополнительная литература II
    Дюк, В. Data Mining: учебный курс [Текст] / В. Дюк,
    А. Самойленко.
    СПб: Питер, 2001.
    368 с.
    ISBN 5-318-00227-7.
    Mueller, J.-A. Self-Organising Data Mining. An Intelligent
    Approach To Extract Knowledge From Data [Text] / J.-A.
    Mueller, F. Lemke.
    1-st edition.
    Berlin, Dresden: [s. n.], 1999.
    P. 225.

    View Slide

  623. Дополнительная литература III
    Технологии анализа данных. Data Mining, Visual Mining,
    Text Mining, OLAP [Текст]: Учебное пособие / А. А.
    Барсегян, М. С. Куприянов, В. В. Степаненко, И. И. Холод.
    2-е, перераб. и доп. изд.
    СПб.: БХВ-Петербург, 2007.
    384 с.: ил. + 1 электрон. опт. диск.
    ISBN 5-94157-991-8.
    Анализ данных и процессов [Текст]: учебное пособие / А. А.
    Барсегян, М. С. Куприянов, И. И. Холод и др.
    3-е, перераб. и доп. изд.
    СПб.: БХВ-Петербург, 2009.
    512 с.: ил.; 23 см + 1 электрон. опт. диск(Учебная
    литература для вузов.
    ISBN 978-5-9775-0368-6.
    623

    View Slide

  624. Дополнительная литература IV
    Мерков, А. Б. Основные методы, применяемые для
    распознавания рукописного текста [Текст] / А. Б. Мерков.
    Искуственные нейронные сети (ANN), векторное квантование
    (LVQ), метод опорных векторов (SVM), скрытая марковская
    модель (HMM). Режим доступа: http://www.recognition.
    mccme.ru/pub/RecognitionLab.html/methods.html.

    View Slide

  625. Часть IX
    Приложение

    View Slide

  626. Алфавитный указатель I
    AI, 531
    Allen, Dean, 123
    anti-aliasing, 191
    ARPANET, 424, 426, 427
    ASCII, 448
    Aspect ratio, 356
    associations and affinities, 544
    Audio Mining, 620
    Berners-Lee, Tim, 427, 475
    bit rate, 372
    Bitcoin, 490, 491
    Bitnet, 426
    BitTorrent
    бестрекерная система, 462
    Boutell, Thomas, 246

    View Slide

  627. Алфавитный указатель II
    Call Mining, 617, 618
    cloud computing, 14
    cluster, 558
    CMS, 477, 478
    Codd, Edgar Frank, 525
    code page, 50
    Cohen, Bram, 461
    conditional logic, 544
    confidence, 595, 596
    Cook, Rob, 211
    Cristy, John, 274
    cross-validation, 554
    CyberPlat, 481
    data clustering, 558
    data compression, 263
    lossless, 262

    View Slide

  628. Алфавитный указатель III
    Data Mining, 8, 522, 522, 523–526, 543, 547, 548, 567, 568, 574,
    586, 607, 608, 610, 617
    Data Mining временных рядов, 575, 577
    density-based methods, 564
    deviation detection, 546
    discovery, 543
    DNS, 426, 448
    dpi, 169
    DRM, 409
    e-mail, 446, 447
    email, 446
    Epassporte, 483
    forecasting, 545, 567
    forensic analysis, 546
    generalized association rules, 600

    View Slide

  629. Алфавитный указатель IV
    Gilmore, Jack, 162
    GMDH, 552
    Goldfarb, Charles, 115
    grid-based methods, 564
    Gruber, John, 122
    HDTV, 361, 361, 362
    hierarchy algorithms, 563
    ICQMoney, 482
    IntellectMoney, 484
    Intelligent Search Agents, 611
    interestingness, 595
    interlace, 353
    Internet, 418
    internet, 418
    intranet, 421

    View Slide

  630. Алфавитный указатель V
    IP-телефонии, 484
    IP-телефония, 494, 500, 503
    iPhone, 489
    IPTV, 507, 507, 508
    IT, 5
    KDT, 608
    Kelley, Colin, 276
    Knuth, Donald E., 134
    Kodak, 228
    Lamport, Lamport, 148
    Lawton, Stephen, 421
    lightness, 182
    lpi, 171
    machine learning, 533

    View Slide

  631. Алфавитный указатель VI
    market basket analysis, 592
    markup language
    lightweight, 120
    MIDI, 326
    MIME, 448
    minconfidence, 596, 597
    minsupport, 596, 597
    model-based methods, 563
    MoneyMail, 481
    MP3, 339
    MPEG, 321, 336, 336, 337
    MPEG-1, 338
    newsgroup, 465
    NSFNet, 426, 426, 427, 428
    OLAP, 525, 525, 543

    View Slide

  632. Алфавитный указатель VII
    outcome prediction, 545
    Parmenter, Stuart, 250
    partitioning algorithms, 563
    pattern, 80
    PayPal, 483, 487–489
    Paypal, 488
    PayPal Here, 489
    PCM, 299
    Piatetsky-Shapiro, Gregory, 523
    Pike, Rob, 73
    pnmtops, 273
    Poskanzer, Jef, 272
    ppi, 169
    predictive modeling, 545
    Progressive JPEG, 232
    Python, 461
    632

    View Slide

  633. Алфавитный указатель VIII
    QIWI, 483
    Randers-Pehrson, Glenn, 251, 274
    RBK Money, 481
    regular expressions, 80
    Reid, Brian, 117
    RFID, 8
    Russell, Stephen, 160
    Sandras, Damien, 503
    SIPNET, 502
    SOA, 13
    song, 325
    spam, 452
    SPIM, 452
    support, 595, 596
    Sutherland, Ivan Edward, 162

    View Slide

  634. Алфавитный указатель IX
    SVM, 552
    Swartz, Aaron H., 122
    SWIFT, 479, 480
    Taylor, Norman, 162
    TeleMoney, 485
    Text Mining, 606, 608, 608
    Thompson, Kenneth, 73
    time-series Data Mining, 575
    tracker, 462
    trackerless, 462
    Tunnicliffe, William W., 114
    UHDTV
    4K, 362
    8K, 362
    UHDV, 362

    View Slide

  635. Алфавитный указатель X
    Ultra HDTV, 362, 362
    Usenet, 426
    Video Mining, 620
    VoIP, 494, 494, 495–498, 502
    Vuki´
    cevi´
    c, Vladimir, 250
    W1, 484
    Web Content Mining, 610, 611
    Web Intelligence, 609
    Web Mining, 606, 609, 610, 615, 616
    Web Query Systems, 613
    Web Usage Mining, 610, 614, 614
    WebMoney, 483, 486
    Williams, Thomas, 276
    Wirex, 483
    WWW, 418, 428, 429, 472, 472, 475, 476

    View Slide

  636. Алфавитный указатель XI
    Z-Payment, 482
    АЦП, 295, 296, 296, 299, 305–308, 312, 315, 318, 331
    Аллен, Дин, 123
    Бернерс-Ли, Тим, 427, 475, 476
    Биткоин, 490, 491
    Боутелл, Томас, 246
    Видео, 345
    Видеозапись, 345
    Вильямс, Томас, 276
    Всемирная паутина, 418, 420, 472
    Вукичевич, Владимир, 250
    Выборка, 331
    Гилмор, Джек, 162
    Голдфарб, Чарльз, 115, 124
    Грубер, Джон, 122
    Деннис, Дж. Б., 36
    636

    View Slide

  637. Алфавитный указатель XII
    Единый кошелек, 484
    ИКМ, 299, 331, 332
    ИТ, 42
    безопасность, 38
    контроль, 38
    технологический процесс, 42
    ИТ (информационные технологии), 5, 5, 6
    ИТ-специалист, 5
    Интернет, 263, 373, 418, 418, 420–422, 426–432, 435, 436, 438,
    439, 502
    Келли, Колин, 276
    Кнут, Дональд, 134
    Кодд, Эдгар Франк Тед , 525
    Константинов, Николай Николаевич, 163
    Коэн, Брэм, 461
    Кристи, Джон, 274
    Кук, Роб, 211

    View Slide

  638. Алфавитный указатель XIII
    Лампорт, Лесли, 148
    Лотон, Стивена, 421
    МГУА, 552, 573
    Монета.Ру, 485
    Пайк, Роб, 73
    Парментер, Стюарт, 250
    Посканзер, Джеф, 272
    Пятецкий-Шапиро, Григорий, 523
    Рассел, Стив, 160
    Рейд, Брайан, 117
    Рунет, 435, 436, 441, 473
    Рэндерс-Пёрсон, Глен, 251, 274
    Сазерленд, Айвен, 162
    Сандрас, Дамьен, 503
    Тейлор, Норман, 162
    Томпсон, Кен, 73
    Тьюнниклифф, Вильям, 114

    View Slide

  639. Алфавитный указатель XIV
    Фидонет, 429
    ЦАП, 296, 296, 305, 312, 331
    Шварц, Аарон, 122
    ЭВМ
    конвейерные, 36
    многопроцессорный, 35
    потоковые, 36, 36
    редукционные, 37
    фоннеймановской архитектуры, 35
    Яндекс.Деньги, 481
    алгоритмы
    генетические, 552
    иерархические, 563
    итеративные, 563
    основанные на разделении данных, 563
    альфа-канал, 189, 245, 248, 254
    альфа-композиция, 188, 191

    View Slide

  640. Алфавитный указатель XV
    анализ исключений, 542, 546
    анализ рыночной корзины, 592, 600, 605
    артефакты сжатия, 266
    ассоциативная логика, 544
    ассоциативное правило, 595, 606
    достоверность, 595, 596
    интересность, 595
    минимальная достоверность, 596, 598
    минимальная поддержка, 596, 598, 599
    набор элементов, 597, 599
    часто встречающийся, 597, 599
    поддержка, 595, 596, 598, 599
    байесовская (наивная) классификация, 552
    битрейт, 338, 372, 373–377
    бод, 373
    браузер, 472
    валидация закономерностей, 544

    View Slide

  641. Алфавитный указатель XVI
    веб-радио, 504
    веб-сервисы, 13
    вейвлет-преобразование, 236, 241, 242, 259, 261
    вертикальное разрешение, 360
    видеокомпрессия, 398, 398, 400
    компенсация движения, 399
    видеоконференция, 503
    видеопоток, 394
    визуализация, 200, 201, 530
    витрины данных, 33
    воксель, 363, 363
    временной ряд, 575, 575, 576–580, 582–584
    несезонный, 580, 583
    сезонная компонента, 577, 578, 580, 582, 584, 585
    сезонный, 580, 583
    сезонный мультиряд, 583
    тренд, 525, 577, 578, 578, 579, 584

    View Slide

  642. Алфавитный указатель XVII
    циклическая компонента, 577, 585
    выявление отклонений, 546
    гамма-коррекция, 186, 186, 187, 245, 248
    глубина цвета, 171, 171, 180, 209, 227
    горизонт прогнозирования, 587
    горизонтальное разрешение, 360
    графические примитивы, 168
    группа новостей, 453, 465, 465, 466, 467
    группа переписки, 451
    деинтерлейсинг, 354
    деревья решений, 544, 552
    динамический диапазон, 185, 315, 316
    дискретизатор, 300
    дискретизация, 299
    частота, 305
    доксель, 365
    доменное имя, 429, 437

    View Slide

  643. Алфавитный указатель XVIII
    зернистость, 170
    индексационный сервер, 459, 460, 463
    интеллект, 532
    интеллектуальный анализ данных, 522
    интенсивность тона, 169, 182, 183
    интерлейс, 353
    интерлейсинг, 353
    интернет, 418
    интернет-радио, 504, 504, 506
    интерфейс музыкальных инструментов
    паттерн, 325
    песня, 325
    интранет, 421, 421, 422, 510, 511
    интрасеть, 421
    искусственные нейронные сети, 552, 573
    искусственный интеллект, 531, 531, 533, 536
    квантование сигнала, 299

    View Slide

  644. Алфавитный указатель XIX
    классификатор, 549
    классификация, 545, 547, 548, 548, 549–552, 554
    кластер, 558, 558, 561, 565, 566
    кластеризация, 547, 558, 558, 559, 560, 562, 565, 566
    кластерный анализ, 558, 560, 561
    кодек, 254, 263, 264, 335, 339, 340, 374, 376, 409
    предсказывающий, 264
    трансформирующий, 264, 265
    кодировка
    ASCII, 53
    EBCDIC, 52
    ISO 8859, 60
    Unicode, 66
    UTF-8, 73
    кодовая страница, 50, 50
    компания
    1С-Битрикс, 514

    View Slide

  645. Алфавитный указатель XX
    Adobe, 119, 136, 252, 269, 270, 320
    Apache Software Foundation, 515
    Apple, 147, 409
    Artec Group, 539
    AT&T, 261
    ATI, 213
    Cakewalk, 320
    CallMiner, 618, 619
    Commodore International, 407
    Corel, 136
    Creative Labs, 332
    Cyscom, 514
    eBay, 487
    Ericsson, 507
    General Motors, 162
    Google, 471, 472, 515, 516
    Google Inc., 254

    View Slide

  646. Алфавитный указатель XXI
    IBM, 50, 115, 124, 143, 162, 539
    IBS Datafort, 514
    ImageMagick Studio, 274
    IMAX, 362
    Itek, 162
    J‘son and Partners Consulting, 440
    Korea Telecom, 507
    Macromedia, 119
    Mail.ru, 455
    Matrix Capital International, 482
    Mediaroom, 507
    Microsoft, 119, 136, 137, 139, 141, 142, 213, 227, 332, 406,
    407, 411, 498, 512, 514
    NASA, 237
    NemeSys, 320
    Netscape, 469
    Nexidia, 618, 619