В старых версиях браузеров сайт может отображаться некорректно. Для оптимальной работы с сайтом рекомендуем воспользоваться современным браузером.
Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.
Курс "Методы и средства обработки больших данных" ориентирован на аспирантов Аспирантской школы по техническим наукам, которые связывают свою будущую профессиональную деятельность с решением творческих задач в области проектирования и создания программных и аппаратных инструментов необходимых для ИТ поддержки деятельности человека. Он посвящен изучению современных методов сбора и анализа количественных или качественных данных необходимых для решения широкого класса проблем, возникающих в области управления техническими системами, планирования и реализации хозяйственной деятельности, при организации аналитической поддержки принятия решений на различных уровнях управления. Для освоения учебной дисциплины, студенты должны владеть знаниями и компетенциями в следующих областях: Элементы теории множеств, Функциональный анализ, Интегралы и дифференциальные уравнения, Линейная алгебра и аналитическая геометрия, Теория матриц. Основные положения дисциплины «Методы и средства обработки больших данных» должны быть использованы в дальнейшем при изучении профильных учебных дисциплин и подготовке диссертационных работ.
Цель освоения дисциплины
Изучение современных методов сбора и анализа количественных или качественных данных, необходимых для решения широкого класса проблем, возникающих в области управления техническими системами, планирования и реализации хозяйственной деятельности, при организации аналитической поддержки принятия решений на различных уровнях управления.
Планируемые результаты обучения
Умеет анализировать качество данных, умеет обнаруживать статистические свойства данных.
Умеет специфицировать и оценить регрессионную модель.
Умеет специфицировать модель линейной регрессии (МЛР). Знает понятие «нелинейная внутренне линейная модель».
Умеет оценивать параметры МЛР. Знает свойства полученных оценок.
Специфицирует и оценивает модель классификации данных адекватную задаче в предметной области.
Проводит анализ кластерной структуры данных.
Осуществляет выбор адекватной данным модели панельных данных на основании формальных критериев и постановки задачи в предметной области.
Содержание учебной дисциплины
<p><b>Часть 1. Пространственное моделирование</b></p> Раздел 1.1. Предварительный анализ данных.
Типология шкал. Номинальная, порядковая, интервальная и относительная шкалы. Допустимые преобразования и операции. Использование в модели линейной регрессии МЛР. Простейшие методы идентификации МЛР. Анализ диаграмм рассеивания. Анализ диаграмм Бокса – Вискера для номинальных и порядковых переменных. Анализ корреляционной матрицы для интервальных и относительных переменных.
Раздел 1.2. Основы регрессионного анализа.
Определение МЛР. Нелинейная, внутренне линейная модель. Логолинейная модель.
Метод наименьших квадратов и линейная регрессия. Статистические свойства МНК оценки параметров МЛР. Анализ значимости регрессоров. Прогнозирование. Нарушение основных гипотез МЛР. МЛР с переменной структурой (фиктивные переменные). Общая линейная гипотеза. Критерий Вальда. Критерий Чоу.
<p><b>Часть 2. Моделирование процессов</b></p> Раздел 2.1. Моделирование стационарных временных рядов.
Понятие "временной ряд" и его основные характеристики. Понятие "автокорреляция". Стационарность в широком и узком смысле. Тема 3.1 Теоретические основы динамических моделей. Понятие "линейный фильтр" (ЛФ). Физически реализуемый ЛФ. Наилучший линейный прогноз. Частная автокорреляция. Разложение Вольда. Операторное представление разностных уравнений. Передаточная функция. Модель авторегрессии. Операторное представление. Необходимое и достаточное условие стационарности. Вид функции автокорреляции. Модель скользящего среднего. Смешанные модели. Операторное представление, условие обратимости. Вид автокорреляционной функции.
Раздел 2.2. Модели нестационарных процессов.
Теория единичных корней. Критерии обнаружения единичных корней. Модель ARIMA.
Раздел 2.3. Динамические модели временных рядов с внешними факторами.
Обобщенная модель линейной регрессии (ОМЛР). Свойства оценок параметров ОМЛР метод наименьших квадратов (МНК). Обобщенный метод наименьших квадратов. Теорема Айткена. Методы обнаружения автокорреляции случайной составляющей. Статистика Дарбина-Ватсона. Точность оценки коэффициента автокорреляции. Критерий Бокса-Льюнга. Критерий Бреуша-Годфрея. Модель авторегрессии с внешними факторами (ARMAX).
<p><b>Часть 3. Моделирование статистических связей для сложных типов данных</b></p>Тема 1. Методы классификации.
Модели бинарного выбора (логит и пробит регерссии). Деревья классификации —алгоритмы CART, С4.5.
Тема 2. Основы кластерного анализа.
Иерархическая кластеризация. Оптимизационная кластеризация — метод к-средник. Метрики качества кластеризации.
Тема 3. Модели панельных данных.
Модели с фиксированными и случайными эффектами. Методология выбора типа модели.
Элементы контроля
Работа на семинарах
Самостоятельная работа
Задание, оформленное в виде Шаблона отчета о самостоятельной работе.
Промежуточная аттестация
Промежуточная аттестация (I семестр)
0.3 * Работа на семинарах + 0.7 * Самостоятельная работа
Список литературы
Рекомендуемая основная литература
Hastie, T., Tibshirani, R., Friedman, J. The elements of statistical learning: Data Mining, Inference, and Prediction. – Springer, 2009. – 745 pp.
Рекомендуемая дополнительная литература
Berk, R. A. (2008). Statistical Learning From a Regression Perspective. New York, NY: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=254950
Introductory econometrics: a modern approach, Wooldridge, J.M., 2016
Newbold, P., Carlson, W. L., & Thorne, B. (2013). Statistics for Business and Economics: Global Edition (Vol. Eight edition). Boston, Massachusetts: Pearson Education. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1417883
Statistics for business and economics, Newbold, P., Carlson, W. L., 2013
Введение в эконометрику : учебник для вузов, Доугерти, К., Замкова, О. О., 2009
Преподаватель
Поляков Константин Львович
Программа дисциплины
Аннотация
Цель освоения дисциплины
Планируемые результаты обучения
Содержание учебной дисциплины
Элементы контроля
Промежуточная аттестация
Список литературы
Рекомендуемая основная литература
Рекомендуемая дополнительная литература