Выборка и генеральная совокупность
Фундаментальными понятиями статистического анализа являются понятия вероятности и случайной величины (переменной). Случайной переменной мы называем переменную, которая под воздействием случайных факторов может с определенными вероятностями принимать те или иные значения из некоторого множества чисел. Это переменная, которой (даже при фиксированных обстоятельствах) мы не можем приписать определенное значение, но можем приписать несколько значений, которые она принимает с определенными вероятностями. Под вероятностью некоторого события (например, события, состоящего в том, что случайная переменная приняла определенное значение) обычно понимается доля числа исходов, благоприятствующих данному событию, в общем числе возможных равновероятных исходов. Категория «равновероятные исходы» не определяется, а принимается интуитивно. Например, при «бросании монеты» выпадение орла и решки считается равновероятным (вероятность каждого равна 1/2), а случайная величина числа «орлов» при одном «бросании монеты» может быть равна 0 или 1 с вероятностями 1/2.
Совокупность значений <хк>случайной величины х вероятностей <Рк>, с которыми она их принимает, называют законом распределения случайной величины. Функция Р<х>, как и любая функциональная зависимость, может быть представлена в форме таблицы, формулы или графика. Например, закон распределения числа очков при бросании игрального кубика может быть представлен в виде таблицы:
X | ||||||
р | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 |
Очевидно, что сумма всех этих вероятностей должна равняться единице, поскольку считаем, что с вероятностью «единица» переменная принимает хоть какое-нибудь из этих значений. Обычная (неслучайная, или детерминированная) переменная является предельным случаем случайной переменной, принимая единственное (при фиксированных обстоятельствах) значение с вероятностью «единица».
Различают дискретные и непрерывные случайные величины. Случайная величина дискретна, если результаты наблюдений представляют собой конечный или счетный набор возможных чисел. Случайная величина непрерывна, если ее значения могут лежать в некотором континууме возможных значений. (Это предполагает, что их нельзя пересчитать, ставя в соответствие им натуральные числа 1,2. ). Значения непрерывной случайной величины могут лежать на отрезке, интервале, луче и т. д.
В основе математической статистики лежат понятия генеральной совокупности и выборки (выборочной совокупности).
Под генеральной совокупностью мы подразумеваем все возможные наблюдения интересующего нас показателя, все исходы случайного испытания или всю совокупность реализаций случайной величины х. Пример генеральной совокупности – данные о доходах всех жителей какой-либо страны, о результатах голосования населения по какому-либо вопросу и т.д. Однако в большинстве случаев мы имеем дело только с частью возможных наблюдений, взятых из генеральной совокупности, и называем это множество (точнее подмножество) значений выборкой. Таким образом, выборка – это множество наблюдений, составляющих лишь часть генеральной совокупности. Выборка объема n – это результат наблюдения случайной величины в вероятностном эксперименте, который повторяется n раз в одних и тех же условиях (которые могут контролироваться), а, следовательно, и при неизменном распределении случайной величины х. Процесс, который приводит к получению выборочных данных, называют выборочным исследованием.
Мы обычно говорим о генеральной совокупности, когда используем определенные теоретические модели, но на практике в нашем распоряжении имеются лишь выборочные данные, и поэтому мы можем строить оценки теоретических характеристик, основываясь лишь на данных выборочных наблюдений. Мы обсудим соотношение между теоретическими характеристиками и их выборочными оценками позднее. Подчеркнем лишь, что целью математической статистики является получение выводов о параметрах, виде распределения и других свойствах случайных величин (генеральной совокупности) по конечной совокупности наблюдений – выборке.
Выборку называют репрезентативной (представительной), если она достаточно полно представляет изучаемые признаки и параметры генеральной совокупности. Для репрезентативности выборки важно обеспечить случайность отбора, с тем, чтобы все объекты генеральной совокупности имели равные вероятности попасть в выборку. Для обеспечения репрезентативности выборки применяют следующие способы отбора: простой отбор (последовательно отбирается первый случайно попавшийся объект), типический отбор (объекты отбираются пропорционально представительству различных типов объектов в генеральной совокупности), случайный отбор – например, с помощью таблицы случайных чисел и т.п.
Итак, выборка– некоторое количество наблюдений, отобранных из генеральной совокупности, а наблюдение– наблюдаемое значение случайной величины или набора случайных величин.
В эконометрике всегда известна только выборка из некоторого количества наблюдений случайной величины, и по данным выборки можно рассчитать только выборочные, а не теоретические характеристики этой случайной величины.
1.1.5. Выборочные и теоретические величины.
Оценки как случайные величины. Оценки х и S 2
Математическое ожидание дискретной случайной величины – это взвешенное среднее всех ее возможных значений, причем в качестве весового коэффициента берется вероятность соответствующего исхода. Вы можете рассчитать его, перемножив все возможные значения случайной величины на их вероятности и просуммировав полученные произведения. Математически, если случайная величина обозначена как х, то ее математическое ожидание обозначается как М(х).
(1.1)
Рассмотрим простой пример случайной переменной – число очков, выпадающее при бросании лишь одной игральной кости.
В данном случае возможны шесть исходов: n1 = 1, х1 = 2, х2 = 3, х3 = 4,
х4 = 5, х5 = 6. Каждый исход имеет вероятность 1/6, поэтому здесь
(1.2)
В данном случае математическим ожиданием случайной переменной является число, которое само по себе не может быть получено при бросании кости.
Математическое ожидание случайной величины часто называют ее средним по генеральной совокупности. Для случайной величины х это значение часто обозначается как .
Важной функцией переменной х является ее теоретическая дисперсия, которая характеризует меру разброса для вероятного распределения. Она определяется как математическое ожидание квадрата разности между величиной х и ее средним, т.е. величины , где
–математическое ожидание х. Дисперсия обычно обозначается как
, и если ясно, о какой переменной идет речь, то нижний индекс может быть опущен.
Часто вместо рассмотрения случайной величины как единого целого можно и удобно разбить ее на постоянную и чисто случайную составляющие, где постоянная составляющая всегда есть ее математическое ожидание. Если х – случайная переменная и – ее математическое ожидание, то декомпозиция случайной величины записывается следующим образом:
(1.3)
где и – чисто случайная составляющая (в регрессионном анализе она обычно представлена случайным членом).
Случайная составляющая и определяется как разность между х и :
(1.4)
Из определения следует, что математическое ожидание величины и равно нулю. Из уравнения (1.4) имеем:
(1.5)
Поскольку весь разброс значений х обусловлен и, неудивительно, что теоретическая дисперсия х равна теоретической дисперсии и. Последнее нетрудно доказать. По определению,
(1.6)
Таким образом, может быть эквивалентно определена как дисперсия х или и.
Обобщая, можно утверждать, что если х – случайная переменная, определенная по формуле (1.3), где – заданное число, и – случайный член с М(и)=0 и дисперсией D(u), то математическое ожидание величины х равно
, а дисперсия –
.
До сих пор мы предполагали, что имеется точная информация о рассматриваемой случайной переменной, в частности – об ее распределении вероятностей (в случае дискретной переменной) или о функции плотности распределения (в случае непрерывной переменной). С помощью этой информации можно рассчитать теоретическое математическое ожидание, дисперсию и любые другие характеристики, в которых мы можем быть заинтересованы.
Однако на практике, за исключением искусственно простых случайных величин (таких, как число выпавших очков при бросании игральной кости), мы не знаем точного вероятностного распределения или плотности распределения вероятностей. Это означает, что неизвестны также и теоретическое математическое ожидание, и дисперсия. Мы, тем не менее, можем нуждаться в оценках этих или других теоретических характеристик генеральной совокупности.
Процедура оценивания всегда одинакова. Берется выборка из п наблюдений, и с помощью подходящей формулы рассчитывается оценка нужной характеристики. Нужно следить за терминами, делая важное различие между способом или формулой оценивания и рассчитанным по ней для данной выборки числом, являющимся значением оценки.
Оценка, способ оценивания (estimator)– общее правило, формула для получения приближенного численного значения какого-либо параметра по данным выборки, а значение оценки (estimation)– число, полученное в результате применения оценки к конкретной выборке; является случайной величиной, значение которой зависит от выборки.
В табл. 1.1 приведены формулы оценивания для двух важнейших характеристик генеральной совокупности. Выборочное среднее х обычно дает оценку для математического ожидания, а формула s 2 в табл. 1.1 – оценку дисперсии генеральной совокупности.
Характеристики генеральной совокупности | Формулы оценивания |
Среднее, | |
Дисперсия, s 2 | |
Отметим, что это обычные формулы оценки математического ожидания и дисперсии генеральной совокупности, однако не единственные. Конечно, не все формулы оценки, которые можно представить, одинаково хороши. Причина, по которой в действительности используется х, в том, что эта оценка в наилучшей степени соответствует двум очень важным критериям – несмещенности и эффективности. Эти критерии будут рассмотрены ниже.
Получаемая оценка представляет частный случай случайной переменной. Причина здесь в том, что сочетание значений х в выборке случайно, поскольку х – случайная переменная u, следовательно, случайной величиной является и функция набора ее значений. Возьмем, например, – оценку математического ожидания:
(1.7)
Мы только что показали, что величина х в i-м наблюдении может быть разложена на две составляющие: постоянную часть и чисто случайную составляющую иi
(1.8)
(1.9)
где – выборочное среднее величин иi
Отсюда можно видеть, что , подобно х, имеет как фиксированную, так и чисто случайную составляющие. Ее фиксированная составляющая
, то есть математическое ожидание х, а ее случайная составляющая
, то есть среднее значение чисто случайной составляющей в выборке.
Функции плотности вероятности для х и
показаны на одинаковых графиках (рис. 1.1). Как показано на рисунке, величина х считается нормально распределенной. Можно видеть, что распределения, как х, так и
, симметричны относительно
– теоретического среднего. Разница между ними в том, что распределение
уже и выше. Величина
, вероятно, должна быть ближе к
, чем значение единичного наблюдения х, поскольку ее случайная составляющая
есть среднее от чисто случайных составляющих
в выборке, которые, по-видимому, «гасят» друг друга при расчете среднего. Далее, теоретическая дисперсия величины
составляет лишь часть теоретической дисперсии и.
Рис. 1.1. Сравнение функций плотности вероятности одиночного наблюдения и выборочного среднего
Величина s 2 – оценка теоретической дисперсии х – также является случайной переменной. Вычитая (1.9) из (1.8), имеем:
(1.10)
(1.11)
ГЛОССАРИЙ. Эконометрика – часть экономической науки, занимающаяся разработкой и применением математических, и прежде всего экономико-статистических
Эконометрика – часть экономической науки, занимающаяся разработкой и применением математических, и прежде всего экономико-статистических, методов анализа экономических процессов, обработки статистической экономической информации.
Эконометрические методы –методы исследования экономики, изучающие экономические процессы с количественной стороны.
Выборка –некоторое количество наблюдений, отобранных из генеральной совокупности.
Наблюдение –наблюдаемое значение случайной величины или набора случайных величин.
Оценка, способ оценивания (estimator) –общее правило, формула для получения приближенного численного значения какого- либо параметра по данным выборки.
Значение оценки (estimator) –число, полученное в результате применения оценки к конкретной выборке.
Смещение – разность между математическим ожиданием оценки и истинным значением оцениваемого параметра.
Несмещенная оценка –оценка, имеющая нулевое смещение.
Эффективная оценка – несмещенная оценка, имеющая наименьшую дисперсию среди всех несмещенных оценок.
Эксперимент по методу Монте-Карло – искусственный, контролируемый эксперимент, проводимый для проверки и сравнения эффективности различных статистических методов.
Состоятельная оценка – оценка, у которой смещение и дисперсия стремятся к 0 при увеличении объема выборки.
Модель – совокупность переменных и связей между ними в форме уравнений, описывающая зависимость между наблюдаемыми переменными.
Модель парной регрессии – простейшая линейная модель зависимости между двумя переменными: .
Случайный член регрессии – слагаемое и в модели , которое описывает воздействие случайных факторов.
Уравнение линейной регрессии – уравнение , где a и b- оценки параметров
и
, полученные в результате оценивания модели регрессии
по данным выборки.
Остаток в наблюдении – разность между истинным значением переменной у в
i-ом наблюдении (уi) и значением i-ом наблюдении, полученным подстановкой наблюдения хi в уравнение линейной регрессии.
Метод наименьших квадратов (МНК) (OLS – Ordinary Least Squares) – метод нахождения оценок параметров регрессии, основанный на минимизации суммы квадратов остатков всех наблюдений.
Объясненная дисперсия зависимой переменной – выборочная дисперсия расчетных значений величины y: .
Необъясненная дисперсия зависимой переменной – выборочная дисперсия остатков в наблюдениях: .
Общая сумма квадратов отклонений (TSS – Total Sum of Squares) – сумма квадратов отклонений величины у от своего выборочного среднего .
Объясненная сумма квадратов отклонений (ESS – Explained Sum of Squares) – сумма квадратов отклонений величины от своего выборочного среднего
.
Необъясненная (остаточная) сумма квадратов отклонений (RSS – Unexplained Sum of Squares) – сумма квадратов остатков всех наблюдений.
Коэффициент детерминации R 2 – доля объясненной дисперсии зависимой переменной во всей выборочной дисперсии у: .
Стандартное отклонение случайной величины – корень квадратный из теоретической дисперсии случайной величины; среднее ожидаемое расстояние между наблюдениями этой случайной величины и ее математическим ожиданием.
Стандартная ошибка случайной величины – оценка стандартного отклонения случайной величины, полученная по данным выборки..
Нулевая гипотеза (Но) – утверждение о том, что неизвестный параметр модели принадлежит заданному множеству А.
Альтернативная гипотеза – утверждение о том, что неизвестный параметр модели принадлежит другому заданному множеству В, .
Область принятия гипотезы – множество значений оценок параметра, при попадании в которое нулевая гипотеза не отвергается.
Ошибка I рода – ситуация, когда оценка параметра не попала в область принятия нулевой гипотезы, нулевая гипотеза была отвергнута, хотя та была истинной.
Ошибка II рода – ситуация, когда не отвергнута ложная гипотеза.
Цена ошибки – численное выражение ущерба от ошибки, величина «штрафа» за ошибку.
Функция цены – функция, где аргументом является род ошибки, а значением функции – цена ошибки..
Т-тест (тест Стьюдента) – проверка гипотезы о значении коэффициента
с помощью распределения Стьюдента.
Число степеней свободы – натуральное число, характеристика таких законов распределения, как распределение Стьюдента, распределение Фишера и некоторых других.
Критическое значение теста при р-процентном уровне значимости – граничное значение области принятия гипотезы, проверяемой тестом, p-процентной вероятностью совершить ошибку I рода.
Доверительный интервал – интервал с центром в полученной оценке параметра, который содержит истинное значение параметра с доверительной вероятностью.
Односторонний тест – тест на проверку гипотезы, в котором область принятия гипотезы имеет только одно критическое значение.
F-тест (тест Фишера)‘ – проверка гипотезы (значимость всей регрессии) с помощью распределения Фишера.
Нелинейная по переменным модель – нелинейная модель , в которой возможна замена переменной
, приводящая получившуюся модель
– к линейной.
Нелинейная по параметрам модель – модель, которую нельзя привести заменами переменных к линейной.
Логарифмическое преобразование – переход от нелинейной и по переменным, и по параметрам модели к логарифмической модели
.
Метод Зарембки – процедура выбора между линейной и логарифмической моделями.
Тест Бокса-Кокса (решетчатый поиск) – прямой компьютерный метод выбора наилучших значений параметров нелинейной модели в заданных исследователем пределах с заданным шагом (решеткой).
Итерационные методы – компьютерные сходящиеся методы поиска наилучших значений параметров нелинейной модели.
Модель множественной регрессии – линейная модель зависимости между переменными: , содержащая более двух переменных
Модель множественной регрессии без свободного коэффициента – линейная модель зависимости между переменными: , не содержащая коэффициента
Плоскость регрессии – m-мерная плоскость в (т + 1)-мерном пространстве
Нестрогая линейная зависимость между переменными – ситуация, когда теоретическая корреляция двух переменных близка к 1 или –1
Строгая линейная зависимость между переменными – ситуация, когда выборочная корреляция двух переменных равна 1 или –1
Мультиколлинеарность – явление, когда нестрогая линейная зависимость между объясняющими переменными в модели множественной регрессии приводит к получению ненадежных оценок регрессии
Полная коллинеарность – явление, когда строгая линейная зависимость между переменными приводит к невозможности применения МНК
Лишняя переменная – объясняющая переменная, включенная ‘в модель множественной регрессии, в то время, как по экономическим причинам ее присутствие в модели не нужно
Отсутствующая переменная – необходимая по экономическим причинам объясняющая переменная, отсутствующая в модели
Спецификация переменных – выбор необходимых для регрессии переменных и отбрасывание лишних переменных
Замещающая переменная – объясняющая переменная, используемая в регрессии вместо трудноизмеримой, но важной переменной
Лаговая переменная – наблюдение зависимой переменной регрессии в предшествующий момент, используемое как объясняющая переменная
Фиктивная переменная – переменная, принимающая в каждом наблюдении только два значения: 1 – «да» или 0 – «нет»
Набор категорий – конечный набор взаимоисключающих событий, полностью исчерпывающий все возможности
Совокупность фиктивных переменных – некоторое количество фиктивных переменных, предназначенное для описания набора категорий
Эталонная категория – категория, с которой сравниваются другие категории
Сезонные фиктивные переменные – совокупность фиктивных переменных, предназначенная для обозначения различных лет, времен года, месяцев и т.п.
Ловушка dummy trap – выбор такой совокупности фиктивных переменных, у которой сумма этих переменных тождественно равна константе
Фиктивная переменная взаимодействия – фиктивная переменная, предназначенная для установления влияния на регрессию одновременного наступления сразу нескольких независимых друг от друга событий, каждое из которых описывается своей фиктивной переменной
Гетероскедастичность – нарушение второго условия теоремы Гаусса-Маркова, которое заключается в том, что дисперсия случайного члена регрессии зависит от номера наблюдения: – зависит от i
Ранг наблюдения переменной – номер наблюдения переменной в упорядоченной по возрастанию последовательности
Тест ранговой корреляции Спирмена – тест на гетероскедастичность, устанавливающий, что стандартное отклонение остаточного члена регрессии имеет нестрогую линейную зависимость с объясняющей переменной
Тест Голдфелда-Квандта – тест на гетероскедастичность, устанавливающий, что стандартное отклонение остаточного члена регрессии растет, когда растет объясняющая переменная
Тест Глейзера – наиболее тонкий тест на гетероскедастичность, улавливающий нелинейную связь между стандартным отклонением остаточного члена регрессии и объясняющей переменной
Автокорреляция (случайного члена в уравнении регрессии) – нарушение третьего условия Гаусса-Маркова, которое заключается в том, что случайные члены регрессии в разных наблюдениях являются зависимыми: , при
Положительная автокорреляция (случайного члена) – ситуация, когда случайный член регрессии в следующем наблюдении ожидается того же знака, что и случайный член в настоящем наблюдении
Отрицательная автокорреляция (случайного члена) – ситуация, когда случайный член регрессии в следующем наблюдении ожидается знака, противоположного знаку случайного члена в настоящем наблюдении
Автокорреляция первого порядка – ситуация, когда коррелируют случайные члены регрессии в последовательных наблюдениях
Критерий Дарбина-Уотсона – метод обнаружения автокорреляции первого порядка с помощью статистики Дарбина-Уотсона
Зона неопределенности критерия Дарбина-Уотсона – промежуток значений статистики Дарбина-Уотсона, при попадании в который критерий не дает определенного ответа о наличии или отсутствии автокорреляции первого порядка
Поправка Прайса-Уинстена – метод спасения первого наблюдения в автокорреляционной схеме первого порядка
Метод Кокрана-Оркатта – компьютерный итерационный метод устранения автокорреляции первого порядка.
Панельные данные –данные нескольких одновременных временных рядов
Временной ряд (time series) –наблюдения экономического показателя одного объекта в равноотстоящие моменты времени
Член временного ряда –наблюдение экономического показателя одного объекта в некоторый момент времени
Перекрестные данные (cross-section data) –выборка из экономических показателей, полученная для большого количества однотипных объектов (семей, фирм, регионов, стран); все наблюдения или одновременные, или считаются независимыми от времени
Долговременные факторы –неслучайные факторы, формирующие тенденцию
Тренд –тенденция, которую формируют долговременные факторы
Сезонные факторы –факторы, обусловленные периодичностью (сезонной, квартальной)
Циклические (конъюнктурные) факторы –факторы, обусловленные действием долгосрочных циклов (солнечная активность, демографические «ямы», волны Кондратьева, политические выборы)
Случайные факторы –факторы, не поддающиеся учету и регистрации
Разладочные случайные факторы –случайные факторы, приводящие к резкому изменению (слому) всей модели
Эволюционные остаточные случайные факторы –случайные факторы, влияние которых не приводит к резкому изменению ни характера, ни параметров модели
Строго стационарный (стационарный в узком смысле) временной ряд –временной ряд х(t), у которого совместное распределение вероятностей тнаблюдений х(t1), х(t2), …,х(tm) такое же, как и для m наблюдений х(t1+t), х(t2+t), …,х(tm+t) для любого т, t1, t2, tm и t.
Стационарный (стационарный в широком смысле) временной ряд – Временной ряд х(t) с постоянным математическим ожиданием М(х(t)) и дисперсией D(х(t)), не зависящими от t
Нестационарный временной ряд – Временной ряд отличающийся от стационарного на неслучайную составляющую (тренд)
Автоковариационная функция – функция для стационарного ряда (зависит только от t)
Автокорреляционная функция – функция для стационарного ряда (зависит только от t)
Коррелограмма – график автокорреляционной функции
Частная (очищенная) автокорреляционная функция – функция, измеряющая корреляцию х(t) и х(t+t) напрямую, без влияния промежуточных между ними наблюдений
Спектральная плотность временного ряда – сумма ряда , где r(t) – автокорреляционная функция.
Серия – Последовательность подряд идущих плюсов или минусов
Критерий серий – критерий, основанный на исследовании количества серий и их длин в последовательности
Метод скользящего среднего – метод сглаживания временного ряда для уменьшения влияния случайных факторов
Метод последовательных разностей – метод поиска степени многочлена, описывающего тренд
Белый шум – временной ряд , серия импульсов, генерирующая случайные остатки анализируемого временного ряда.
Модель авторегрессии 1-го порядка АР(1), марковский процесс (АR(1) models) –временной ряд, описываемый формулой ,-где
– белый шум
Модель авторегрессии 2-го порядка АР(2), модель Юла (АR(2) – models) –временной ряд, описываемый формулой , где
– белый шум
Модель скользящего среднего 1-го порядка СС(1) (MA(1) models) –временной ряд, описываемый формулой , где
–белый шум
Условия стационарности –условия на параметры модели, при которых временной ряд получается стационарным
Условия обратимости –условия на параметры модели, при которых зависимость значения временного ряда от прошлых значений уменьшается с отдалением прошлого
Регрессионная модель с распределенными лагами –модель зависимости , где
– белый шум
Лаговая структура Ш. Алмон –Регрессионная модель с распределенными лагами, в которой параметры получаются по формуле , где A0, A1, A2,…Am –неизвестные параметры
Лаговая структура Койка –Регрессионная модель с распределенными лагами, в которой параметры убывают в геометрической прогрессии: ,где
– белый шум, –1