Выборка и статистический ряд

Итак, установление закономерностей, которым подчинены массовые случайные явления основано на изучении статистических данных — результатах наблюдений. Математическая статистика решает две главные задачи: указать способы сбора и группировки (если данных очень много) статистических сведений (результатов наблюдений) и разработать методы анализа собранных статистических данных в зависимости от целей исследования.

Пусть требуется изучить совокупность однородных объектов относительно качественного или количественного признака, характеризующего эти объекты.

Пример 14.1.1

Некоторое предприятие выпускает партию одинаковых деталей. Если контролируют детали по размеру – это количественный признак.

Можно производить этот контроль сплошным обследованием, то есть измерять каждый из объектов совокупности. Но на практике сплошное обследование применяется редко:

а) из-за очень большого числа объектов;

б) из-за того, что иногда обследование заключается в физическом уничтожении, например, проверяем взрываемость гранат или проверяем на крепость произведенную посуду и т.д.

В таких случаях производится случайный отбор ограниченного (небольшого) числа объектов, которые и подвергают изучению.

Выборочной совокупностью (выборкой) называется совокупность случайно отобранных однородных объектов.

Генеральной совокупностью называется совокупность всех однородных объектов, из которых производится выборка.

Объемом совокупности (выборочной или генеральной) называется число объектов этой совокупности.

При наборе выборки можно поступать двояко: после того, как объект отобран и над ним произведено наблюдение, он может быть возвращен либо не возвращен в генеральную совокупность. В связи с этим выборки подразделяются на повторные и бесповторные.

Для того, чтобы по данным выборки можно было достаточно уверенно судить об интересующем нас признаке генеральной совокупности, необходимо, чтобы объекты выборки правильно его представляли. Это требование коротко формулируется так: выборка должна быть репрезентативной (представительной).

Способы отбора выборки:

1. Отбор, не требующий расчленения генеральной совокупности на части:

а) простой случайный бесповторный;

б) простой случайный повторный.

2. Отбор, при котором генеральная совокупность разбивается на части (если объем генеральной совокупности слишком большой):

а) типический отбор. Объекты отбираются не из всей генеральной совокупности, а из ее «типичных» частей. Например, цех из тридцати станков производит одну и ту же деталь. Тогда отбор делается по одной или по две детали с каждого станка в случайные моменты времени;

б) механический отбор. Например, если нужно выбрать 5% деталей, то выбирают не случайно, а каждую двадцатую деталь;

в) серийный отбор. Объекты выбирают не по одному, а сериями.

Итак, пусть из генеральной совокупности значений некоторого количественного признака произведена выборка объема N:

.

Таблица вида

Таблица 14.1.1

1

2

3

N

называется простым статистическим рядом, являющимся первичной формой представления статистического материала.

Из данных табл. 14.1.1 находят и , соответственно наименьшее и наибольшее значения выборки. Затем данные табл. 14.1.1 называемые вариантами, располагают в порядке возрастания. Тогда выборка , записанная в порядке возрастания, называется вариационным рядом.

Размах выборки – это длина основного интервала , в который попадают все значения выборки. Вычисляется размах выборки следующим образом: . Затем по формуле

, (14.1.1)

где — целая часть числа , определяется число . Данное число задает количество подынтервалов (классов), на которые разбиваем основной интервал. Длины h подынтервалов и их границы вычисляются по формулам

, (14.1.2)

; ;…; ; … ; . (14.1.3)

Далее находятся частоты и относительные частоты попадания значений выборки в -й подынтервал. Причем для частот должно выполняться равенство , а для относительных частот соответственно .

Результаты проведенных расчетов сводятся в таблицы:

Таблица 14.1.2

Таблица 14.1.3

Далее находятся середины подынтервалов:

; ; … ;

и после этого составляется еще одна таблица (табл. 14.1.4), которая называется статистическим рядом распределения. Статистический ряд распределения является оценкой теоретического ряда распределения и сходится к нему по вероятности. Поскольку ряд распределения является одной из форм задания закона распределения дискретной случайной величины, то мы получили эмпирический закон распределения исследуемой дискретной случайной величины.

Таблица 14.1.4

Сгруппированные данные табл. 14.1.4 несут в себе меньше информации, чем выборочные, так как в них теряется информация о порядке следования выборочных значений. При группировке также фактически происходит округление наблюдаемых значений выборки внутри -го класса (подынтервала) до значения , что приводит к потере информации о распределении исследуемой случайной величины внутри каждого класса. Это распределение в дальнейшем предполагается равномерным. Преимуществом же сгруппированных данных является их компактность и большая наглядность.

В целях визуального изучения полученных в табл. 14.1.2, 14.1.3, 14.1.4 данных пользуются различными способами их графического изображения. К ним относятся гистограмма и полигон.

Для построения гистограммы относительных частот используются данные табл. 14.1.3. В декартовой системе координат на оси откладываются границы подынтервалов. По оси откладываются величины (плотности вероятностей) .

Гистограммой относительных частот называется ступенчатая фигура, состоящая из прямоугольников, основаниями которых служат частичные подынтервалы длины , а высоты равны числам (плотности вероятностей). Аналогичным образом, по данным табл. 1.2 строится гистограмма частот.

Для построения полигона относительных частот используются данные табл. 1.4. В декартовой системе координат на оси находятся и , то есть изображаются границы основного интервала. Затем наносятся значения середин подынтервалов . По оси откладываются значения, соответствующие относительным частотам .

Полигоном относительных частот называется ломаная, отрезки которой соединяют точки ; ; … ; . Полигон относительных частот есть визуальное представление эмпирического закона распределения выборки.

Любая функция выборки называется статистикой. Статистика является случайной величиной, так как на различных реализациях выборки она получает различные наблюдаемые значения. Статистиками являются: частоты , границы классов и их середины , размах. Статистический ряд распределения также является статистикой. Из определения статистики следует, что любая функция от статистик также является статистикой, поэтому статистикой является любая функция от сгруппированных данных (табл. 14.1.4).

Статистики служат для оценки любых характеристик изучаемой случайной величины: вероятностей случайных событий, связанных с изучаемой величиной, ее числовых характеристик, параметров закона распределения и так далее. Изучение статистик на основе теории вероятностей есть теоретическое ядро математической статистики.

Онлайн помощь по математике >
Лекции по высшей математике >
Примеры решения задач >