в каком виде можно представить статистическое распределение выборки
В каком виде можно представить статистическое распределение выборки
ОПРЕДЕЛЕНИЕ. Статистическим (эмпирическим) законом распределения выборки, или просто статистическим распределением выборки называют последовательность вариант хi и соответствующих им частот ni или относительных частот wi.
Статистическое распределение выборки удобно представлять в форме таблицы распределения частот, называемой статистическим дискретным рядом распределения:
x1 | x2 | . | xm |
n1 | n2 | . | nm |
(сумма всех частот равна объему выборки ∑ni=n)
или в виде таблицы распределения относительных частот:
x1 | x2 | . | xm |
w1 | w2 | . | wm |
(сумма всех относительных частот равна единице ∑wi=1)
Пример 1. При измерениях в однородных группах обследуемых получены следующие выборки: 71, 72, 74, 70, 70, 72, 71, 74, 71, 72, 71, 73, 72, 72, 72, 74, 72, 73, 72, 74 (частота пульса). Составить по этим результатам статистический ряд распределения частот и относительных частот.
Решение. 1) Статистический ряд распределения частот:
xi | 70 | 71 | 72 | 73 | 74 |
ni | 2 | 4 | 8 | 2 | 4 |
2) Объем выборки: n=2+4+8+2+4=20. Найдем относительные частоты, для чего разделим частоты на объем выборки ni/n=wi: wi=2/20=0.1; w2=4/20=0.2; w3=0.4; w4=4/20=0.1; w5=2/20=0.2. Напишем распределение относительных частот:
xi | 70 | 71 | 72 | 73 | 74 |
wi | 0.1 | 0.2 | 0.4 | 0.1 | 0.2 |
Полигоном частот называют ломаную, отрезки, которой соединяют точки (х1,n1),(х2,n2). (хk,nk). Для построения полигона частот на оси абсцисс откладывают варианты х2, а на оси ординат – соответствующие им частоты ni. Точки (хi,ni) соединяют отрезками и получают полигон частот.
Полигоном относительных частот называют ломаную, отрезки, которой соединяют точки (х1,w1),(х2,w2). (хk,wk). Для построения полигона относительных частот на оси абсцисс откладывают варианты хi, а на оси ординат соответствующие им частоты wi. Точки (хi,wi) соединяют отрезками и получают полигон относительных частот.
Пример 2. Постройте полигон частот и относительных частот по данным примера 1.
Решение: Используя дискретный статистический ряд распределения, составленный в примере 1 построим полигон частот и полигон относительных частот:
2. Статистический интервальный ряд распределения. Гистограмма. Статистическим дискретным рядом (или эмпирической функцией распределения) обычно пользуются в том случае, когда отличных друг от друга вариант в выборке не слишком много, или тогда, когда дискретность по тем или иным причинам существенна для исследователя. Если же интересующий нас признак генеральной совокупности Х распределен непрерывно или его дискретность нецелесообразно ( или невозможно) учитывать, то варианты группируются в интервалы.
Статистическое распределение можно задать также в виде последовательности интервалов и соответствующих им частот (в качестве частоты, соответствующей интервалу, принимают сумму частот, попавших в этот интервал).
Замечание. Часто hi-hi-1=h при всех i, т.е. группировку осуществляют с равным шагом h. В этой ситуации можно руководствоваться следующими эмперическими рекомендациями по выборке а, k и hi:
1. Rразмах=Xmax-Xmin
2. h=R/k; k-число групп
3. k≥1+3.321lgn (формула Стерджеса)
4. a=xmin, b=xmax
5. h=a+ih, i=0,1. k
Полученную группировку удобно представить в форме частотной таблицы, которая носит название статистический интервальный ряд распределения:
Интервалы группировки | [h0;h1) | [h1;h2) | . | [hk-2;hk-1) | [hk-1;hk) |
Частоты | n1 | n2 | . | nk-1 | nk |
Аналогическую таблицу можно образовать, заменяя частоты ni относительными частотами:
Интервалы группировки | [h0;h1) | [h1;h2) | . | [hk-2;hk-1) | [hk-1;hk) |
Отн. частоты | w1 | w2 | . | wk-1 | wk |
Пример 3. Из очень большой партии деталей извлечена случайная выборка объема 50 интересующий нас признак Х-размеры деталей, измеренные с точностью до 1см, представлен следующим вариоционным рядом: 22, 47, 26, 26, 30, 28, 28, 31, 31, 31, 32, 32, 33, 33, 33, 33, 34, 34, 34, 34, 34, 35, 35, 36, 36, 36, 36, 36, 37, 37, 37, 37, 37, 37, 38, 38, 40, 40, 40, 40, 40, 41, 41, 43, 44, 44, 45, 45, 47, 50. Найти статистический интервальный ряд распределения.
Решение. Определим характеристики группировки с помощью замечания.
k≥1+3.321lg50=1+3.32lg(5•10)=1+3.32(lg5+lg10)=6.6
Имеем, a=22, k=7, h=(50-22)/7=4, hi=22+4i, i=0,1,…,7.
Интервалы группировки | 22-26 | 26-30 | 30-34 | 34-38 | 38-42 | 42-46 | 46-50 |
Частоты ni | 1 | 4 | 10 | 18 | 9 | 5 | 3 |
Отн.частоты wi | 0.02 | 0.08 | 0.2 | 0.36 | 0.18 | 0.1 | 0.06 |
Десятичные логарифмы от 1 до 10
n | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
lnn≈ | 0 | 0.3 | 0.48 | 0.6 | 0.7 | 0.78 | 0.85 | 0.9 | 0.95 | 1 |
Наиболее информативной графической формой частот является специальный график, называемы гистограммой частот.
Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиною h, а высоты равны отношению ni/h (плотность частоты).
Гистограммой относительных частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиною h, а высоты равны отношению wi/h (плотность относительной частоты).
Пример 4. Постройте гистограмму частот и относительных частот по данным примера 3.
Выборочная медиана – это середина вариационного ряда, значение, расположенное на одинаковом расстоянии от левой и правой границы выборки.
Выборочная мода – это наиболее вероятное, т.е. чаще всего встречающееся, значение в выборке.
В каком виде можно представить статистическое распределение выборки
1. Задачи математической статистики.
4. Статистическое распределение выборки.
5. Эмпирическая функция распределения.
6. Полигон и гистограмма.
7. Числовые характеристики вариационного ряда.
8. Статистические оценки параметров распределения.
9. Интервальные оценки параметров распределения.
1. Задачи и методы математической статистики
Пусть требуется изучить совокупность однородных объектов относительно некоторого качественного или количественного признака, характеризующего эти объекты. Например, если имеется партия деталей, то качественным признаком может служить стандартность детали, а количественным- контролируемый размер детали.
Иногда проводят сплошное исследование, т.е. обследуют каждый объект относительно нужного признака. На практике сплошное обследование применяется редко. Например, если совокупность содержит очень большое число объектов, то провести сплошное обследование физически невозможно. Если обследование объекта связано с его уничтожением или требует больших материальных затрат, то проводить сплошное обследование не имеет смысла. В таких случаях случайно отбирают из всей совокупности ограниченное число объектов (выборочную совокупность) и подвергают их изучению.
Основная задача математической статистики заключается в исследовании всей совокупности по выборочным данным в зависимости от поставленной цели, т.е. изучение вероятностных свойств совокупности: закона распределения, числовых характеристик и т.д. для принятия управленческих решений в условиях неопределенности.
Генеральная совокупность – это совокупность объектов, из которой производится выборка.
Выборочная совокупность (выборка) – это совокупность случайно отобранных объектов.
Если из 1000 деталей отобрано для обследования 100 деталей, то объем генеральной совокупности N = 1000, а объем выборки n = 100.
При составлении выборки можно поступить двумя способами: после того, как объект отобран и над ним произведено наблюдение, он может быть возвращен либо не возвращен в генеральную совокупность. Т.о. выборки делятся на повторные и бесповторные.
Повторной называют выборку, при которой отобранный объект (перед отбором следующего) возвращается в генеральную совокупность.
Бесповторной называют выборку, при которой отобранный объект в генеральную совокупность не возвращается.
На практике обычно пользуются бесповторным случайным отбором.
Для того, чтобы по данным выборки можно было достаточно уверенно судить об интересующем признаке генеральной совокупности, необходимо, чтобы объекты выборки правильно его представляли. Выборка должна правильно представлять пропорции генеральной совокупности. Выборка должна быть репрезентативной (представительной).
В силу закона больших чисел можно утверждать, что выборка будет репрезентативной, если ее осуществлять случайно.
Если объем генеральной совокупности достаточно велик, а выборка составляет лишь незначительную часть этой совокупности, то различие между повторной и бесповторной выборками стирается; в предельном случае, когда рассматривается бесконечная генеральная совокупность, а выборка имеет конечный объем, это различие исчезает.
В американском журнале «Литературное обозрение» с помощью статистических методов было проведено исследование прогнозов относительно исхода предстоящих выборов президента США в 1936 году. Претендентами на этот пост были Ф.Д. Рузвельт и А. М. Ландон. В качестве источника для генеральной совокупности исследуемых американцев были взяты справочники телефонных абонентов. Из них случайным образом были выбраны 4 миллиона адресов., по которым редакция журнала разослала открытки с просьбой высказать свое отношение к кандидатам на пост президента. Обработав результаты опроса, журнал опубликовал социологический прогноз о том, что на предстоящих выборах с большим перевесом победит Ландон. И … ошибся: победу одержал Рузвельт.
Этот пример можно рассматривать, как пример нерепрезентативной выборки. Дело в том, что в США в первой половине двадцатого века телефоны имела лишь зажиточная часть населения, которые поддерживали взгляды Ландона.
На практике применяются различные способы отбора, которые можно разделить на 2 вида:
1. Отбор не требует расчленения генеральной совокупности на части (а) простой случайный бесповторный; б) простой случайный повторный).
2. Отбор, при котором генеральная совокупность разбивается на части. (а) типичный отбор; б) механический отбор; в) серийный отбор).
Простым случайным называют такой отбор, при котором объекты извлекаются по одному из всей генеральной совокупности (случайно).
Типичным называют отбор, при котором объекты отбираются не из всей генеральной совокупности, а из каждой ее «типичной» части. Например, если деталь изготавливают на нескольких станках, то отбор производят не из всей совокупности деталей, произведенных всеми станками, а из продукции каждого станка в отдельности. Таким отбором пользуются тогда, когда обследуемый признак заметно колеблется в различных «типичных» частях генеральной совокупности.
Механическим называют отбор, при котором генеральную совокупность «механически» делят на столько групп, сколько объектов должно войти в выборку, а из каждой группы отбирают один объект. Например, если нужно отобрать 20 % изготовленных станком деталей, то отбирают каждую 5-ую деталь; если требуется отобрать 5 % деталей- каждую 20-ую и т.д. Иногда такой отбор может не обеспечивать репрезентативность выборки (если отбирают каждый 20-ый обтачиваемый валик, причем сразу же после отбора производится замена резца, то отобранными окажутся все валики, обточенные затупленными резцами).
Серийным называют отбор, при котором объекты отбирают из генеральной совокупности не по одному, а «сериями», которые подвергают сплошному обследованию. Например, если изделия изготавливаются большой группой станков-автоматов, то подвергают сплошному обследованию продукцию только нескольких станков.
На практике часто применяют комбинированный отбор, при котором сочетаются указанные выше способы.
4. Статистическое распределение выборки
Если количество вариант велико или выборка производится из непрерывной генеральной совокупности, то вариационный ряд составляется не по отдельным точечным значениям, а по интервалам значений генеральной совокупности. Такой вариационный ряд называется интервальным. Длины интервалов при этом должны быть равны.
Статистическим распределением выборки называется перечень вариант и соответствующих им частот или относительных частот.
Статистическое распределение можно задать также в виде последовательности интервалов и соответствующих им частот (суммы частот, попавших в этот интервал значений)
Точечный вариационный ряд частот может быть представлен таблицей:
18.6.2. Статистическое распределение выборки
— Относительными частотами. При этом Ni = П. Модой Мo называется варианта, имеющая наибольшую частоту. Медианой те называется варианта, которая делит вариационный ряд на две части с одинаковым числом вариант в каждой. Если число вариант нечетно, т. е. K = 2L + 1, то Me = Xl+1; если же число вариант четно (k = 2L), То те = (Xl + Xl+1)/2. Размахом варьирования называется разность между максимальной и минимальной вариантами или длина интервала, которому принадлежат все варианты выборки:
Перечень вариант и соответствующих им частот называется Статистическим распределением выборки. Здесь имеется аналогия с законом распределения случайной величины: в теории вероятностей — это соответствие между возможными значениями случайной величины и их вероятностями, а в математической статистике — это соответствие между наблюдаемыми вариантами и их частотами (относительными частотами). Нетрудно видеть, что сумма относительных частот равна единице: Wi = 1.
Пример 2. Выборка задана в виде распределения частот:
Найти распределение относительных частот и основные характеристики вариационного ряда.
Решение. Найдем объем выборки: П = 2 + 4 + 5 + 6 + 3 = 20. Относительные частоты соответственно равны W1 = 2/20 = 0,1; W2 = 4/20 = 0,2; W3 = 5/20 = 0,25; W4 = 6/20 = 0,3; W5 = 3/20 = 0,15. Контроль: 0,1 + 0,2 + 0,25 + 0,3 + 0,15 = 1. Искомое распределение относительных частот имеет вид
Мода этого вариационного ряда равна 12. Число вариант в данном случае нечетно: K = 2 ∙ 2 + 1, поэтому медиана Me = X3 = 8. Размах варьирования, согласно формуле (18.48), R = 17 – 4 = 13.
Статистическим распределением выборки.
Лекция 2. Статистические ряды распределения.
Цели и задачи изучения темы
изучить понятия статистического ряда распределения, вариационного ряда распределения (дискретного/интервального); исследовать статистическое распределение выборки; определять величины интервала; изучить статистическую таблицу и графические способы изображения статистических данных.
1.Понятие статистического ряда распределения, вариационного ряда распределения (дискретного/интервального).
2. Статистическое распределение выборки.
3. Определение величины интервала. Формула Стерджесса.
4. Статистическая таблица (подлежащее статистической таблицы, сказуемое статистической таблицы, групповая таблица, комбинационная таблица, простая таблица, сложная таблица).
5. Графический способ изображения статистических данных.
Понятие статистического ряда распределения, вариационного ряда распределения (дискретного/интервального).
Результаты сводки и группировки материалов статистического наблюдения оформляются в виде статистических рядов распределения.
Статистический ряд распределения представляет собой упорядоченное расположение единиц изучаемой совокупности по какому-либо признаку.
Ряды распределения, образованные по атрибутивному признаку, называют атрибутивными.
Отдельное значение варьируемого признака, которое он принимает в вариационном ряду, называется вариантой. Численности отдельных вариант или групп вариационного ряда, показывающие, как часто встречаются те или иные варианты в ряду распределения, называют частотами.
Наблюдаемые значения xi есть варианты, а последовательность вариант, записанных в возрастающем порядке, есть вариационный ряд. Числанаблюдений ni, есть частоты, а их отношение к объему выборки — относительные частоты.
Вариационные ряды распределения подразделяются на дискретные и интервальные.
Дискретными называются вариационные ряды, в которых значения признаков, положенных в основу их образования, являются дискретными и часто выражены целыми числами. Примерами дискретных вариационных рядов являются распределение рабочих по тарифному разряду; распределение отделов по числу работников и т.п.
Дискретные ряды распределения строятся по дискретным признакам, которые варьируются в ограниченных пределах.
Дискретный ряд распределения обычно оформляется в виде статистического распределения выборки.
Статистическим распределением выборки.
Статистическим распределением выборкиназывают перечень вариант и соответствующих им частот (или относительных частот).
Статистическое распределение выборки
Варианты хi | x1 | x2 | x3 | … | xi | … | xk |
Число наблюдений (частота) ni | n1 | n2 | n3 | … | ni | … | nk |
Относительная частота Pi | P1 | P2 | P3 | … | Pi | … | Pk |
Интервальными называются вариационные ряды, в которых значения признаков, положенных в основу их образования, выражены в определенных пределах (интервалах). Частоты в этом случае относятся, не к отдельным значениям признака, а ко всему интервалу.
Интервальные ряды распределения строятся по непрерывным количественным признакам, а также по дискретным признакам, варьирующим в значительных пределах.
Интервальный ряд можно представить статистическим распределением выборки с указанием интервалов и соответствующих им частот. При этом в качестве частоты интервала принимают сумму частот вариант, попавших в этот интервал.
При группировке по количественным непрерывным признакам важное значение имеет определение размера интервала.
3. Определение величины интервала. Формула Стерджесса.
Интервалы групп могут быть равными и неравными. Интервалы устанавливаются в зависимости от характера распределения единиц совокупности по данному признаку. Если вариация (изменение) признака проявляется в сравнительно узких границах и распределение носит более или менее равномерный характер, то целесообразно устанавливать равные интервалы. В этом случае величину интервала определяют по формуле:
Часто строят ряды с равновеликими интервалами. При построении вариационного ряда с равными интервалами определяют число групп (к) и величину интервала (h).
Оптимальное число групп (интервалов) может быть определено по формулеСтерджесса:
Сами интервалы могут быть закрытыми(с указанием нижней и верхней границ) и открытыми(с указанием лишь одной из границ интервала).
При количественных группировках следует обращать внимание на правильное обозначение нижней и верхней границ интервала. При образовании интервалов по дискретным признакам это достигается посредством обозначения верхней и нижней границ смежных интервалов значениями признаков, отличных на единицу.
При построении интервальных вариационных рядов по непрерывным признакам необходимо указать, в какой интервал входит значение признака, являющегося границей смежных интервалов. То есть для устранения неопределенности необходимо решить вопрос о том, считать ли верхние границы каждой группы «включительно» или «исключительно».
После того как в результате сводки, материал статистического наблюдения сгруппирован, он, как правило, представляется в виде таблиц.
4. Статистическая таблица (подлежащее статистической таблицы, сказуемое статистической таблицы, групповая таблица, комбинационная таблица, простая таблица, сложная таблица).
Статистическая таблица— форма наиболее рационального, наглядного и систематического изложения числовых результатов сводки и группировки статистических, материалов в виде ряда строк и столбцов. Основными элементами статистической таблицы являются подлежащее и сказуемое.
В зависимости от характера построения подлежащего различают простые, групповые и комбинационные таблицы.
Простой называется таблица, в подлежащем которой содержится перечень объектов наблюдения, например перечень работников предприятия.
Групповойназывается таблица, в подлежащем которой объекты наблюдения разгруппированы по одному признаку, например по профессиям работников предприятия. Комбинационной называется таблица, в подлежащем которой объекты наблюдения разгруппированы по двум и более признакам в комбинации, например, по категориям работников, в том числе и по полу.
По структуре сказуемого различают простые и сложные таблицы.
Простая таблицапредусматривает разработку показателей, характеризующих изучаемые объекты независимо друг от друга.
Сложная таблица предусматривает разработку показателей, характеризующих изучаемые объекты в комбинации.
Например, при характеристике объема перевозок в сказуемом таблицы можно дать перечень признаков, характеризующих объем перевозок по типам тяги и по видам движения. Это будет таблица с простой разработкой сказуемого.
Можно построить таблицу, сказуемое которой будет содержать перечень признаков по типам тяги и в том числе по видам движения. Это будет таблица со сложной разработкой сказуемого.
Наряду с таблицами, для наглядного изображения данных наблюдения и сводки, в статистике используются графики.