Введение
Статистика — отрасль знаний, в которой излагаются общие вопросы сбора, измерения и анализа массовых статистических (количественных или качественных) данных.
Слово «статистика» происходит от латинского status — состояние, положение вещей с точки зрения закона. Первоначально оно употреблялось в значении «политическое состояние». В науку термин «статистика» ввел немецкий ученый Готфрид Ахенваль в 1746 году, предложив заменить название курса «Государствоведение», преподававшегося в университетах Германии, на «Статистику», положив тем самым начало развитию статистики как науки и учебной дисциплины. Несмотря на это, статистический учет велся намного раньше: проводились переписи населения в Древнем Китае, осуществлялось сравнение военного потенциала государств, велся учет имущества граждан в Древнем Риме и пр.
Статистика разрабатывает специальную методологию исследования и обработки материалов: массовые статистические наблюдения, метод группировок, средних величин, индексов, балансовый метод, метод графических изображений и другие методы анализа статистических данных. Статистика как наука включает разделы: теоретическая статистика (общая теория статистики), прикладная статистика, математическая статистика, экономическая статистика, эконометрика, правовая статистика, демография, медицинская статистика, технометрика, хемометрика,биометрика, наукометрика, иные отраслевые статистики и др.
В России формированием официальной статистической информации занимается Федеральная служба государственной статистики (Росстат).
Статистикой называется также набор определенных статистических данных (статистика смертности, статистика посещений сайта, …).
Задание
В зоопарках мира по заказу Всемирной организации по защите животных исследовалась зависимость массы тела (кг) новорожденных детенышей гамадрилов от массы тела их матерей:
№ |
Матери |
Детеныши |
№ |
Матери |
Детеныши |
№ |
Матери |
Детеныши |
|
1 |
10,0 |
0,70 |
11 |
11,0 |
0,70 |
21 |
10,8 |
0,70 |
|
2 |
10,8 |
0,73 |
12 |
12,0 |
0,65 |
22 |
11,3 |
0,73 |
|
3 |
11,3 |
0,75 |
13 |
11,8 |
0,72 |
23 |
10,1 |
0,65 |
|
4 |
10,0 |
0,70 |
14 |
13,4 |
0,69 |
24 |
11,3 |
0,70 |
|
5 |
11,3 |
0,65 |
15 |
11,4 |
0,78 |
25 |
13,5 |
0,70 |
|
6 |
11,1 |
0,65 |
16 |
12,0 |
0,70 |
26 |
14,5 |
0,70 |
|
7 |
10,2 |
0,70 |
17 |
15,6 |
0,60 |
27 |
12,0 |
0,72 |
|
8 |
13,5 |
0,61 |
18 |
13,0 |
0,85 |
28 |
13,4 |
0,78 |
|
9 |
12,3 |
0,70 |
19 |
12,1 |
0,80 |
29 |
12,0 |
0,85 |
|
10 |
14,5 |
0,63 |
20 |
10,0 |
0,75 |
30 |
13,0 |
0,75 |
Ход работы
1. Записываем выборку в виде столбца
Выборка – это часть объектов исследования определенным образом выбрана из генеральной совокупности.
Затем ранжируем, т.е. располагаем числовые значения признака в порядке их возрастания или убывания. После чего определяем ранг. Ранг- это порядковый номер выборочного значения в ранжированном ряде. Величина ранга совпадает с порядковым номером элемента если нет совпадений, если же они есть то величина ранга определяется как среднее арифметическое порядковых номеров совпадающих значений.
Выборка №1: «Матери».
Матери |
n |
xi |
Rx |
xi – xср |
(xi – xср)2 |
(xi – xср)3 |
(xi – xср)4 |
|
10 |
1 |
10 |
2 |
-1,97333 |
3,894044 |
-7,684248 |
15,163582 |
|
10,8 |
2 |
10 |
2 |
-1,97333 |
3,894044 |
-7,684248 |
15,163582 |
|
11,3 |
3 |
10 |
2 |
-1,97333 |
3,894044 |
-7,684248 |
15,163582 |
|
10 |
4 |
10,1 |
4 |
-1,87333 |
3,509378 |
-6,574234 |
12,315732 |
|
11,3 |
5 |
10,2 |
5 |
-1,77333 |
3,144711 |
-5,576621 |
9,889208 |
|
11,1 |
6 |
10,8 |
6,5 |
-1,17333 |
1,376711 |
-1,615341 |
1,8953335 |
|
10,2 |
7 |
10,8 |
6,5 |
-1,17333 |
1,376711 |
-1,615341 |
1,8953335 |
|
13,5 |
8 |
11 |
8 |
-0,97333 |
0,947378 |
-0,922114 |
0,8975247 |
|
12,3 |
9 |
11,1 |
9 |
-0,87333 |
0,762711 |
-0,666101 |
0,5817282 |
|
14,5 |
10 |
11,3 |
11,5 |
-0,67333 |
0,453378 |
-0,305274 |
0,2055514 |
|
11 |
11 |
11,3 |
11,5 |
-0,67333 |
0,453378 |
-0,305274 |
0,2055514 |
|
12 |
12 |
11,3 |
11,5 |
-0,67333 |
0,453378 |
-0,305274 |
0,2055514 |
|
11,8 |
13 |
11,3 |
11,5 |
-0,67333 |
0,453378 |
-0,305274 |
0,2055514 |
|
13,4 |
14 |
11,4 |
14 |
-0,57333 |
0,328711 |
-0,188461 |
0,108051 |
|
11,4 |
15 |
11,8 |
15 |
-0,17333 |
0,030044 |
-0,005208 |
0,0009027 |
|
12 |
16 |
12 |
17,5 |
0,026667 |
0,000711 |
1,896E-05 |
5,057E-07 |
|
15,6 |
17 |
12 |
17,5 |
0,026667 |
0,000711 |
1,896E-05 |
5,057E-07 |
|
13 |
18 |
12 |
17,5 |
0,026667 |
0,000711 |
1,896E-05 |
5,057E-07 |
|
12,1 |
19 |
12 |
17,5 |
0,026667 |
0,000711 |
1,896E-05 |
5,057E-07 |
|
10 |
20 |
12,1 |
20 |
0,126667 |
0,016044 |
0,0020323 |
0,0002574 |
|
10,8 |
21 |
12,3 |
21 |
0,326667 |
0,106711 |
0,034859 |
0,0113873 |
|
11,3 |
22 |
13 |
22,5 |
1,026667 |
1,054044 |
1,0821523 |
1,1110097 |
|
10,1 |
23 |
13 |
22,5 |
1,026667 |
1,054044 |
1,0821523 |
1,1110097 |
|
11,3 |
24 |
13,4 |
24,5 |
1,426667 |
2,035378 |
2,9038056 |
4,1427627 |
|
13,5 |
25 |
13,4 |
24,5 |
1,426667 |
2,035378 |
2,9038056 |
4,1427627 |
|
14,5 |
26 |
13,5 |
26,5 |
1,526667 |
2,330711 |
3,558219 |
5,4322143 |
|
12 |
27 |
13,5 |
26,5 |
1,526667 |
2,330711 |
3,558219 |
5,4322143 |
|
13,4 |
28 |
14,5 |
28,5 |
2,526667 |
6,384044 |
16,130352 |
40,756023 |
|
12 |
29 |
14,5 |
28,5 |
2,526667 |
6,384044 |
16,130352 |
40,756023 |
|
13 |
30 |
15,6 |
30 |
3,626667 |
13,15271 |
47,700499 |
172,99381 |
|
среднее |
11,973333 |
сумма |
61,85867 |
53,649262 |
349,78624 |
Выборка № 2: «Детеныши».
Детеныши |
n |
xi |
Rx |
xi – xср |
(xi – xср)2 |
(xi – xср)3 |
(xi – xср)4 |
|
0,7 |
1 |
0,6 |
1 |
-0,1113333 |
0,0123951 |
-0,00138 |
0,0001536 |
|
0,73 |
2 |
0,61 |
2 |
-0,1013333 |
0,0102684 |
-0,001041 |
0,0001054 |
|
0,75 |
3 |
0,63 |
3 |
-0,0813333 |
0,0066151 |
-0,000538 |
4,376E-05 |
|
0,7 |
4 |
0,65 |
5,5 |
-0,0613333 |
0,0037618 |
-0,000231 |
1,415E-05 |
|
0,65 |
5 |
0,65 |
5,5 |
-0,0613333 |
0,0037618 |
-0,000231 |
1,415E-05 |
|
0,65 |
6 |
0,65 |
5,5 |
-0,0613333 |
0,0037618 |
-0,000231 |
1,415E-05 |
|
0,7 |
7 |
0,65 |
5,5 |
-0,0613333 |
0,0037618 |
-0,000231 |
1,415E-05 |
|
0,61 |
8 |
0,69 |
8 |
-0,0213333 |
0,0004551 |
-9,71E-06 |
2,071E-07 |
|
0,7 |
9 |
0,7 |
13,5 |
-0,0113333 |
0,0001284 |
-1,46E-06 |
1,65E-08 |
|
0,63 |
10 |
0,7 |
13,5 |
-0,0113333 |
0,0001284 |
-1,46E-06 |
1,65E-08 |
|
0,7 |
11 |
0,7 |
13,5 |
-0,0113333 |
0,0001284 |
-1,46E-06 |
1,65E-08 |
|
0,65 |
12 |
0,7 |
13,5 |
-0,0113333 |
0,0001284 |
-1,46E-06 |
1,65E-08 |
|
0,72 |
13 |
0,7 |
13,5 |
-0,0113333 |
0,0001284 |
-1,46E-06 |
1,65E-08 |
|
0,69 |
14 |
0,7 |
13,5 |
-0,0113333 |
0,0001284 |
-1,46E-06 |
1,65E-08 |
|
0,78 |
15 |
0,7 |
13,5 |
-0,0113333 |
0,0001284 |
-1,46E-06 |
1,65E-08 |
|
0,7 |
16 |
0,7 |
13,5 |
-0,0113333 |
0,0001284 |
-1,46E-06 |
1,65E-08 |
|
0,6 |
17 |
0,7 |
13,5 |
-0,0113333 |
0,0001284 |
-1,46E-06 |
1,65E-08 |
|
0,85 |
18 |
0,7 |
13,5 |
-0,0113333 |
0,0001284 |
-1,46E-06 |
1,65E-08 |
|
0,8 |
19 |
0,72 |
19,5 |
0,00866667 |
7,511E-05 |
6,51E-07 |
5,642E-09 |
|
0,75 |
20 |
0,72 |
19,5 |
0,00866667 |
7,511E-05 |
6,51E-07 |
5,642E-09 |
|
0,7 |
21 |
0,73 |
16,5 |
0,01866667 |
0,0003484 |
6,504E-06 |
1,214E-07 |
|
0,73 |
22 |
0,73 |
16,5 |
0,01866667 |
0,0003484 |
6,504E-06 |
1,214E-07 |
|
0,65 |
23 |
0,75 |
24 |
0,03866667 |
0,0014951 |
5,781E-05 |
2,235E-06 |
|
0,7 |
24 |
0,75 |
24 |
0,03866667 |
0,0014951 |
5,781E-05 |
2,235E-06 |
|
0,7 |
25 |
0,75 |
24 |
0,03866667 |
0,0014951 |
5,781E-05 |
2,235E-06 |
|
0,7 |
26 |
0,78 |
26,5 |
0,06866667 |
0,0047151 |
0,0003238 |
2,223E-05 |
|
0,72 |
27 |
0,78 |
26,5 |
0,06866667 |
0,0047151 |
0,0003238 |
2,223E-05 |
|
0,78 |
28 |
0,8 |
28 |
0,08866667 |
0,0078618 |
0,0006971 |
6,181E-05 |
|
0,85 |
29 |
0,85 |
29,5 |
0,13866667 |
0,0192284 |
0,0026663 |
0,0003697 |
|
0,75 |
30 |
0,85 |
29,5 |
0,13866667 |
0,0192284 |
0,0026663 |
0,0003697 |
|
среднее |
0,711333 |
сумма |
0,1071467 |
0,0029593 |
0,0012125 |
2. Числовые характеристики выборки
a) Выборочное среднее вычисляем по формуле:
Выборка №1:
Выборка №2:
b) Рассчитываем отклонение от среднего по формуле (обязательно с учетом знака):
Выборка №1 «Матери» |
Выборка №2 «Детеныши» |
|
= 10-11,973333=-1,97333 = 10,1-11,973333=-1,87333 = 10,2-11,973333=-1,77333 = 10,8-11,973333=-1,17333 = 11-11,973333=-0,97333 = 11,1-11,973333=-0,87333 = 11,3-11,973333=-0,67333 = 11,4-11,973333=-0,57333 = 11,8-11,973333=-0,17333 = 12-11,973333=0,026667 = 12,1-11,973333=0,126667 = 12,3-11,973333=0,326667 = 13-11,973333=1,026667 = 13,4-11,973333=1,426667 = 13,5-11,973333=1,526667 = 14,5-11,973333=2,526667 = 15,6-11,973333=3,626667 |
-0,1013333 -0,0813333 -0,0613333 -0,0213333 -0,0113333 0,00866667 0,01866667 0,03866667 0,06866667 0,08866667 0,13866667 |
c) Затем рассчитывается квадрат отклонения по формуле:
2
Выборка №1 «Матери» |
Выборка №2 «Детеныши» |
|
(-1,97333)2=3,894044 (-1,87333)2=3,509378 (-1,77333)2=3,144711 (-0,97333)2=0,947378 (-0,87333)2=0,762711 и т. д. |
(-0,111333)2=0,012395 (-0,101333)2=0,010268 (-0,081333)2=0,006615 (-0,061333)2=0,003762 (0,0886667)2= 0,007862 и т. д. |
d) Отклонение от среднего значения в кубе (обязательно с учетом знака):
3
Выборка №1 «Матери» |
Выборка №2 «Детеныши» |
|
(-1,97333)3=-7,684248 (-1,87333)3=-6,574234 (-1,77333)3=-5,576621 (-0,97333)3=-0,922114 (-0,87333)3=-0,666101 и т. д. |
(-0,111333)3=-0,00138 (-0,101333)3=-0,001041 (-0,081333)3=-0,000538 (-0,061333)3=-0,000231 (0,0886667)3=0,0006971 и т. д. |
e) Отклонение от среднего значения в четвертой степени:
4
Выборка №1 «Матери» |
Выборка №2 «Детеныши» |
|
(-1,97333)4=15,16358214 (-1,87333)4=12,31573239 (-1,77333)4=9,889207972 (-0,97333)4=0,897524654 (-0,87333)4=0,581728239 и т. д. |
(-0,111333)4=0,000153639 (-0,101333)4=0,000105441 (-0,081333)4=4,37597Е-05 (-0,061333)4=1,4151Е-05 (0,0886667)4=5,64168Е-09 и т. д. |
f) Определяем выборочную моду.
Мода — значение во множестве наблюдений, которое встречается наиболее часто. Иногда в совокупности встречается более чем одна мода (например: 2, 6, 6, 6, 8, 9, 9, 9, 10; мода = 6 и 9). В этом случае можно сказать, что совокупность мультимодальна. Из структурных средних величин только мода обладает таким уникальным свойством. Как правило мультимодальность указывает на то, что набор данных не подчиняется нормальному распределению.
Выборка №1 «Матери» |
Выборка №2 «Детеныши» |
|
М01=11,3 М02=12 |
М=0,7 |
В нашем случае Выборка №1 «Матери» является двухмодальной (или мультимодальной).
g) Медиана (50-й процентиль, квантиль 0,5) — возможное значение признака, которое делит ранжированную совокупность (вариационный ряд выборки) на две равные части: 50 % «нижних» единиц ряда данных будут иметь значение признака не больше, чем медиана, а «верхние» 50 % — значения признака не меньше, чем медиана.
Если объем выборки нечетен, то (2L+1), тогда Мех=хе+1.
Если объем выборки четен, то.
Выборка №1 «Матери»: Мех=11,9.
Выборка №2 «Детеныши»: Мех=0,7.
3. Характеристики рассеяния
Меры разброса выборки.
Минимум и максимум выборки – это соответственно наименьшее и наибольшее значение изучаемой переменной. Разность между максимумом и минимумом называется размахом выборки. Все данные выборки расположены в промежутке между минимумом и максимумом. Эти показатели как бы очерчивают границы выборки.
R№1= 15,6-10=5,6
R№2=0,85-0,6=0,25
Дисперсия выборки (англ. variance) и среднее квадратическое отклонение выборки (англ. standard deviation) являют собой меру изменчивости переменной и характеризуют степень разброса данных вокруг центра. При этом среднее квадратическое отклонение является более удобным показателем в силу того, что имеет ту же размерность, что и собственно исследуемые данные. Поэтому показатель среднего квадратического отклонения используется наряду со значением среднего арифметического выборки для короткого описания результатов анализа данных.
Выборочную дисперсию при целесообразнее считать по формуле:
Стандартное отклонение считается по формуле:
Коэффициент вариации является относительной мерой рассеяния признака.
Коэффициент вариации используется и как показатель однородности выборочных наблюдений. Считается, что если коэффициент вариации не превышает 10 %, то выборку можно считать однородной, т. е. полученной из одной генеральной совокупности.
Т. к. коэффициент вариации в обеих выборках , то они являются однородными.
Выборку можно представить аналитически в виде функции распределения, а так же в виде таблицы частот, состоящей из двух строк. В верхней строке- элементы выборки (варианты), расположенные в порядке возрастания; в нижней строке записываются частоты вариант.
Частота варианты – число, равное количеству повторений данной варианты в выборке.
Выборка №1 «Матери»
10 |
10,1 |
10,2 |
10,8 |
11 |
11,1 |
11,3 |
11,4 |
11,8 |
12 |
12,1 |
12,3 |
13 |
13,4 |
13,5 |
14,5 |
15,6 |
|
3 |
1 |
1 |
2 |
1 |
1 |
4 |
1 |
1 |
4 |
1 |
1 |
2 |
2 |
2 |
2 |
1 |
Выборка №2 «Детеныши»
0,6 |
0,61 |
0,63 |
0,65 |
0,69 |
0,7 |
0,72 |
0,73 |
0,75 |
0,78 |
0,8 |
0,85 |
|
1 |
1 |
1 |
4 |
1 |
10 |
2 |
2 |
3 |
2 |
1 |
2 |
4. Вид кривой распределения
Асимметрия или коэффициент асимметрии (термин был впервые введен Пирсоном, 1895) является мерой несимметричности распределения. Если асимметрия отчетливо отличается от 0, распределение асимметричное, плотность нормального распределения симметрична относительно среднего.
Показатель асимметрии (англ. skewness) используется для того, чтобы охарактеризовать степень симметричности распределения данных вокруг центра. Асимметрия может принимать как отрицательные, так и положительные значения. Положительное значение данного параметра указывает на то, что данные смещены влево от центра, отрицательное – вправо. Таким образом, знак показателя асимметрии указывает на направление смещения данных, тогда как величина – на степень этого смещения. Асимметрия равная нулю говорит о том, что данные симметрично сконцентрированы вокруг центра.
Т.к. асимметрия положительная, следовательно, вершина кривой сдвигается влево от центра.
Коэффициент эксцесса (англ. kurtosis) является характеристикой того, насколько кучно основная масса данных группируется около центра.
При положительном эксцессе – кривая заостряется, при отрицательном – сглаживается.
– кривая сглаживается;
– кривая заостряется.
5. Графическое представление экспериментальных данных
Для повышения наглядности эмпирических распределений, используется их графическое представление. Наиболее распространенными способами графического представления являются гистограмма и полигон частот.
Гистограмма используется для графического представления распределений непрерывно варьирующих признаков и состоит из примыкающих друг к другу прямоугольников.
Полигон частот образуется ломаной линией, соединяющей точки, соответствующие срединным значениям интервалов группировки и частотам этих интервалов, срединные значения откладываются по оси х, а частоты – по оси у.
6. Определение границы доверительных интервалов для генеральных средних значений
Т.к. выборка двумерная сначала определяем ранг столбца «Матери», затем отдельно столбца «Детеныши», и уже реальный ранг столбца «Детеныши» подставляем в таблицу. После чего ищем разницу рангов. Квадрат рангов считается для определения коэффициента ранговой корреляции по Спирмену.
№ |
Матери |
Детеныши |
ранг “матери” |
реальный ранг “детеныши” |
разница рангов |
квадрат |
|
1 |
10 |
0,7 |
2 |
13,5 |
11,5 |
132,25 |
|
2 |
10 |
0,7 |
2 |
13,5 |
11,5 |
132,25 |
|
3 |
10 |
0,75 |
2 |
24 |
22 |
484 |
|
4 |
10,1 |
0,65 |
4 |
5,5 |
1,5 |
2,25 |
|
5 |
10,2 |
0,7 |
5 |
13,5 |
8,5 |
72,25 |
|
6 |
10,8 |
0,73 |
6,5 |
16,5 |
10 |
100 |
|
7 |
10,8 |
0,7 |
6,5 |
13,5 |
7 |
49 |
|
8 |
11 |
0,7 |
8 |
13,5 |
5,5 |
30,25 |
|
9 |
11,1 |
0,65 |
9 |
5,5 |
-3,5 |
12,25 |
|
10 |
11,3 |
0,75 |
11,5 |
24 |
12,5 |
156,25 |
|
11 |
11,3 |
0,65 |
11,5 |
5,5 |
-6 |
36 |
|
12 |
11,3 |
0,73 |
11,5 |
16,5 |
5 |
25 |
|
13 |
11,3 |
0,7 |
11,5 |
13,5 |
2 |
4 |
|
14 |
11,4 |
0,78 |
14 |
26,5 |
12,5 |
156,25 |
|
15 |
11,8 |
0,72 |
15 |
19,5 |
4,5 |
20,25 |
|
16 |
12 |
0,65 |
17,5 |
5,5 |
-12 |
144 |
|
17 |
12 |
0,7 |
17,5 |
13,5 |
-4 |
16 |
|
18 |
12 |
0,72 |
17,5 |
19,5 |
2 |
4 |
|
19 |
12 |
0,85 |
17,5 |
29,5 |
12 |
144 |
|
20 |
12,1 |
0,8 |
20 |
28 |
8 |
64 |
|
21 |
12,3 |
0,7 |
21 |
13,5 |
-7,5 |
56,25 |
|
22 |
13 |
0,85 |
22,5 |
29,5 |
7 |
49 |
|
23 |
13 |
0,75 |
22,5 |
24 |
1,5 |
2,25 |
|
24 |
13,4 |
0,69 |
24,5 |
8 |
-16,5 |
272,25 |
|
25 |
13,4 |
0,78 |
24,5 |
26,5 |
2 |
4 |
|
26 |
13,5 |
0,61 |
26,5 |
2 |
-24,5 |
600,25 |
|
27 |
13,5 |
0,7 |
26,5 |
13,5 |
-13 |
169 |
|
28 |
14,5 |
0,63 |
28,5 |
3 |
-25,5 |
650,25 |
|
29 |
14,5 |
0,7 |
28,5 |
13,5 |
-15 |
225 |
|
30 |
15,6 |
0,6 |
30 |
1 |
-29 |
841 |
Под генеральной совокупностью понимают множества всех объектов некоторого наблюдения в совокупности с множеством всех значений наблюдаемого признака.
По отношению к характеристикам генеральной совокупности, выборочные характеристики являются случайными значениями и скорее всего не совпадают с генеральными.
В качестве оценки стандартного отклонения выборочного среднего используется величина
называемая стандартной ошибкой среднего арифметического.
Интервал, в котором с заданной доверительной вероятностью находится параметр генеральной совокупности называют доверительным интервалом.
В соответствии с доверительными вероятностями на практике используются 91-,95-, 99-, 99,9-процентные доверительные интервалы.
В литературе по математической статистике обычно говорят о -процентном доверительном интервале, где (1- б) — доверительная вероятность, а б — некоторое малое число ( б = 0,1; 0,05; 0,01; 0,001), задающее вероятность того, что оцениваемый генеральный параметр выходит, за границы доверительного интервала.
Теперь рассмотрим формирование доверительного интервала для среднего (математического ожидания) n, нормально распределенной генеральной совокупности. Пронормируем значение среднего арифметического , найденного по выборке объема n из этой генеральной совокупности, по формуле:
где — оцениваемый параметр — среднее значение генеральной совокупности; — стандартная ошибка выборочного среднего арифметического.
Величина t имеет T-распределение Стьюдента с f=n-1 степенями свободы.
Необходимо определить доверительный интервал, в котором с доверительной вероятностью находится истинное значение оцениваемого параметра M. Для этого задается значение б (например, 0,05). Доверительная вероятность будет соответствовать площади под кривой T-распределения Стьюдента, заключенной между точками и . Следовательно, доверительный интервал можно записать как
Преобразуем это выражение к виду
Это и есть стандартная форма записи доверительного интервала.
Учитывая формулу стандартной ошибки приходим к окончательному выражению:
Чтобы найти границы доверительного интервала для среднего значения генеральной совокупности, действуем в следующем порядке:
Действия |
Выборка №1 «Матери» |
Выборка №2 «Детеныши» |
|
1. по полученной выборке объема n вычисляем среднее арифметическое и стандартное отклонение. |
|||
2. задаемся доверительной вероятностью исходя из целей исследования; |
90%, 95%, 99% и 99,9% |
90%, 95%, 99% и 99,9% |
|
3. по таблице Т-распределения Стьюдента находим граничные значения . |
t0.1=1,699 t0.05=2,045 t0.01=2,756 t0.001=3,659 |
t0.1=1,699 t0.05=2,045 t0.01=2,756 t0.001=3,659 |
|
4. находим границы доверительного интервала по формуле. Для б=0,1 и n=30 Для б=0,05 и n=30 Для б=0,01 и n=30 Для б=0,001 и n=30 |
11,947?М?11,999 11,960?М?11,987 11,971?М?11,976 11,9731?М?11,9736 |
0,7102?М?0,7124 0,7108?М?0,7119 0,7112?М?0,7114 0,71132?М?0,71134 |
Из полученных данных можно сделать вывод, что чем выше процент доверительного уровня, тем уже границы доверительного интервала.
7. Используя функции из категории Статистические, а также с помощью Пакета анализа Excel можно найти основные статистики каждой из выборок и построить гистограммы
а) с помощью Пакета анализа Excel:
Данные – анализ данных – описательная статистика – ОК- входной интервал (вставляем значения) – выходной интервал (вставляем нужное) – ставим галочку на «итоговая статистика» – ОК.
Выборка №1 |
Выборка №2 |
||
Среднее |
11,973333 |
0,7113333 |
|
Стандартная ошибка |
0,2666494 |
0,0110976 |
|
Медиана |
11,9 |
0,7 |
|
Мода |
11,3 |
0,7 |
|
Стандартное отклонение |
1,460499 |
0,0607841 |
|
Дисперсия выборки |
2,1330575 |
0,0036947 |
|
Эксцесс |
-0,0762267 |
0,4305044 |
|
Асимметричность |
0,6362461 |
0,4868435 |
|
Интервал |
5,6 |
0,25 |
|
Минимум |
10 |
0,6 |
|
Максимум |
15,6 |
0,85 |
|
Сумма |
359,2 |
21,34 |
|
Счет |
30 |
30 |
б) Используя функции из категории Статистические:
Главная – вставить функцию – категория: статистические – выбираем нужную функцию (н/п «медиана») – ОК – вставляем данные – ОК.
Выборка №1 |
Выборка №2 |
||
СРЗНАЧ |
11,973333 |
0,7113333 |
|
МЕДИАНА |
11,9 |
0,7 |
|
МОДА |
11,3 |
0,7 |
|
СТАНДОТКЛОН |
1,460499 |
0,0607841 |
|
ДИСП |
2,1330575 |
0,0036947 |
|
ЭКСЦЕСС |
-0,0762267 |
0,4305044 |
|
МИН |
10 |
0,6 |
|
МАКС |
15,6 |
0,85 |
|
СЧЕТ |
30 |
30 |
в) строим гистограмму
Данные – анализ данных – гистограмма – входной интервал (вставляем данные) – выходной интервал (выбираем место графика) – ставим галочку на «вывод графика» – ОК.
Выборка №1 |
||
Карман |
Частота |
|
10 |
3 |
|
11,12 |
6 |
|
12,24 |
11 |
|
13,36 |
3 |
|
14,48 |
4 |
|
Еще |
3 |
Выборка №2 |
||
Карман |
Частота |
|
0,6 |
1 |
|
0,65 |
6 |
|
0,7 |
11 |
|
0,75 |
7 |
|
0,8 |
3 |
|
Еще |
2 |
8. Произведем корреляционный анализ выборки
а) Кроме функциональной зависимости существует зависимость статистическая, при которой значениям переменной «х» соответствуют значения переменной «y», варьирующие в определенных пределах, т.е. принимающие любые значения в этих пределах с некоторыми вероятностями. Статистическая связь проявляется не в каждом отдельном случае, а в среднем при большом числе наблюдений.
Корреляционная связь является частным случаем статистической, при котором изменение среднего значения переменной «y» обусловлено изменением значений переменной «х».
Корреляционный анализ дает информацию о наличии, тесноте, направленности корреляционной связи.
Линейный коэффициент корреляции, принимающий значение в пределах от «-1» до «+1» вычисляется по формуле:
r = 0,96
Линейный коэффициент корреляции с помощью статистических функций (Функции – статистические – коррел):
КОРРЕЛ= 0,963327028;
Линейный коэффициент корреляции с помощью пакета анализа Excel.
Для построения матрицы коэффициентов парной корреляции необходимо выбирать команду меню Сервис/Анализ данных/Корреляция. Откроется следующее диалоговое окно:
Далее следует нажать кнопку OK. После этого будет создана матрица коэффициентов парной корреляции:
Столбец 1 |
Столбец 2 |
||
Столбец 1 |
1 |
||
Столбец 2 |
0,963327 |
1 |
Из полученных данных можно сделать вывод, что характер связи является прямым сильным.
б) Построение корреляционного поля (диаграммы рассеяния).
Для построения корреляционного поля в командной строке выбираем меню Вставка/ Диаграмма. В появившемся диалоговом окне выберите тип диаграммы: Точечная; вид: Точечная диаграмма, позволяющая сравнить пары значений.
Нажимаем кнопку Далее>. В появившемся диалоговом окне указываем диапазон значений и указываем расположение данных: в столбцах.
Нажимаем кнопку Далее>. В следующем диалоговом окне указываем название диаграммы, наименование осей. Нажимаем кнопку Далее>, и Готово.
Таким образом, получаем корреляционное поле зависимости y от x. Далее добавим на графике линию тренда, для чего выполним следующие действия:
В области диаграммы щелкнуть левой кнопкой мыши по любой точке графика, затем щелкнуть правой кнопкой мыши по этой же точке. Появляется контекстное меню.
В контекстном меню выбираем команду Добавить линию тренда.
3. В появившемся диалоговом окне выбираем тип графика (в нашем примере линейная).
Нажимаем ОК.
Из диаграммы видно, что чем больше масса тела матери, тем больше вес новорожденного.
в) Метод ранговой корреляции Спирмена позволяет определить тесноту (силу) и направление корреляционной связи между двумя признаками или двумя профилями (иерархиями) признаков.
При использовании коэффициента ранговой корреляции условно оценивают тесноту связи между признаками, считая значения коэффициента равные 0,3 и менее, показателями слабой тесноты связи; значения более 0,4, но менее 0,7 – показателями умеренной тесноты связи, а значения 0,7 и более – показателями высокой тесноты связи.
Коэффициент ранговой корреляции целесообразно применять при наличии небольшого количества наблюдений. Коэффициент считается по формуле:
где – разность рангов xi и yi.
– показатель высокой тесноты связи между выборками.
г) Коэффициент Фехнера (КФ) рассчитывается на основе сравнения параллельных рядов. С его помощью можно установить направление связи и ее тесноту. Вначале исчисляется средняя арифметическая ряда признака-фактора (х) и признака-следствия (у). Затем определяются знаки отклонений от средних. Если реальное значение больше средней, против него ставится знак (+), меньше — знак (-). Совпадение знаков по отдельным значениям ряда х и у означает согласованную вариацию, несовпадение — нарушение согласованности.
Коэффициент Фехнера изменяется от +1 до -1. При +1 имеется полная прямая согласованность, при 0 — изменчивость никак не согласуется, при — 1 – – полная обратная несогласованность.
Коэффициент рассчитывается по формуле:
na – количество совпадений знаков отклонений значений переменных от их средних значений,
nb – количество несовпадений.