Характеристики рассеяния случайной величины. Характеристики случайных величин

К основным статистическим характеристикам ряда измерений (вариацион­ного ряда) относятся характеристики положения (средние характе­ристики, или центральная тенденция выборки ); характеристики рассеяния (ва­риации, или колеблемости ) и характеристики формы распределения.

К характеристикам положения относятся среднее арифметическое значе­ние (среднее значение ), мода и медиана.

К характеристикам рассеяния (вариации, или колеблемости ) относятся: размах вариации , дисперсия , среднее квадратическое (стандартное ) отклонение , ошибка средней арифметической (ошибка средней ), коэффициент вариации и др.

К характеристикам формы относятся коэффициент асимметрии, мера ско­шенности и эксцесс.

Характеристики положения

Среднее арифметическое значение – одна из основных характеристик вы­борки.

Она, как и другие числовые характеристики выборки, может вычисляться как по необработанным первичным данным, так и по результатам группировки этих данных.

Точность вычисления по необработанным данным выше, но процесс вычисления оказывается трудоёмким при большом объёме выборки.

Для несгруппированных данных среднее арифметическое определяется по формуле:

где n - объем выборки, х 1 , х 2 , ... х n - результаты измерений.

Для сгруппированных данных:

где n - объем выборки, k – число интервалов группировки, n i – частоты интервалов, x i – срединные значения интервалов.

Мода

Определение 1. Мода - наиболее часто встречающаяся величина в данных вы­борки. Обозначается Мо и определяетсяпо формуле:

где - нижняя граница модального интервала, - ширина интервала группи­ровки, - частота модального интервала, - частота интервала, предшествую­щего модальному, - частота интервала, последующего за модаль­ным.

Определение 2. Модой Мо дискретной случайной величины называется наиболее вероятное её значение.

Геометрически моду можно интерпретировать как абсциссу точки максимума кривой распределения. Бывают двухмодальные и многомодальные распределения. Встречаются распределения, которые имеют минимум, но не имеют максимума. Такие распределения называются антимодальными .

Определение. Модальным интервалом называется интервал группировки с наибольшей частотой.

Медиана

Определение . Медиана - результат измерения, который находится в сере­дине ранжированного ряда, иначе говоря, медианой называется значение признака Х , когда одна половина значений экспериментальных данных меньше её, а вторая половина – больше, обозначается Ме .

Когда объем выборки n - четное число, т. е. результатов измерений четное количество, то для определения медианы рассчитывается среднее значение двух показателей выборки, находящихся в середине ранжированного ряда.

Для данных, сгруппированных в интервалы, медиану определяют по фор­муле:

,

где - нижняя граница медианного интервала; ширина интервала группи­ровки, 0,5n – половина объёма выборки, - частота медианного интервала, - накопленная частота интервала, предшествующего медианному.

Определение. Медианным интервалом называется тот интервал, в котором накопленная частота впервые окажется больше половины объёма выборки (n/ 2) или накопленная частость окажется больше 0,5.

Численные значения среднего, моды и медианы отличаются, когда имеет место несимметричная форма эмпирического распределения.

Характеристики рассеяния результатов измерений

Для математико-статистического анализа результатов выборки знать только характеристики положения недостаточно. Одна и та же величина среднего значе­ния может характеризовать совершенно различные выборки.

Поэтому кроме них в статистике рассматривают также характеристики рассеяния (вариации, или колеблемости ) результатов .

Размах вариации

Определение. Размахом вариации называется разница между наибольшим и наименьшим результатами выборки, обозначается R и определяется

R =X max - X min .

Информативность этого показателя невелика, хотя при малых объёмах вы­борки по размаху легко оценить разницу между лучшим и худшим результатами спортсменов.

Дисперсия

Определение. Дисперсией называется средний квадрат отклонения значений признака от среднего арифметического.

Для несгруппированных данных дисперсия определяется по формуле

s 2 = , (1)

где Х i – значение признака, - среднее арифметическое.

Для данных, сгруппированных в интервалы, дисперсия определяется по формуле

,

где х i – среднее значение i интервала группировки, n i – частоты интервалов.

Для упрощения расчётов и во избежание погрешностей вычисления при округ­лении результатов (особенно при увеличении объёма выборки) используются также другие формулы для определения дисперсии. Если среднее арифметическое уже вычислено, то для несгруппированных данных используется следующая фор­мула:

для сгруппированных данных:

.

Эти формулы получаются из предыдущих раскрытием квадрата разности под знаком суммы.

Для математико-статистического анализа результатов выборки знать только характеристики положения недостаточно. Одна и та же величина среднего значе­ния может характеризовать совершенно различные выборки.

Поэтому кроме них в статистике рассматривают также характеристики рассеяния (вариации, или колеблемости ) результатов .

1. Размах вариации

Определение. Размахом вариации называется разница между наибольшим и наименьшим результатами выборки, обозначается R и определяется

R =X max - X min .

Информативность этого показателя невелика, хотя при малых объёмах вы­борки по размаху легко оценить разницу между лучшим и худшим результатами спортсменов.

2. Дисперсия

Определение. Дисперсией называется средний квадрат отклонения значений признака от среднего арифметического.

Для несгруппированных данных дисперсия определяется по формуле

где Х i – значение признака, - среднее арифметическое.

Для данных, сгруппированных в интервалы, дисперсия определяется по формуле

,

где х i – среднее значение i интервала группировки, n i – частоты интервалов.

Для упрощения расчётов и во избежание погрешностей вычисления при округ­лении результатов (особенно при увеличении объёма выборки) используются также другие формулы для определения дисперсии. Если среднее арифметическое уже вычислено, то для несгруппированных данных используется следующая фор­мула:

 2 =
,

для сгруппированных данных:

.

Эти формулы получаются из предыдущих раскрытием квадрата разности под знаком суммы.

В тех случаях, когда среднее арифметическое и дисперсия вычисляются од­новременно, используются формулы:

для несгруппированных данных:

 2 =
,

для сгруппированных данных:

.

3. Среднее квадратическое (стандартное ) отклонение

Определение. Среднее квадратическое (стандартное ) отклонение характе­ризует степень отклонения результатов от среднего значения в абсолютных единицах, т. к. в отличие от дисперсии имеет те же единицы измерения, что и результаты измерения. Иначе говоря, стандартное отклонение показывает плотность распределения результатов в группе около среднего значения, или однородность группы.

Для несгруппированных данных стандартное отклонение можно определить по формулам

 =
,

 =
или =
.

Для данных, сгруппированных в интервалы, стандартное отклонение определяется по формулам:

,

или
.

4. Ошибка средней арифметической (ошибка средней)

Ошибка средней арифметической характеризует колеблемость средней и вычисляется по формуле:

.

Как видно из формулы, с увеличением объёма выборки ошибка средней уменьшается пропорционально корню квадратному из объёма выборки.

5. Коэффициент вариации

Коэффициент вариации определяется как отношение среднего квадратического отклонения к среднему арифметическому, выраженное в процентах:

.

Считается, что если коэффициент вариации не превышает 10 %, то выборку можно считать однородной, то есть полученной из одной генеральной совокупности.

Министерство образования и науки РФ

Государственное образовательное учреждение высшего профессионального образования

«МАТИ»-Российский государственный технологический университет имени К. Э. Циолковского

Кафедра «Технология производства двигателей летательных аппаратов»

Лабораторный практикум

MATLAB. Занятие 2

СТАТИСТИЧЕСКИЙ АНАЛИЗ ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ

Составители:

Курицына В.В.

Москва 2011

ВВЕДЕНИЕ..........................................................................................................

ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН...........................................

Характеристика положения центра группирования случайных величин.....

Характеристики рассеяния случайной величины...........................................

Характеристики выборки наблюдений............................................................

Нормальное распределение (распределение Гаусса) ..................................

ПРЕДСТАВЛЕНИЕ ВЫБОРКИ РЕЗУЛЬТАТОВ ИЗМЕРЕНИЙ В ВИДЕ

РЯДА РАСПРЕДЕЛЕНИЙ.................................................................................

ОПРЕДЕЛЕНИЕ СТАТИСТИЧЕСКИХ ХАРАКТЕРИСТИК В СРЕДЕ

MATLAB ............................................................................................................

Формирование выборки экспериментальных данных.................................

Способы формирования файла выборки..................................................

Вариант 1. Формирование матрицы данных результатов измерений 12

Вариант 2. Моделирование результатов измерений..............................

Построение графиков распределения..........................................................

Вариант 1. Построение графиков распределения..................................

Вариант 2. Построение графиков распределения..................................

ВИЗУАЛЬНОЕ МОДЕЛИРОВАНИЕ.............................................................

Моделирование в Matlab Simulink .................................................................

Начало работы с Simulink ..............................................................................

Создание модели Simulink.............................................................................

Формирование выборки для анализа.........................................................

Расчет статистических характеристик...............................................

Построение гистограммы распределения...............................................

Блок-схема визуальной модели...................................................................

Моделирование случайного процесса..........................................................

Модельный эксперимент............................................................................

Создание массивов со случайными элементами......................................

Модификация источника данных в модели..............................................

Примерный вид блок-схемы модели..........................................................

ВВЕДЕНИЕ

В арсенале средств, которыми должен владеть современный экспериментатор, статистические методы обработки и анализа данных занимают особое место. Это связано с тем, что результат любого, достаточно сложного эксперимента не может быть получен без обработки экспериментальных данных.

Аппарат теории вероятности и математической статистики разработан и применяется для описания закономерностей, присущих массовым случайным событиям. Каждому случайному событию сопоставляется соответствующая случайная величина (в данном случае результат эксперимента).

Для описания случайных величин используются следующие характеристики:

а) числовые характеристики случайной величины (например, математической ожидание, дисперсия, …);

б) закон распределения случайной величины – функция, несущая всю информацию о случайной величине.

Числовые характеристики и параметры закона распределения случайной величины связаны между собой определенной зависимостью. Часто по значению числовых характеристик можно предположить закон распределения случайной величины.

Законом распределения случайной величины обычно называется функция распределения вероятностей принятия случайной величиной того или иного значения. Это функция, которая ставит в соответствие возможным интервальным значениям случайной величины вероятность попадания ее в эти интервалы.

ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН

Характеристика положения центра группирования случайных величин

В качестве числовых характеристик положения центра группирования случайных величин используют математическое ожидание или среднее значение, моду и медиану случайной величины (рис.3.1. ).

Математическое ожидание случайной величины Y обозначают через М Y или a и определяют по формуле:

a = MY = ∫ Yϕ (Y ) dY .

Математическое ожидание указывает на положение центра группирования случайных величин, или положение центра масс площади под кривой. Математическое ожидание является числовой характеристикой случайной величины, то есть является одним из параметров функции распределения.

ϕ (Y ϕ (Y)max

0 MoY

MеY

Рис. 3.1. Характеристики группирования случайной величины X

Модой случайной величины Y является такое значение Мo Y , в котором плотность вероятности имеет максимальное значение.

Медианой случайной Y служит значение Ме Y , которое соответствует условию:

P (Y < МеY ) = P (Y > MeY ) = 0,5 .

Геометрически медиана представляет абсциссу точек прямой, которая делит площадь, ограниченную кривой плотности вероятности пополам.

Характеристики рассеяния случайной величины

Одной из основных характеристик рассеяния случайной величины Y около центра распределения служит дисперсия , которая обозначается D(Y) или σ 2 и определяется по формуле:

D(Y ) = σ 2 = ∫ (Y − a) 2 ϕ (Y ) dY .

Дисперсия имеет размерность квадрата случайной величины, что не всегда удобно. Часто вместо дисперсии за меру рассеивания случайной величины используют положительное значение квадратного корня из дисперсии, которое называется средним квадратичным отклонением или стандартным отклонением :

σ = D (Y ) = σ 2 .

Как и дисперсия, среднеквадратичное отклонение характеризует разброс величины вокруг математического ожидания.

В практике широко применяют также характеристику рассеивания, называемую коэффициентом вариации ν , который представляет отношение среднего квадратичного отклонения к математическому ожиданию:

ν = σ a 100% .

Коэффициент вариации показывает, насколько велико рассеяние по сравнению со средним значением случайной величины.

Характеристики выборки наблюдений

Среднее значение наблюдаемого признака можно оценить по формуле

Y = 1 ∑ n Y i ,

n i = 1

где Yi – значение признака в i -м наблюдении (опыте), i=1...n. ; n – количество наблюдений.

Выборочное среднеквадратичное отклонение определяется по формуле:

∑ (Yi − Y ) 2 .

n − 1 i = 1

ν = Y S .

Зная коэффициент вариации ν , можно определить показатель точности Н по формуле:

H = ν n .

Чем точнее проведено исследование, тем меньше будет величина показателя

В зависимости от природы изучаемого явления показатель точности исследования считается достаточным, если он не превышает 3÷5%.

Не редки случаи, когда в результаты эксперимента вкрадывается грубая погрешность . Существует несколько способов оценки грубых погрешностей. Наиболее простой основан на вычислении максимального относительного отклонения U . Для этого результаты измерения располагают в ряд монотонно возрастающих значений. Проверке на грубую погрешность подлежит наименьший Y min или наибольший Y max член ряда. Расчет проводят по формулам:

− Y min

Y max − Y

Значение U сравнивают с табличным значением для данной доверительной вероятности U α . Если U ≤ U α , то в данном наблюдении нет грубой погрешности. В противном случае результат наблюдения отсеивают и

производят перерасчет Y и S . Затем повторяют процедуру оценки и исключения грубых погрешностей до тех пор, пока не будет выполняться неравенство U ≤ U α для крайних членов ряда.

Во многих случаях результаты статистических наблюдений могут быть описаны теоретическими законами распределения . При интерпретации данных, полученных экспериментальным путем возникает задача – определить такой теоретический закон распределения случайной величины, который наилучшим образом соответствует результатам наблюдений. Более конкретно эта задача сводится к проверке гипотезы о принадлежности случайной выборки к некоторому закону распределения.

Разные по природе анализируемые процессы обуславливают области применения различных законов распределения. Так результат технологического эксперимента при одних и тех же условиях обработки подчиняется и результат эксперимента по бросанию монеты с орлом и решкой подчиняются совершенно разным законам. Законы распределения случайной величины характеристик надежности, отказов так же имеют особенности.

Для выборки можно определить ряд числовых характеристик, которые аналогичны основным числовым характеристикам случайных величин в теории вероятностей (математическое ожидание, дисперсия, среднее квадратическое отклонение, мода, медиана) и являются в некотором смысле (который будет ясен дальше) их приближенным значением.

Пусть дано статистическое распределение выборки объема n для частот и относительных частот:

x i

x 1

x 2

x k

n i

n 1

n 2

n k


x i

x 1

x 2

x k

w i

w 1

w 2

w k

Выборочным средним называется среднее арифметическое значение всех вариант:

Если внести множитель под знак суммы, то получим формулу для выборочного среднего через относительные частоты:

.

Отметим, что в случае интервального ряда выборочное среднее вычисляется по тем же формулам, если в качестве чисел х 1 , … , х k взять середины интервалов: , … ,.

Выборочной дисперсией называется среднее арифметическое квадратов отклонений значений выборки от их выборочного среднего:

Снова внося множитель под знак суммы, получим формулу для выборочной дисперсии через относительные частоты:

Несложные преобразования приводят к более удобной формуле для вычисления выборочной дисперсии

,

где есть выборочное среднее квадрата изучаемой случайной величины, т.е.

Если выборка представлена интервальным статистическим рядом, то формулы для выборочной дисперсии остаются те ми же, где, как обычно, в качестве чисел х 1 , … , х k берутся середины интервалов: , … ,.

Выборочным средним квадратическим отклонением называется квадратный корень из выборочной дисперсии

.

Размахом вариации R называется разность между максимальным и минимальным значением в выборке. Если варианты в выборке ранжированы (размещены в возрастающем порядке), то

.

Коэффициент вариации определяется по формуле

.

Модой М о вариационного ряда называется вариант, имеющий наибольшую частоту (или относительную частоту).

Медианой М е вариационного ряда называется число, являющееся его серединой. Для дискретного ряда с нечетным числом вариант медиана равна его серединному варианту. Если же число вариант четно, то Медина равна среднему (т.е. полусумме) двух серединных вариант.

К основным статистическим характеристикам ряда измерений (вариацион­ного ряда) относятся характеристики положения(средние характе­ристики, или центральная тенденция выборки); характеристики рассеяния(ва­риации, или колеблемости) и характеристики формыраспределения.

К характеристикам положения относятся среднее арифметическое значе­ние (среднее значение), мода и медиана.

К характеристикам рассеяния (вариации, или колеблемости) относятся: размах вариации, дисперсия, среднее квадратическое (стандартное) отклонение, ошибка средней арифметической (ошибка средней), коэффициент вариации и др.

К характеристикам формы относятся коэффициент асимметрии, мера ско­шенности и эксцесс.

51. Оценка параметров генеральной совокупности. Точечная и интервальная оценка. Доверительный интервал. Уровень значимости

Оценка параметров генеральной совокупности

Существуют точечные и интервальные оценки генеральных параметров.

Точечной одним числом . К таким оценкам относятся, например,

Для того чтобы статистические оценки давали «хорошие» приближения оцениваемых параметров, они должны быть:

    несмещенными;

    эффективными;

    состоятельными.

Оценка называется несмещенной, если математическое ожидание ее выборочного распределения совпадает со значением генерального параметра.

Точечная оценка называется эффективной, если она имеет наименьшую дисперсию выборочного распределения по сравнению с другими аналогичными оценками, т.е. обнаруживает наименьшую случайную вариацию.

Точечная оценка называется состоятельной, если при увеличении объема выборочной совокупности она стремиться к величине генерального параметра.

Например, выборочная средняя есть состоятельная, несмещённая оценка генеральной средней. Для выборки из нормальной генеральной совокупности эта оценка является также и эффективной.

При выборке малого объема точечная оценка может значительно отличаться от оцениваемого параметра, т.е. приводить к грубым ошибкам. По этой причине при небольшом объеме выборки следует пользоваться интервальными оценками.

Интервальной называют оценку, которая определяется двумя числами концами интервала доверительного интервала .

Интервальные оценки позволяют установить точность и надежность оценок.

Для оценки генерального параметра с помощью доверительного интервала необходимы три величины:

Например, доверительный интервал для генеральной средней находится по формуле:при уровне значимости.

Доверительный интервал - термин, используемый в математической статистике при интервальной оценке статистических параметров, более предпочтительной при небольшом объёме выборки, чем точечная.

Уровень значимости - это вероятность того, что мы сочли различия существенными, а они на самом деле случайны.

Когда мы указываем, что различия достоверны на 5%-ом уровне значимости, или при р < 0,05 , то мы имеем виду, что вероятность того, что они все-таки недостоверны, составляет 0,05.

Когда мы указываем, что различия достоверны на 1%-ом уровне значимости, или при р < 0,01 , то мы имеем в виду, что вероятность того, что они все-таки недостоверны, составляет 0,01.

Если перевести все это на более формализованный язык, то уровень значимости - это вероятность отклонения нулевой гипотезы, в то время как она верна.

Ошибка, состоящая в той, что мы отклонили нулевую гипотезу, в то время как она верна, называется ошибкой 1 рода. (См. Табл. 1)

Табл. 1. Нулевая и альтернативные гипотезы и возможные состояния проверки.

Вероятность такой ошибки обычно обозначается как α. В сущности, мы должны были бы указывать в скобках не р< 0,05 или р< 0,01, а α< 0,05 или α< 0,01.

Если вероятность ошибки - это α , то вероятность правильного решения: 1-α. Чем меньше α, тем больше вероятность правильного решения.

Исторически сложилось так, что в психологии принято считать низшим уровнем статистической значимости 5%-ый уровень (р≤0,05): достаточным – 1%-ый уровень (р≤0,01) и высшим 0,1%-ый уровень (р≤0,001), поэтому в таблицах критических значений обычно приводятся значения критериев, соответствующих уровням статистической значимости р≤0,05 и р≤0,01, иногда - р≤0,001. Для некоторых критериев в таблицах указан точный уровень значимости их разных эмпирических значений. Например, для φ*=1,56 р=О,06.

До тех пор, однако, пока уровень статистической значимости не достигнет р=0,05, мы еще не имеем права отклонить нулевую гипотезу. Мы будем придерживаться следующего правила отклонения гипотезы об отсутствии различий (Но) и принятия гипотезы о статистической достоверности различий (Н 1).

    ЭФФЕКТИВНАЯ ПОВЕРХНОСТЬ (ПЛОЩАДЬ) РАССЕЯНИЯ - характеристика отражающей способности цели, выражаемая отношением мощности эл. магн. энергии, отражаемой целью в направлении приёмника, к поверхностной плотности потока энергии, падающей на цель. Зависит от… … Энциклопедия РВСН

    Квантовая механика … Википедия

    - (ЭПР) характеристика отражающей способности цели, облучаемой электромагнитными волнами. Значение ЭПР определяется как отношение потока (мощности) электромагнитной энергии, отражаемой целью в направлении радиоэлектронного средства (РЭС), к… … Морской словарь

    полоса рассеяния - Статистическая характеристика экспериментальных данных, отражающая их отклонение от средних значения. Тематики металлургия в целом EN desperal band … Справочник технического переводчика

    - (функция передачи модуляции), ф ция, с помощью к рой оценивают «резкостные» св ва изображающих оптич. систем и отд. элементов таких систем. Ч. к. х. есть преобразование Фурье т. н. функции рассеяния линии, описывающей характер «расплывания»… … Физическая энциклопедия

    Функция передачи модуляции, функция, с помощью которой оценивают «резкостные» свойства изображающих оптических систем и отдельных элементов таких систем (см., например, Резкость фотографического изображения). Ч. к. х. есть Фурье… …

    полоса рассеяния - статистическая характеристика экспериментальных данных, отражающая их отклонение от среднего значения. Смотри также: Полоса полоса скольжения полоса сброса полоса прокаливаемости … Энциклопедический словарь по металлургии

    ПОЛОСА РАССЕЯНИЯ - статистическая характеристика экспериментальных данных, отражающая их отклонение от средних значения … Металлургический словарь

    Характеристика рассеяния значений случайной величины. М. т. h связана с квадратичным отклонением (См. Квадратичное отклонение) σ формулой Этот способ измерения рассеяния объясняется тем, что в случае нормального… … Большая советская энциклопедия

    ВАРИАЦИОННАЯ СТАТИСТИКА - ВАРИАЦИОННАЯ СТАТИСТИКА, термин, объединяющий группу приемов статистического анализа, применяющихся преимущественно в естественных науках. Во второй половине XIX в. Кетле (Quetelet, «Anthro pometrie ou mesure des differentes facultes de 1… … Большая медицинская энциклопедия

    Математическое ожидание - (Population mean) Математическое ожидание – это распределение вероятностей случайной величины Математическое ожидание, определение, математическое ожидание дискретной и непрерывной случайных величин, выборочное, условное матожидание, расчет,… … Энциклопедия инвестора

Загрузка...
Top