Коэфициент вариации: Коэффициент вариации (Variation coefficient)

Содержание

Коэффициент вариации и стандартное отклонение: разница

Стандартное отклонение набора данных — это способ измерить, насколько среднее значение отличается от среднего.

Чтобы найти стандартное отклонение данного образца , мы можем использовать следующую формулу:

s = √(Σ(x i – x ) 2 / (n-1))

куда:

Σ: символ, означающий «сумма».
x i : значение i -го наблюдения в выборке
x : среднее значение выборки
n: размер выборки

Чем выше значение стандартного отклонения, тем более разбросаны значения в выборке. Однако трудно сказать, является ли заданное значение стандартного отклонения «высоким» или «низким», потому что это зависит от типа данных, с которыми мы работаем.

Например, стандартное отклонение 500 можно считать низким, если речь идет о годовом доходе жителей определенного города. И наоборот, стандартное отклонение 50 можно считать высоким, если мы говорим об экзаменационных баллах студентов по определенному тесту.

Один из способов понять, является ли определенное значение стандартного отклонения высоким или низким, состоит в том, чтобы найти коэффициент вариации , который рассчитывается как:

CV = с / х

куда:

s: Стандартное отклонение выборки
x : Среднее значение выборки

Проще говоря, коэффициент вариации — это отношение между стандартным отклонением и средним значением.

Чем выше коэффициент вариации, тем выше стандартное отклонение выборки относительно среднего значения.

Пример: расчет стандартного отклонения и коэффициента вариации

Предположим, у нас есть следующий набор данных:

Набор данных: 1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32

Используя калькулятор, мы можем найти следующие показатели для этого набора данных:

Среднее значение выборки ( x ): 19,29
Стандартное отклонение выборки (с): 9,25

Затем мы можем использовать эти значения для расчета коэффициента вариации:

CV = с / х
КВ = 9,25/19,29
КВ = 0,48

Для этого набора данных полезно знать как стандартное отклонение, так и коэффициент вариации.

Стандартное отклонение говорит нам о том, что типичное значение в этом наборе данных отличается от среднего на 9,25 единицы. Затем коэффициент вариации говорит нам, что стандартное отклонение составляет примерно половину среднего значения выборки.

Стандартное отклонение против коэффициента вариации: когда использовать каждый

Стандартное отклонение чаще всего используется, когда мы хотим узнать разброс значений в одном наборе данных.

Однако коэффициент вариации чаще используется, когда мы хотим сравнить вариацию между двумя наборами данных.

Например, в финансах коэффициент вариации используется для сравнения среднего ожидаемого дохода от инвестиций с ожидаемым стандартным отклонением инвестиций.

Например, предположим, что инвестор рассматривает возможность инвестирования в следующие два взаимных фонда:

Взаимный фонд A: среднее = 9%, стандартное отклонение = 12,4%

Взаимный фонд B: среднее = 5%, стандартное отклонение = 8,2%

Инвестор может рассчитать коэффициент вариации для каждого фонда:

CV для взаимного фонда A = 12,4% / 9% = 1,38
CV для взаимного фонда B = 8,2% / 5% = 1,64

Поскольку взаимный фонд А имеет более низкий коэффициент вариации, он предлагает лучшую среднюю доходность по сравнению со стандартным отклонением.

Резюме

Вот краткое изложение основных моментов в этой статье:

И стандартное отклонение, и коэффициент вариации измеряют разброс значений в наборе данных.
Стандартное отклонение измеряет, насколько далеко среднее значение от среднего.
Коэффициент вариации измеряет отношение стандартного отклонения к среднему значению.
Стандартное отклонение используется чаще, когда мы хотим измерить разброс значений в одном наборе данных.
Коэффициент вариации чаще используется, когда мы хотим сравнить вариацию между двумя разными наборами данных.

Дополнительные ресурсы

Как рассчитать среднее и стандартное отклонение в Excel
Как рассчитать коэффициент вариации в Excel

Коэффициент вариации – популярно (статистика)

– это отношение стандартного отклонения к средней, выраженное в процентах:

И вот теперь совершенно без разницы, в д. е. мы считали:

или в тысячах д. е.:

Примечание: на практике часто считают именно через , но для оценки коэффициента вариации всей генеральной совокупности, конечно же, корректнее использовать исправленное стандартное отклонение .

В статистике существует следующий эмпирический ориентир:

– если коэффициент вариации составляет примерно 30% и меньше, то статистическая совокупность считается однородной. Это означает, что большинство вариант находится недалеко от средней, и найденное значение хорошо характеризует центральную тенденцию совокупности.

– если коэффициент существенно больше 30%, то совокупность неоднородна, то есть, значительное количество вариант находятся далеко от , и средняя плохо характеризует типичную варианту. В таких случаях целесообразно рассмотреть квартили, децили, а иногда и перцентили, которые делят вариационный ряд на части, и для каждого участка рассчитать свои показатели.

Но это уже немного дебри статистики.

Другое преимущество относительных показателей – это возможность сравнивать разнородные статистические совокупности. Например, множество слонов и множество хомяков. Совершенно понятно, что дисперсия веса слонов по сравнению с дисперсией веса хомяков – будет просто конской, и их сопоставление не имеет смысла. Но вот анализ коэффициентов вариации

веса вполне осмыслен, и может статься, что у слонов он составляет 10%, а у хомячков 40% (пример, конечно, условный). Это говорит о сбалансированном питании и размеренной жизни слонов 🙂 А вот хомяки, то носятся с голодухи по полям, то отъедаются и спят в норах, и поэтому среди них есть много худощавых и много упитанных особей 🙂

Помимо коэффициента вариации, существуют и другие относительные показатели, но в реальных студенческих работах они почти не встречаются, и поэтому я не буду их рассматривать в рамках данного курса. Лучше порешаем задачки, первая – на отработку терминов и формул, вторая – творческая:

Пример 17

а) Стандартное отклонение выборочной совокупности равно 5, а средний квадрат её вариант – 250. Найти выборочную среднюю.

б) Определите среднее квадратическое отклонение, если известно, что средняя равна 260, а коэффициент вариации составляет 30%.

Пример 18

Производство стальных труб на предприятии (тонн) в 1-м полугодии составило:

Определить:
– среднемесячный объем производства;
– среднее квадратическое отклонение;
– коэффициент вариации.

Сделать краткие содержательные выводы. – Да, это тоже типичный пункт статистической задачи! Даже не пункт – это цель статистического исследования.

Обратите внимание, что здесь не понятно, выборочной ли считать эту совокупность или генеральной. В таких случаях лучше не заниматься домыслами, просто используем обозначения без подстрочных индексов. Все числа

уже в Экселе – не ленимся, решаем!

3.3. Статистические показатели (итоги по главе)

3.2.6. Среднее квадратическое отклонение

| Оглавление |

Что такое коэффициент вариации?

FAQ: Что такое коэффициент вариации?

Ситуации и определения

Коэффициент вариации (CV) можно рассчитать и интерпретировать двумя способами: разные настройки: анализ одной переменной и интерпретация модели. Стандартная формулировка CV, отношение стандартного отклонения к означает, применяется в настройке с одной переменной. В настройках моделирования резюме рассчитывается как отношение среднеквадратичной ошибки (RMSE) к среднему значению зависимая переменная. В обоих случаях резюме часто представляется как заданное отношение, умноженное на 100. CV для одной переменной направлен на описание дисперсии переменной таким образом, который не зависит от единицы измерения переменной.

Чем выше CV, тем больше дисперсия переменной. Резюме для модели направлено на описание соответствия модели с точки зрения относительных размеров квадратов остатков и значений результатов. чем ниже CV, тем меньше остатки по отношению к прогнозируемому значению. Это свидетельствует о хорошей подгонке модели.

CV для переменной можно легко рассчитать, используя информацию из типичная сводка переменных (иногда резюме будет возвращено по умолчанию в сводку переменных). Ниже мы покажем, как рассчитать CV в Стата.

  используйте https://stats.idre.ucla.edu/stat/stata/notes/hsb1, очистить
суммировать математику 

    Переменная | Набл. Среднее ст. Дев. Мин Макс
----------------------------+------------------------------------ --------------------
        математика | 200 52,645 9.368448 33 75

  di 100 * r(sd) / r(среднее) 

17.795513

CV для модели можно рассчитать аналогичным образом, если она не включена в модель выход.

  математическая регрессия 

      Источник | SS df MS Количество наблюдений = 200
----------------------------+------------------------------ F( 1, 198) = 83,43
       Модель | 5177,88866 1 5177,88866 Prob > F = 0,0000
    Остаток | 12287,9063 198 62,060133 R-квадрат = 0,2965
----------------------------+------------------------------ Adj R-квадрат = 0,2929
       Итого | 17465,795 199 87,7678141 СКО корня = 7,8778

-------------------------------------------------- ----------------------------
        математика | Коэф. стандарт Ошиб. т П>|т| [95% конф. интервал]
----------------------------+------------------------------------ ----------------------------
       соцст | .4751335 .052017 9.13 0.000 .372555 .577712
       _против | 27,74563 2,782287 9,97 0,000 22,25891 33,23235
-------------------------------------------------- ----------------------------
   
спокойно суммировать математику
di 100 * e(rmse) / r(среднее)
 
14.964052

Преимущества

Преимущество CV в том, что оно безразмерно. Это позволяет резюме быть по сравнению друг с другом способами, которые измеряются другими способами, такими как стандартные отклонения или среднеквадратичных остатков, быть не может.

В настройке переменной CV: Стандартные отклонения двух переменные, в то время как обе измеряют дисперсию в своих соответствующих переменных, не могут сравнивать друг с другом осмысленным образом, чтобы определить, какая переменная большая дисперсия, потому что они могут сильно различаться по своим единицам и средствам о котором они происходят. Стандартное отклонение и среднее значение переменные выражаются в одних и тех же единицах, поэтому, взяв соотношение этих двух позволяет единицам отменить. Затем это соотношение можно сравнить с другими подобными отношения осмысленным образом: между двумя переменными (которые соответствуют предположениям изложено ниже), переменная с меньшим CV менее рассредоточена, чем переменная с большим CV.

В настройке CV модели: Аналогично, RMSE двух моделей измеряет величину остатков, но они не могут сравнивать друг с другом осмысленным образом, чтобы определить, какая модель обеспечивает лучшее предсказание исхода. Модель RMSE и среднее значение прогнозируемого переменные выражаются в одних и тех же единицах, поэтому, взяв соотношение этих двух позволяет единицам отменить. Затем это соотношение можно сравнить с другими подобными отношения осмысленным образом: между двумя моделями (где переменная результата встречается предположения, изложенные ниже), модель с меньшим CV предсказала значения, наиболее близкие к реальным значениям. Интересно отметить, различия между значениями CV и R-квадрата модели. Оба безразмерны меры, которые указывают на соответствие модели, но они определяют соответствие модели в двух разными способами: CV оценивает относительную близость прогнозов к фактические значения, в то время как R-квадрат оценивает, насколько велика изменчивость в фактические значения объясняются моделью.

Требования и недостатки

Есть некоторые требования, которые должны быть соблюдены, чтобы резюме было интерпретируется способами, которые мы описали. Возникает самая очевидная проблема когда среднее значение переменной равно нулю. В этом случае резюме не может быть вычислено. Даже если среднее значение переменной не равно нулю, но переменная содержит как положительные, так и отрицательные значения, а среднее значение близко к нулю, то резюме может ввести в заблуждение. CV переменной или CV прогноза модель для переменной может рассматриваться как разумная мера, если переменная содержит только положительные значения. Это явный недостаток резюме.

Нажмите здесь, чтобы сообщить об ошибке на этой странице или оставить комментарий

Ваше имя (обязательно)

Ваш адрес электронной почты (должен быть действительным, чтобы мы могли получить отчет!)

Комментарий/отчет об ошибке (обязательно)

Как цитировать эту страницу

Коэффициент вариации: использование и неправильное использование

Курсы по статистике, особенно для биологов, предполагают, что формулы = понимание и обучение тому, как делать статистику, но в значительной степени игнорируют то, что предполагают эти процедуры, и то, как их результаты вводят в заблуждение, когда эти предположения необоснованны.

В результате неправильное использование, скажем так, предсказуемо…

Использование и неправильное использование

Коэффициент вариации наблюдений используется для описания уровня изменчивости в популяции независимо от абсолютных значений наблюдений. Если абсолютные значения одинаковы, популяции можно сравнивать, используя их стандартные отклонения. Но если они заметно различаются (например, вес мышей и слонов) или относятся к разным переменным (например, вес и рост), то нужно использовать стандартизированную меру — например, коэффициент вариации. Коэффициент вариации (CV) для выборки представляет собой стандартное отклонение наблюдений, деленное на среднее значение. Чаще всего коэффициент вариации используется для оценки точности метода. Он также используется как мера изменчивости, когда стандартное отклонение пропорционально среднему, и как средство для сравнения изменчивости измерений, выполненных в разных единицах измерения.

Ветеринарные микробиологи, по-видимому, особенно заинтересованы в использовании коэффициента вариации наблюдений в качестве меры повторяемости. Распространенное неправильное использование заключается в том, что оценивается только повторяемость, хотя на самом деле также требуется оценка достоверности. Нет смысла постоянно получать один и тот же неверный ответ. Это правда, что валидность обычно гораздо труднее оценить, чем воспроизводимость, но это не означает, что следует учитывать только последнюю. Еще одно неправильное использование — указывать значения CV, а затем игнорировать их. Это отражает склонность оценивать результат только с точки зрения среднего (или медианы), а не учитывать влияние на уровни вариабельности.

Даже там, где они комментируются, некоторые работники не следуют принятым соглашениям о том, что такое «хороший» уровень повторяемости. Для оценки внутрисубъектного коэффициента вариации часто используются неподходящие или неуказанные методы. Другая проблема заключается в том, что часто дается очень мало информации о том, как оценивается коэффициент вариации, поэтому невозможно оценить его достоверность. Наконец, мы обнаружили, что некоторые ветеринарные исследователи оценивали только коэффициенты вариации внутри и между анализами после исключения «выбросов», по-видимому, только для того, чтобы снизить коэффициент вариации до приемлемого уровня. Кажется, это лишает смысла весь смысл оценки изменчивости!

Другие виды использования (и неправильного использования) коэффициента вариации многочисленны и разнообразны, и мы встречаем некоторые из них в примерах с экологией и дикой природой. Коэффициент вариации используется недостаточно (скорее, чем чрезмерно) как мера временной или пространственной изменчивости. Некоторые исследователи до сих пор используют стандартные отклонения для переменных, где стандартное отклонение прямо пропорционально среднему значению — вместо этого такие переменные должны быть логарифмически преобразованы или, альтернативно, коэффициент вариации, используемый для описания изменчивости. Мы включили несколько примеров его правильного использования для этих целей. Мы также включили пару примеров коэффициента вариации среднего (стандартная ошибка/среднее) в разделе о дикой природе.

Что говорят статистики

Sokal & Rohlf (1995) и Zar (1999) дают базовые расчеты коэффициента вариации. Diamandis и Christopoulos (1996) подробно описывают, как коэффициент вариации используется для оценки точности иммуноанализа, Snedecor и Cochran (1989) рассматривают его использование для оценки изменчивости в сельскохозяйственных экспериментах, а Simpson et al. (1960) исследуют его использование для морфологических измерений. Кребс (1999) обсуждает использование коэффициента вариации для измерения временной изменчивости. Он подчеркивает, что это подходит только тогда, когда наклон степенного закона Тейлора равен 2 (т.е. стандартное отклонение пропорционально среднему).

Блэнд и Альтман (1996) объясняют логарифмический метод расчета внутрисубъектного коэффициента вариации. Шукри и др. (2006) исследуют достоверность его нормального доверительного интервала аппроксимации, а Liu et al. (2006) дает точные доверительные границы для статистики. Маклафлин и др. (1998) оценивают значение коэффициента вариации при оценке воспроизводимости измерений ЭКГ. Макардл и др. (1990) и Gaston & McArdle (1994) объясняют, почему коэффициент вариации является наилучшей мерой изменчивости размера популяции во времени, если в данных есть нули. Eberhardt (1978) обсуждает использование коэффициента вариации для оценки изменчивости в популяционных исследованиях, в то время как Patel et al. (2001) дает более свежую оценку его использования для оценки изменчивости в сельскохозяйственных экспериментах. Бедейан (2000) и Соренсен (2002) рассматривают использование и неправильное использование коэффициента вариации для сравнения разнообразия в социальных науках.

В Википедии есть раздел о коэффициенте вариации. Мартин Бланд приводит отличное обсуждение различных способов расчета внутрисубъектного коэффициента вариации. Национальный центр статистики здравоохранения дает краткий отчет об относительной стандартной ошибке (= коэффициент вариации среднего).

Записи

Коэфициент вариации: Коэффициент вариации (Variation coefficient) · Loginom Wiki