Правила построения дискретных и интервальных рядов распределения. Статистическая сводка и группировка. Статистический ряд распределения. Примеры решения задач

В результате обработки и систематизации первичных данных статистического наблюдения получают группировки, называемые рядами распределения.

Статистические ряды распределения представляют собой упорядоченное расположение единиц изучаемой совокупности на группы по группировочному признаку.

Различают атрибутивные и вариационные ряды распределения.

Атрибутивный – это ряд распределения, построенный по качественным признакам. Он характеризует состав совокупности по различным существенным признакам.

По количественному признаку строится вариационный ряд распределения. Он состоит из частоты (численности) отдельных вариантов или каждой группы вариационного ряда. Данные числа показывают, насколько часто встречаются различные варианты (значения признака) в ряду распределения. Сумма всех частот определяет численность всей совокупности.

Численности групп выражаются в абсолютных и относительных величинах. В абсолютных величинах выражается числом единиц совокупности в каждой выделенной группе, а в относительных величинах – в виде долей, удельных весов, представленных в процентах к итогу.

В зависимости от характера вариации признака различают дискретные и интервальные вариационные ряды распределения. В дискретном вариационном ряде распределения группы составлены по признаку, изменяющемуся дискретно и принимающему только целые значения.

В интервальном вариационном ряде распределения группиро–вочный признак, составляющий основание группировки, может принимать в определенном интервале любые значения.

Вариационные ряды состоят из двух элементов: частоты и варианты.

Вариантой называют отдельное значение варьируемого признака, которое он принимает в ряду распределения.

Частота – это численность отдельных вариант или каждой группы вариационного ряда. Если частоты выражены в долях единицы или в процентах к итогу, то их называют частостями.

Правила и принципы построения интервальных рядов распределения строятся по аналогичным правилам и принципам построения статистических группировок. Если интервальный вариационный ряд распределения построен с равными интервалами, частоты позволяют судить о степени заполнения интервала единицами совокупности. Для проведения сравнительного анализа заполненности интервалов определяют показатель, который будет характеризовать плотность распределения.

Плотность распределения – это отношение числа единиц совокупности к ширине интервала.

2. Графическое изображение рядов распределения

Анализ рядов распределения можно проводить на основе их графического изображения. Линейчатые и круговые диаграммы строятся для отображения структуры совокупности.

Применяются вместе с диаграммами и такие линии, как полигон, кумулята, огива, гистограмма. При изображении дискретных вариационных рядов используется полигон.

Полигон – ломаная кривая, строится на основе прямоугольной системы координат, когда по оси Х откладываются значения признака, а по оси У – частоты.

Гладкая кривая, соединяющая точки – это эмпирическая плотность распределения.

Кумулята – ломаная кривая, строящаяся на основе прямоугольной системы координат, когда по оси Х откладываются значения признака, а по оси У – накопленные частоты.

Для дискретных рядов на оси откладываются сами значения признака, а для интервальных – середины интервалов.

На основе гистограмм можно строить диаграммы накопленных частот с последующим построением интегральной эмпирической функции распределения.

3. Статистические таблицы

В виде статистических таблиц оформляются результаты сводки и группировки материалов наблюдения.

Статистическая таблица – это особый способ краткой и наглядной записи сведений об изучаемых общественных явлениях. Статистическая таблица позволяет охватить материалы статистической сводки в целом, она также является системой мыслей об исследуемом объекте, излагаемых цифрами на основе определенного порядка в расположении систематизированной информации.

По внешнему виду статистическая таблица представляет собой ряд пересекающихся горизонтальных и вертикальных линий, образующих по горизонтали строки, а по вертикали – графы (столбцы, колонки), которые в совокупности составляют как бы скелет таблицы.

В образовавшиеся внутри таблицы клетки записывается информация. Составленную таблицу принято называть макетом таблицы, в котором мысленно определяются в деталях цель обследования, объем разработки материалов сводки.

Статистическая таблица имеет свое подлежащее и сказуемое. Подлежащее таблицы показывает, о каком явлении идет речь в таблице, и представляет собой группы и подгруппы, которые характеризуются рядом показателей. Сказуемым таблицы называются числовые показатели, с помощью которых характеризуется объект, т. е. подлежащее таблицы.

Показатели, образующие подлежащее, располагают в левой части таблицы, а показатели, составляющие сказуемое, помещают справа.

Составленная и оформленная статистическая таблица должна иметь общий, боковые и верхние заголовки. Общий заголовок обычно располагается над таблицей и выражает ее основное содержание. Помещенные слева боковые заголовки раскрывают содержание строк подлежащего, а верхние – вертикальных граф (сказуемого таблицы),

В коммерческой деятельности разрабатываются и составляются различные статистические таблицы, которые в зависимости от построения подлежащего делятся на три вида: перечневые, групповые и комбинационные.

Простые таблицы не содержат в подлежащем систематизации изучаемых единиц статистической совокупности.

По характеру представляемого материала эти таблицы бывают собственно перечневые, территориальные и хронологические.

Простая таблица в подлежащем содержит перечисление единиц изучаемой совокупности.

Сведения простой таблицы применяют и для оценки изменения какого–либо явления во времени. Хронологическую таблицу можно составлять за любые по величине отрезки времени или на моменты, отстоящие друг от друга по времени на различную длину Таблицы, в подлежащем которых приводится перечень территорий (районов, областей и т. п.), называются перечневыми территориальными.

Групповые статистические таблицы дают более информативный материал для анализа изучаемых явлений благодаря образованным в их подлежащем группам по существенному признаку или выявлению связи между рядом показателей.

Комбинационными называют статистические таблицы, которые имеют в подлежащем группировку по двум или более группи–ровочным признакам, связанным между собой.

С помощью групповых и комбинационных таблиц можно изучать состав явлений, а также связь и зависимость числовых показателей сказуемого от группировочных признаков подлежащего.

Комбинационная таблица устанавливает взаимное действие на результативные признаки (показатели) и существующую связь между факторами группировки.

Одними из ответственных моментов построения статистических таблиц являются разработка сказуемого, определение его содержания, правильное установление связи между группировоч–ными признаками и показателями, их характеризующими.

Сказуемое, находясь во взаимосвязи с подлежащим таблицы должно быть построено так, чтобы с помощью системы его показателей можно было получить полную характеристику выделенных групп, охватить их существенные черты.

Сказуемое статистических таблиц бывает простым и сложным. При простой разработке показатели сказуемого располагаются последовательно один за другим. Распределяя показатели на группы по одному или нескольким признакам в определенном сочетании, получают сложное сказуемое.

4. Основные правила составления таблиц

Таблица должна быть составлена компактно, т. е. быть небольшой по размеру и легко обозримой.

Общий заголовок таблицы должен кратко выражать ее основное содержание. В нем стараются указать время, территорию, к которым относятся данные, единицы измерения, если они выступают едиными для всей совокупности.

Строки подлежащего и графы сказуемого располагают в виде частных слагаемых с последующим подытоживанием по каждому из них.

Для удобства анализа таблицы при большом числе строк подлежащего и граф сказуемого возникает потребность в нумерации тех из них, которые заполняются данными.

При заполнении таблиц нужно использовать следующие условные обозначения: при отсутствии явления пишется (-) прочерк, если нет информации о явлении, ставится многоточие (…) или пишется: «нет сведений».

Одинаковая степень точности, обязательная для всех чисел, обеспечивается соблюдением правил их округления (от 0,1 до 0,01 и т. д.). Когда одна величина превосходит другую многократно, полученные показатели динамики лучше выражать не в процентах (%), а в разах.

Если в таблице с отчетными данными приводятся сведения расчетного порядка, то нужно сделать соответствующую оговорку.

Графы и строки должны содержать единицы измерения, соответствующие поставленным в подлежащем и сказуемом показателям. При этом используются общепринятые сокращения единиц измерения, например: чел., руб. и т. д. Если графы имеют единую единицу измерения, то она выносится в заголовок таблицы.

Для удобной работы с цифровым материалом числа в таблицах следует расставлять в середине граф, одно под другим: единицы под единицами, запятая под запятой и т. д., четко соблюдая при этом их разрядность.

В таблицу можно включать примечания, в которых будут указываться источники данных, более подробное содержание показателей и другие необходимые пояснения.

В наше время необходимо научиться составлять и пользоваться статистическими таблицами.

Для того чтобы проанализировать данные, которые содержит таблица, необходимо прежде ознакомиться с названием таблицы заголовками ее граф и строк, установить, на какую дату и к какой территории относятся зафиксированные в таблице статистические данные, обратить внимание на единицы измерения и установить, какие процессы характеризуются средними и относительными величинами.

Анализ статистической таблицы логичнее начинать с общего итога, который позволяет получить общую характеристику совокупности, затем переходить к изучению данных отдельных строк и граф, т. е. к оценке частей изучаемого объекта, исследуя при этом вначале наиболее важные, а потом уже и все остальные элементы таблицы.

Введение

С незапамятных времен человечество осуществляло учет многих сопутствующих его жизнедеятельности явлений и предметов и связанные с ним вычисления. Люди получали разносторонние, хотя и различающиеся полнотой на различных этапах общественного развития. Данные, учитывавшиеся повседневно в процессе принятия хозяйственных решений, а в обобщенном виде и на государственном уровне при определении русла экономической и социальной политики и характера внешнеполитической деятельности.

Руководствуясь соображениями зависимости благосостояния нации от величины создаваемого полезного продукта, интересов стратегической безопасности государств и народов от численности взрослого мужского населения, доходов казны от размера налогооблагаемых ресурсов и т. д., издавна отчетливо осознавалась и реализовывалась в форме различных учетных акций.

С учетом достижений экономической науки стал возможен расчет показателей, обобщенно характеризующих результаты воспроизводственного процесса на уровне общества: совокупного общественного продукта, национального дохода, валового национального продукта.

Всю перечисленную информацию в постоянно возрастающих объемах предоставляет обществу статистика, являющаяся необходимо принадлежностью государственного аппарата. Статистические данные, таким образом, способны сказать языком статистических показателей о многом в весьма яркой и убедительной форме.

Для статистического анализа данных в своей работе я использовала программу Excel (расчет формул и построение графиков).

Статистические ряды распределения, их значение и применение в статистике

В результате обработки и систематизации первичных данных статистического наблюдения получают группировки, называемые рядами распределения. В них известна численность единиц наблюдения в группах. Представленная в абсолютном и относительном выражении.

Статистический ряд распределения представляет собой упорядоченное распределение единиц изучаемой совокупности на группы по определенному варьирующему признаку. Он характеризует состав (структуру) изучаемого явления, позволяет судить об однородности совокупности, закономерности распределения и границах варьирования единиц совокупности.

Статистические ряды подразделяются на:

Атрибутивные - это ряды, построенные по атрибутивным признакам, в порядке возрастания или убывания наблюдаемых знаний.

То есть качественным признакам, не имеющим числового выражения и характеризующим свойство, качество изучаемого социально-экономического явления.

Атрибутивные ряды распределения характеризуют состав совокупности по тем или иным существенным признакам.

Взятые за несколько периодов, эти данные позволяют исследовать изменение структуры.

Число групп атрибутивного ряда распределения адекватно числу градаций. Разновидностей атрибутивного признака.

Пример атрибутивного ряда распределения приведен в таблице 1.

Таблица 1. Распределение студентов 1-го курса по успеваемости

Элементами данного ряда распределения являются градации атрибутивного признака «Успеваемость» («успевают» - «не успевают») и численность каждой группы в абсолютном (человек) и относительном (%) выражении.

Студентов, сдавших экзамен по дисциплине, было 46 человек. Их удельный вес составил 92%.

Вариационные - это ряды, построенные по количественному признаку.

Вариационные ряды распределения состоят из двух элементов: вариантов и частот:

Варианты - это числовые значения количественного признака в вариационном ряду распределения. Они могут быть положительными и отрицательными, абсолютными и относительными. Так, при группировке предприятий по результатам хозяйственной деятельности варианты положительные - это прибыль, а отрицательные числа - это убыток.

Частоты - это численности отдельных вариантов или каждой группы вариационного ряда, т.е. это числа, показывающие, как часто встречаются те или иные варианты в ряду распределения. Сумма всех частот называется объемом совокупности и определяется числом элементов всей совокупности.

Частости - это частоты, выраженные в виде относительных величин (долях единиц или процентах). Сумма частостей равна единице или 100%. Замена частот частостями позволяет сопоставлять вариационные ряды с разным числом наблюдений.

Вариационные ряды в зависимости от характера вариации подразделяются на дискретные и интервальные.

Дискретный вариационный ряд распределения - это ряд, в котором группы составлены по признаку, изменяющемуся дискретно и принимающему только целые значения.

Пример дискретного вариационного ряда распределения приведен в таблице 2.

Таблица 2. Распределение студентов по экзаменационному баллу

В гр. 1 таблицы 2 представлены варианты дискретного вариационного ряда. В гр. 2 - частоты, а в гр. 3 - частости. В случае непрерывной вариации величина признака у единиц совокупности может принимать в определенным пределах любые значения. Отличающиеся друг от друга на сколь угодно малую величину.

Интервальный вариационный ряд распределения - это ряд, в котором группировочный признак, составляющий основание группировки, может принимать в определенном интервале любые значения, в том числе и дробные.

Интервальный ряд распределения целесообразно строить, прежде всего, при непрерывной вариации признака, а также, если дискретная вариация проявляется в широких пределах, т.е. число вариантов дискретного признака достаточно велико.

Правила и принципы построения интервальных рядов распределения аналогичны правилам и принципам построения статистических группировок. В случае, если интервальный вариационный ряд распределения построен с равными интервалами, частоты позволяют судить о степени заполнения интервала единицами совокупности. При построении неравных интервалов нельзя получить информацию о степени заполнения каждого интервала. С целью проведения сравнительного анализа заполненности интервалов определяется показатель, характеризующий плотность распределения. Это отношение числа единиц совокупности к ширине интервала.

Пример интервального вариационного рада распределения приведен в таблице 3.

Таблица 3. Распределение строительных фирм региона по среднесписочной численности работающих*

* - Цифры условные

Представленный ряд распределения является интервальным, в основании образования групп которого лежит непрерывный признак.

Анализ рядов распределения можно для наглядности проводить на основе их графического изображения. Для этой цели строят полигон, гистограмму, огиву и кумуляту распределения.

Расчетная часть задания № 5

Имеются выборочные данные (выборка 5%-я механическая) о среднегодовой стоимости основных производственных фондов и выпуске продукции предприятий отрасли экономики за отчетный период.

Таблица 4. Исходные данные

Выпуск продукции, млн. руб.

По исходным данным:

1. Постройте статистический ряд распределения предприятий по среднегодовой стоимости основных производственных фондов, образовав четыре группы предприятий с равными интервалами, охарактеризовав их числом предприятий и удельным весом предприятий.

2. Рассчитайте обобщающие показатели ряда распределения:

а) среднегодовую стоимость основных производственных фондов, взвешивая значения признака по абсолютной численности предприятий и их удельному весу;

б) моду и медиану;

в) постройте графики ряда распределения и определите на них значение моды и медианы.

Решение:

1. Сначала определяем длину интервала по формуле:

е=(х max - x min)/k,

где k - число групп в группировке (из условия k=4),

х max и x min - максимальное и минимальное значения ряда распределения,

е=(60 - 20)/4=10 млн. руб.

Затем определим нижнюю и верхнюю интервальные границы для каждой группы:

Номер группы

нижняя граница

верхняя граница

Составим рабочую таблицу 5, куда сведем исходные данные:

Таблица 5. Рабочая таблица

Группы пред-ий по среднегодовой стоимости ОПФ,

№ предпри-ятия

Среднегодовая стоимость ОПФ, млн. руб.

Выпуск продукции,

Рассчитаем характеристику ряда распределения по удельному весу предприятий по формуле:

где d - удельный вес предприятия;

f i - кол-во предприятий в группе;

F i - общее кол-во предприятий.

Подставляем данные в формулы. Полученные результаты заносим в итоговую таблицу 6.

Все формулы и расчеты таблицы 6 введены в программе Excel и даны в Приложении 1.

Таблица 6. Распределения предприятий по среднегодовой стоимости основных производственных фондов

Данная группировка показывает, что у наибольшей части данных предприятий (33,3%) среднегодовая стоимость основных производственных фондов составляет от 40 до 50 млн. руб.

2. а) Рассчитаем среднегодовую стоимость основных производственных фондов по формуле средней арифметической взвешенной, взвешивая значения по абсолютной численности предприятий:

и по удельному весу:

Для расчета средней из интервального ряда необходимо выразить варианты одним (дискретным) числом, это средняя арифметическая простая из верхнего и нижнего значений интервала:

Подставляем данные в формулы. Полученные результаты занесем в таблицу 7.

Все формулы и расчеты таблицы 7 введены в программе Excel и даны в Приложении 1.

Таблица 7. Расчет среднегодовой стоимости ОПФ

Показатели средних равны, что доказывает правильность расчетов. Среднегодовая стоимость ОПФ равна 41,333 млн. руб.

б) Рассчитаем моду и медиану данного ряда.

Мода - это значение признака, наиболее часто встречающееся в изучаемой совокупности. Для интервальных вариационных рядов распределения мода рассчитывается по формуле:

где x Mo - нижняя граница модального интервала;

i Mo - величина модального интервала;

f Mo - частота модального интервала;

f Mo-1 - частота интервала, предшествующего модальному;

f Mo+1 - частота интервала, следующего за модальным.

Первоначально по наибольшей частоте признака определим модальный интервал. Наибольшее число предприятий - 10 - среднегодовая стоимость основных производственных фондов в интервале 40 - 50 млн. руб., который и является модальным.

Подставляем данные в формулу.

Из расчета видно, что модальным значением стоимости ОПФ предприятий является стоимость равная 44 млн. руб.

Медиана - это вариант, расположенный в середине упорядоченного вариационного ряда, делящий его на две равные части. Для интервальных вариационных рядов медиана рассчитывается по формуле:

где x Mе - нижняя граница медианного интервала;

i Mе - величина медианного интервала;

F - сумма частот ряда;

S Mе-1 - сумма накопленных частот ряда, предшествующих медианному интервалу;

f Mе - частота медианного интервала.

Определяем медианный интервал, в котором находится порядковый номер медианы. Для этого подсчитаем сумму частот накопленным итогом до числа, превышающего половину объема совокупности (30/2 = 15). Полученные данные заносим в расчетную таблицу 8.

Таблица 8. Расчет медианны

В графе «Сумма накопленных частот» значение 23 соответствует интервалу 40 - 50. Это и есть медианный интервал, в котором находится медиана.

Подставляем данные в формулу.

Из расчета видно, что у половины предприятий среднегодовая стоимость основных производственных фондов до 42 млн. руб., а у другой половина - выше этой суммы.

в) Построим графики данного ряда распределения по полученным данным:

Рис. 1.

Медиана

Рис. 2. Кумулята распределения предприятий по среднегодовой стоимости ОПФ

Представляются в виде рядов распределения и оформляются в виде .

Ряд распределния является одним из видов группировок.

Ряд распределения — представляет собой упорядоченное распределение единиц изучаемой совокупности на группы по определенному варьирующему признаку.

В зависимости от признака, положенного в основу образования ряда распределения различают атрибутивные и вариационные ряды распределения:

  • Атрибутивными — называют ряды распределения, построенные по качественными признакам.
  • Ряды распределения, построенные в порядке возрастания или убывания значений количественного признака называются вариационными .
Вариационный ряд распределения состоит из двух столбцов:

В первом столбце приводятся количественные значения варьирующегося признака, которые называются вариантами и обозначаются . Дискретная варианта — выражается целым числом. Интервальная варианта находится в пределах от и до. В зависимости от типа варианты можно построить дискретный или интервальный вариационный ряд.
Во втором столбце содержится количество конкретных вариант , выраженное через частоты или частости:

Частоты — это абсолютные числа, показывающие столько раз в совокупности встречается данное значение признака, которые обозначают . Сумма всех частот равна должна быть равна численности единиц всей совокупности.

Частости () — это частоты выраженные в процентах к итогу. Сумма всех частостей выраженных в процентах должна быть равна 100% в долях единице.

Графическое изображение рядов распределения

Наглядно ряды распределения представляются при помощи графических изображений.

Ряды распределения изображаются в виде:
  • Полигона
  • Гистограммы
  • Кумуляты
  • Огивы

Полигон

При построении полигона на горизонтальной оси (ось абсцисс) откладывают значения варьирующего признака, а на вертикальной оси (ось ординат) — частоты или частости.

Полигон на рис. 6.1 построен по данным микропереписи населения России в 1994 г.

6.1. Распределение домохозяйств по размеру

Условие : Приводятся данные о распределении 25 работников одного из предприятий по тарифным разрядам:
4; 2; 4; 6; 5; 6; 4; 1; 3; 1; 2; 5; 2; 6; 3; 1; 2; 3; 4; 5; 4; 6; 2; 3; 4
Задача : Построить дискретный вариационный ряд и изобразить его графически в виде полигона распределения.
Решение :
В данном примере вариантами является тарифный разряд работника. Для определения частот необходимо рассчитать число работников, имеющих соответствующий тарифный разряд.

Полигон используется для дискретных вариационных рядов.

Для построения полигона распределения (рис 1) по оси абсцисс (X) откладываем количественные значения варьирующего признака — варианты, а по оси ординат — частоты или частости.

Если значения признака выражены в виде интервалов, то такой ряд называется интервальным.
Интервальные ряды распределения изображают графически в виде гистограммы, кумуляты или огивы.

Статистическая таблица

Условие : Приведены данные о размерах вкладов 20 физических лиц в одном банке (тыс.руб) 60; 25; 12; 10; 68; 35; 2; 17; 51; 9; 3; 130; 24; 85; 100; 152; 6; 18; 7; 42.
Задача : Построить интервальный вариационный ряд с равными интервалами.
Решение :

  1. Исходная совокупность состоит из 20 единиц (N = 20).
  2. По формуле Стерджесса определим необходимое количество используемых групп: n=1+3,322*lg20=5
  3. Вычислим величину равного интервала: i=(152 — 2) /5 = 30 тыс.руб
  4. Расчленим исходную совокупность на 5 групп с величиной интервала в 30 тыс.руб.
  5. Результаты группировки представим в таблице:

При такой записи непрерывного признака, когда одна и та же величина встречается дважды (как верхняя граница одного интервала и нижняя граница другого интервала), то эта величина относится к той группе, где эта величина выступает в роли верхней границы.

Гистограмма

Для построения гистограммы по оси абсцисс указывают значения границ интервалов и на их основании строят прямоугольники, высота которых пропорциональна частотам (или частостям).

На рис. 6.2. изображена гистограмма распределения населения России в 1997 г. по возрастным группам.

Рис. 6.2. Распределение населения России по возрастным группам

Условие : Приводится распределение 30 работников фирмы по размеру месячной заработной платы

Задача : Изобразить интервальный вариационный ряд графически в виде гистограммы и кумуляты.
Решение :

  1. Неизвестная граница открытого (первого) интервала определяется по величине второго интервала: 7000 — 5000 = 2000 руб. С той же величиной находим нижнюю границу первого интервала: 5000 — 2000 = 3000 руб.
  2. Для построения гистограммы в прямоугольной системе координат по оси абсцисс откладываем отрезки, величины которых соответствуют интервалам варицонного ряда.
    Эти отрезки служат нижним основанием, а соответствующая частота (частость) — высотой образуемых прямоугольников.
  3. Построим гистограмму:

Для построения кумуляты необходимо рассчитать накопленные частоты (частости). Они определяются путем последовательного суммирования частот (частостей) предшествующих интервалов и обозначаются S. Накопленные частоты показывают, сколько единиц совокупности имеют значение признака не больше, чем рассматриваемое.

Кумулята

Распределение признака в вариационном ряду по накопленным частотам (частостям) изображается с помощью кумуляты.

Кумулята или кумулятивная кривая в отличие от полигона строится по накопленным частотам или частостям. При этом на оси абсцисс помещают значения признака, а на оси ординат — накопленные частоты или частости (рис. 6.3).

Рис. 6.3. Кумулята распределения домохозяйств по размеру

4. Рассчитаем накопленные частоты:
Наколенная частота первого интервала рассчитывается следующим образом: 0 + 4 = 4, для второго: 4 + 12 = 16; для третьего: 4 + 12 + 8 = 24 и т.д.

При построении кумуляты накопленная частота (частость) соответствующего интервала присваивается его верхней границе:

Огива

Огива строится аналогично кумуляте с той лишь разницей, что накопленные частоты помещают на оси абсцисс, а значения признака — на оси ординат.

Разновидностью кумуляты является кривая концентрации или график Лоренца. Для построения кривой концентрации на обе оси прямоугольной системы координат наносится масштабная шкала в процентах от 0 до 100. При этом на оси абсцисс указывают накопленные частости, а на оси ординат — накопленные значения доли (в процентах) по объему признака.

Равномерному распределению признака соответствует на графике диагональ квадрата (рис. 6.4). При неравномерном распределении график представляет собой вогнутую кривую в зависимости от уровня концентрации признака.

6.4. Кривая концентрации

Выборка, полученная при проведении экспериментального исследования, представляет собой неупорядочен­ный набор чисел, записанных в той последовательности, в которой производились измерения. Обычно выборка оформляется в виде таблицы, в первой строке (или столбце) которой стоит номер опыта i , а во второй (втором) - зафиксированное значение случайной величины признака. В таком виде выборка представляет собой первичную форму записи статистического материала, который может быть обработан различными способами. В качестве примера рассмотрим результаты, показанные на легкоатлетических соревнованиях толкателями ядра и приведенные в таблице 1. В первой строке этой таблицы записаны номера измерений, а во второй - их численные значения в метрах.

Таблица 1

Результаты соревнований в толкании ядра

x i 16,36 14,91 15,31 14,26 14,77 13,88 14,97 14,01 14,07 14,48
x i 14,44 14,81 13,81 15,15 15,23 15,69 14,29 14,15 14,57 13,92
x i 13,62 14,92 15,73 13,22 14,65 14,8 13,04 15,1 13,3

Как видно из таблицы 1, простая статистическая совокупность перестает быть удобной формой представления статистического материала даже при относительно небольшом объеме выборки: она является достаточно громоздкой и мало наглядной. Проанализировать полученные экспериментальные данные и тем более сделать какие-либо выводы на их основе весьма затруднительно. Исходя из этого, полученный статистический материал должен быть обработан для проведения дальнейшего исследования. Простейшим способом обработки выборки является ранжирование. Ранжированием называют расстановку вариант в порядке возрастания или убывания их значений. Ниже в таблице 2 приведена ранжированная выборка, элементы которой расположены в порядке возрастания.

Таблица 2

Ранжированные результаты соревнований в толкании ядра

x i 13,04 13,22 13,3 13,62 13,81 13,88 13,92 14,01 14,07 14,15
x i 14,26 14,29 14,44 14,48 14,57 14,65 14,77 14,8 14,81 14,91
x i 14,92 14,97 15,1 15,15 15,23 15,31 15,69 15,73 16,36

Но и в таком виде полученные экспериментальные данные плохо обозримы и мало пригодны для непосредственного анализа. Именно поэтому для придания статистическому материалу большей компактности и наглядности он должен быть подвергнут дальнейшей обработке – строится так называемый статистический ряд. Построение статистического ряда начинается с группировки.

Группировкой называется процесс упорядочения и систематизации данных, полученных в ходе проведения эксперимента, направленный на извлечение содержащейся в них информации. В процессе группировки осуществляется распределение вариант выборки по группам или интервалам группировки, каждый из которых содержит некоторый диапазон значений изучаемого признака. Процесс группировки начинается с разбиения всего диапазона варьирования признака на интервалы группировки.

Для каждой конкретной цели статистического исследования, объема рассматриваемой выборки и степени варьирования признака в ней существует оптимальное значение числа интервалов и ширины каждого из них. Ориентировочное значение оптимального числа интервалов k может быть определено, исходя из объема выборки п либо с помощью данных, приведенных в таблице 3., либо с помощью формулы Стэрджесса:

k = 1 + 3,322 lgn .

Таблица 3

Определение числа интервалов группировки

Получаемое по формуле значение k почти всегда оказывается дробной величиной, которую необходимо округлить до целого числа, поскольку количество интервалов не может быть дробным. Практика показывает, что, как правило, лучше округлять в меньшую сторону, ибо формула дает хорошие результаты при больших значениях n , а при малых - несколько завышенные.

Рассмотрим группировку вариант выборки на конкретном примере. Для этого обратимся к примеру с толкателями ядра (см. таблицы 1, 2). Определение числа интервалов группировки будем производить на основе данных, приведенных в таблице 3. При объеме выборки n =29 число интервалов целесообразно выбрать равным k =5 (формула Стэрджесса дает значение k =5,9).

Условимся использовать в рассматриваемом примере интервалы равной ширины. В этом случае после того, как число интервалов группировки определено, следует вычислить ширину каждого из них с помощью соотношения:

Здесь h - ширина интервалов, а х max и х min - соответственно максимальное и минимальное значение признака в выборке. Величины х max и х min определяются непосредственно по таблице исходных данных (см. таблицу 2). В рассматриваемом случае:

(м).

Здесь необходимо остановиться на точности определения ширины интервала. Возможны две ситуации: точность вычисленного значения h совпадает с точностью проведения эксперимента или превышает ее. В последнем случае возможно использование двух подходов для определения границ интервалов. С теоретической точки зрения наиболее правильно использовать полученное значение h для построения интервалов. Такой подход не внесет дополнительных искажений, связанных с обработкой экспериментальных данных. Однако для практических целей в статистических исследованиях, относящихся к физической культуре и спорту, принято округлять полученное значение h до точности измерения данных. Связано это с тем, что для наглядного представления получаемых результатов удобно, чтобы границами интервалов являлись возможные значения признака. Таким образом, полученное значение ширины интервалов следует округлить с учетом точности проводимого эксперимента. Особо отметим, что округление необходимо производить не в общепринятом математическом смысле, а в сторону увеличения, т.е. с избытком, чтобы не уменьшить общий диапазон варьирования признака - сумма ширины всех интервалов не должна быть меньше разности между максимальным и минимальным значениями признака. В рассматриваемом примере экспериментальные данные определены с точностью до сотых (0,01 м), поэтому полученное выше значение ширины интервалов следует округлить с избытком с точностью до сотых. В результате получаем:

h = 0,67 (м).

После определения ширины интервалов группировки следует определить их границы. Нижнюю границу первого интервала целесообразно принять равной минимальному значению признака в выборке x min:

x Н1 = x min .

В рассматриваемом примере x Н1 = 13,04 (м).

Для получения верхней границы первого интервала (x В1) следует к значению нижней границы первого интервала прибавить значение ширины интервала:

x В1 = х Н1 +h .

Заметим, что верхняя граница каждого интервала (здесь – первого) будет являться одновременно и нижней границей следующего (в данном случае второго) интервала: x Н2 = x В1 .

Подобным образом определяются значения нижних и верхних границ всех оставшихся интервалов:

x В i =x Н i +1 = x Н i +h .

В рассматриваемом примере:

x В1 = x Н2 = x Н1 +h =13,04+0,67=13,71 (м),

x В2 = x Н3 = x Н2 +h =13,71+0,67=14,38 (м),

x В3 = x Н4 = x Н3 +h =14,38+0,67=15,05 (м),

x В4 = x Н5 = x Н4 +h =15,05+0,67=15,72 (м),

x В5 = x Н5 +h =15,72+0,67=16,39 (м).

Перед группировкой вариант введем понятие срединного значения интервала x i , равного значению признака, равноудаленного от концов этого интервала. Учитывая, что оно отстоит от нижней границы на величину, равную половине ширины интервала, для его определения удобно воспользоваться соотношением:

x i = x Н i + h /2,

где x Н i - нижняя граница i -ro интервала, а h - его ширина. Срединные значения интервалов будут использоваться в дальнейшем при обработке сгруппированных данных.

После определения границ всех интервалов следует распределить выборочные варианты по этим интервалам. Но предварительно следует решить вопрос о том, к какому интервалу отнести значение, находящееся в точности на границе двух интервалов, т. е. когда значение варианты совпадает с верхней границей одного и нижней границей соседнего с ним интервала. В таком случае варианта может быть отнесена к любому из двух соседних интервалов и, для исключения неоднозначности при группировке, условимся в таких случаях относить варианты к верхнему интервалу. В пользу такого подхода можно привести следующий довод. Поскольку минимальное значение признака совпадает с нижней границей первого интервала и входит в этот интервал, то варианту, попадающую на границу двух интервалов, следует отнести к тому из них, значение нижней границы которого равно рассматриваемой варианте.

Перейдем к рассмотрению статистической таблицы - см. таблицу 4, которая состоит из семи столбцов.

Таблица 4

Табличное представление результатов в толкании ядра

В первых трех столбцах статистической таблицы содержатся соответственно номера интервалов группировки i , их границы x Н i - x В i и срединные значения интервалов x i .

В четвертом столбце располагаются частоты интервалов. Частотой интервала называется число, показывающее сколько вариант, т.е. результатов измерений попало в данный интервал. Для обозначения этой величины принято использовать символ n i . Сумма всех частот всех интервалов всегда равна объему выборки п ,что можно использовать для проверки правильности проведенной группировки.

Пятый столбец таблицы 4 предназначен для занесения в негонакопленной частоты интервала - числа, полученного суммированием частоты текущего интервала с частотами всех предыдущих интервалов. Накопленную частоту принято обозначать латинской буквой N i . Накопленная частота показывает, сколько вариант имеют значения не больше, чем верхняя граница интервала.

В шестой столбец таблицы помещается частость. Частостью называется частота, представленная в относительном выражении, т.е. отношение частоты к объему выборки. Сумма всех частостей всегда равна 1. Для обозначения частости используется символ f i :

f i =n i /n .

Частость интервала связана с вероятностью попадания случайной величины в этот интервал. Согласно теореме Бернулли, при неограниченном увеличении числа опытов частость события сходится по вероятности к его вероятности. Если понимать под событием попадание значения исследуемой величины в определенный интервал, то становится ясно, что при большом числе опытов частость интервала приближается к вероятности попадания измеряемой случайной величины в этот интервал.

И частота, и частость характеризуют повторяемость результатов в выборке. Сравнивая их статистическое значение, следует отметить, что информативность частости существенно выше, чем у частоты. Действительно, если, как, например, в таблице 4 частота второго интервала равна 8 и, значит, 8 результатов попало в этот интервал, то трудно понять - мало это или много; если в выборке 1000 вариант, то такая частота мала, а если 20, то велика. В таком случае для объективной оценки необходимо сопоставить значение частоты с объемом выборки. Если же воспользоваться частостью, то сразу можно сказать, какая доля результатов попала в рассматриваемый интервал (примерно 28% в приведенном примере). Поэтому частость дает более наглядное представление о повторяемости признака в выборке. Особо следует отметить другое важное достоинство частости. Ее использование позволяет сопоставлять выборки различного объема. Частота для таких целей не применима.

В седьмом столбце таблицы расположена накопленная частость. Накопленной частостью является отношение накопленной частоты к объему выборки. Накопленная частость обозначается буквой F i :

Накопленная частость показывает, какая доля вариант выборки имеет значения, не превосходящие значения верхней границы интервала.

Последняя строка статистической таблицы используется для контроля над проведением группировки.

После заполнения таблицы вернемся к определению статистического ряда. Как правило, статистический ряд оформляется в виде таблицы, в первой строке которой перечислены интервалы, а во второй – соответствующие им частости или частоты. Таким образом, статистическим рядом называется двойной числовой ряд, устанавливающий связь между численным значением исследуемого признака и его повторяемостью в выборке. Существенным достоинством статистических рядов является то, что они, в отличие от статистических совокупностей, дают наглядное представление о характерных особенностях варьирования признаков.


©2015-2019 сайт
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-08-20

Группировка – это разбиение совокупности на группы, однородные по какому-либо признаку.

Назначение сервиса . С помощью онлайн-калькулятора Вы сможете:

  • построить вариационный ряд , построить гистограмму и полигон;
  • найти показатели вариации (среднюю, моду (в т.ч. и графическим способом), медиану, размах вариации, квартили, децили, квартильный коэффициент дифференциации, коэффициент вариации и другие показатели);

Инструкция . Для группировки ряда необходимо выбрать вид получаемого вариационного ряда (дискретный или интервальный) и указать количество данных (количество строк). Полученное решение сохраняется в файле Word (см. пример группировки статистических данных).

Количество исходных данных
",0);">

Если группировка уже осуществлена и заданы дискретный вариационный ряд или интервальный ряд , то необходимо воспользоваться онлайн-калькулятором Показатели вариации . Проверка гипотезы о виде распределения производится с помощью сервиса Изучение формы распределения .

Виды статистических группировок

Вариационный ряд . В случае наблюдений дискретной случайной величины одно и то же значение можно встретить несколько раз. Такие значения x i случайной величины записывают с указанием n i числа раз его появления в n наблюдениях, это и есть частота данного значения.
В случае непрерывной случайной величины на практике применяют группировку.
  1. Типологическая группировка – это разделение исследуемой качественно разнородной совокупности на классы, социально–экономические типы, однородные группы единиц. Для построения данной группировки используйте параметр Дискретный вариационный ряд.
  2. Структурной называется группировка , в которой происходит разделение однородной совокупности на группы, характеризующие ее структуру по какому–либо варьирующему признаку. Для построения данной группировки используйте параметр Интервальный ряд.
  3. Группировка, выявляющая взаимосвязи между изучаемыми явлениями и их признаками, называется аналитической группировкой (см. аналитическая группировка ряда).

Принципы построения статистических группировок

Ряд наблюдений, упорядоченных по возрастанию, называется вариационным рядом . Группировочным признаком называется признак, по которому производится разбивка совокупности на отдельные группы. Его называют основанием группировки. В основание группировки могут быть положены как количественные, так и качественные признаки.
После определения основания группировки следует решить вопрос о количестве групп, на которые надо разбить исследуемую совокупность.

При использовании персональных компьютеров для обработки статистических данных группировка единиц объекта производится с помощью стандартных процедур.
Одна из таких процедур основана на использовании формулы Стерджесса для определения оптимального числа групп:

k = 1+3,322*lg(N)

Где k – число групп, N – число единиц совокупности.

Длину частичных интервалов вычисляют как h=(x max -x min)/k

Затем подсчитывают числа попаданий наблюдений в эти интервалы, которые принимают за частоты n i . Малочисленные частоты, значения которых меньше 5 (n i < 5), следует объединить. в этом случае надо объединить и соответствующие интервалы.
В качестве новых значений вариант берут середины интервалов x i =(c i-1 +c i)/2.