• Главная <
  • Галерея
  • Карта сайта
  • Наши контакты
  • Обратная связь

Контрольна робота: Розподіл "хі-квадрат" і його застосування

Міністерство освіти і науки Російської Федерації

Федеральне агентство з освіти міста Іркутська

Байкальський державний університет економіки і права

Кафедра Інформатики та кібернетики

Розподіл "хі-квадрат" і його застосування

Самостійна робота

Автор роботи:

Колмикова Анна Андріївна

студентка 2 курсу

групи ІС-09-1

Іркутськ 2010


Вступ

1. Розподіл "хі-квадрат"

2. "Хі-квадрат" в задачах статистичного аналізу даних

прикладна програма

висновок

Список використаної літератури


Як підходи, ідеї і результати теорії ймовірностей використовуються в нашому житті?

Базою є імовірнісна модель реального явища або процесу, тобто математична модель, в якій об'єктивні співвідношення виражені в термінах теорії ймовірностей. Ймовірності використовуються, перш за все, для опису невизначеностей, які необхідно враховувати при прийнятті рішень. Маються на увазі, як небажані можливості (ризики), так і привабливі ( "щасливий випадок"). Іноді випадковість вноситься в ситуацію свідомо, наприклад, при жеребкуванні, випадковому відборі одиниць для контролю, проведення лотерей або опитувань споживачів.

Теорія ймовірностей дозволяє по одним можливостям розрахувати інші, цікаві для дослідника.

Імовірнісна модель явища чи процесу є фундаментом математичної статистики. Використовуються два паралельних ряди понять - пов'язані з теорії (ймовірнісної моделі) і відносяться до практиці (вибірці результатів спостережень). Наприклад, теоретичної ймовірності відповідає частота, знайдена по вибірці. Математичного сподівання (теоретичний ряд) відповідає вибіркове середнє арифметичне (практичний ряд). Як правило, вибіркові характеристики є оцінками теоретичних. При цьому величини, що відносяться до теоретичного ряду, "знаходяться в головах дослідників", відносяться до світу ідей (по давньогрецького філософа Платона), недоступні для безпосереднього вимірювання. Дослідники мають у своєму розпорядженні лише вибірковими даними, за допомогою яких вони намагаються встановити, що цікавлять їх властивості теоретичної ймовірнісної моделі.

Навіщо ж потрібна імовірнісна модель? Справа в тому, що тільки з її допомогою можна перенести властивості, встановлені за результатами аналізу конкретної вибірки, на інші вибірки, а також на всю так звану генеральну сукупність. Термін "генеральна сукупність" використовується, коли мова йде про великий, але кінцевої сукупності досліджуваних одиниць. Наприклад, про сукупності всіх жителів Росії або сукупності всіх споживачів розчинної кави в Москві. Мета маркетингових або соціологічних опитувань полягає в тому, щоб твердження, отримані за вибіркою з сотень або тисяч чоловік, перенести на генеральні сукупності в кілька мільйонів чоловік. При контролі якості в ролі генеральної сукупності виступає партія продукції.

Щоб перенести висновки з вибірки на ширшу сукупність, необхідні ті чи інші припущення про зв'язок вибіркових характеристик з характеристиками цієї ширшої сукупності. Ці припущення засновані на відповідній ймовірнісної моделі.

Звичайно, можна обробляти вибіркові дані, не використовуючи ту чи іншу вірогідну модель. Наприклад, можна розраховувати вибіркове середнє арифметичне, підраховувати частоту виконання тих чи інших умов і т.п. Однак результати розрахунків будуть ставитися тільки до конкретної вибірці, перенесення отриманих з їх допомогою висновків на будь-яку іншу сукупність некоректний. Іноді подібну діяльність називають "аналіз даних". У порівнянні з ймовірносно-статистичними методами аналіз даних має обмежену пізнавальну цінність.

Отже, використання імовірнісних моделей на основі оцінювання та перевірки гіпотез за допомогою вибіркових характеристик - ось суть ймовірносно-статистичних методів прийняття рішень.


Ми зупинимося на розподілі Ми зупинимося на розподілі   ( Хі - квадрат) ( "Хі - квадрат"). Вперше цей розподіл було досліджено астрономом Ф.Хельмертом в 1876 році. У зв'язку з гауссовской теорією помилок він досліджував суми квадратів n незалежних стандартно нормально розподілених випадкових величин. Пізніше Карл Пірсон (Karl Pearson) дав ім'я даної функції розподілу "хі - квадрат". І зараз розподіл носить його ім'я.

Завдяки тісному зв'язку з нормальним розподілом, χ2-розподіл грає важливу роль в теорії ймовірностей і математичній статистиці. χ2-розподіл, і багато інших розподілу, які визначаються за допомогою χ2-розподілу (наприклад - розподіл Стьюдента), описують вибіркові розподілу різних функцій від нормально розподілених результатів спостережень і використовуються для побудови довірчих інтервалів і статистичних критеріїв.

розподіл Пірсона розподіл Пірсона   (Хі - квадрат) - розподіл випадкової величини   де X1, X2, (Хі - квадрат) - розподіл випадкової величини де X1, X2, ..., Xn - нормальні незалежні випадкові величини, причому математичне сподівання кожної з них дорівнює нулю, а середнє квадратичне відхилення - одиниці.

сума квадратів

сума квадратів


розподілена за законом розподілена за законом   ( Хі - квадрат) ( "Хі - квадрат").

Функція розподілу χ2 має вигляд:

Функція розподілу χ2 має вигляд:

якщо χ2≥0. (2.7.)


Малюнок 1 Залежність щільності ймовірності φ (x) в розподілі χ2 (хі - квадрат) при різному числі ступенів свободи.

Моменти розподілу "хі-квадрат":

M [χ2] = n

D [χ2] = 2n

Розподіл "хі-квадрат" використовують при оцінюванні дисперсії (за допомогою довірчого інтервалу), при перевірці гіпотез згоди, однорідності, незалежності, насамперед для якісних (категоризовать) змінних, що приймають кінцеве число значень, і в багатьох інших завданнях статистичного аналізу даних.

Статистичні методи аналізу даних застосовуються практично у всіх областях діяльності людини. Їх використовують завжди, коли необхідно отримати і обґрунтувати будь-які судження про групу (об'єктів або суб'єктів) з деякою внутрішньою неоднорідністю.

Сучасний етап розвитку статистичних методів можна відраховувати з 1900 р, коли англієць К. Пірсон заснував журнал "Biometrika". Перша третина ХХ ст. пройшла під знаком параметричної статистики. Вивчалися методи, засновані на аналізі даних з параметричних сімей розподілів, описаних кривими сімейства Пірсона. Найбільш популярним було нормальне розподіл. Для перевірки гіпотез використовувалися критерії Пірсона, Стьюдента, Фішера. Були запропоновані метод максимальної правдоподібності, дисперсійний аналіз, сформульовані основні ідеї планування експерименту.

Розподіл "хі-квадрат" є одним з найбільш широко використовуваних в статистиці для перевірки статистичних гіпотез. На основі розподілу "хі-квадрат" побудований один з найбільш потужних критеріїв згоди - критерій "хі-квадрата" Пірсона.

Критерієм згоди називають критерій перевірки гіпотези про передбачуваний законі невідомого розподілу.

Критерій χ2 ( "хі-квадрат") використовується для перевірки гіпотези різних розподілів. У цьому полягає його гідність.

Розрахункова формула критерію дорівнює

Розрахункова формула критерію дорівнює

де m і m '- відповідно емпіричні і теоретичні частоти

розглянутого розподілу;

n - число ступенів свободи.

Для перевірки нам необхідно порівнювати емпіричні (спостерігаються) і теоретичні (обчислені в припущенні нормального розподілу) частоти.

При повному збігу емпіричних частот з частотами, обчисленими або очікуваними S (Е - Т) = 0 і критерій χ2 теж буде дорівнює нулю. Якщо ж S (Е - Т) не дорівнює нулю це вкаже на невідповідність обчислених частот емпіричним частотам ряду. У таких випадках необхідно оцінити значимість критерію χ2, який теоретично може змінюватися від нуля до нескінченності. Це проводиться шляхом порівняння фактично отриманої величини χ2ф з його критичним значенням (χ2st) .Нулевая гіпотеза, т. Е. Припущення, що розбіжність між емпіричними і теоретичними або очікуваними частотами носить випадковий характер, спростовується, якщо χ2ф більше або дорівнює χ2st для прийнятого рівня значущості (a) і числа ступенів свободи (n).

Розподіл можливих значень випадкової величини χ2 безперервно і асиметрично. Воно залежить від числа ступенів свободи (n) і наближається до нормального розподілу в міру збільшення числа спостережень. Тому застосування критерію χ2 до оцінки дискретних розподілів пов'язане з деякими похибками, які позначаються на його величині, особливо на нечисленних вибірках. Для отримання більш точних оцінок вибірка, що розподіляється в варіаційний ряд, повинна мати не менше 50 варіантів. Правильне застосування критерію χ2 вимагає також, щоб частоти варіантів в крайніх класах не були б менше 5; якщо їх менше 5, то вони об'єднуються з частотами сусідніх класів, щоб в сумі становили величину більшу або рівну 5. Відповідно об'єднанню частот зменшується і число класів (N). Число ступенів свободи встановлюється по вторинному числу класів з урахуванням числа обмежень свободи варіації.

Так як точність визначення критерію χ2 в значній мірі залежить від точності розрахунку теоретичних частот (Т), для отримання різниці між емпіричними і обчисленими частотами слід використовувати неокругленние теоретичні частоти.

Як приклад візьмемо дослідження, опубліковане на сайті, який присвячений застосуванню статистичних методів в гуманітарних науках.

Критерій "Хі-квадрат" дозволяє порівнювати розподілу частот незалежно від того, розподілені вони нормально чи ні.

Під частотою розуміється кількість появ якої-небудь події. Зазвичай, з частотою появи події мають справу, коли змінні виміряні в шкалі найменувань та іншої їх характеристики, крім частоти підібрати неможливо або проблематично. Іншими словами, коли змінна має якісні характеристики. Так само багато дослідників схильні переводити бали тесту в рівні (високий, середній, низький) і будувати таблиці розподілів балів, щоб дізнатися кількість осіб за цими рівнями. Щоб довести, що в одному з рівнів (в одній з категорій) кількість осіб дійсно більше (менше) так само використовується коефіцієнт Хі-квадрат.

Розберемо найпростіший приклад.

Серед молодших підлітків був проведений тест для виявлення самооцінки. Бали тесту були переведені в три рівні: високий, середній, низький. Частоти розподілилися наступним чином:

Високий (В) 27 чол.

Середній (С) 12 чол.

Низький (Н) 11 чол.

Очевидно, що дітей з високою самооцінкою більшість, однак це потрібно довести статистично. Для цього використовуємо критерій Хі-квадрат.

Наше завдання перевірити, чи відрізняються отримані емпіричні дані від теоретично рівноймовірно. Для цього необхідно знайти теоретичні частоти. У нашому випадку, теоретичні частоти - це рівноімовірні частоти, які знаходяться шляхом складання всіх частот і ділення на кількість категорій.

У нашому випадку:

(В + С + Н) / 3 = (27 + 12 + 11) / 3 = 16,6


Формула для розрахунку критерію хі-квадрат:

χ2 = Σ (Е - Т) ² / Т

Емпіріч. (Е) Теоретич. (Т) (Е - Т) ² / Т Високий 27 чол. 16,6 6,41 Середній 12 чол. 16,6 1,31 Низький 11 чол. 16,6 1,93 "Активний" "Старанний" "Дисциплінований" Хлопчики 10 5 6 Дівчатка 6 12 9

Для обробки отриманих даних використовуємо критерій хі-квадрат.

Для цього побудуємо таблицю розподілу емпіричних частот, тобто тих частот, які ми спостерігаємо:

"Активний" "Старанний" "Дисциплінований" Разом: Хлопчики 10 5 6 21 Дівчата 6 12 9 27 Разом: 16 17 15 s = 48

Теоретично, ми очікуємо, що частоти розподіляться равновероятно, тобто частота розподілиться пропорційно між хлопчиками і дівчатками. Побудуємо таблицю теоретичних частот. Для цього помножимо суму по рядку на суму по стовпцю і розділимо вийшло число на загальну суму (s).


"Активний" "Старанний" "Дисциплінований" Разом: Хлопчики (21 * 16) / 48 = 7 (21 * 17) / 48 = 7.44 (21 * 15) / 48 = 6.56 21 Дівчата (27 * 16) / 48 = 9 (27 * 17) / 48 = 9.56 (27 * 15) / 48 = 8.44 27 Разом: 16 17 15 s = 48

Підсумкова таблиця для обчислень буде виглядати так:

Категорія 1 Категорія 2 емпіріч. (Е) Теоретич. (Т) (Е - Т) ² / Т Хлопчики "Активний" 10 7 1,28 "Старанний" 5 7,74 0,8 "Дисциплінований" 6 6,56 0,47 Дівчатка "Активний" 6 9 1 "Старанний" 12 9,56 0,62 "Дисциплінований" 9 8,44 0,04 Сума: 4,21

χ2 = Σ (Е - Т) ² / Т

n = (R - 1), де R - кількість рядків в таблиці.

У нашому випадку хі-квадрат = 4,21; n = 2.

По таблиці критичних значень критерію знаходимо: при n = 2 і рівні помилки 0,05 критичне значення χ2 = 5,99.

Отримане значення менше критичного, а значить приймається нульова гіпотеза.

Висновок: вчителі не надають значення підлозі дитини при написанні йому характеристики.


Таблиця 1


Студенти багатьох спеціальностей вивчають в кінці курсу вищої математики розділ "теорія ймовірностей і математична статистика", реально вони знайомляться лише з деякими основними поняттями та результатами, яких явно не достатньо для практичної роботи. З деякими математичними методами дослідження студенти зустрічаються в спеціальних курсах (наприклад, таких, як "Прогнозування і техніко-економічне планування", "Техніко-економічний аналіз", "Контроль якості продукції", "Маркетинг", "Контролінг", "Математичні методи прогнозування "," Статистика "і ін. - в разі студентів економічних спеціальностей), однак виклад в більшості випадків носить вельми скорочений і рецептурний характер. В результаті знань у фахівців з прикладної статистики недостатньо.

Тому велике значення має курс "Прикладна статистика" в технічних вузах, а в економічних вузах - курсу "Економетрика", оскільки економетрика - це, як відомо, статистичний аналіз конкретних економічних даних.


1. Орлов А.І. Прикладна статистика. М .: Видавництво "Іспит", 2004.

2. Гмурман В.Є. Теорія ймовірностей і математична статистика. М .: Вища школа, 1999. - 479с.

3. Айвозян С.А. Теорія ймовірностей і прикладна статистика, т.1. М .: Юніті, 2001. - 656с.

4. Хамітов Г.П., Ведерникова Т.І. Ймовірності та статистика. Іркутськ: БГУЕП, 2006 - 272с.

5. Єжова Л.М. Економетрика. Іркутськ: БГУЕП, 2002. - 314с.

6. Мостеллер Ф. П'ятдесят цікавих імовірнісних завдань з рішеннями. М.: Наука, 1975. - 111с.

7. Мостеллер Ф. Імовірність. М.: Мир, 1969. - 428с.

8. Яглом А.М. Імовірність і інформація. М.: Наука, 1973. - 511с.

9. Чистяков В.П. Курс теорії ймовірностей. М .: Наука, 1982. - 256с.

10. Кремер Н.Ш. Теорія ймовірностей і математична статистика. М .: ЮНИТИ, 2000. - 543с.

11. Математична енциклопедія, т.1. М .: Радянська енциклопедія, 1976. - 655с.

12. http://psystat.at.ua/ - Статистика в психології та педагогіці. Стаття Критерій Хі-квадрат. Автор: Попов О.А.

Навіщо ж потрібна імовірнісна модель?
Новости