Архив. Законодательство Украины

 

Архів сайту. Оновлення.

Про затвердження Методики розрахунку характеристик надійності оцінювання показників за результатами вибіркового обстеження населення (домогосподарств) з питань економічної активності

Державний комітет статистики України (Держкомстат)

Наказ № 639 від 29.12.2006

Страница 2

Стр. 1 Стр. 2 Стр. 3 Стр. 4 Стр. 5 Стр. 6 Стр. 7 Стр. 8

<< Главная страница

квантіль    розподілу   ймовірностей),   визначає   співвідношення
граничної та   стандартної   похибки   при    даній    ймовірності
     p (p  -  імовірність  того,  що  похибка  вибірки  для оцінки
показника не перевищить величину LSE).  Типові значення t наведені
в таблиці 1.
 
                                                         Таблиця 1
 
           Взаємовідповідність між величинами довірчої
              ймовірності p і довірчого числа t [4]
 
------------------------------------------------------------------
¦   p    ¦   0,50    ¦  0,80    ¦  0,90    ¦  0,95    ¦  0,99    ¦
¦--------+-----------+----------+----------+----------+----------¦
¦   t    ¦   0,67    ¦  1,28    ¦  1,64    ¦  1,96    ¦  2,58    ¦
------------------------------------------------------------------
 
     Гранична похибка  вибірки   використовується   для   побудови
довірчих меж   інтервальних   оцінок  (меж  довірчих  інтервалів).
                                    ^
Наприклад,  для  побудови  нижньої ТЭТА  та верхньої довірчих  меж
                                       L
 
                                            ^
інтервальної оцінки  сумарного  значення   ТЭТА   використовуються
формули:
 
          ^      ^           ^       ^
         ТЭТА = ТЭТА - LSE; ТЭТА  = ТЭТА + LSE.                (6)
                                R
 
     Різниця між середнім значенням вибіркових оцінок показника та
дійсним значенням  (майже  завжди невідомим) є зміщенням оцінки та
позначається як B (див. рис.1 ( va639202-06 ):
 
             ^              ^       2  ^
          B(ТЭТА;ТЭТА) = V(ТЭТА) + B (ТЭТА;ТЭТА).              (7)
 
     За наявності  зміщення для визначення статистичної надійності
оцінки показника використовується середньоквадратична похибка  MSE
  ^
(ТЭТА;ТЭТА), що визначається формулою:
 
               ^              ^       2  ^
          MSE(ТЭТА;ТЭТА) = V(ТЭТА) + B (ТЭТА;ТЭТА).            (8)
 
     Таким чином,   середньоквадратична   похибка   складається  з
дисперсії вибіркових оцінок та  квадрату  зміщення.  Величина  MSE
зазвичай розглядається як показник надійності, тобто для цільового
                        ^  (1)
показника ТЭТА оцінка  ТЭТА   вважається більш надійною за оцінку,
 
           ^  (1)              ^  (2)
якщо  MSE(ТЭТА   ;ТЭТА)   MSE(ТЭТА   ;ТЭТА). Слід   відмітити,  що
B та MSE  визначаються процесом оцінювання цільового показника, та
їх значення будуть різними для різних значень цільового показника.
Порівняно з  B  та  MSE дисперсія вибіркових оцінок (так само як і
середнє значення) не пов'язана з цільовим показником. В той же час
і   дисперсія,   і   зміщення   так   само,   як   і,  відповідно,
середньоквадратична похибка залежать від дизайну вибірки.
     За наявністю  зміщення  для  характеристики надійності оцінок
використовується також величина загальної похибка  оцінки  TE,  що
визначається як корінь квадратний з середньоквадратичної похибки:
 
                              ^       ---------
                          TE(ТЭТА) =  ¦     ^
                                     \¦MSE(ТЭТА)               (9)
 
     Позначення тут      дещо      спрощені,     і     відповідно,
             ^                     ^
прийняте TE(ТЭТА) еквівалентне TE(ТЭТА;ТЭТА).
 
    Якщо при     оцінюванні     показника     зміщення    відсутнє
    ^
(B(ТЭТА) = 0),   то величина середньоквадратичної похибки дорівнює
                                    ^           ^
дисперсії вибіркових   оцінок  MSE(ТЭТА)  =  V(ТЭТА),  і  загальна
                                                            ^
похибка   дорівнює    стандартній     похибці           TE(ТЭТА) =
 ---------------------
 ¦    ^          ^
\¦ V(ТЭТА) = SE(ТЭТА)
 
     По аналогії  з  такою   характеристикою   надійності   оцінок
показників  як  відносна  стандартна  похибка із загальної похибки
розраховується відносна загальна похибка (RTE), що визначається як
відношення  загальної  похибки  до  значення  оцінки  показника  у
відсотках:
                                      ^
                         ^        TE(ТЭТА)
                    RTE(ТЭТА) = ---------- x 100%             (10)
                                     ^
                                    ТЭТА
 
     Таким чином,  для  визначення  надійності оцінок показників у
загальному випадку необхідно розраховувати:
     - дисперсію  вибіркових  оцінок  (та  стандартну похибку) для
дизайну вибіркової сукупності та оцінок;
     - оцінку зміщення цільового показника;
     - середньоквадратичну похибку оцінки цільового показника.
     Для визначення  дисперсій,  стандартних  похибок  та величини
дизайн-ефекту для вибірок зі  складним  дизайном  частіше  за  все
використовуються спеціалізовані розрахункові методи.
     В теперішній час,  в умовах наявності та  доступності  досить
потужних   комп'ютерів,  до  методів  розрахунку  похибки  вибірки
ставляться такі загальні вимоги:
     - можливість врахування реального складного дизайну вибірки;
     - можливість використання для різних дизайнів вибірки;
     - можливість  використання для всіх основних типів показників
та для будь-яких груп одиниць вибірки у межах вибірки;
     - мінімальність  величин та прийнятні статистичні властивості
похибок, джерелом яких є самі методи;
     - економічність в плані витрат часу;
     - наявність  та   зручність   використання   спеціалізованого
програмного забезпечення для практичного застосування методів.
     При аналізі якості даних  ОЕАН  застосовується  реплікаційний
метод BRR,   який   реалізований  у  стандартному  пакеті  програм
"WesVarPC" [5].  BRR є  складною  розрахунковою  процедурою.  Вона
передбачає, що  повна  вибірка  складається з H страт (ці страти у
загальному випадку відрізняються від  страт  дизайну  вибірки),  у
кожному  з  яких  міститься два кластера (кластер об'єднує одиниці
спостереження,  що  розташовані  в  межах  однієї   територіальної
одиниці або декількох сусідніх територіальних одиниць, що залежить
від  розміру  останніх).  Кожна   реплікація   -   "напіввибірка",
будується  шляхом  випадкового відбору по одному кластеру з кожної
страти.  Оцінка показника  за  реплікацією  розраховується  шляхом
подвоєння  статистичних  ваг  одиниць  спостереження,  що належать
відібраним кластерам.
     Необхідна кількість реплікацій T визначається з використанням
методу  балансування.  Це   досягається   спеціальною   процедурою
формування  реплікацій за допомогою ортогональних матриць Адамара.
Такі матриці мають порядок 4 x z, де z - будь-яке натуральне число
[6].
 
     Матриці Адамара при  z  =  1,  2  мають  вигляд  (див.  також
табл. 2.).
 
                              -                      -
                              ¦1  1  1  1  1  1  1  1¦
           -          -       ¦1 -1  1 -1  1 -1  1 -1¦
           ¦1  1  1  1¦       ¦1  1 -1 -1  1  1 -1 -1¦
           ¦1 -1  1 -1¦       ¦1 -1 -1  1  1 -1 -1  1¦
     H  =  ¦1  1 -1 -1¦, H  = ¦1  1  1  1 -1 -1 -1 -1¦
      4    ¦1 -1 -1  1¦   8   ¦1 -1  1 -1 -1  1 -1  1¦
           -          -       ¦1  1 -1 -1 -1 -1  1  1¦
                              ¦1 -1 -1  1 -1  1  1 -1¦
                              -                      -
 
     При формуванні реплікацій число "1" означає, що з відповідної
страти включається другий кластер,  а  число  "-1",  що  -  перший
кластер.  При  цьому,  якщо  вибірка  складається  з меншого числа
страт, ніж число 4 x z, наприклад, T = 9 при z = 3, то слід обрати
будь-які 9 граф повної матриці.
 
                                                         Таблиця 2
 
                Приклад зв'язків елементів матриці
                  Адамара при z = 2 для вибірки,
                    яка складається з 8 страт
 
------------------------------------------------------------------
¦  Реплікація, ¦                    Страта, h                    ¦
¦      t       ¦-------------------------------------------------¦
¦              ¦  1  ¦  2   ¦   3  ¦  4  ¦  5  ¦  6  ¦  7  ¦  8  ¦
¦--------------+-----+------+------+-----+-----+-----+-----+-----¦
¦      1       ¦  1  ¦  1   ¦   1  ¦  1  ¦  1  ¦  1  ¦  1  ¦  1  ¦
¦--------------+-----+------+------+-----+-----+-----+-----+-----¦
¦      2       ¦  1  ¦  -1  ¦   1  ¦ -1  ¦  1  ¦ -1  ¦  1  ¦ -1  ¦
¦--------------+-----+------+------+-----+-----+-----+-----+-----¦
¦      3       ¦  1  ¦  1   ¦  -1  ¦ -1  ¦  1  ¦  1  ¦ -1  ¦ -1  ¦
¦--------------+-----+------+------+-----+-----+-----+-----+-----¦
¦      4       ¦  1  ¦  -1  ¦  -1  ¦  1  ¦  1  ¦ -1  ¦ -1  ¦  1  ¦
¦--------------+-----+------+------+-----+-----+-----+-----+-----¦
¦      5       ¦  1  ¦  1   ¦   1  ¦  1  ¦ -1  ¦ -1  ¦ -1  ¦ -1  ¦
¦--------------+-----+------+------+-----+-----+-----+-----+-----¦
¦      6       ¦  1  ¦  1   ¦   1  ¦ -1  ¦  1  ¦  1  ¦ -1  ¦  1  ¦
¦--------------+-----+------+------+-----+-----+-----+-----+-----¦
¦      7       ¦  1  ¦  1   ¦  -1  ¦ -1  ¦ -1  ¦ -1  ¦  1  ¦  1  ¦
¦--------------+-----+------+------+-----+-----+-----+-----+-----¦
¦      8       ¦  1  ¦  -1  ¦  -1  ¦  1  ¦ -1  ¦  1  ¦  1  ¦ -1  ¦
------------------------------------------------------------------
 
    Оцінка дисперсії ознаки здійснюється за формулою [5]:
 
           ^          1      T   ^       ^   2
        V(ТЭТА)   =  ---  x  S (ТЭТА  - ТЭТА)                 (11)
               T      T     t=1     t
 
    де:
      ^
    (ТЭТА)  - оцінка ознаки ТЭТА по реплікації t;
          t
      ^
    (ТЭТА) -  оцінка  ознаки (ТЭТА) по всій вибірці;
    t - поточний номер реплікації, t = 1,2, ..., T.
 
                   2. Iнформаційне забезпечення
 
     2.1. Вхідна інформація
     Вхідною інформацією  для  розрахунку характеристик надійності
оцінювання показників за результатами ОЕАН є файл первинних  даних
обстеження  у  форматі  програми  "SPSS",  що  містить  ознаки (по
домогосподарствах,  або  по  членах  домогосподарств),   по   яких
будуються оцінки та додаткові змінні, необхідні для розрахунків.
     Додаткові змінні:
     - порядковий номер запису (ім'я змінної -id);
     - статистична вага домогосподарств (членів домогосподарств  -
w_q);
     - страти для України (strt_ua);
     - код територій (регіонів) за КОАТУУ (rg);
     - страти для регіонів (strt_rg);
     - код економічного району (rn);
     - страти для економічних районів (strt_rn);
     - код територіальних одиниць вибірки для України (psu_ua);
     - код територіальних одиниць вибірки для регіонів (psu_rg);
     - код  територіальних одиниць вибірки для економічних районів
(psu_rn).
     Слід зауважити,   що  імена  змінних  є  довільними,  але  їх
необхідно задавати з використанням латинського шрифту  (при  цьому
мітки змінних   можуть   задаватися   з  використанням  кирилиці),
оскільки програмний пакет "WesVarPC",  який  використовується  для
розрахунку   похибки  вибірки,  символи  кирилиці  ідентифікує  як
помилку.
 
     2.2. Вихідна інформація
     Вихідною інформацією  є файл *.lst ("*" - ім'я файла "SPSS" з
вхідною  інформацією,  якщо  не  задати  іншого  імені),  який   є
результатом   роботи  програми  "WesVarPC"  і  містить  результати
розрахунків. Структуру файла наведено у додатку 1.
     На початку  файла  міститься  інформація  про програму,  дату
розрахунку,  місцезнаходження вхідної та  вихідної  інформації  та
загальні   параметри   для   розрахунку.   Далі  послідовно  ідуть
результати розрахунків для замовлених таблиць.
     Перші стовпчики  результатів  розрахунку (один для одномірних
таблиць, два  -   для   двомірних   і   т.д.)   містять   значення
класифікаційних змінних,  по яких було побудовано комірки таблиць.
Графи "STATISTIC" та "EST_TYPE" містять інформацію про характер та
тип  оцінки.  У графі "ESTIMATE" наведено оцінку показника.  Графи
"STDERROR"  та  "CV"  містять  стандартну  похибку  та  коефіцієнт
варіації  (відносну стандартну похибку) оцінки.  Графа "N" містить
дані  про  кількість   одиниць   вибірки   у   групі,   для   якої
розраховується  оцінка  показника.  Графа  "DEFF"  містить  оцінку
величини дизайн-ефекту.
 
              3. Порядок побудови додаткових змінних
 
     Змінні strt_ua,strt_rg,strt_rn,psu_ua,psu_rg,psu_rn будуються
окремо для кожного  дизайну  вибірки  та  для  конкретного  методу
розрахунку похибки вибірки.
 
     3.1. Побудова змінної strt_ua
     Змінна strt_ua - страти для України по регіонах та  по  типах
місцевості, приймає значення, які наведено у додатку 2.
 
     3.2. Побудова змінної strt_rg
     У межах  кожного  регіону  будується  своя  система  страт  з
нумерацією від 1 до S. Для цього:
     а) всі  ВТОВ  по  міських  поселеннях  і  ПТОВ  по  сільській
місцевості в межах  регіону  розташовуються  в  порядку  зростання
номерів;
     б) кожні дві ВТОВ по міських поселеннях або ПТОВ по сільській
місцевості,  починаючи з першої у ранжованому ряді,  зараховуються
до окремої страти. За необхідністю декілька територіальних одиниць
можуть  об'єднуватись  в  один  кластер.  Страти,  побудовані  для
міських  поселень,  не  можуть  включати  територіальних   одиниць
сільської    місцевості,   а   страти   сільської   місцевості   -
територіальних одиниць міських поселень.
     в) страти нумеруються у порядку зростання  номерів  -  1,  2,
3, ...,S.
     Якщо кількість  ПТОВ  непарна,  то  окрему  ПТОВ умовно можна
розділити на  дві.  Значення  змінної  strt_rg  для  всіх регіонів
України та номери ПТОВ,  які входять до кожного шару,  наведені  у
додатку 3.
 
     3.3. Побудова змінної psu_ua
     У межах    кожної   страти   для   України   (strt_ua)   ПТОВ
розташовуються у порядку зростання номерів.  Для першої по порядку
ПТОВ змінна psu_ua приймає значення 1, для другої - 2.
 
     3.4. Побудова змінної psu_rg
     У межах   кожної   страти   для   регіонів   (strt_rg)   ПТОВ
розташовуються у порядку зростання номерів.  Для першої по порядку
ПТОВ змінна psu_rg приймає значення 1, для другої - 2.
     Iнструктивні матеріали  розрахунку  характеристик  надійності
оцінювання  показників за допомогою програми "WesVarPC" наведено у
додатку 4.
 
               4. Розрахунок граничної похибки вибірки
 
     Гранична похибка   вибірки   для   оцінок    показників    за
результатами ОЕАН    розраховується   за   95%   рівнем   довірчої
імовірності (p = 0,95, див. табл. 1) за формулою:
 
                     LSE = 1,96 x SE                          (12)
 
     Довірчі межі інтервальної  оцінки  визначаються  за  формулою
(6).
 
              5. Розрахунок середньоквадратичної похибки
 
     Поточні оцінки   показників   (місячні,  квартальні,  річні),
розраховані   за   результатами   ОЕАН   для   певних    територій
(національний рівень,  регіональний рівень),  є незміщеними. Таким
чином,  величина середньоквадратичної  похибки  дорівнює  величині
дисперсії вибіркових оцінок показників, величина загальної похибки
- величині стандартній похибці,  а  величина  відносної  загальної
похибки - величині коефіцієнта варіації.
     За умови використання оцінок показників за результатами  ОЕАН
як  зміщених  оцінок (наприклад,  для отримання поточних оцінок за
певний період часу використовуються дані інших періодів,  а оцінок
по  певних  територіях  -  інформація  по  інших  територіях)  або
складних зміщених оціночних функцій, величина середньоквадратичної
похибки  та  всіх похідних від неї визначається за формулами (8) -
(10).  При цьому для кожної оцінки  необхідно  визначити  величину
зміщення B,  що  є  у  більшості  випадків  серйозною статистичною
проблемою. Розгляд методів оцінки зміщень виходить за  межі  даної
методики.
 
                         6. Приклад розрахунку
 
     Розглянемо приклад    розрахунку   характеристик   надійності
оцінювання загальної кількості зайнятих за  результатами  ОЕАН   у
I кварталі 2006 року  по Чернівецькій області.  У цьому кварталі в
обстеженні взяли участь 2461 осіб віком 15-70 років,   з яких 1707
осіб були визначені як зайняті.  Пряма оцінка кількості зайнятих у
віці 15-70   років   у   генеральній   сукупності   (побудована  з
урахуванням системи статистичних ваг осіб) дорівнює 348 886 осіб.
     Для визначення  характеристик  надійності  прямої  оцінки  на
основі реплікаційного  методу  BRR  побудовано  дев'ять  страт,  в
кожній з яких виділено по два кластери (див. додаток 3).
     За принципами  побудови  збалансованих  реплікацій сформовано
матрицю Адамара,  яка має наступний вигляд (матриця  побудована  в
програмному пакеті "WesVarPC"):
 
                                                         Таблиця 3
 
                                Система
           реплікацій для вибірки, яка складається з 9 страт
 
------------------------------------------------------------------
¦ Реплікація, ¦                    Страта, h                     ¦
¦      t      ¦                                                  ¦
¦-------------+--------------------------------------------------¦
¦             ¦  1  ¦  2  ¦  3  ¦  4  ¦  5  ¦  6  ¦ 7  ¦ 8  ¦ 9  ¦
¦-------------+-----+-----+-----+-----+-----+-----+----+----+----¦

<< Главная страница

Стр. 1 Стр. 2 Стр. 3 Стр. 4 Стр. 5 Стр. 6 Стр. 7 Стр. 8



Украина онлайн