Атрибуция   /  Информативные параметры

Исходное параметрическое пространство в исследовании проблемы "Корнель-Мольер" составили 51 параметр из априорного словаря параметров, и следующий этап исследования заключается в отборе из полученного априорного словаря небольшого числа информативных параметров. 

Определение информативных параметров заключается в отборе таких параметров из априорного словаря параметров, которые были бы наименее тесно связаны между собой и сильно связаны с параметрами, не вошедшими в информативный набор параметров.

Для определения информативного набора параметров был проведен эксперимент по описанию априорных классов на языке параметров из априорного словаря параметров. Из двух априорных классов были отобраны две случайные бесповторные выборки объемом по 100 предложений каждая. Объем в 100 предложений представляется достаточным для «прикидочных» выборок, сделанных с целью определения порядка величины дисперсии, поскольку для «прикидочных» наблюдений в математической статистике рекомендуется делать не менее 30 измерений. При этом реальные значения необходимой выборки определяются уже по специальной формуле с учетом относительной стандартной ошибки и объема генеральной совокупности.    

Результаты эксперимента были представлены в виде двух объектно-признаковых матриц данных размерностью nxN=100x51, где n – число параметров, а N – число объектов. Общее число элементов матриц данных составило по 5100. Ввиду большого объема выборки было использовано обратное построение матриц данных, при котором набор значений параметров представляется соответствующей строкой матрицы, а значения всех параметров на объектах (предложениях) – соответствующим столбцом. Затем были вычислены статистические характеристики анализируемых объектов: среднее арифметическое (Xi ) и стандартное отклонение (Si), для каждого класса.

При формировании набора информативных параметров была  применена схема М.М. Бонгарда, предусматривающая двухступенчатое свертывание параметрического пространства (Бонгард, 1967).

На первом этапе происходит разбиение априорного набора информативных параметров на два подмножества параметров, релевантных и нерелевантных для различения априорных классов. Для этого была произведена автоматическая классификация параметров в одномерном пространстве.

 Релевантность параметров для различения двух априорных классов определяется по t-критерию Стьюдента (формула 2), пороговое значение которого при уровне значимости α=0,05 равно 1,96. Процесс классификации при этом заключается в  сравнении значений критерия с пороговым значением, которое при уровне значимости α=0.05 равно 1,96. Если наблюдаемое значение критерия больше порогового, то параметр относится к числу информативных, в противном случае он исключается из дальнейшего рассмотрения.

Вычисление t-критерия Стьюдента при определении информативных параметров

Xi – средние арифметические, Si – стандартные отклонения, n – размеры выборок, t – значения t-критерия Стьюдента)

Код

параметра

       Априорные классы

t 

Ω1(Corneille)

Ω2(Quinault)

Xi

Si

n

Xi

Si

n

 

1

2

3

4

5

6

7

8

X1

3,28

4,92

100

2,84

4,19

100

0,68

X2

1,80

0,89

100

2,17

1,41

100

2,22

X3

0,44

0,56

100

0,38

0,65

100

0,70

X4

0,53

0,94

100

1,22

1,43

100

4,04

X5

0,04

0,20

100

0,02

0,14

100

0,83

X6

0,52

0,75

100

0,44

0,78

100

0,74

X7

0,50

0,70

100

0,44

0,78

100

0,57

X8

0,02

0,14

100

0,00

0,00

100

1,42

X9

0,00

0,00

100

0,00

0,00

100

X10

0,00

0,00

100

0,00

0,00

100

X11

1,41

0,91

100

1,65

1,10

100

1,68

X12

0,04

0,20

100

0,02

0,14

100

0,83

X13

0,06

0,28

100

0,08

0,34

100

0,46

X14

0,05

0,22

100

0,07

0,29

100

0,56

X15

9,61

5,28

100

10,50

7,29

100

0,99

X16

3,58

2,94

100

3,46

3,14

100

0,28

X17

2,38

1,95

100

2,31

2,00

100

0,25

X18

1,36

1,44

100

1,38

1,50

100

0,10

X19

2,28

1,89

100

2,42

1,99

100

0,51

X20

0,04

0,20

100

0,06

0,28

100

0,59

X21

1,76

1,01

100

2,14

1,52

100

2,09

X22

0,77

1,06

100

0,97

1,15

100

1,28

X23

0,93

0,98

100

1,04

1,13

100

0,74

X24

1,49

1,45

100

1,17

1,30

100

1,64

X25

0,96

1,16

100

0,79

1,01

100

1,10

X26

0,42

0,79

100

0,32

0,63

100

0,98

X27

0,52

0,69

100

0,47

0,67

100

0,52

X28

0,15

0,41

100

0,28

0,65

100

1,69

X29

1,27

1,06

100

1,13

1,30

100

0,83

X30

1,40

1,25

100

1,11

1,35

100

1,58

X31

1,47

0,98

100

1,91

1,46

100

2,50

X32

1,08

0,95

100

1,39

1,05

100

2,19

X33

0,37

0,85

100

0,34

0,87

100

0,25

X34

1,12

2,85

100

1,08

2,91

100

0,10

X35

0,14

0,51

100

0,17

0,59

100

0,38

X36

0,15

0,56

100

0,07

0,41

100

1,16

X37

0,10

0,39

100

0,07

0,26

100

0,64

X38

0,43

1,85

100

0,36

1,43

100

0,30

X39

0,02

0,14

100

0,00

0,00

100

1,42

X40

0,02

0,20

100

0,00

0,00

100

1,00

X41

1,37

1,45

100

1,31

1,43

100

0,29

X42

0,00

0,00

100

0,02

0,14

100

1,42

X43

0,42

0,78

100

0,45

0,73

100

0,28

X44

0,20

0,55

100

0,23

0,55

100

0,39

X45

0,34

0,57

100

0,35

0,58

100

0,12

X46

1,00

2,14

100

0,75

1,47

100

0,96

X47

1,08

1,06

100

0,93

1,08

100

0,99

X48

1,21

1,34

100

1,26

1,33

100

0,26

X49

3,44

3,77

100

3,64

4,42

100

0,34

X50

2,83

2,98

100

2,93

3,20

100

0,23

X51

0,61

1,21

100

0,71

1,57

100

0,50

 

Значения t-критерия для пяти параметров оказались больше критического, что позволило определить параметры X02 (число элементарных предложений), X04 (число сочиненных предложений), X21 (число спрягаемых форм глагола), X31 (число подлежащих), X32 (число местоимений-подлежащих) как информативные.

Второй этап схемы М. М. Бонгарда предусматривает процедуру свертывания параметрического пространства на подмножестве информативных параметров (узнать подробнее).Результаты вычисления с помощью программного обеспечения критерия эффективности каждого параметра показали, что дальнейшего уменьшения числа диагностирующих параметров не произошло, и информативный набор составили пять параметров, полученных на первом этапе:

Информативные параметры

Параметр

Наименование параметра

X02

Число элементарных предложений

X04

Число сочиненных предложений

X21

Число спрягаемых форм глагола

X31

Число подлежащих

X32

Число местоимений-подлежащих

См. также: статья "Отбор информативных параметров" в pdf.

>>> читать далее о создании математических моделей

Полезные ссылки:
Авторы исследований
проф. Марусенко М.А.
Родионова Е.С.
Синелёва А.В.
Слаутина М.Ю.
Хозяинов С. А.
Чепига В.П.
Шувалова Е.Е.
Петрова A.Д.
Фотогалерея
Санкт-Петербургский государственный университет
©2009-2011 Все права защищены и принадлежат авторам сайта corneille-moliere.com
Использование любых материалов, опубликованных на данном сайте, возможно только при письменном разрешении авторов.
©2009 - 2011 Generatum Ltd.