Как работать stata на русском языке. Краткий обзор некоторых статистических пакетов. Универсальная статистическая система SYSTAT

  • 31.03.2019

Транскрипт

1 Глава 3 Краткое описание пакета Stata Программа Stata StataCorp. (1999, 2001) это универсальный пакет для решения статистических задач в самых разных прикладных областях: экономике, медицине, биологии, социологии. Впервые пакет вышел на рынок под этим названием в начале 80-х гг. В январе 1999 г. была выпущена шестая версия, в декабре 2000 г. седьмая. Основными достоинствами Stata являются: большой спектр реализованных статистических методов (хотя и есть методы, не реализованные практически никак, например, дискриминантный анализ, кластерный анализ, обобщенный метод моментов, ряд других); возможности гибкой пакетной обработки данных (т. е. программирования всей последовательности команд, начиная от загрузки данных в память и вплоть до всех деталей анализа). Возможности интерактивного режима работы полностью идентичны возможностям пакетной обработки; относительная простота написания собственных программных модулей, и, вместе с тем, весьма серьезный спектр средств программирования; мощная поддержка как со стороны производителя, так и со стороны других пользователей Stata (через интернетовский список рассылки); огромный архив пользовательских программ в открытом доступе; возможность максимизации функций правдоподобия, задаваемых пользователем; 70

2 наличие совместимых по функциональным возможностям и форматам данных реализаций для большинства популярных платформ (Windows, Macintosh, UNIX). По поводу графических средств мнения пользователей разнятся: с одной стороны, они вполне достаточны для текущего графического анализа данных и подготовки научных публикаций (все рисунки в этой книге выполнены в Stata и импортированы в L A TEX), с другой, несравнимы с графическими возможностями специализированных пакетов типа Harvard Graphics или презентационных программ типа PowerPoint. Ниже будет приведена сводка наиболее важных команд пакета. Эта сводка вряд ли сможет заменить изучение этих (и, естественно, других) команд по руководствам пользователя или хотя бы по встроенной подсказке Stata (например, не все детали синтаксиса и не все опции могут быть упомянуты в данном кратком введении). Скорее, она поможет найти, какими командами и для чего следует воспользоваться; более полное и точное описание этих команд можно найти во встроенной помощи Stata и в руководствах. Многие команды будут упомянуты лишь на уровне названия (что, впрочем, достаточно для поиска по встроенной подсказке Stata). Читателю настоятельно советуется овладеть и пользоваться встроенной помощью Stata по командам и деталям внутреннего устройства пакета. 3.1 Договориться: обозначения Мы будем пользоваться следующими обозначениями, выдержанными в стиле руководств Stata. Так, command команда, которую можно набирать целиком, а можно сократить до первых трех букв (например, regress можно написать как reg, а можно как regress). [в квадратных скобках ] будут указаны необязательные фрагменты команды необязательные опции, списки переменных и т. п. Курсивом мы будем обозначать то, что пользователь подставляет по своему разумению названия переменных, численные значения параметров программ и т. п. Через вертикальную черту будут перечисляться возможные варианты: [вариант 1 вариант 2]. Таким образом, запись describe [ переменные using имя файла ] может разворачиваться в следующие варианты: d describe 71

3 describe x1 x2 x3 d using source desc using source.dta Эта команда выдает краткое описание файла данных в памяти Stata или на диске. Ссылки на руководства также оформляются в стиле Stata: [R] команда означает, что эту команду можно найти в четырехтомном справочнике команд (Reference); [U] 3 A brief description of Stata это ссылка на Руководство пользователя, а именно на главу 3 в книге User"s Guide (для Stata 6) описание Stata в руководстве пользователя (то, что можно почитать о Stata вместо этого параграфа); [G] twoway описание двумерных графиков в руководстве по графике. 3.2 Открыть: установка и запуск Stata Обычно Stata устанавливается в каталог c:/stata, если при установке не было явно указано иное. Исполняемый файл называется wstata.exe (Stata for Windows). Команда verinst проверяет корректность установки пакета. Сам этот исполняемый модуль выполняет сравнительно небольшое число (около 200) базовых процедур. Подавляющее большинство собственно статистических задач выполняется внешними программами с расширением.ado, находящимися в каталоге c:/stata/ado и его подкаталогах. Эти ado-файлы с некоторой степенью условности можно разделить на базовые (около 900), отлаженные разработчиком и входящие в комплект поставки Stata, (хотя и в них иногда находят ошибки, и тогда Stata делает официальные обновления ado-файлов); официально распространяемые, входящие в состав официальных дополнений к Stata Stata Technical Bulletin, сокращенно STB, которые рассылаются подписчикам и распространяются бесплатно через Internet; и, наконец, пользовательские. При запуске Stata устанавливает ряд внутренних параметров, таких, как объем выделяемой памяти, и некоторые другие (о них можно узнать в [R] limits или в подсказке help limits). Практически наверняка вам придется менять следующие установки: set memory объем памяти Объем памяти, выделяемой операционной системой для Stata. Чтобы отвести 10 мегабайт, надо напечатать: set memory 10m. Можно выделить память при запуске па- 72

4 раметром командной строки: wstata /k Если количество переменных ограни- чено 2047, то количество наблюдений может быть ограничено только возможностью выделения памяти операционной системой. При выделении количества памяти, приближающейся к физическому объему ОЗУ (или тем более превышающего этот объем), Stata начинает пользоваться виртуальной памятью (постоянно перезагружаемой с жесткого диска), и работа может замедляться в сотни раз. set matsize число Максимальный размер матрицы, которую Stata сможет обработать. По умолчанию устанавливается 10. Максимальный размер 800. Этот параметр влияет на размерность статистических моделей, которые Stata будет в состоянии оценить. Stata может быть запущена в пакетном режиме, в котором она обрабатывает заданную в качестве входного параметра программу 1, а по завершении выполнения этой программы передает управление операционной системе (или, попросту говоря, самоликвидируется). Такой вариант запуска задается (в Windows) как wstata /b do имя файла с программой. Выход из Stata осуществляется командой exit. Если при этом данные не были сохранены, Stata об этом напомнит. См. также: [U] 5 Starting and stopping Stata, [U] 6 Troubleshooting starting and stopping Stata 3.3 Придти, увидеть, посчитать: интерфейс Stata Внешний вид Stata (рис. 3.3) несколько отличен от того, что обычно можно увидеть в других статистических пакетах. Внешний аскетизм интерфейса унаследован от идеологии командной строки UNIX, и пользователю Windows требуется некоторое привыкание. Stata использует в работе несколько окон: окно ввода команд (Stata Command), окно вывода результатов (Stata Results), окно истории, или предыдущих команд (Review), окно переменных (Variables), окно поиска и помощи (Help), графический экран (Graph), окно файла-протокола, или log-файла (Log; в 7-й версии его функцию выполняет окно Viewer). Можно также вызвать окна просмотра данных (Stata Browser) или 1 О программах см. ниже параграф

5 74 Рис. 3.1: Интерфейс Stata.

6 редактирования данных (Stata Editor), а также редактор программ (Stata Do-file Editor). Переключаться между окнами можно, тыкаясь мышкой в любое место на нужном окне, либо через меню Windows. При вводе команд в окне Stata Command можно пользоваться стандартными средствами редактирования в Windows (выделения, стирания, вставки в буфер и из буфера). Можно вызывать предыдущие команды, нажимая PgUp и PgDn, и редактировать их (что очень полезно, если при вводе команды были допущены мелкие опечатки, или если надо добавить какие-то опции или условия к предыдущей команде). Можно менять кое-какие установки Stata в меню Prefs, например, сохранить текущие установки окон (размеры, положение, шрифты). См. также: , т.е. руководство Getting Started for Windows. 3.4 Обобщить: как выглядят команды Stata Команды Stata, как правило, имеют следующий вид: команда [список переменных ] [[веса]], [опции] Список переменных может состоять из одной переменной (например, если нужно получить сводные статистики или построить гистограмму), из двух (расчет корреляций или построение диаграммы рассеяния) и более (регрессии, графики со многими переменными). Условия if и in выделяют те наблюдения, для которых необходимо провести анализ (см. ниже параграф 3.6). Если команда предполагает работу с файлами (чтение, объединение и т.п.), то имя файла, с которым необходимо провести указанные действия, передается в конструкции using. Если разным наблюдениям необходимо придать разные веса, то для этого используется конструкция типа (см. help weights; квадратные скобки обязательны). Наконец, дополнительные модификаторы и параметры, влияющие на выполнение команд Stata или вывод результатов, а также все, что не поместилось в упомянутые рамки синтаксиса, записываются в опции. Есть несколько исключений из вышеупомянутого синтаксиса, в т.ч. команды, выполняющие повторные действия см. ниже параграф См. также: [U] 14 Language syntax 75

7 3.5 Узнать: помощь В Windows-верии Stata для поиска нужной информации проще всего воспользоваться меню Help, в котором имеются подменю Search (поиск по ключевым словам, например, Durbin Watson statistic) и Stata Command (файл помощи по конкретной команде Stata). Впрочем, практически все то же самое можно сделать с клавиатуры командами search, help и whelp. Содержимое встроенной подсказки полностью дублируется в открытом доступе на сайте Stata: Встроенная помощь Stata устроена гипертекстовым образом: если подвести мышку к фрагменту текста, выделенному зеленым цветом, то курсор превратится в ладошку, а если нажать при этом на левую кнопку мыши 2, то будет выведен соответствующий фрагмент подсказки Stata. Если зеленым цветом помечена ссылка в Internet, то Stata запустит внешний браузер (MS Internet Explorer, Netscape Navigator). В Stata 7 эти действия можно выполнять и с результатами, выводимыми в окно Results. Полный список стандартных команд, входящих в состав начальной установки Stata, можно найти в меню Help/Contents (или по команде help contents). Эти команды сгруппированы по тематическим разделам: общее представление о пакете, синтаксис команд, работа с данными, графика, статистические средства, матричные команды, программирование, особенности работы в среде Windows. Все файлы помощи представляют собой специальным образом отформатированные текстовые файлы с расширением.hlp 3. В Stata имеются собственные обучающие средства мини-уроки (являющиеся, с технической точки зрения, специальным видом программ), доступ к которым обеспе- чивается командой tutorial. Они дают краткое введение в пакет, в графические и табличные средства Stata, знакомят с данными, поставляемыми вместе со Stata, и способами перевода текстовых файлов в формат Stata, а также освещают ряд основных статистических команд. См. также: [U] 8 Stata"s on-line help and search facilities, [U] 9 Stata"s on-line tutorials and sample datasets. 2 Для левшей эта кнопка, возможно, будет правой имеется в виду та кнопка, на которой лежит указательный палец. 3 В ОС Windows также имеется формат гипертекстовой помощи, несовместимый с форматом Stata, поэтому кликание на файлах помощи Stata из Проводника (Explorer) Windows ни к чему не приведет. 76

8 3.6 Ограничить: условные модификаторы Многие команды Stata позволяют ограничить свое действие на определенные наблюдения. Делается это с помощью условных модификаторов . Условие, задаемое под if это логическое выражение, в котором могут использоваться операторы отношений > ("больше"), < ("меньше"), >= ("больше или равно"), <= ("меньше или равно"), == ("равно", двойной знак использован для того, чтобы не спутать с операцией присвоения),! = или = ("не равно"); логические операции & ("и"), ("или"),! или ("не"), указание на текущее наблюдение _n и на последнее _N, обычные операции и функции, а также скобки для указания приоритета. in указывает диапазон наблюдений вида начало/конец, где в качестве конца диапазона может быть использовано последнее наблюдение, обозначаемое латинской "эл"(l) или как 1. Пропущенное значение (см. ниже описание команды generate, с. 79) тоже может фигурировать как аргумент логической команды. Так, count if x!=. выдаст количество наблюдений, для которых известно значение переменной x. 3.7 Загрузить, сохранить, объединить: работа с файлами Естественно, для того, чтобы данные анализировать, их надо как минимум загрузить в память. Stata обладает достаточно гибкими средствами ввода данных из текстовых файлов (команды infile; infix; insheet; см. также help dictionary и [U] 24 Commands to input data), однако файлы других форматов (Excel, SAS, SPSS, Statistica и т.п.) необходимо предварительно сохранить в виде текста (с разделением данных запятыми, табуляциями, или в фиксированном формате), либо воспользоваться внешними средствами для конвертации данных. В комплект поставки Professional Stata входит чрезвычайно полезная Windows-утилита StatTransfer (позволяющая преобразовывать данные между двумя десятками различных форматов. Другая похожая по функциональным возможностям программа DBMS/COPY. Работу с уже имеющимися файлами данных формата Stata можно осуществлять из меню File, а можно и с клавиатуры. use имя файла, 77

9 Загрузить в память указанный файл. Опция use..., clear показывает, что при этом нужно уничтожить все данные, находящиеся в памяти. Если размер оперативной памяти (точнее, размер свободной памяти, остающейся после Windows и прочих приложений) не позволяет втиснуть в нее необходимый файл, то можно воспользоваться вариантом use переменные using имя файла , выбрав модификаторами только те переменные и/или только те наблюдения, которые нужны для работы. С помощью этого трюка можно проводить черновой анализ для задач большого объема, т.е. отработать последовательность команд на некоторой подвыборке, сохранить алгоритм работы с данными в виде do-файла (см. параграф 3.13), а потом оставить на выходные машину считать все то же самое по полной выборке. save имя файла, Сохранить данные из памяти на диск под указанным именем. Опция replace указывает, что файл надо переписать, если он существует. Если нет не беда, он будет создан. Опция old нужна для сохранения данных из-под Stata 6 в формате Stata 4-5 (т.е. для обмена данными с обладателями Stata более ранних версий). В Stata 7 опция old позволяет записать данные в формате Stata 6. merge список ключевых переменных using имя файла, Добавить данные из указанного файла к данным, находящимся в памяти. Необходима для пополнения данных вширь, т. е. для добавления переменных. Необходимо, чтобы в обоих файлах (которые на жаргоне Stata называются master data и using data) имелись ключевые переменные, т. е. переменные, однозначно идентифицирующие наблюдения, а также чтобы файлы были отсортированы по этим переменным, см. [R] sort и ниже команду sort. Некоторые из этих ограничений преодолеваются командой mmerge Wessie (1999), которую необходимо устанавливать дополнительно (см. раздел 3.17). Опция nokeep указывает, что не надо добавлять наблюдения, которые встречаются только в using data. append using имя файла Добавить данные из указанного файла в длину, т. е. добавить новые наблюдения. См. также: [U] 25 Commands for combining data 78

10 3.8 Добавить, выбросить, переименовать: работа с данными В Stata имеется несколько типов данных. Первый уровень разделения это данные строковые и числовые. Числовые делятся в свою очередь на целые и действительные, а внутри каждого класса есть различия в точности представления; см. [U] data types, help datatypes. generate [ тип] имя переменной = выражение Создать новую переменную, возможно, указанного типа, и присвоить ей значение выражения. Имя переменной в шестой версии Stata может быть длиной до восьми символов, а в седьмой 32, включать в себя буквы (верхний и нижний регистр различаются), цифры или знак подчеркивания, и должно начинаться с буквы. В выражение могут входить числа, переменные, фигурировать арифметические операции, функции (математические, статистические, строковые и пр.), логические условия (которые вычисляются как 1 истина и 0 ложь), а также обозначение для пропущенного значения (missing value) точка (.). Stata устроена так, что пропущенное значение равняется плюс бесконечности. Все операции с пропущенным значением будут давать пропущенное значение (кроме логических операций сравнения). Команда g byte nonmissx=x<. создаст новую переменную nonmiss типа byte (т.е. наименьшего возможного размера), которая будет равна 1, если переменная x имеет конечное значение, и 0, если x не определена. Об условиях и диапазонах говорится ниже, в разделе 3.6. См. также [U] 14 Language syntax, [U] 15 Data, Functions and expressions. egen [ тип] имя переменной = egen-функция(выражение) , Более мощная функция для создания новых переменных, позволяющая рассчитывать средние, медианы, минимумы, максимумы, суммы значений и т. п. по всей выборке или по группам, задаваемым переменными-идентификторами. Подробный список поддерживаемых функций и статистик имеется в [R] egen или help egen. xi специальные выражения xi: команда Stata со специальными выражениями Позволяет создать набор бинарных (0/1) переменных из категорийной, или выполнить указанную команду, включив в список переменных создаваемый на ходу набор бинарных переменных. Одна из категорий берется как базовая, и для нее бинарная пе- 79

11 ременная не создается, т.е. корректно отрабатывается проблема статистической связи между получаемыми бинарными переменными. Специальные выражения имеют вид i.категорийная переменная. recode Изменяет значения переменной. Актуально для перекодировки значений категорийной переменной или для соединения нескольких категорий в одну. replace имя переменной =выражение Заменить значения уже существующей переменной. rename имя переменной новое имя drop Переименовать переменную. if условие in диапазон drop переменные Удалить наблюдения, удовлетворяющие указанным условиям. Удалить указанные переменные. list [переменные] Вывести значения указанных переменных (если не указано ничего, то всех) для наблюдений, удовлетворяющих указанным условиям (если никаких условий не указано, то вывести все наблюдения). edit [переменные] Вручную редактировать указанные переменные для указанных наблюдений. Stata предоставляет для этой цели что-то вроде примитивных электронных таблиц. Использовать подобный режим для внесения изменений в данные не рекомендуется в целях обеспечения воспроизводимости результатов. browse [ переменные] aorder Просмотреть значения указанных переменных для указанных наблюдений. То же, что и edit, только изменять ничего нельзя. sort переменные Отсортировать переменные по алфавиту. gsort + -переменная... Отсортировать данные по указанным переменным. compress [ переменные] Привести переменные (если не указано, какие, то все) к минимально возможному типу, снижая тем самым объем памяти, необходимый для их хранения. 80

12 reshape Достаточно продвинутая команда, необходимая для изменения представления группированных данных например, панельных. Она переводит данные из длинного (long) формата, в котором на каждый объект панели имеется несколько наблюдений, соответствующих разным моментам времени (много наблюдений, откладываемых в длину мало переменных, откладываемых в ширину), в широкий формат (мало наблюдений много переменных), в котором наблюдения соответствуют объектам, а данные записаны в виде переменных, называния которых заканчиваются на дату. Так, файл с переменными income96, income97, income98 это данные в широком формате, а файл с переменными income, year, где year принимает значения 96, 97, 98 это данные в длинном формате. Панельные команды Stata, имеющие префикс xt), работают с данными в длинном формате. describe [ переменные ] , label Вывести описание данных и переменных: формат, метки и т. п. Эта команда показывает также количество наблюдений и переменных, изменялись ли данные с момента последнего сохранения, по каким переменным отсортированы наблюдения. Можно указать файл, находящийся на жестком диске. Приписать метки к данным или переменным. label variable имя переменной "текст" создает метку переменной, которая выводится командой describe и видна в окне переменных. Можно также задать метку для файла данных (информация о файле данных хранится в сопровождающем его объекте _dta, и соответствующая команда будет иметь вид label data). Эта метка будет выводиться при исполнении use и describe. Можно также задать метки для отдельных значений дискретной переменной через label define и label values. Признаком хорошего стиля работы с данными является придание меток создаваемым переменным: после любой команды generate или egen должно идти label variable. notes [_dta переменная] : " текст" Еще один вариант создания примечаний о файле или переменных. Если командой label всем данным в целом или отдельной переменной можно приписать только одну метку ограниченной длины, то notes позволяет приписать к каждой переменной или к _dta произвольное число меток произвольной длины. Примечания удобны для внесения комментариев типа: Разобраться с этой переменной; Данные за 1994 г. сверены; Файл получен программой households.do и т.п. 81

13 lookfor текст Ищет указанный текст в названиях и метках переменных. clear Очистить память, выгрузив все данные, метки, программы, макросы. 3.9 Оценить: основные статистические средства summarize переменные , Сводка описательных статистик, таких, как количество наблюдений, среднее, стандартное отклонение, максимум, минимум. Опция detail позволяет вывести также характерные квантили, несколько самых больших и самых маленьких значений и коэффициенты асимметрии и эксцесса. Прочие команды, описывающие данные в компактном виде lv; codebook и inspect. Для дискретных переменных, принимающих небольшое число значений, будут полезны команды табуляции tabulate или table см. ниже. correlate переменные , Выводит матрицу корреляций между переменными в указанном диапазоне. Опция covariance указывает, что надо вывести ковариационную матрицу. Матрицы вычисляются по тем наблюдениям, для которых имеются значения всех указанных переменных. pwcorr переменные , sig obs Выводит матрицу попарных корреляций, т. е. корреляций, рассчитанных по наблюдениям, в которых значения соответствующих переменных попарно не пропущены. Опция sig выводит уровень значимости корреляции (в предположении совместной нормальности), а obs количество наблюдений. tabulate переменные и table переменные Построение различных таблиц, содержащих агрегированную информацию по переменным. Поддерживаются метки переменных и отдельных значений. Введение в эти команды дается уроком tutorial tables. См. также [U] 28 Commands for dealing with categorical variables regress зависимая переменная объясняющие переменные , robust noconst cluster(групповая переменная) 82

14 Оценивание линейной регрессии зависимой переменной на объясняющие. Выводятся основные результаты оценивания: количество наблюдений, таблица дисперсионного анализа, статистики F, R 2, Radj 2, а также таблица оценок коэффициентов, стандартных отклонений оценок, t-статистик и доверительных интервалов (см. с. 55 с примером регрессии). Опция robust задает оценку ковариационной матрицы оценок коэффициентов в форме Вайта (2.29), учитывающей гетероскедастичность. Опция cluster указывает, что ковариационная матрица должна учитывать группировку наблюдений (как в стратифицированных обследованиях). Опция noconst указывает, что в модель, оценивамую Stata, не следует включать константу (как это делается по умолчанию). После команды regress можно получать прогнозные значения, остатки и строить диагностические переменные командой predict или проводить диагностику регрессии, не прогоняя регрессию заново. Введение в эту команду предоставляется уроком tutorial regress. Команды оценивания статистических моделей в Stata имеют много общего. В частности, после всех таких команд можно отдавать команду predict, которая будет строить значения тех или иных выражений, связанных с результатами оценивания; получать матрицы самих оценок параметров (матрица-столбец e(b)) и их ковариационную матрицу (e(v)); строить тесты на линейные (test) и нелинейные (testnl, с использованием дельта-метода для получения ковариационной матрицы нелинейных функций оценок) комбинации параметров, и т.д. Можно вывести результаты оценивания, не показанные в основном блоке вывода, командой estimates list. Отдельные коэффициенты можно получать в виде _b[имя переменной], а их стандартные ошибки _se[имя переменной]. Специфика команд, оценивающих параметрические модели, описана в разделах help est и help postest встроенной подсказки Stata. В пакете Stata имеется широчайший спектр статистических команд, важных для эконометрического анализа 4: регрессия с инструментальными переменными ivreg, робастная регрессия rreg, одновременные уравнения reg3, нелинейный МНК nl; модели временных рядов (help time): модели авторегрессии со скользящим средним arima; автокорреляции ac и частные автокорреляции pac; модели с условной гетероскедастичностью arch; регрессия с ковариационной матрицей Ньюи- 4 Подробности см. help название команды. 83

15 Веста (2.31) newey; проверка гипотез о единичных корнях временного ряда dfuller; pperron; обобщенные линейные модели (glm); средства дисперсионного анализа (anova; oneway; loneway), средства факторного анализа и анализа главных компонент (factor); средства анализа таблиц сопряженности (более подробные опции команд table; tabulate; epitab); средства анализа панельных моделей (команды с префиксом xt, например, xtreg, re и xtreg, fe регрессии со случайным и фиксированным панельным эффектом; xtgls регрессии с коррелированными остатками; xtlogit и xtprobit панельные регрессии с бинарной зависимой переменной. Подробности см. help xt, а также [U] Panel-data models); средства анализа данных типа длительностей, или времени жизни, или времени отказа (survival time; команды с префиксом st; см. help st, а также [U] Survival-time (failure time) models); средства анализа стратифицированных обследований (survey; команды с префиксом svy; см. help svy, а также [U] 30 Overview of survey estimation); средства анализа моделей с бинарной зависимой переменной (logit; logistic; lfit; probit; dprobit предельные эффекты в пробит-модели); тесты на равенство средних (ttest), дисперсий (sdtest) и медиан (ранговые и знаковые тесты signrank; signtest; ranksum; kwallis); ранговые корреляции (spearman; ktau); возможность максимизации функций правдоподобия, запрограммированных пользователем (ml); в Stata 7 исчерпывающий набор средств кластерного анализа; и многое, многое другое. 84

16 Полная стандартная поставка пакета Stata насчитывает около 500 команд для конечного пользователя (плюс большое число внутренних или программистских модулей). Примерно столько же содержится в официальных дополнениях (STB), и еще около полутысячи команд (по состоянию на конец 2000 г.) находится в интернетовском архиве SSC-IDEAS (см. раздел 3.16) Посчитать: функции В пакете Stata реализовано довольно большое число различных функций: математи- ческих (логарифмы, тригонометрические функции, модуль, корень и т. п.); статисти- ческие (плотности и функции распределения; в седьмой версии они приведены в некоторый порядок по сравнению с предыдущими), генератор псевдослучайных чисел (с периодом 2 126, 2 32 различными значениями и с возможностью инициализации пользователем для воспроизводимости вычислительных экспериментов), строковые функции, функции для работ с датами, функции от матриц (определитель, обратная), константа (_pi) и ряд других. Полный список можно получить через help functions или [U] 16.3 Functions, [R] functions. О возможностях написания пользовательских функций см. раздел Повторить: циклы Stata обладает довольно своеобразными средствами повтора тех или иных команд для разных групп наблюдений, разных переменных и прочих случаев. Обычно этих средств хватает для выполнения требуемых задач, но иногда приходится прибегать к более изощренным трюкам. by идентификатор(ы) групп: команда Stata Эта команда повторяет указанную команду Stata отдельно для каждого набора наблюдений с одинаковыми значиениями групповых переменных. Иными словами, Stata разбивает все данные на отдельные группы согласно групповым переменным (идентификаторам), и выполняет указанную команду для каждой из групп по отдельности. При этом указатель последнего наблюдения _N указывает на последнее наблюдение в группе. Необходимо, чтобы данные были отсортированы по этим групповым перемен- 85

17 ным, в противном случае Stata выдаст сообщение об ошибке. for тип списка список [: for тип списка список... ]: команда Stata с символом X [Y] [ \ команда Stata с символом X [Y]... ] Поддерживаемые типы списков: список чисел (numlist), список переменных (varlist), произвольный список (anylist). Числа от 1 до 10 можно задать следующими способами: 1(1)10, или 1 2 to 10, или 1/10. В списке переменных можно использовать переменные, стоящие друг за другом, через тире. Можно использовать * как заменитель любого символа: u* означает все переменные, начинающиеся на "u". Подробнее о списках: [U] 14 Language syntax, help numlist, help varlist. Команда for осуществляет цикл в обычном алгоритмическом понимании этого слова. Она перебирает элементы списка и подставляет их вместо X в исполняемой команде (командах). Если задано больше одного for через двоеточие, то Stata выполнит указанные команды для всех сочетаний X из первого списка Ч Y из второго, и т.д. Stata честно пытается информировать пользователя о каждом отдельном значении групповых переменных by или параметра for, для которого выполняется очередное действие, и если список составляет несколько сотен, то весь процесс может оказаться несколько утомителен, да и вывод на экран иногда является самым медленным элементом вычислительного конвейера Stata. Чтобы команды ничего не выводили на экран, перед for и by можно задать, как и перед любой из команд Stata, префикс quietly, например: qui for var x1-x5: g lx=log(x) \ lab var lx "log of X" В седьмой версии пакета возможности циклов несколько расширены командами forvalues и foreach Запомнить: результаты работы Естественно, результаты работы по статистическому анализу данных не должны погибать вместе с концом сеанса Stata. Можно копировать эти результаты непосредственно из окна результатов Stata и через буфер обмена переносить в прочие приложения, однако есть более естественный способ. log using имя файла, [ append replace ] log on off close 86

18 Эта команда записывает все, что Stata выводит в окно результатов, в указанный файл (добавляя либо перезаписывая этот файл, в соответствии с опциями append либо replace, если такой файл существует). log off временно прекращает запись в файл, log on возобновляет запись в файл, log close прекращает запись и закрывает файл. Команды, связанные с log-файлом, продублированы на панели инструментов Stata кнопочкой со светофором. Log-файлы лучше всего печатать непосредственно из Stata, поскольку Stata умеет автоматически приукрашивать текст (выделяя полужирным шрифтом команды, проставляя даты и т.п.). В Stata 7 есть два вида log-файлов: командный (в который пишутся только команды, отдаваемые пользователем, что дает возможность быстро конвертировать результаты работы в программу) и полный (в который пишутся как команды, так и результаты их исполнения). Запись команд в командный log-файл задается конструкцией cmdlog using имя файла. Есть также недокументированные способы записи log-файлов в форматах HTML и texman log html имя файла и log texman имя файла. Есть еще один вариант сохранения статистических результатов исследований прекрасная пользовательская команда outreg Gallup (2001), которая записывает результаты регрессий в отдельный текстовый файл в соответствии с принятыми в статистической и эконометрической литературе обозначениями: столбцы коэффициентов со стандартными ошибками в скобках, число наблюдений, статистика R 2 и прочие статистики. Этот модуль требует, впрочем, отдельной установки, см. [R] stb, help stb. Самую свежую версию можно найти на сайте архива SSC-IDEAS, см. параграф Наконец, список нескольких последних команд можно получить командой #review [количество команд]. См. также: [U] Printing and preserving output Запустить: do-файлы Произвольную последовательность команд Stata можно записать в отдельный файл не более одной команды в строке и выполнить всю последовательность одной командой. Традиционно файлы, в которых записаны подготовленные таким образом программы, носят расширение.do, а команда, выполняющая эти do-файлы, так и называется: 87

19 do имя файла аргументы, Stata прекращает исполнение do-файла, когда натыкается на ошибку. Можно этого избежать, установив опцию nostop. Если не требуется вывод на экран, то вместо do можно запустить программу командой run. Впрочем, в случае аварийного останова Stata все равно выдаст сообщение об ошибке, вполне справедливо полагая, что пользователь должен об этом знать. В текст do-файла можно вставлять комментарии, оформляемые в стиле языка программирования C, т. е. /* открывает комментарий, а */ закрывает. Кроме того, строка, начинающаяся со звездочки *, также считается комментарием и полностью игнорируется. Эта строка, тем не менее, является командой, в том смысле, что Stata выводит ее в окно вывода и в log-файл. Можно таким образом вводить комментарии и при интерактивной работе. Когда возможностей for не хватает, можно попробовать написать отдельный doфайл для выполнения требуемых действий и передавать ему X (или каким-то образом преобразованное выражение с X) в качестве одного из аргументов. Можно дать несколько советов по созданию do-файлов 5. Для того, чтобы гарантировать воспроизводимость всех результатов, необходимо оформлять все полезные действия, вплоть до изменения значения одной переменной в одном наблюдении, как строки do-файла. Автору этих строк неоднократно приходилось выяснять вместе с коллегами, почему у них получаются разные результаты при использовании вроде бы одних и тех же методов обработки и анализа и вроде бы одних и тех же файлов данных, и именно для исключения подобных ситуаций и разработаны эти советы. На каждый отдельный исследовательский проект надо заводить отводить отдельный каталог, а исходные данные сохранять неизменными и соответствующими исходным статистическим первоисточникам (справочникам, известным базам данных и т.п.), вынося все необходимые поправки и изменения в do-файлы. После существенных изменений в данных (таких, как команды reshape, merge или создания большого количества новых переменных не забывайте придавать им мет- 5 С разрешения Stata Corp., по материалам Net Course 151 по программированию в пакете Stata. 88

20 ки!) стоит сохранить полученные (промежуточные) результаты. Название файла должно отражать его происхождение или содержание, либо же должно содержать признаки того, что данные вторичны (например, можно начинать названия несущественных файлов с тильды или подчеркивания). Более подробную информацию о происхождении файлов данных можно записывать в эти файлы командами label data и notes. Стоит каждый do-файл начинать "с нуля", а log-файл, отслеживающий происходящее, должен открываться в том же do-файле. Отслеживать результаты работы будет проще всего, если имя log-файла совпадает с именем do-файла (или, если do-файл должен использовать какие-то параметры, эти параметры также должны фигурировать в названии log-файла, благо Stata поддерживает длинные имена Windows). Примерная "рыба"do-файла, который называется, скажем, income98.do, будет такова: clear version 6 set memory 10m log using income98, replace use income98 * еще какие-то действия... log close exit Stata Corporation предлагает превосходные Internet-курсы по программированию в пакете Stata. Автор этого пособия участвовал в таких курсах и считает, что они заметно помогли ему в освоении возможностей пакета. См. также: [U] 19 Do-files 89

21 3.14 Нарисовать: графика Мир графических средств пакета Stata начинается командой graph, у которой имеется добрая сотня разнообразных опций на разнообразные случаи жизни. Наиболее часто используемые графики реализованы в виде отдельных команд. graph переменные, [опции] Команда graph одна, но вариантов воплощения у нее очень много. Краткий рассказ об этих возможностях дается уроком tutorial graphics. Если команда graph содержит одну переменную, то эта команда интерпретируется как задание построить гистограмму. По умолчанию Stata разбивает диапазон изменения переменной на пять интервалов (bins), что, как правило, недостаточно информативно, поэтому имеет смысл увеличить число интервалов опцией graph..., bin(50). Можно наложить поверх гистограммы плотность нормального распределения с аналогичным средним и дисперсией для визуального контроля нормальности с помощью опции graph..., norm. Еще несколько разновидностей графиков, описывающих одну переменную, даются опциями graph..., box (график box-whisker, отражающий основные квантили распределения 6) star (роза ветров) bar (столбцовая диаграмма) pie (круговая диаграмма). Более подробную помощь можно найти по ключевым словам grhist и graph. Диаграмма рассеяния выводится командой graph, но с двумя аргументами: graph ось y ось x. Из основных опций (перечисляемых через запятую в командной строке), которые имеет смысл указывать для диаграммы рассеяния, стоит упомянуть: symbol символ, которым будет помечаться выводимое наблюдение; symbol(.) выведет маленькую точку, symbol(o) маленький кружок, symbol([переменная]) значение указанной переменной; symbol([_n]) номер наблюдения. connect соединение точек; connect(.) означает, что точки соединять не надо, connect(l) что точки надо соединить тонкой линией; connect(s) провести сплайн через соседние точки. Сплайн является одним из видов непараметриче- 6 На таком графике ящик (box) ограничен верхним и нижним квартилями, средняя линия ящика проводится на уровне медианы, а усы (whiskers) это удвоенные разности между медианой и квартилями. 90

22 ской регрессии (см. параграф 2.6.5). В седьмой версии пакета можно задать стили линий, указывая их в квадратных скобках после символа, задающего соединение точек: connect(l[-]) пунктирная линия, connect(l[_]) длинная пукнтирная линия, connect(l[.]) короткая пунктирная линия. Эти стили можно со- четать connect(l[-.]) выдаст штрих-пунктирную линию. sort перед соединением точек, задаваемой опцией connect, отсортировать наблюдения по переменной на оси x (во избежание заполнения экрана паутинообразной ломаной). bands количество соседних точек, используемых для вычисления сплайна. Чем ниже число, задаваемое этой опцией, тем более гладкой будет кривая непараметрической регрессии. density количество точек на графике сплайна. Чем больше это число, тем более гладким будет изображение сплайна. Гладкость самого сплайна регулируется опцией bands. xlab и ylab числовые метки на осях. xtick и ytick зарубки на осях. xline и yline вертикальные и горизонтальные линии на графике. xscale и yscale диапазон осей. title заглавие графика. В данном контексте Stata не понимает русский текст. Эти и другие опции описываются в подсказке grtwoway. Если в команде graph указать более двух переменных, то Stata построит графики зависимости всех переменных от последней, т.е. список переменных интерпретируется как y 1,..., y n1, x. Матрица попарных диаграмм рассеяния выводится с помощью опции graph, matrix. Графики Stata можно сохранять в собственном формате.gph, указывая после любой графической команды опцию graph..., saving(имя файла). Эти сохраненные графики можно потом просмотреть заново командой graph using имя файла(ов). Stata позволяет сочетать на одном рисунке несколько графиков см. подсказку по команде 91

23 help grother. Кроме того, через меню File можно сохранять графику и в виде, понятном Windows-приложениям (в виде растровой графики.bmp или векторной.wmf), или переносить в другие приложения через буфер Windows. Для встраивания графики Stata 6 в L A TEX надо приложить определенные старания. Общее направление действий сохранить в формате PostScript (.ps) конвертировать в Encapsulated PostScript (.eps) или PDF экспортировать в L A TEX средствами пакета graphicx. В UNIX-овых версиях Stata есть утилиты gphpen и gphprint, которые позволяют сохранить графики в виде PostScript-файла. Пользователям Windows, видимо, необходимо установить PostScript-принтер и получать PostScript-файлы, посылая графики на печать и отмечая опцию "Печатать в файл". В качестве PS-принтера можно использовать и Acrobat Distiller из пакета Adobe Acrobat (не Acrobat Reader). Возможно, впрочем, что полученный таким образом файл будет содержать специфические команды принтера, поэтому его предварительно необходимо пропустить через конвертер, который оставил бы только ортодоксальные ключевые слова PostScript. Если используется пакет, создающий из L A TEXовского файла PDF-файл (например, pdflatex пакета fptex), то можно из Stata отправлять графические файлы на печать в Acrobat Distiller и получать PDF-файлы с рисунками, которые потом, возможно, надо будет обрезать в Adobe Acrobat. Все эти процессы упрощены в Stata 7 и делаются одной командой translate, которая конвертирует графики в форматы PostScript и Encapsulated PostScript. См. также: [G] 3.15 Уточнить: команды для удовлетворения любопытства В данном разделе будет рассказано о командах, показывающих определенные параметры состояния Stata, и о случаях, когда бывает полезна представляемая ими информация. query Выводит установки текущих параметров (в т. ч. размер матрицы, см. выше set matsize, уровень значимости по умолчанию статистических тестов level, в %, имя текущего log-файла, и т. п.). Эти установки можно менять с помощью команды set, 92

24 примеры которой приводились в разделе 3.2. about memory Выводит основные паметры Stata и компьютера, на котором работает пакет: версия программы, дата создания exe-файла, общий и доступный объем памяти. Выводит информацию о том, сколько памяти отведено для Stata и как она используется. Рекомендуется иметь памяти по меньшей мере на 1520 % больше, чем требуется для данных, поскольку очень многие команды создают временные переменные, временные матрицы или используют память иным образом. adopath Выводит информацию о том, в каких каталогах Stata ищет ado-файлы с новыми программами (см. с. 72 об ado-файлах). Необходимо для установки новых компонент Stata (например, STB-дополнений при их ручном скачивании из Internet, см. параграф 3.17), а также при написании собственных программ в виде ado-файлов. which название команды Выводит информацию о том, в каком файле и в каком каталоге найден ado-файл, выполняющий требуемую команду, а также информацию о версии команды. Может оказаться полезным, если программа дорабатывается автором и необходимо отслеживать наличие последних версий, а также при появлении сообщений об ошибках для обращений в службу технической поддержки Stata или к автору программы Законнектиться: Internet-возможности Stata Адрес Stata в Интернете На этом корпоративном сайте размещаются новости (выход обновлений и новых версий, дополнений к Stata STB, встреч пользовательских групп, объявления об Интернет-курсах по программированию и использованию пакета). Еще один очень полезный адрес Здесь располагается поисковая система архива RePEc (Research Papers in Economics), умение пользоваться которой само по себе полезно для всякого экономиста. Одной из составных частей RePEc является архив программ SSC-IDEAS (Statistical Software Components), написанных пользователями Stata. В этом архиве содержится несколько сотен различных программных модулей, что вполне сопоставимо с количеством команд в 93

25 минимальном варианте установки. Из прочих ресурсов стоит упомянуть лист поддержки 7, на котором можно получить квалифицированную помощь как от других пользователей Stata, так и от самих разработчиков, вплоть до президента корпорации Уильяма Гулда (William Gould). По его словам, оперативная и персональная поддержка пользователей это один из важнейших приоритетов компании. От себя добавлю это еще и одно из самых больших ее достоинств, особенно по сравнению с огромными монстрами типа SAS. Начиная с шестой версии, Stata обладает рядом полезных возможностей, реализуемых через всемирную сеть Интернет. Это обновление пакета, а также доступ к пользовательским программам. update net Установка программ Stata через Internet. Эта команда ищет по указываемым Интернетадресам (URL) или, по умолчанию, на вышеуказанном сайте Stata описания пакетов, которые может установить пользователь, скачивает необходимые файлы и устанавливает их на вашем компьютере. webseek ключевые слова Осуществляет поиск в Internet команд Stata, соответствующих указанным ключевым словами. webseek обращается на сервер Stata, на котором содержится информация о программах STB и других архивах программ Stata, по которым и осуществляется рекурсивный поиск. В седьмой версии команда webseek заменена на net search. Помимо этих команд, работающих через Internet, Stata может выполнять многие действия, связанные с файлами, используя URL файлов вместо их имен. Так, вполне осмысленная команда use загрузит ценный файл auto.dta, на тот случай, если вы случайно стерли оригинал, 7 Чтобы подписаться на этот лист, надо послать письмо на адрес с текстом subscribe statalist. 94

26 поставляющийся вместе с пакетом. Можно получать через Интернет текстовые файлы с данными и конвертировать их в файлы Stata командами infile, infix, insheet, и т.п. Для корректной работы через прокси-сервер необходимо установить его параметры в меню Prefs/General Preferences/Internet Prefs. См. также: [U] 32 Using Internet to keep up to date Надстроить: расширение возможностей Stata Stata динамичный и открытый пакет. От одного до трех раз в месяц Stata выпускает обновления на уровне ado-файлов, доступные по команде update, и примерно раз в квартал выходят обновления исполняемого файла. Однако основная динамика происходит на листе statalist и на архиве программ SSC-IDEAS, где за день может появиться с десяток новых команд (написанных пользователями Stata для решения своих исследовательских задач, либо в качестве ответа на вопросы, задаваемые на statalist). Stata публикует официальные дополнения к пакету под названием Stata Technical Bulletin (или, сокращенно, STB). Они выходят раз в два месяца, и состоят из программ (распространяемых бесплатно через Интернет) и небольшой брошюры, похожей по формату на руководства пользователя Stata. Для того, чтобы установить у себя программы из этих бюллетеней, надо отдать команды net net cd stb или обратиться к меню Help/STB and User-written Programs для доступа к ado- и hlpфайлам на сервере Stata. В предыдущих версиях Stata всех этих возможностей работы через Интернет не было, поэтому для установки STB-дополнений или программ из архива SSC-IDEAS было необходимо скачивать их вручную с Интернета, а потом либо копировать в каталог, зарегистированный в adopath (см. с. 93), либо устанавливать средствами Stata командой install. Пользователи 6-й или 7-й версии, у которых нет постоянного или хотя бы модемного соединения с Интернетом, будут вынуждены ходить с дискетами к знакомым, у которых доступ есть, скачивать необходимые команды на дискету, а потом устанавливать их командой install from a:. 95

27 Есть еще один технический момент, связанный с представлением текстовых файлов в Windows и UNIX. В этих двух операционных системах концы строк представляются по-разному, причем UNIX понимает тексты Windows, но не наоборот. В архиве SSC-IDEAS находятся программы, написанные в обоих форматах. При копировании командой net Stata корректно обрабатывает концы строк, однако при описанном выше ручном копировании возможны проблемы у пользователей, работающих в Windows. Симптомом того, что у вас возникла проблема, связанная с концами строк, является неработоспособность свежеустановленных файлов Stata возвращает ошибку с кодом 199 (unrecognized command: xyz not defined by xyz.ado команда не распознана; программа xyz не определена в файле xyz.ado); при этом Stata находит файл помощи на новую команду, но в нем все оказывается перепутано. Эту проблему можно решить, открыв оба файла (.ado и.hlp) в текстовом редакторе и сохранив их обратно есть вероятность, что концы строк при этом будут расставлены заново. На определенном уровне владения пакетом оказывается удобным писать по разным случаям свои собственные программы (ado-файлы). Их можно публиковать их в Интернете для всеобщего доступа. Например, страничка автора этой книги, посвященная Stata, размещается по адресу: На ней находятся программы, уроки (tutorials) и PDF-файл с этой книгой. Частным случаем пользовательских программ являются функции для команды egen. Они позволяют в какой-то степени обойти невозможность написания функций пользователя, применимых наравне со встроенными. Файлы, в которых содержатся такие функции, имеют префикс _g и должны быть написаны в соответствии с определенными требованиями на обработку входных аргументов Научиться на опыте: сообщения об ошибках В соответствии с общепринятыми программистскими соглашениями, каждая команда и программа должна уметь сообщать о результатах своей работы. Чаще всего это делается в виде целочисленного кода завершения программы. Нулевое значение этого кода свидетельствует об отсутствии каких-либо ошибок и проблем при выполнении задания; 96


Работа с табличным процессором Microsoft Excel Краткие теоретические сведения Приложение Windows Excel позволяет формировать и выводить на печать документы, представленные в табличном виде, выполнять расчеты

Приложение 4 Подсистема управления процессами и вычислениями ОГЛАВЛЕНИЕ 1. Общие сведения... 2 2. Моделирование состояний и рабочих процессов... 2 2.1. Управление списком групп состояний... 2 2.2. Создание

Электронные таблицы Разнообразие электронных таблиц в приложениях MS Excel (цифровые таблицы) SulSim (вывод данных в Excel) HYSYS (собств. Электр. таблицы) Maple (символьные таблицы) Введение Область применения

Работа 10 Запросы и отчёты в Access Цель работы: научиться создавать и редактировать запросы и отчѐты базы данных Содержание работы 1 Создание запросов. 2 Создание отчѐтов 1 Создание запросов Запросы это

MASTERCAM X / Руководство по установке 1 MASTERCAM X / Руководство по установке 2 MASTERCAM X / Руководство по установке 3 Глава 1: Первый запуск Mastercam X В этой главе описан процесс запуска Mastercam

Информационные технологии Лекция 3 1 Оболочка bash 2 Основные сведения Оболочка или shell работа в текстовом режиме (интерфейс командной строки) Графический интерфейс пользователя (GUI) работа в графическом

Министерство образования Российской Федерации Пензенский государственный университет Е.Г. Шереметьева Основы работы с электронными таблицами Microsoft Excel 2003/2007/2010 Набор вопросов для тестирования

Технологические средства разработки Для описания специфических алгоритмов обработки информации и создания интерфейса, ориентированного на удобное представление описанных в конфигурации данных, в системе

ТЕКСТОВЫЕ ОНЛАЙН - РЕДАКТОРЫ Выполнила: Белобородова Мария ЛУ-23 2014 г. В ПОВСЕДНЕВНОЙ ЖИЗНИ ЛЮБОМУ ПОЛЬЗОВАТЕЛЮ КОМПЬЮТЕРА ПРИХОДИТСЯ РАБОТАТЬ С ТЕКСТОМ. ТЕКСТ ЯВЛЯЛСЯ И ЯВЛЯЕТСЯ ТРАДИЦИОННЫМ НОСИТЕЛЕМ

План лекции: Работа с объектами БД в MS ACCESS 1. Работа с таблицами. 2. Общие сведения запросах. 3. Работа с формами 4. Работа с отчетами. 2 Вопрос 1 Способы создания таблиц: 1. в режиме таблицы; 2. в

ВЕРТИКАЛЬ-Отчеты Система формирования технологической документации Руководство пользователя Информация, содержащаяся в данном документе, может быть изменена без предварительного уведомления. Никакая часть

Система электронных публикаций Программа просмотра Руководство пользователя Издательская фирма "Сентябрь", Москва, 2006-2008 Эта версия Руководства соответствует возможностям и функционалу Системы электронных

Лекция 11 ВЫЧИСЛЕНИЯ В ТАБЛИЧНОМ ПРОЦЕССОРЕ MS EXCEL 2010 Цель лекции. Изучить особенности проведения вычислений с использованием формул в табличном процессоре Ms Excel 2010. Вопросы лекции: 1. Формулы

ОРГАНИЗАЦИЯ ТЕСТИРОВАНИЯ ПРОГРАММ ИЗ ФАЙЛОВ ПОДГОТОВКА ДАННЫХ При тестировании программ с большим количеством входных данных обычно не используется ручной ввод. Исходная информация заранее заносится в

Урок 1: Интерфейс Excel * версия 2010 * 1.0 Введение Данные в Excel располагаются в «ячейках», которые в свою очередь образуют столбцы и строки. Это помогает нам лучше воспринимать эти данные и позволяет

Васильев А.Н. Excel 2007 на примерах Оглавление Предисловие 11 Концепция и структура книги 11 Компакт-диск с примерами 11 О списке литературы 12 Обратная связь 12 Благодарности 12 ЧАСТЬ I. ИНТЕРФЕЙС 13

Работа с шаблонами типовых документов Руководство пользователя Cognitive Technologies Москва, 2015 2 АННОТАЦИЯ В настоящем документе приводятся сведения об использовании в программном комплексе «Е1 Евфрат»

Лек 6 Конс сводн 1 КУРС ИСЭ 1 ЛЕКЦИЯ Тема 8: Технология и методы обработки экономической информации с помощью консолидированных и сводных таблиц План 1. Понятие консолидированной таблицы. Способы консолидации.

Пользовательский интерфейс T-FLEX DOCs 2010 Эффективность работы пользователя в любом приложении можно оценить по двум основным критериям. В первую очередь это, конечно, быстродействие, т.е. время, которое

EXCEL 2010 на примерах Васильев А.Н. Оглавление Предисловие 1 ЧАСТЬ I. ИНТЕРФЕЙС 3 Глава 1. Рабочее окно 5 Пример 1.1. Изменение масштаба отображения данных 5 Пример 1.2. Вид с разбивкой на страницы 10

Вопросы Информатика 1-й семестр Лабораторная работа 1 Технология работы на персональном компьютере, определение конфигурации компьютера 1 Для чего необходимо заземление и стабилизация питания компьютера?

ОГЛАВЛЕНИЕ Глава 14: ПУСТЫЕ ГРАФИЧЕСКИЕ ОКНА Оглавление ОБЗОР...2782 ПРИМЕРЫ...2783 Пример 1: Размещение нескольких графических (OLE) объектов в одном графическом окне... 2783 Пример 2: Создание нового

MS Access. Формы Лекции по дисциплине «Основы программирования и информационных технологий», прочитанные на кафедре ФМЭГ ФТ-факультета НТУ «ХПИ» 1 Формы Существует три способа ввода информации в Access:

Руководство по использованию визуального редактора информационного наполнения сайта http://pzi.ru Пятигорского завода Импульс. Пятигорск 2011 Содержание 1 Интерфейс редактора... 3 2 Изменение размера редактора...4

В современных условиях при автоматизации предприятий приходится сталкиваться с различными и часто диаметрально противоположными требованиями к учету одних и тех же разделов учета. Согласно документации

Этапы разработки базы данных С базами данных, как правило, работают не профессионалы, поэтому можно сформулировать следующие требования к БД. Разработчики, при создании БД, должны ориентироваться на эти

Виртуальный калькулятор HP Prime Windows является товарным знаком группы компаний Майкрософт. Информация, содержащаяся в настоящем документе, может быть изменена без предварительного уведомления. Единственные

Работа 12 Создание макросов в Word Цель работы: научиться создавать макросы в Word. Содержание работы: 1 Создание и запуск макроса 2 Создание макроса, запускаемого из меню Сервис. 3 Создание макроса, запускаемого

6 Частоты 97 Пошаговые алгоритмы вычислений 102 Представление результатов 105 Завершение анализа и выход из программы В этой главе рассматриваются частоты, их графическое представление (столбиковые и круговые

1 Лабораторная работа 1. Программирование в MatLab Первое знакомство с MATLAB Для запуска MATLAB Вам необходимо найти на рабочем столе ярлык этой программы и запустить его на выполнение, при этом отроется

Руководство пользователя системой RutpCRM Работа в системе начинается с авторизации. Каждому пользователю назначается логин и пароль. Для авторизации в системе: 1. На экране авторизации системы RutpCRM

Документ и основные этапы работы с ним Подготовил ассистент кафедры довузовской подготовки и профориентации Бычков П.В. для студентов психологии и педагогики РЕПОЗИТОРИЙ ГГУ 1 Документ Документ это материальный

ЛЕКЦИЯ-1. ВВЕДЕНИЕ. НАЗНАЧЕНИЕ, СОСТАВ И ОСНОВНЫЕ ЭЛЕМЕНТЫ ИНТЕРФЕЙСА ПРИКЛАДНОГО ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ ДЛЯ ОБРАБОТКИ ДЕЛОВОЙ ИНФОРМАЦИИ Вопросы: 1. Понятие программного обеспечения и его классификация

Работа в среде операционной системы Microsoft Windows Основные понятия Рабочий стол (РС) исходное состояние диалоговой среды MS Windows. РС раскрывается на экране после запуска MS Windows. На «поверхности»

Особенности работы с MultiLab PC Презентаци подготовлена методистом кафедры ИТиОС МИОО Апухтиной Н.В. Элементы окна MultiLab PC Начало работы в MultiLab CE Отображение данных Настройка сеанса сбора данных

Лабораторная работа 6 «Основы создания электронных таблиц» Цель работы: изучение основных правил создания и редактирования электронных таблиц в среде табличного процессора OpenOffice.org Calc 1. Краткие

МИНИСТЕРСТВО ЗДРАВООХРАНЕНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ ГБОУ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ АМУРСКАЯ ГОСУДАРСТВЕННАЯ МЕДИЦИНСКАЯ КАДЕМИЯ Е.В. ПЛАЩЕВАЯ ЭЛЕКТРОННЫЕ ТАБЛИЦЫ EXCEL. МЕТОДИЧЕСКИЕ УКАЗАНИЯ

Ай Ти Ви групп Программный комплекс «Face Интеллект» Руководство Оператора Версия 1.0.2 Москва 2010 Содержание СОДЕРЖАНИЕ... 2 1 ТЕРМИНЫ И ОПРЕДЕЛЕНИЯ... 4 2 ВВЕДЕНИЕ... 5 2.1 Назначение и структура Руководства...

Создание собственных макетов этикеток в 1С:Рознице 2.1 Создание макета этикеток для принтера формата A4 Создание макета этикеток для принтера этикеток Печать этикеток Для печати этикеток можно использовать

UdReport Full Edition Версия 2.0 Руководство по применению КРОПУС Авторские права 2004 НПЦ «Кропус-ПО» 1 Содержание 1. Общие сведения 3 1.1 Назначение программы 3 1.2 Требования к системе 3 1.3 Установка

Подготовка учебно-методических материалов по дисциплине в электронном виде в формате PDF Оглавление ОБЩИЕ СВЕДЕНИЯ О ФОРМАТЕ PDF... 1 Назначение формата PDF... 1 Преимущества формата PDF... 2 Недостатки

Инструкция по работе с системой управления сайта. Оглавление Доступ к системе управления...2 Внешний вид системы управления сайтом...2 Основные разделы...3 Создание разделов и страниц...4 Работа с текстовым

Утилита программирования карт Mifare SePro2 Руководство по установке и эксплуатации Версия 1.0 октябрь 2010 г. Оглавление Оглавление...1 История документа...2 Введение...3 Что нового в этом документе...3

Урок 22: Сводные таблицы* версия 2010 * 22.0 Введение Этот урок мог бы называться «Быстрое обобщение данных». Excel предоставляет мощный инструмент для создания табличных выборок данных, а также для оперативного

Программное обеспечение Stata — это универсальный пакет для решения статистических задач в самых разных прикладных областях: экономике, медицине, биологии, социологии. Интерфейс с использованием координатного указателя, интуитивно понятный синтаксис команды, а также справка делают Stata удобным в работе, быстрым и точным решением. Пакет Stata предлагает сотни передовых статистических инструментов, таких как динамические регрессии для панельных данных (DPD), обобщенные оценки уравнений (GEE), многоуровневые смешанные модели, модели условной гетероскедастичности ARCH и оценки со сложным обследованием образцов; стандартные методы — линейные и обобщенные линейные модели (GLM), ANOVA/MANOVA, ARIMA, кластерный анализ, основные таблицы и сводные статистические данные.

Версии Stata:

  • Stata/MP: самая производительная версия для анализа любых массивов данных для четырехъядерных, двухъядерных и многоядерных/многопроцессорных компьютеров.
  • Stata/SE: для больших баз даных.
  • Stata/IC: для средних по объему баз данных.
  • Numerics by Stata: для встраиваемых и веб-приложений.

Stata/MP поддерживает работу на процессорах Intel i3, i5, i7, Xeon, Celeron и AMD. Stata/MP может анализировать от 10 до 20 миллиардов параметров. Пакет Stata/SE может анализировать модели с более независимыми переменными (до 10,998), что позволяет делать до 2 миллиардов наблюдений. Stata/IC может анализировать модели базы данных с количеством независимых переменных не более 798.

Stata 15 является самым крупным релизом за всю историю, она содержит множество новых особенностей для статистики:

  • Многоуровневая регрессия для интервально-цензурированных данных.
  • Многоуровневая тобит-регрессия для цензурированных данных.
  • Пороговая регрессия.
  • Анализ латентных классов (АЛК).
  • Байесовская регрессия.
  • Байесовские многоуровневые модели, включая обобщенные линейные модели и модели выживаемости.
  • Байесовский префикс для 50 команд правдоподобия, включая обобщенные линейные модели, модели Пуассона со смешанными параметрами, учитывающими избыток нулей, модели выживаемости и модели с самоотбором выборки.
  • Маркдаун — создает веб страницы с помощью результатов Stata и позвляет просматривать изменения в данных или командах.
  • Линейные модели DSGE для использования в макроэкономике.

— Конечные смешанные модели (КСМ) для 17 оценочных алгоритмов и их комбинаций, включая обобщенные линейные модели и модели выживаемости.
— Нелинейные мультиуровневые модели со смешанным воздействием.
— Интервально-цензурируемые модели выживаемости.
— ространственные авторегрессионные модели.
— ER-модель — сочетание эндогенных ковариаций, выбор образцов, а также эндогенная обработка моделей для получения непрерывных, бинарных и упорядоченных результатов.
— Непараметрическая регрессия.
— Создание Word (R) и PDF документов с внедрением результатов и графов Stata.
— Модели со смешанными логитами продвинутое моделирование.
— Испытания на многократные разрывы во временных рядах.
— Анализ мощностей для моделей линейной регрессии.
— Панель модели tobit со случайными коэффициентами и разрывами.
— Анализ мощности для рандомизированных кластеров.

Баум К. Ф.

Переводчик: В. А. Банников

Книга содержит как теоретические постулаты эконометрики, так и подробное описание их реализации в современном программном продукте Stata. Материал охватывает ключевые темы, начиная от самых простых (линейная регрессия) и заканчивая наиболее сложными (например, оценка моделей панельных данных). Особый акцент делается на непосредственной работе с данными, ее организацией, чтобы минимизировать ошибки, которые могут возникнуть при повторных исследованиях или проверке результатов исследования.

Книга будет полезна как студентам, начинающим исследователям, так и имеющим опыт работы с эконометрическими методами, в том числе с инструментом программы Stata, поскольку в ней не только подробно описываются азы работы с программой, но и приводятся тонкости, на которые большинство не обращало внимания.

Похожие публикации

Ч. 1. Волгоград: Волгоградское научное издательство, 2010.

Сборник включает статьи участников международной научно-практической конференции «Экономика и управление: проблемы и перспективы развития», прошедшей 15-16 ноября 2010 г. в г. Волгограде на базе Регионального центра социально-экономических и политических исследований «Общественное содействие». Статьи посвящены актуальным вопросам экономической, управленческой теории и практики, изучаемыми учеными из разных стран - участниц конференции.

Настоящее издание включает в себя два доклада, объединенных общей темой: «Куда движется современная экономическая наука?» В докладе Р.И. Капелюшникова «О современном состоянии экономической науки: полусоциологические наблюдения» анализируются новейшие социологические и эпистемологические тенденции в развитии экономической науки. Доклад А.М. Либмана «Эмпирические исследования в экономике: “революция достоверности”?» посвящен анализу ключевых изменений в практике эмпирических экономических исследований, происходящих в последние десятилетия - так называемой «революции достоверности».

В работе рассматриваются два метода Монте-Карло с цепями Маркова, широко применяемые в эконометрических исследованиях. Это алгоритм Метрополиса и гиббсовский выбор. Приводится описание обоих методов. Методы Монте-Карло с цепями Маркова предназначены для симулирования наборов векторов, отвечающих многомерным распределениям вероятностей. В частности, эти методы применяются в байесовской статистике для исследования апостериорных распределений. Существенное значение имеет соблюдение условия инвариантности, доказательства, что это условие выполняется, приводятся для обоих методов. Для обоснования и изучения методов используется теория цепей Маркова с конечным числом состояний. На нескольких примерах исследуется точность рассматриваемых методов Монте-Карло с цепями Маркова. Эти примеры включают двумерное нормальное распределение с высокой корреляцией, двумерное экспоненциальное распределение, смесь двумерных нормальных распределений.

Предложен и реализован новый подход к определению наборов факторов для регрессии при заданном множестве потенциальных аргументов и фиксированной выборке. Выбираются наборы, являющиеся для используемых критериев качества регрессий конкурирующими, и такие, что не отвергается нормальность ошибок. К искомым регрессиям предъявляется требование быть гармоничными, обобщающее предложенное Хелвигом понятие коинцидентности. Несуществование одновременно конкурирующих, нормальных и гармоничных регрессий (KNH-регрессий) в условиях доверия к предположениям МНК интерпретируется как наличие в выборке нетипичных наблюдений. Предложен класс процедур «регрессионного тримминга», выявляющих и корректирующих такие наблюдения с целью нахождения скорректированных KNH-регрессий. Приведены примеры, использующие данные из классических работ по регрессионному анализу.

Трунин П. В. , Дробышевский С. М. , Евдокимова Т. В. М.: Издательский дом «Дело» РАНХиГС, 2012.

Целью работы является сравнение режимов денежно-кредитной политики с точки зрения уязвимости экономики использующих их стран к кризисам. Работа состоит из двух частей. Первая часть содержит обзор литературы, где представлены результаты исследований, рассматривающие подверженность кризисам экономик, применяющих такие режимы денежно-кредитной политики, как таргетирование валютного курса, классическое и модифицированное инфляционное таргетирование. Также приводятся оценки эффективности накопления валютных резервов в качестве инструмента предотвращения или смягчения кризисов. Во второй части работы - эмпирической - описаны методология и результаты сравнения адаптационных способностей экономик, полученные на основе анализа динамики ключевых макроэкономических показателей в докризисный и посткризисный периоды в странах, сгруппированных по режимам денежно-кредитной политики. Кроме того, представлены оценки подверженности экономик кризисам на основе расчета частот наступления кризисов при различных режимах.

В статье исследуются особенности моделирования кредитных рейтингов банков с использованием эконометрических методов. Особое внимание уделяется формированию наборов данных для исследования, выбору объясняющих переменных, анализу прогнозной силы моделей и их временной устойчивости. Анализируются сравнительные особенности эконометрических моделей рейтингов банков применительно к странам с развивающейся экономикой (включая БРИК, Центральную и Восточную Европу, СНГ), а также подходов ведущих рейтинговых агентств. Эмпирическое исследование базируется на данных о 551 банке из 86 стран за 1995-2009 гг.

М.: Анкил, 2013.

В сборнике представлены материалы прошедшей 29 октября 2013 г. научно-практической конференции "Эконометрические методы в исследовании глобальных экономических процессов", организованной кафедрой эконометрики и математических методов анализа экономики в партнерстве с Фондом развития МГИМО и при поддержке Международного статистического института.

Конференция, состоявшаяся в рамках Международного года статистики, была посвящена накопленному опыту и перспективам использования эконометрических моделей и применения численных методов при решении прикладных задач международной макроэкономики.

В мероприятии приняли участие ведущие эксперты в области эконометрики, математической статистики, прикладной экономики и международных экономических отношений из ЦЭМИ РАН, ИЭ РАН, МГИМО, МГУ им. М.В.Ломоносова, НИУ ВШЭ, ГУУ, ФУ, МЭСИ, РУДН, РАНХиГС.

Данная работа посвящена критическому анализу института минимальной заработной платы в странах с развитой рыночной и переходной экономикой, а также в некоторых развивающихся странах. Рассматриваются институциональные особенности минимальной оплаты труда в отдельных странах: процедура установления, региональные особенности, роль профсоюзов. В специальном разделе анализируется динамика абсолютного и относительного размера МЗП, выявляются те общественные группы, которые выигрывают и проигрывают от пересмотра минимальной оплаты. Особое внимание уделено воздействию института МЗП на рынок труда. Автор рассматривает механизм трансляции повышения минимальной оплаты труда на динамику занятости и безработицы, приводит результаты эмпирических исследований. Опыт многих стран свидетельствует, что «скачкообразное» повышение МЗП приводит к стагнации и даже сокращению занятости, в первую очередь среди социально не защищенных слоев. Особенно негативный эффект фиксируется для компаний с высокой долей трудовых издержек и широким применением неквалифицированного труда, т.е. прежде всего для малого предпринимательства и предприятий аграрного сектора. Один из выводов работы состоит в том, что увеличение МЗП не является эффективным средством решения проблемы бедности, так как большинство ее получателей сосредоточены в домохозяйствах со средним и выше среднего уровнем дохода.

Статистический пакет Stata является одной из самых популярных и часто используемых программ для проведения количественных исследований, связанных с анализом и визуализацией больших объёмов количественных данных. Пакет Stata активно используется исследователями и аналитиками по всему миру. Его отличительными чертами является универсальность, быстрота получения результатов и большое количество встроенных методов анализа данных.

Программа «Анализ данных на базе Stata» нацелена на формирование у слушателей целостного представления о существующих методах количественного анализа данных для проведения исследований и развитие практических навыков анализа данных с использованием пакета Stata. В ходе обучения слушатели могут использовать для проведения анализа реальные статистические данные, соответствующие их профессиональным интересам. Полученные в ходе обучения знания и навыки позволят самостоятельно провести исследование, основанное на количественном анализе данных.

Преподаватель

Основные темы программы

  • Версии программы Stata. Пользовательский интерфейс
  • Ввод, редактирование, экспорт/импорт данных и результатов
  • Описательный анализ данных. Частотный и графический анализ данных. Подсчёт статистических характеристик
  • Исследование взаимосвязей между переменными. Проверка гипотез
  • Линейный регрессионный анализ данных
  • Факторный и кластерный анализ данных

Кому будет интересна программа?

Специалистам, выполняющим исследовательскую или аналитическую работу, связанную с количественным анализом статистических данных.

Начальные требования

Законченное высшее или среднее специальное образование.

дой regress. Для уточнения оценок параметров и вторых моментов регрессионных моделей можно использовать веса (см. help weights), связанные с вероятностью включения в выборку отдельных наблюдений (т.е. веса, учитывающие стратификационное происхождение выборки) pw eight (сокр. от probability weights) если такие веса входят в базы данных обследований.

2.6.2 Системы одновременных уравнений

Подобные модели описывают явления, в которых несколько переменных определяется одновременно, как некоторое равновесие экономической системы. Типичным примером СОУ является равновесие рыночных спроса и предложения.

Проблема одновременности тесно связана с уже упоминавшейся проблемой стохастичности регрессоров. Дело в том, что эндогенные переменные (т. е. переменные, определяемые в равновесии; сопутствующее понятие экзогенные, или заданные извне, переменные) коррелированы с ошибками, и поэтому оценивание по методу наименьших квадратов приводит к смещенным и несостоятельным оценкам. В зависимости от структуры уравнений, коэффициенты при эндогенных переменных могут быть, а могут и не быть идентифицируемы.

Для разрешения проблемы эндогенности используются двух- и трехшаговый метод наименьших квадратов (3SLS).

Stata И соответствующая команда называется reg3.

2.6.3 Модели с дискретными и другими ограниченными зависимыми переменными

Часто возникает потребность в анализе моделей, в которых в качестве зависимой переменной фигурирует качественная величина, например, наличие-отсутствие или отказ- участие. Естественным образом такие величины кодируются как 0/1 и называются на статистическом жаргоне успех-неуспех. Они имеют (условное) биномиальное распределение. Метод наименьших квадратов, применяемый напрямую, будет как минимум страдать от гетероскедастичности: ошибки должны быть устроены так, чтобы в результате получилось значение 0 или 1. Возможно, что для каких-то наблюдений и в случае

успеха, и в случае неуспеха ошибка должна быть отрицательной (или положительной), и тогда будет нарушаться и предположение об (условной) центральности ошибок.

Для разрешения подобных трудностей моделируется непосредственно вероятность успеха (т. е. регистрации 1 в принятой кодировке исходов). При дополнительном предположении наличия индексной функции, являющейся линейной комбинацией известных переменных,

Соответствующие модели носят название пробит- и логит-моделей; для второй еще используется название логистическая регрессия. Существенных оснований предпочитать одну модель другой, видимо, нет. Обе функции распределения симметричны, а разли-

чия между ними не так велики: sup x2(1;+1) jF logit (x) F N(0;1) (x)j < 0:02 , но у логисти- ческого распределения более тяжелые хвосты. Пробит-модель привлекательна тем, что в ней используется самое типичное распределение в мире нормальное, и поэтому она удобна для анализа моделей с многомерным нормальным распределением ошибок, если зависимых переменных несколько. В качестве примера можно привести модель Хекмана регрессии с внешним выбором наблюдений (Heckman sample selection model)17 . С другой стороны, логит-модель допускает достаточно широкий спектр средств анализакачества приближения (goodness of fit).

17 В этой модели вероятность попадания объекта в выборку зависит от известных факторов. В связи с непредставительностью выборки относительно исследуемой совокупности многие выборочные статистики, в т.ч. оценки МНК, оказываются смещенными (Greene 1997); модель Хекмана предлагает способ устранения этого смещения. Именно за эту работу профессор Чикагского университета Джеймс Хекман был удостоен Нобелевской премии по экономике 2000 г.

Иногда встречается также асимметричная функция дополнительных логарифмов, называемая также функцией Гомперца (Gomperz, соответственно, гомпит/gompit-модель):

F (z) = 1 exp[ exp(z)]

Stata Соответствующие регрессии в пакете Stata вызываются командами probit, logit и cloglog.

Оценивание коэффициентов в данных моделях производится по методу максималь-

ного правдоподобия. Если наблюдения независимы, то функция правдоподобия для

отдельных наблюдений имеет вид:

L(yi ; xi ; ; F) =

F (xi T );

yi = 1

F (xi T );

yi = 0

что может быть очень удачно переписано как

L(yi ; xi ; ; F) = F (xi T )y i (1 F (xi T ))1 y i

Тогда общая функция правдоподобия имеет вид:

yi ln F (xi T ) + (1 yi ) ln(1 F (xi T ))

ln L(y; X; ; F) =

Задача максимизации этой функции по решается численными методами.

Stata Одним из очень существенных достоинств пакета Stata является доступ программистов к алгоритму численного решения задач максимизации функции правдоподобия пользователя (Gould, Sribney 1999). Оценивание по методу максимального правдоподобия осуществляется командами набора ml.

К оценкам коэффициентов пробит- и логит-регрессий относятся все комментарии о методе максимального правдоподобия (Кендалл, Стьюарт 1973). В определенном классе оценок оценки максимального правдоподобия являются асимптотически эффективными, однако они очень чувствительны к нарушениям формы распределения. Тесты на значения коэффицентов или их линейных комбинаций (в т.ч. на значимость регрессии в целом) осуществляются с помощью статистики отношения правдоподобия или ее асимптотических аналогов теста Вальда (Wald test) и множителей Лагранжа (LM test,

Lagrange multiplier test, score test). Все эти тесты имеют асимптотическое распределе- íèå 2 с числом степеней свободы, равном числу накладываемых ограничений (Айвазян,

Мхитарян 1998, Greene 1997).

Определенное неудобство логит- и пробит-моделей (как, впрочем, и всех нелинейных моделей) заключается в том, что оценки коэффициентов, в отличие от линейной регрессии, не могут быть интепретированы как предельные эффекты (т.е. изменения зависимой переменной при измененении независимой, в том числе бинарной, на единицу), поскольку предельные эффекты в нелинейных моделях зависят от точки, в которой берется такое приращение. Для того, чтобы получить хоть какое-то представление о предельных эффектах, можно рассчитать предельные эффекты для выборочного среднего по всем независимым переменным, или рассчитать предельные эффекты во всех точках и усреднить.

Stata В шестой версии функцию расчета предельных эффектов для пробит-модели выполняет команда dprobit, которая оценивает пробит-модель точно так же, как probit, но вместо коэффициентов выводит предельные эффекты для выборочных средних всех регрессоров. В седьмой версии пакета Stata появилась очень удобная команда mfx, которая рассчитывает эти самые предельные эффекты для произвольной оцененной модели.

2.6.4 Квантильные регрессии

Иногда предметом интереса исследователя могут быть не средние значения зависимой переменной при фиксированных объясняющих, а определенные квантили распределения:

P = p

В исследованиях финансового риска интерес могут представлять, к примеру, 5% или

10% точки (p = 0:05 èëè0:1 ). Кроме того, знание набора (условных) квантилей позволит

понять, меняется ли форма распределения в зависимости от объясняющих переменных. Примером квантильной регрессии является упоминавшаяся ранее в контексте проблем

робастности условная медиана при p = 0:5 .

Stata Квантильные регрессии реализованы в пакете Stata командой qreg. Опция qreg : : : ,

quantile() этой команды позволяет явно указать, квантиль какого уровня p следует исследовать.

Можно показать, что медианная регрессия является решением задачи минимизации суммы абсолютных отклонений (ср. (2.11)):

jyi xi j ! min

Данная задача решается симплекс-методом или другими методами линейного программирования.

2.6.5 Непараметрические регрессии

Методы непараметрической регрессии являются формализацией интуитивного понятия сглаживания на глаз. Если мы будем проводить на глаз кривую на двумерном графи-

ке рассеяния, чтобы описать примерный вид зависимости E , мы будем учитывать,

где лежат наблюденные значения y вблизи интересующей нас точкиx , повторяя харак-

терные пики и впадины кривой регрессии (см., например, рис. 2.3). Непараметрическая оценка кривой регрессии имеет вид:

m^ (x) = n 1 Wni (x)yi ;

ãäå W ni веса сглаживания, которые могут зависеть от всего вектораx . В такой постановке задачу сглаживания можно интерпретировать как задачу нахождения оценки локально взвешенных наименьших квадратов:

n 1 W

i ^ (

M(x)

Stata Один из методов, явно использующий многократно прогоняемые регрессии для локального сглаживания lowess (locally weighted smoothing) (Fox 1997, Хардле 1993).

Его реализация в пакете Stata осуществлена командой ksm с опцией ksm: : : , lowess.

В эконометрической литературе варианты непараметрической регрессии известны под названиями локальной регрессии (local regression) и скользящей регрессии (rolling regression). В них используется та же самая идея локального взвешивания.

Формализация близости заключается во введении ядра сглаживания с определенной шириной окна. Точки, не попадающие в ядро, будут иметь нулевой вес; таким образом, внимание процедуры сглаживания будет сосредоточено вблизи требуемой точки. Понятие ядра и его применение в непараметрической регрессии формализуется следующим образом (Хардле 1993):

Wni (x) = Kh n (x xi )=f^ h n (x)

f^ h n (x) = n1 Kh n (x xi )

Kh n (u) = hn 1 K(u=hn )

Здесь (2.70) непараметрическая (ядерная) оценка плотности в данной точке (называе-

мая также оценкой Розенблата-Парзена), (2.71) ядро масштабаh n (ширина которого может зависить от числа наблюдений). Нормализация (2.70) гарантирует, что сумма весов равна единице. Полученная таким образом ядерная оценка функции регрессии носит название оценки Надарая-Ватсона.

Есть ряд наиболее популярных ядерных функций:

ядро Епанечникова:

квартическое ядро:

равномерное ядро:

треугольное ядро:

нормальное (гауссово) квазиядро:

K(u) = 0:75(1 u2 )I(juj 1) K(u) =15 16 (1 u2 )2 I(juj 1)

K(u) = 1 2 I(juj 1)

K(u) = (1 juj)I(juj 1)

K(u) = p1 exp[ u2 =2] 2

Здесь I(условие) индикаторная функция, принимающая значение 1, если условие

выполняется, и 0, в противном случае.

Если по отношению к параметрическим моделям всегда могут возникнуть вопросы:Почему именно такая спецификация модели? Почему именно такая форма ошибок? , то естественные вопросы к непараметрическим моделям Почему именно такая форма ядра? Почему именно такая ширина окна? . Есть результаты, показывающие, что ядерная оценка будет состоятельна независимо от выбора ядра, однако ядро Епанечникова

n 4=9

обладает определенными оптимальными свойствами в смысле среднеквадратической

ошибки. Что же касается выбора ширины окна h n , то выбор слишком малого значе- ния будет означать, что оценка кривой регрессии пройдет через все точки выборки, тогда как слишком большое значение сгладит истинную кривую слишком сильно18 . Со статистической точки зрения, задача заключается в том, чтобы соблюсти компромисс между дисперсией точечной оценки и ее смещением. Асимптотически максимальная скорость сходимости среднеквадратической ошибки прогноза составляет в одномерном

случае (т. е. медленнее, чем в параметрических задачах), а ширина окна при этом пропорциональнаn 1=9 .

Stata Непараметрическая регрессия выполняется командой kernreg, входящей в состав дополнения STB-30. Данная команда позволяет указать тип ядра (Епанечникова по умолчанию, равномерное, нормальное, квартическое, триквартическое, треугольное, косинусоидальное), ширину окна, а также точки, в которых будет произведена оценка. Непараметрическая оценка плотности осуществляется встроенной командой kdensity, которая изначально существовала как команда STB, а потом стала частью официального дистрибутива Stata.

Наиболее существенным недостатком непараметрической регрессии является ее одномерность. Обобщение на случай многомерного вектора объясняющих переменных, безусловно, возможно достаточно использовать многомерные плотности, или произведения одномерных ядер однако число соседей убывает с ростом размерности очень быстро (эффект, известный под названием проклятие высокой размерности, dimensionality curse), и окно приходится распространять чуть ли не на всю выборку. Кроме того, в многомерных задачах меняется и скорость сходимости, причем, конечно же, в сторону ухудшения.

Stata Во всяком случае, упомянутая выше реализация алгоритма непараметрической регрессии рассчитана на единственный регрессор.

Я бы порекомендовал дополнять параметрические оценки регрессии непараметри- ческими в целях проверки точности подгонки. Сведенные на одном графике диаграмма рассеяния, предсказанные значения и непараметрическая оценка позволят выявить основные дефекты регрессии: неуч тенную нелинейность, гетероскедастичность и т. п.,

18 Ïðè h ! 1, f(x) ! y.

как это сделано на рис. 2.3.

Краткое описание пакета Stata

Программа Stata (StataCorp. 1999, 2001) это универсальный пакет для решения статистических задач в самых разных прикладных областях: экономике, медицине, биологии, социологии. Впервые пакет вышел на рынок под этим названием в начале 80-õ гг. В январе 1999 г. была выпущена шестая версия, в декабре 2000 г. седьмая. Основными достоинствами Stata являются:

большой спектр реализованных статистических методов (хотя и есть методы, не реализованные практически никак, например, дискриминантный анализ, кластерный анализ, обобщенный метод моментов, ряд других);

возможности гибкой пакетной обработки данных (т. е. программирования всей последовательности команд, начиная от загрузки данных в память и вплоть до всех деталей анализа). Возможности интерактивного режима работы полностью идентичны возможностям пакетной обработки;

относительная простота написания собственных программных модулей, и, вместе с тем, весьма серьезный спектр средств программирования;

мощная поддержка как со стороны производителя, так и со стороны других пользователей Stata (через интернетовский список рассылки); огромный архив пользовательских программ в открытом доступе;

возможность максимизации функций правдоподобия, задаваемых пользователем;

наличие совместимых по функциональным возможностям и форматам данных реализаций для большинства популярных платформ (Windows, Macintosh, UNIX).

По поводу графических средств мнения пользователей разнятся: с одной стороны, они вполне достаточны для текущего графического анализа данных и подготовки научных

публикаций (все рисунки в этой книге выполнены в Stata и импортированы в L A T E X ), с другой, несравнимы с графическими возможностями специализированных пакетов типа Harvard Graphics или презентационных программ типа PowerPoint.

Ниже будет приведена сводка наиболее важных команд пакета. Эта сводка вряд ли сможет заменить изучение этих (и, естественно, других) команд по руководствам пользователя или хотя бы по встроенной подсказке Stata (например, не все детали синтаксиса и не все опции могут быть упомянуты в данном кратком введении). Скорее, она поможет найти, какими командами и для чего следует воспользоваться; более полное и точное описание этих команд можно найти во встроенной помощи Stata и в руководствах. Многие команды будут упомянуты лишь на уровне названия (что, впрочем, достаточно для поиска по встроенной подсказке Stata). Читателю настоятельно советуется овладеть и пользоваться встроенной помощью Stata по командам и деталям внутреннего устройства пакета.

3.1 Договориться: обозначения

Мы будем пользоваться следующими обозначениями, выдержанными в стиле руководств Stata. Так, command команда, которую можно набирать целиком, а можно сократить до первых трех букв (например,reg ress можно написать какreg , а можно какregress ).[ в квадратных скобках] будут указаны необязательные фрагменты команды необязательные опции, списки переменных и т. п. Курсивом мы будем обозначать то, что пользователь подставляет по своему разумению названия переменных, численные значения параметров программ и т. п. Через вертикальную черту будут

перечисляться возможные варианты: [ вариант 1j вариант 2] . Таким образом, запись

describe [ переменные| using имя файла] может разворачиваться в следующие варианты.