Sunday, 5 November 2017

Raking In Stata Forex


SURVWGT: O módulo Stata para criar e manipular pesos de levantamento cria conjuntos de pesos para técnicas de estimativa de variância baseadas em replicação para dados de levantamento. Estes incluem replicação repetida balanceada (BRR) e várias versões do jackknife de pesquisa (JK). Esses métodos de replicação são alternativos aos métodos de linearização da série Taylor usados ​​pelos comandos Statas svy-based. Se você tiver problemas ao fazer o download de um arquivo, verifique se você tem o aplicativo adequado para visualizá-lo primeiro. Em caso de problemas adicionais, leia a página de ajuda IDEAS. Observe que esses arquivos não estão no site IDEAS. Seja paciente, pois os arquivos podem ser grandes. Componente de software fornecido pelo Boston College Departamento de Economia em sua série Estatística Componentes de Software com o número S427503. Ao solicitar uma correção, mencione, por favor, estes itens handle: RePEc: boc: bocode: s427503. Veja informações gerais sobre como corrigir material no RePEc. Para questões técnicas sobre este item, ou para corrigir seus autores, título, resumo, informações bibliográficas ou download, entre em contato: (Christopher F Baum) Se você é autor deste item e ainda não está registrado no RePEc, recomendamos que o faça aqui . Isso permite vincular seu perfil a este item. Ele também permite que você aceite citações em potencial para este item que estamos incertos sobre. Se as referências estiverem totalmente ausentes, você pode adicioná-las usando este formulário. Se as referências completas listarem um item que está presente no RePEc, mas o sistema não tiver vinculado a ele, você pode ajudar com este formulário. Se você souber de itens ausentes citando este, você pode nos ajudar a criar esses links adicionando as referências relevantes da mesma maneira como acima, para cada item referente. Se você é um autor registrado deste item, você também pode querer verificar a guia de citações em seu perfil, pois pode haver algumas citações esperando confirmação. Tenha em atenção que as correcções podem demorar algumas semanas para filtrar os vários serviços RePEc. Mais serviços MyIDEAS Seguir séries, jornais, autores e mais Novos artigos por e-mail Inscrever-se para novas adições ao RePEc Registro de autor Perfis públicos para pesquisadores de economia Rankings Vários rankings de pesquisa em economia e campos relacionados Genealogia Quem foi um estudante de quem, usando RePEc BiblE Artigos curados artigos de amp papéis vários temas de economia MPRA Carregar seu artigo para ser listado em RePEc e IDEAS EconAcademics Blog agregador para pesquisa de economia Plagiarismo Casos de plágio em Economia Papéis do mercado de trabalho RePEc série de trabalho de papel dedicado ao mercado de trabalho Fantasy League Pretend você está no leme De um departamento de economia Serviços do StL Fed Dados, pesquisa, apps amp mais do St. Louis FedWelcome para o Instituto de Pesquisa Digital e Educação Stata Library Replicar pesos O que e por quê A resposta curta para quotwhat e whyquot é que repetir pesos são Uma série de variáveis ​​que contêm as informações necessárias para a correta computação (através do método de repetição de peso) dos erros-padrão das estimativas pontuais na análise de dados de levantamento. Antes de entrar em detalhes sobre o que são os pesos duplicados e como eles são criados, precisamos saber por que eles são necessários, em primeiro lugar. Para entender isso, precisamos dar um passo atrás e analisar como a análise dos dados da pesquisa é diferente da análise de dados coletados de outras maneiras, p. Experimentos, quase-experimentos. Quando falamos de dados de levantamento, queremos dizer os dados que foram coletados de sujeitos que foram escolhidos com base em um plano de amostragem. O plano de amostragem é extremamente importante porque, ao utilizá-lo, violamos uma das hipóteses das fórmulas estatísticas utilizadas para calcular as estatísticas de interesse para nós. As estatísticas descritas na maioria dos textos estatísticos assumem que os dados são coletados com base em uma amostra aleatória simples dos elementos da população. Na pesquisa do exame, este é quase nunca o caso. Porque, na maioria das situações, é demasiado impraticável e / ou demasiado caro para recolher dados desta forma. Como a suposição do SRS foi violada, são necessárias correções para o cálculo das estatísticas. No que se refere aos erros-padrão, existem duas formas possíveis de efectuar esta correcção. Uma maneira é chamada um método de linearização da série de Taylor, eo outro é chamado o método do peso de repetição. Antes que possamos explicar o que são os pesos de repetição, precisamos primeiro entender alguns elementos comuns encontrados em muitos conjuntos de dados de levantamento (especialmente conjuntos de dados mais antigos). Estes elementos são utilizados no método de linearização da série Taylor. Há vários elementos que são exclusivos para os dados de levantamento que são necessários para corretamente calcular estatísticas com base nos dados. Cada um desses elementos são variáveis ​​que você provavelmente encontrará no conjunto de dados. São as variáveis ​​peso de probabilidade (peso de amostragem AKA, pweight), variável PSU (unidade primária de amostragem), variável estratificação (AKA strata) e variável FPC (finite population correction). Elementos comuns dos conjuntos de dados de inquéritos A maioria das pessoas não conduz os seus próprios inquéritos com desenhos de amostragem. Em vez disso, eles usam dados de pesquisa que alguma agência ou empresa coletou e disponibilizou ao público. A documentação deve ser lida cuidadosamente para descobrir que tipo de projeto de amostragem foi usado para coletar os dados. Isto é muito importante porque muitas das estimativas e erros-padrão são calculados de forma diferente para os diferentes modelos de amostragem. Portanto, se você especificar incorretamente o projeto de amostragem, as estimativas pontuais e os erros-padrão provavelmente estarão errados. Abaixo estão algumas características comuns de muitos projetos de amostragem. Pesos. Existem muitos tipos de pesos que podem ser associados a uma pesquisa. Talvez o mais comum seja o peso de amostragem, às vezes chamado de peso de probabilidade, que é usado para denotar o inverso da probabilidade de ser incluído na amostra devido ao desenho de amostragem (exceto para uma PSU de certeza, veja abaixo). O peso de probabilidade é calculado como N / n, onde N é o número de elementos na população e n o número de elementos na amostra. Por exemplo, se uma população tem 10 elementos e 3 são amostrados aleatoriamente com substituição, então o peso de probabilidade seria 10/3 3.33. Em um projeto de dois estágios, o peso de probabilidade é calculado como f 1 f 2. O que significa que o inverso da fração de amostragem para o primeiro estágio é multiplicado pelo inverso da fração de amostragem para o segundo estágio. Em muitos planos de amostragem, a soma dos pesos de probabilidade será igual ao total da população. Para obter mais informações sobre pesos, consulte nossa FAQ: Que tipos de pesos o SAS, Stata e SPSS suportam PSU. Este é o p rimary s amplificação u nit. Esta é a primeira unidade que é amostrada no design. Por exemplo, os distritos escolares da Califórnia podem ser amostrados e, em seguida, as escolas dentro dos distritos podem ser amostrados. O distrito escolar seria a PSU. Se os estados dos EUA foram amostrados e, em seguida, os distritos escolares de dentro de cada estado e, em seguida, as escolas dentro de cada distrito, em seguida, os estados seriam a PSU. Não é necessário utilizar o mesmo método de amostragem em todos os níveis de amostragem. Por exemplo, a amostragem de probabilidade proporcional ao tamanho pode ser usada no nível 1 (para selecionar estados), enquanto a amostragem em cluster é usada no nível 2 (para selecionar distritos escolares). No caso de uma amostra aleatória simples, as UPM e as unidades elementares são as mesmas. Estratos. A estratificação é um método de dividir a população em diferentes grupos, muitas vezes por variáveis ​​demográficas como sexo, raça ou SES. Uma vez que esses grupos foram definidos, uma amostra de cada grupo como se fosse independente de todos os outros grupos. Por exemplo, se uma amostra for estratificada em gênero, homens e mulheres serão amostrados independentemente um do outro. Isto significa que os pesos de probabilidade para os homens serão provavelmente diferentes dos pesos de probabilidade para as mulheres. Na maioria dos casos, você precisa ter duas ou mais PSUs em cada estrato. O objetivo da estratificação é melhorar a precisão das estimativas ea estratificação funciona mais eficazmente quando a variância da variável dependente é menor dentro dos estratos do que na amostra como um todo. FPC. Esta é a configuração da opulação. Isso é usado quando a fração de amostragem, o número de elementos ou entrevistados amostrados em relação à população, se torna grande. O FPC é usado no cálculo do erro padrão da estimativa. Se o valor do FPC for próximo de 1, ele terá pouco impacto e pode ser ignorado com segurança. Em alguns programas de análise de dados de pesquisa, como SUDAAN, essas informações serão necessárias se você especificar que os dados foram coletados sem substituição (veja abaixo para uma definição de quotwithout replacementquot). A fórmula para calcular o FPC é ((N-n) / (N-1)) 1/2. Onde N é o número de elementos na população e n é o número de elementos na amostra. Para ver o impacto do FPC para amostras de várias proporções, suponha que você tivesse uma população de 10.000 elementos. Amostragem com e sem substituição A maioria das amostras coletadas no mundo real são coletadas sem substituição. Isto significa que, uma vez que um inquirido foi seleccionado para estar na amostra e participou no inquérito, esse inquirido particular não pode ser seleccionado novamente para estar na amostra. Muitos dos cálculos variam dependendo se uma amostra é coletada com ou sem substituição. Assim, programas como o SUDAAN requerem que você especifique se um projeto de amostragem de levantamento foi implementado com o nosso sem substituição, e um FPC é usado se a amostragem sem substituição é usada, mesmo se o valor do FPC é muito próximo a um. O porquê e como Até recentemente, um necessário usar software especial (como SUDAAN ou WesVar) para analisar corretamente dados de pesquisa. Hoje, programas comumente usados ​​como SAS, Stata e SPSS possuem procedimentos especialmente desenvolvidos para lidar com os recursos dos dados de pesquisa. Não importa qual pacote é usado, ainda é preciso especificar o peso de probabilidade, PSU, strata e FPC, se for necessário. O método de linearização da série Taylor de corrigir os erros padrão foi preferido ao uso de métodos de repetição principalmente para fins computacionais: Demorou menos poder de computação para usar a série de Taylor. Voltar quando o poder de computação era uma preocupação real, este método tornou-se popular. No entanto, um problema com este método surgiu (aqui é onde chegamos à parte de peso de réplica). Em alguns casos, o número de entrevistados em uma PSU particular era pequeno, e as pessoas poderiam começar a descobrir quem era o respondente, mesmo que nenhuma informação de identificação estivesse contida no conjunto de dados. Para um pequeno exemplo de como isso funciona, suponha que tenhamos uma pesquisa estratificada sobre gênero e raça, e as PSUs são cidades no sul da Califórnia. Em algumas dessas cidades, pode haver muito poucos indivíduos em um estrato particular, como as nativas do Alasca do sexo feminino. Uma vez que o usuário da pesquisa descobre qual número de PSU corresponde a uma determinada cidade, o usuário pode descobrir que existem apenas duas nativas do Alasca nesta cidade. Talvez outras informações na pesquisa, digamos idade, possam ser usadas para determinar exatamente quem é o respondente. Agora, as respostas à pesquisa que deveriam ser confidenciais não são mais confidenciais. Uma maneira de evitar esse problema é não liberar dados em estratos que têm menos de 100 respondentes no mesmo. No entanto, isso pode levar a resultados enganosos porque nem todos os estratos estão sendo incluídos na análise. Outra solução é usar pesos de repetição. Como os pesos de repetição são uma série de muitas variáveis ​​(freqüentemente entre 50 e 100) e seus valores são baseados em informações não fornecidas ao usuário do conjunto de dados de levantamento, é quase impossível para o usuário descobrir a identidade de um determinado respondente . Observe que quando o método de peso de repetição é usado, as variáveis ​​de PSU e strata não são incluídas no conjunto de dados. No entanto, o peso de probabilidade será incluído e tanto o peso de probabilidade como os pesos de repetição devem ser usados ​​para o cálculo correto da estimativa pontual e seu erro padrão. Existem várias maneiras de criar pesos de repetição. No entanto, todos eles são baseados em uma lógica subjacente semelhante. A amostra é dividida em subamostras, chamadas repetições. Em seguida, calcula-se a estimativa de juros a partir da amostra completa e de cada repetição. Finalmente, as diferenças entre a estimativa da amostra completa e cada uma das repetições são utilizadas para determinar a variância, isto é, o erro padrão, em torno da estimativa. Diferentes métodos de criação das subamostras produzem os diferentes tipos de pesos de repetição. Os diferentes tipos de pesos de repetição incluem repetição repetida equilibrada (BRR), jackknife (JK-1, JK-2 e JK-n) e diferenças sucessivas. A escolha do tipo de peso de repetição a ser criado é determinada pelo tipo de projeto de amostragem que foi utilizado para coletar os dados, em particular, se a estratificação foi ou não utilizada e quantas UPUs foram em cada estrato. Se a estratificação não foi utilizada, então o método apropriado de peso de repetição seria jackknife delete-1. Se a estratificação fosse usada e houvesse exatamente duas UPEs por estrato, então poderia ser usada BRR (ou BRR com correção de Fays) ou jackknife delete-2. Se houvesse mais de duas UPE por estrato, jackknife delete-n seria usado. Para um tratamento completo e extremamente legível de BBR e os vários tipos de jackknife replicar pesos, consulte o manual WesVar. Para obter mais informações sobre pesos sucessivos de repetição de diferença, consulte Fay e Train (1995). Além de proteger a privacidade dos entrevistados, o método de repetição do peso tem outras vantagens. Um deles é que os pesos de repetição podem incluir informações que não apenas sobre os estratos e as UPEs. Muitas pesquisas têm correções ao peso de probabilidade para contabilizar a não-resposta, poststratificação e / ou raking para totais conhecidos, como os números atuais do Censo. Os efeitos destes ajustamentos podem ser incorporados nos pesos de repetição. Naturalmente, existem algumas desvantagens para o método de peso de repetição. Um deles é visto em conjuntos de dados extremamente grandes que têm um número enorme de pesos de repetição. Nesses casos, as limitações do software ou do computador podem tornar o tempo de computação extremamente longo ou não possível. Outra desvantagem tem a ver com o cálculo de estatísticas não-lineares, tais como razões e quantiles. Se o número de estratos é pequeno, há uma possibilidade de viés. Uma última nota sobre pesos de repetição. Ao especificá-los em um programa, você tem que saber por qual método os pesos de réplicas foram criados. Suas estimativas serão imprecisas se você quottellquot o programa que você tem JK-1 replicar pesos quando na verdade as réplicas foram formadas usando BRR. Se os pesos de repetição forem fornecidos como parte do conjunto de dados, a documentação informará como as réplicas foram formadas. Estas informações podem frequentemente ser encontradas na secção sobre o cálculo dos erros-padrão. Criando pesos de repetição Em ocasiões raras, pode ser necessário criar pesos de repetição para um conjunto de dados de levantamento. Vários programas podem ser usados ​​para isso. WesVar criará pesos de repetição, e há um programa Stata. ado por Nicholas Winters chamado svr (da linha de comando Stata, digite findit svr para encontrar e baixar este. ado). Dentro deste programa é um comando chamado survwgt que irá criar brr, jk1, jk2 e jkn replicar pesos. Uma introdução geral ao método de peso de repetição (e séries de Taylor) pode ser encontrada no capítulo 4 de Análise de dados de levantamento complexo por Eun Sul Lee, Ronald N. Forthofer e Ronald J. Lorimor. As fórmulas matemáticas nas quais os pesos replicados são baseados podem ser encontradas em muitos textos, incluindo o manual WesVar 4, que está on-line em westat / Westat / pdf / wesvar / WV4-3Manual. pdf Documentação e uma bibliografia podem ser encontradas em westat / Westat / expertise / informationsystems / WesVar / wesvardocumentation. cfm. Naturalmente, Introdução à Estimação de Variância por Kirk M. Wolter é o clássico nesta área. Usando pesos de repetição no Stata Agora que temos uma idéia geral sobre o que são os pesos de repetição e por que eles precisam ser usados, é hora de usá-los. Para os nossos exemplos, usaremos o conjunto de dados CHIS para adultos (veja chis. ucla. edu/). O California Health Interview Survey (CHIS) é dividido em vários conjuntos de dados. Estaremos usando o conjunto de dados quotadultquot. No conjunto de dados CHIS adulto, existem 80 pesos de repetição criados usando o método jackknife (tecnicamente, o método jackknife delete-2). Vamos usar estes e o pweight final, chamado rakedw0. No nosso comando svyset. Além de especificar o peso de probabilidade e os pesos de repetição, também precisamos fornecer o multiplicador de ajuste do jackweight, que para esse conjunto de dados é 1. Essas informações são encontradas na mesma parte da documentação do levantamento que indica como os pesos de réplicas foram criados . Se o tipo de pesos de repetição era BRR em vez de jackknife, nós olhamos para ver se havia um ajuste de Fays. Observação: O uso de pesos de repetição é um novo recurso no Stata 9. Os comandos abaixo não funcionará em versões anteriores do Stata. Agora que nós dissemos a Stata sobre os recursos de nosso conjunto de dados, vamos ter certeza de que fizemos isso corretamente. Podemos usar o comando svydes para fazer isso. Você notará que, na parte inferior da saída, parece haver apenas um estrato e apenas uma observação por unidade (PSU). Isso ocorre porque as informações para a estratificação e as UPEs estão contidas nos pesos de repetição e, portanto, não são mostradas nessa tabela. Em seguida, executaremos um exemplo de regressão simples usando ae13 como a variável resposta (dependente) e ae14 como a variável preditor (independente). Estas variáveis ​​foram escolhidas aleatoriamente. Embora o comando será executado (e executado mais rápido) sem a opção jackknife após o svy. Você obterá erros padrão linearizados em vez do erro padrão jackknife. Esse erro padrão jackknife coincide com os erros padrão produzidos por SUDAAN e WesVar. Amostra de configurações do SUDAAN são úteis Como o SUDAAN conseguiu lidar com pesos de repetição muito mais longos do que o Stata, a documentação oficial para um levantamento pode incluir uma configuração de amostra para o SUDAAN, mas não para o Stata, embora você possa encontrar alguns exemplos do Stata na web. Não escova pelo exemplo de SUDAAN que pensa que é inútil a você como um usuário de Stata um pouco, é frequentemente a maneira a mais fácil começar toda a informação que você necessita para seu comando do svyset. Todos os programas de análise de dados de pesquisa precisam ter as mesmas informações: o peso de probabilidade, o tipo de peso de repetição que deve ser usado, os nomes das variáveis ​​de peso de repetição e o fator de ajuste. Esses elementos são necessários independentemente do tipo de plano de amostragem utilizado. Em SUDAAN, o peso de probabilidade será listado na declaração de peso. O tipo de peso será listado na opção de design na instrução proc. Os nomes dos pesos de repetição podem ser encontrados na instrução jackwgts para pesos de repetição jackknife ou na instrução repwgt para pesos de repetição BRR. O ajuste pode ser encontrado na mesma declaração - adjjack para jackknife replicate pesos e adjfay para BRR replicar pesos. Uma pequena nota sobre pseudo-estratos e pseudo-PSUs Alguns conjuntos de dados modernos estão sendo liberados com pseudo-strata e pseudo-PSUs. Estes podem ser usados ​​em uma linearização da série Taylor, assim como suas contrapartes não-pseudo seria. Esses elementos são quotpseudoquot no sentido de que eles foram modificados de forma que, enquanto as estimativas pontuais e os erros padrão são estimados corretamente, os usuários do conjunto de dados são incapazes de usar os estratos e as informações do PSU para descobrir quem são os respondentes individuais. Os resultados obtidos utilizando estes pseudo-elementos podem diferir mais dos resultados obtidos utilizando os pesos de repetição do que os resultados da utilização dos não pseudo-elementos. Você pode achar que intervalos de confiança mais amplos são obtidos ao usar os pseudo-strata e pseudo-PSUs do que quando usar os pesos de repetição, se ambos estiverem disponíveis no conjunto de dados. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico pela University of California. Aviso 29 Jun 2015, 13:13 Introdução Tenho dados de inquéritos multiníveis de professores aninhados nas escolas. Eu manualmente calculado pesos de design e pesos de ajuste de não-resposta com base na seleção de probabilidade e taxa de resposta. Agora eu quero criar pesos pós-estratificação para compensar a não-cobertura, principalmente por meio de dois marginais: o sexo de (masculino ou feminino) eo status de emprego (em tempo integral ou não) do professor. Eu tentei fazer isso em Stata usando o módulo escrito pelo usuário survwgt no entanto, eu não posso obtê-lo para trabalhar em dados aninhados. Variáveis ​​escola. Masculino original da identificação da escola. 1 professor em tempo integral. 1 professor em tempo integral Nall. Total da população real de professores, por escola nall. Número de professores na amostra, por escola Nmale. Total de professores do sexo masculino, por escolaridade. Número de professores do sexo masculino na amostra, por escola Nfull. Total de professores em tempo integral, por escola. Número de professores em tempo integral na amostra, por escola rr. Taxa de resposta dos professores, por escola (usada para calcular oldwt) oldwt. O produto do peso de projeto eo ajuste de não-resposta newwt. O novo peso, a ser produzido via raking 29 Jun 2015, 16:09 No futuro, por favor, como solicitado no FAQ, dar a fonte de contribuiu comandos. O pacote survwgt foi escrito por Nick Winter, e está disponível via ssc. Um bom guia para raking é Battaglia, 2013. Note que a quotby () quot opção deve especificar as categorias pelas quais você deseja reponder, neste caso escola-sexo. Criar um pequeno conjunto de dados com uma linha por escola e sexo com variáveis ​​escola. Sexo, ngender (totais). Em seguida, adicione uma única variável scgender para identificar as combinações escola-sexo: Esta é realmente uma técnica pós-estratificação. Ele não vai remover o viés de resposta, exceto aquele relacionado ao gênero. Para fazer um trabalho melhor, você precisa de informações sobre as características dos respondedores e não respondedores. O módulo de não-resposta de survwgt pode fazer isso. Para outras abordagens, ver Groves et al. (2009). P. 350 ou Lohr, 2009, Capítulo 8. Eu, pessoalmente, usaria regressão logística para obter uma probabilidade estimada de resposta para cada pessoa, em seguida, peso pelo inverso. Battaglia, M. P. Hoaglin, D. C. amp. Frankel, M. R. (2013). Considerações práticas sobre o levantamento dos dados da pesquisa. Prática de Levantamento, 2 (5). Disponível em: surveypractice. org/index. php/SurveyPractice/article/view/176/0 Groves, Robert M. Floyd J. Fowler, Mick P. Couper, James M. Lepkowski, Eleanor Singer e Roger Tourangeau. Metodologia de pesquisa, segunda edição. Hoboken, N. J. Wiley. Lohr, Sharon L. 2009. Amostragem: Desenho e Análise. Boston, MA: Cengage Brooks / Cole. Última edição por Steve Samuels 29 Jun 2015, 17:07. Obrigado Steve e Nick para a assistência. Eu testei o código nos dados da amostra na minha máquina e tudo parece que ele funcionou Eu acredito que ele funcionou porque eu calculado a soma dos pesos e eles se alinham com os totais da população. Houve mais um erro de digitação que eu peguei - o segundo scgender nesta linha deve ser apenas gende r: egen grupo scgender (school scgender), label --gt egen scgender group (gênero escolar), label Assim, o código final, para referência , É o seguinte (note que eu tive que mudar os nomes das variáveis ​​Nx para nx para obter o código para ser executado no Stata - eg Nmale no post original se torna nmale abaixo):

No comments:

Post a Comment