Sunday 19 November 2017

Rescaling Data In Stata Forex


Bem-vindo ao Instituto de Pesquisa e Educação Digital Stata FAQ Como posso recodificar variáveis ​​contínuas em grupos Pode haver momentos em que você gostaria de converter uma variável contínua em grupos. Por exemplo, você pode querer converter uma pontuação de leitura contínua que varie de 0 a 100 em 3 grupos (diga baixo, médio e alto). Você pode usar egen com a função cut () para fazer isso de forma rápida e fácil, conforme ilustrado abaixo. Vamos ilustrar isso com o arquivo de dados hsb2 com uma variável chamada escrita que varia de 31 a 67. Podemos usar egen com a função cut () para criar uma variável chamada writecat que agrupa a variável escreva nas seguintes 4 categorias. 30 até (mas não incluindo) 40 40 até (mas não incluindo) 50 50 até (mas não incluindo) 60 60 até (mas não incluindo) 70 O comando da tabela abaixo é usado para verificar se os dados são agrupados como nós esperamos. Podemos ver isso quando o writecat está na categoria mais baixa (30) que escreve intervalos de 31 a 39, e assim por diante, como esperamos, por exemplo, Os valores quando o gravador está na categoria 30 correspondem a escrever com valores de 30 até (mas não incluindo) 40. Aqui usamos o mesmo comando, mas nossa última categoria é de 50 a 60. Como você vê, ele gera um valor ausente porque Há uma série de valores que são 60 ou superiores e, portanto, fora do intervalo que especificamos. Isso mostra que, se houver valores fora do intervalo que você fornece, serão atribuídos um valor faltante. Se usarmos a opção icodes, cut () criará códigos inteiros 0, 1, 2 e assim por diante. No exemplo abaixo, você pode ver que criou os códigos 0, 1, 2 e 3. Se você usa a opção de etiqueta (o que implica automaticamente icode), ele criará valores inteiros como acima, mas também criará rótulos de valor. Como você vê abaixo, a variável writecat4 é rotulada de 30 a 40-50 e 60-. Utilizamos a opção nolabel para suprimir a exibição das etiquetas de valor e você pode ver que a variável realmente está codificada 0, 1, 2 e 3. Se você preferir, você pode pedir corte () para escolher os pontos de corte para formar grupos com aproximadamente O mesmo número por grupo. Abaixo, solicitamos a criação de 4 (grosso modo) grupos de tamanho igual. Para obter mais informações, consulte o manual de ajuda ou referência sobre egen. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia. Bem-vindo ao Instituto de Pesquisa e Educação Digital Stata FAQ Como faço para padronizar variáveis ​​em Stata A padronizadas Variável (às vezes chamada de pontuação z ou pontuação padrão) é uma variável que foi redimensionada para ter uma média de zero e um desvio padrão de uma. Para uma variável padronizada, cada valor de caso na variável padronizada indica sua diferença da média da variável original em número de desvios padrão (da variável original). Por exemplo, um valor de 0,5 indica que o valor para esse caso é metade de um desvio padrão acima da média, enquanto um valor de -2 indica que um caso tem um valor de dois desvios padrão inferiores à média. As variáveis ​​são padronizadas por uma variedade de razões, por exemplo, para garantir que todas as variáveis ​​contribuam uniformemente para uma escala quando os itens são adicionados em conjunto ou para facilitar a interpretação dos resultados de uma regressão ou outra análise. Padronizar uma variável é um procedimento relativamente direto. Primeiro, a média é subtraída do valor para cada caso, resultando em uma média de zero. Então, a diferença entre a pontuação dos indivíduos e a média é dividida pelo desvio padrão, o que resulta em um desvio padrão de um. Se começarmos com uma variável x. E gerar uma variável x. O processo é: Onde m é a média de x. E sd é o desvio padrão de x. Para ilustrar o processo de padronização, usaremos o conjunto de dados High School e Beyond (hsb2). Criaremos versões padronizadas de três variáveis, matemática. Ciência . E socst. Essas variáveis ​​contêm pontuação dos alunos em testes de conhecimento de matemática (matemática), ciência (ciência), estudos sociais (socst). Primeiro, usaremos o comando de resumo (abreviado como soma abaixo) para obter a média e o desvio padrão para cada variável. A média de matemática é 52.645, e seu desvio padrão é 9.368448. Com base nessas informações, podemos gerar uma versão padronizada de matemática chamada z1math. O código abaixo faz isso com o comando generate (abreviado para gen), então usa resumir para confirmar que a média de z1math é muito próxima de zero (devido ao erro de arredondamento, a média de uma variável padronizada raramente será exatamente 0) e A desviação padrão é uma. Abaixo, fazemos o mesmo para a ciência e o socst. Criando duas novas variáveis, z1cience e z1socst. Usando seus respectivos meios e desvios padrão retirados da primeira tabela de estatísticas resumidas. A tabela de estatísticas de resumo mostradas abaixo demonstra que ambas as variáveis ​​estão de fato padronizadas. Padronizar variáveis ​​não é difícil, mas para tornar esse processo mais fácil e menos propenso a erros, você pode usar o comando egen para criar variáveis ​​padronizadas. Os comandos abaixo padronizam os valores de matemática. Ciência . E socst. Criando três novas variáveis, z2math. Z2ciência. E z2socst. Mais uma vez, podemos observar uma tabela de estatísticas de resumo para confirmar que essas variáveis ​​são padronizadas. Observe que os meios não são exatamente zero, nem combinam os meios do conjunto de variáveis ​​padronizadas criadas acima usando o comando de geração. Em ambos os casos, isso se deve a um erro de arredondamento muito pequeno. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia.

No comments:

Post a Comment