Função de variância
Em estatística, o desvio de função é uma função suave que mostra a variação de uma quantidade aleatória como uma função de sua média. O desvio de função desempenha um grande papel em muitas definições de modelagem estatística. É um ingrediente principal na lineares generalizados modelo de quadro e uma ferramenta usada em não-paramétricos de regressão,Erro de citação: Elemento de abertura <ref>
está mal formado ou tem um nome inválido semiparametric regressãoErro de citação: Elemento de abertura <ref>
está mal formado ou tem um nome inválido e funcional de análise de dados.Erro de citação: Elemento de abertura <ref>
está mal formado ou tem um nome inválido Na modelagem paramétrica, desvio de funções de assumir uma forma paramétrica e de descrever explicitamente a relação entre a variância e a média de uma quantidade aleatória. Em um não-paramétrico de configuração, o desvio de função é considerado uma função suave.
Intuição[editar]
Em um modelo de regressão definição, o objetivo é determinar se existe uma relação entre uma variável resposta e um conjunto de variáveis preditoras. Além disso, se um relacionamento não existe, o objetivo, então, é ser capaz de descrever essa relação como a melhor possível. Uma hipótese principal em regressão linear é constante, a variância ou (homocedasticidade), o que significa que diferentes variáveis de resposta têm a mesma variância nos seus erros, em todos os prognósticos de nível. Esta suposição funciona bem quando a variável resposta e a variável de previsão são solidariamente Normal, consulte a distribuição Normal. Como veremos mais tarde, o desvio de função na configuração Normal, é constante, no entanto, temos de encontrar uma maneira de quantificar heteroscedasticity (não-variância constante) na ausência de Normalidade conjunta.
Quando é provável que a resposta segue uma distribuição que é um membro da família exponencial, um modelo linear generalizado , pode ser mais adequado usar, e além disso, quando quisermos, não para impor um modelo paramétrico para os nossos dados, uma não-paramétricos de regressão abordagem pode ser útil. A importância de ser capaz de modelar a variância como uma função da média reside na melhoria de inferência (paramétrico), e a estimativa da função de regressão, em geral, para qualquer definição.
Desvio de funções desempenham um papel muito importante na estimativa de parâmetros e de inferência. Em geral, a estimativa de máxima verossimilhança requer que a probabilidade de a função ser definida. Este requisito, em seguida, implica que primeiro deve-se especificar a distribuição das variáveis de resposta observada. No entanto, para definir um quase-verossimilhança, é necessário apenas especificar uma relação entre a média e a variância das observações, em seguida, ser capaz de usar o quasi-probabilidade de função para estimativa.Erro de citação: Elemento de abertura <ref>
está mal formado ou tem um nome inválido Quasi-probabilidade estimativa é particularmente útil quando há overdispersion. Overdispersion ocorre quando há maior variabilidade nos dados, que deve ser de alguma forma esperado, de acordo com a suposta distribuição dos dados.
Em resumo, para garantir a eficiência de inferência dos parâmetros de regressão e a função de regressão, o heteroscedasticity deve ser considerado. Desvio de funções quantificar a relação entre a variância e a média dos dados observados e, portanto, desempenham um papel significativo na regressão estimação e inferência.
Tipos de desvio de funções[editar]
O desvio de função e suas aplicações em muitas áreas de análise estatística. Muito importante o uso desta função é, no quadro de modelos lineares generalizados e não-paramétricos de regressão.
Modelo linear generalizado[editar]
Quando um membro da família exponencial tiver sido especificado, o desvio de função pode ser facilmente derivada.[1]:29 A forma geral do desvio de função é apresentado sob a exponencial contexto familiar, bem como formas específicas de Normal, de Bernoulli, Poisson e Gama. Além disso, podemos descrever as aplicações e uso da variância de funções na estimativa de máxima verossimilhança e de quasi-probabilidade de estimativa.
Derivação[editar]
O modelo linear generalizado (GLM), é uma generalização do processo de análise de regressão que se estende a qualquer membro da família exponencial. É particularmente útil quando a variável resposta é categórica, binário ou sujeita a uma restrição (e.g. apenas respostas positivas fazem sentido). Um resumo rápido dos componentes de um GLM são resumidos nesta página, mas para mais detalhes e informações, veja a página em modelos lineares generalizados.
Um GLM é composto de três ingredientes principais:
- 1. Componente aleatório: uma distribuição de y a partir da família exponencial,
- 2. Preditor Linear:
- 3. Função de ligação:
Primeiro é importante encontrar um par chave propriedades da exponencial de família.
Qualquer variável aleatória na família exponencial tem uma função de densidade de probabilidade da forma,
com loglikelihood,
Aqui, é canônico parâmetro e o parâmetro de interesse, e é um incômodo parâmetro que desempenha um papel na variância. Usamos as Identidades de Bartlett para derivar uma expressão geral para o desvio de função. O primeiro e o segundo Bartlett resultados garante que, sob condições adequadas ((ver Leibniz integral regra)), para uma função de densidade dependente ,
Essas identidades levar a cálculos simples do valor esperado e a variância de qualquer variável aleatória na família exponencial .
Valor esperado de Y: Tomando a primeira derivada com respeito ao o log da densidade na família exponencial forma descrita acima, temos
Em seguida, tomando o valor esperado e a sua definição igual a zero leva a,
A variação de Y: Para calcular a variância usamos o segundo Bartlett identidade,
Temos agora uma relação entre e , nomeadamente
- e , o que permite uma relação entre e a variância,
Observe que, porque e , em seguida, é invertível. Obtemos o desvio de função para algumas distribuições comuns.
Exemplo – normal[editar]
A distribuição Normal é um caso especial onde o desvio de função é uma constante. Deixe em seguida, colocamos a função densidade de y na forma de exponencial da família descrito acima:
onde
Para calcular o desvio de função , nós primeiro express como uma função de . Em seguida, podemos transformar em uma função de
Portanto, o desvio de função é constante.
Exemplo – Bernoulli[editar]
Deixe e , em seguida, gostaríamos de expressar a densidade da distribuição de Bernoulli em exponencial na formula,
Isto dá-nos
Exemplo – Poisson[editar]
Deixe e , em seguida, gostaríamos de expressar a densidade da distribuição de Poisson exponencial em forma da família,
- o que nos dá
- e
Isto dá-nos
Aqui vemos a central de propriedade de Poisson de dados, de que a variância é igual à média.
Exemplo – Gama[editar]
A distribuição Gama e função de densidade pode ser expressa sob diferentes parametrizações. Vamos usar a forma de gama com parâmetros
Em seguida, na forma da família exponencial temos
E nós temos
Aplicação – weighted least squares[editar]
Uma aplicação muito importante do desvio de função, é a sua utilização na estimativa de parâmetros e de inferência quando a variável de resposta é necessário exponencial forma da família, bem como, em alguns casos, quando não é (que vamos discutir em quasi-probabilidade). Weighted least squares (WLS) é um caso especial de generalized least squares. Cada termo do WLS critério inclui um peso que determina que a influência de cada observação tem no final estimativas de parâmetros. Como no regular de mínimos quadrados, o objetivo é estimar os parâmetros desconhecidos na função de regressão por encontrar valores para estimativas de parâmetros que minimizam a soma dos desvios quadrados entre o observado respostas e a parte funcional do modelo.
Enquanto WLS pressupõe a independência das observações não assume a igualdade de variância e, portanto, é uma solução para a estimativa de parâmetros na presença de heteroscedasticity. O Gauss–Markov teorema e Aitken demonstrar que o best linear unbiased estimator (AZUL), o estimador imparcial com mínima variância, tem cada peso igual ao recíproco do desvio da medição.
No GLM quadro, o nosso objetivo é estimar parâmetros , onde . Portanto, gostaríamos de minimizar e se definirmos o peso matriz W como
onde são definidos na seção anterior, permite iteratively reweighted least squares (IRLS) estimativa dos parâmetros. Consulte a seção sobre iteratively reweighted least squares para mais de derivação e de informação.
Além disso, é importante notar que, quando o peso da matriz é da forma aqui descrita, minimizando a expressão também minimiza a distância de Pearson. Consulte a Distância de correlação para mais.
A matriz W cai para a direita fora da estimativa de equações para a estimativa da . Máxima verossimilhança estimativa para cada parâmetro , requer
- , onde é a log-verossimilhança.
- e notando que
- temos que
A matriz Hessiana é determinado de maneira semelhante e pode ser mostrado para ser,
Percebendo que o Pescador de Informações (FI),
- permite uma aproximação assintótica de
- e , portanto, a inferência pode ser realizada.
Aplicativo – quase-probabilidade[editar]
Porque a maioria das características dos GLMs depende apenas os dois primeiros momentos da distribuição, ao invés de incluir, em seguida, toda a distribuição, o quase-probabilidade pode ser desenvolvido apenas a especificação de uma função de ligação e um desvio de função. Isto é, precisamos especificar
- – Função de ligação:
- – Desvio de função:
Com um determinado desvio de função e função de ligação que podem se desenvolver, como alternativas para a log-probabilidade de função, a função de pontuação, e o Fisher informações, um quase-probabilidade, um quase-pontuação, e a quase-informações. Isso permite total de inferência de .
(QL)
Embora chamado de quase-verossimilhança, isto é, na verdade, um quase-log-verossimilhança. O QL para uma observação é
E, portanto, o QL para todas as n observações é
A partir do QL temos o quase-pontuação
Quase-pontuação (QS)
Lembro a pontuação de função, U, para dados com o log-probabilidade é
Obtém-se o quase-pontuação de modo idêntico,
Notar que, para uma observação, a pontuação é
Os dois primeiros Bartlett equações são satisfeitas para a quase-pontuação, nomeadamente
e
Além disso, o quase-pontuação é linear em y.
Em última análise, o objetivo é encontrar informações sobre os parâmetros de interesse . Tanto o QS e QL são, na verdade, funções do . Lembro, e portanto ,
(QI)
O QI, é semelhante ao de Fisher informações,
QL,QS,QI como funções de
O QL, QS e QI fornecem os blocos de construção para a inferência sobre os parâmetros de interesse e, portanto, é importante expressar o QL, QS e QI de tudo, como funções de .
Lembrando novamente que derivamos as expressões de QL,QS e QI parametrizadas em .
Quasi-probabilidade ,
O QS como uma função de é, portanto,
Onde,
O quase-matriz de informação em é,
Obter a pontuação função e a informação de permite a estimativa de parâmetros e de inferência em uma maneira similar como descrito na Aplicação ponderada dos quadrados mínimos.
Não-paramétrico de análise de regressão[editar]
Não-paramétrico de estimação de desvio de função e a sua importância, tem sido amplamente discutidos na literaturaErro de citação: Elemento de abertura <ref>
está mal formado ou tem um nome inválidoErro de citação: Elemento de abertura <ref>
está mal formado ou tem um nome inválidoErro de citação: Elemento de abertura <ref>
está mal formado ou tem um nome inválido
Em não-paramétricos de regressão análise, o objetivo é expressar o valor esperado de sua variável de resposta(y) como uma função de seus preditores (X). De que é que estamos olhando para estimar uma média de função, sem assumir uma forma paramétrica. Há muitas formas de não-paramétrico de suavização de métodos para ajudar a estimar a função . Uma abordagem interessante é, também, olhar para um não-paramétrico de desvio de função, . Um não-paramétrica de variância função permite procurar em média função de como ele se relaciona com o desvio de função e observar padrões nos dados.
Um exemplo é detalhado nas fotos para a esquerda. O objetivo do projeto foi a de determinar, entre outras coisas, se é ou não o bolão, o número de anos nas ligas principais (beisebol,) tinha um efeito sobre a resposta, salário, um jogador fez. Uma primeira gráfico de dispersão dos dados indica que há heteroscedasticity em dados como a variância não é constante em cada nível do bolão. Porque podemos visualmente detectar o não-variância constante, é útil agora a trama e olhar para ver se a forma é indicativo de qualquer conhecidos de distribuição. Pode-se estimar e usando geral de suavização método. O enredo do não-paramétrico de suavizadas desvio de função pode dar ao pesquisador uma idéia da relação entre a variância e a média. A imagem à direita indica uma relação quadrática entre a média e a variância. Como vimos acima, a Gama de desvio de função é quadrática em média.
Notas[editar]
- ↑ McCullagh, Peter; Nelder, John (1989). Generalized Linear Models second ed. [S.l.]: London: Chapman and Hall. ISBN 0-412-31760-5
Este artigo "Função de variância" é da wikipedia The list of its authors can be seen in its historical and/or the page Edithistory:Função de variância.