Função de variância

Em estatística, o desvio de função é uma função suave que mostra a variação de uma quantidade aleatória como uma função de sua média. O desvio de função desempenha um grande papel em muitas definições de modelagem estatística. É um ingrediente principal na lineares generalizados modelo de quadro e uma ferramenta usada em não-paramétricos de regressão,Erro de citação: Elemento de abertura <ref> está mal formado ou tem um nome inválido semiparametric regressãoErro de citação: Elemento de abertura <ref> está mal formado ou tem um nome inválido e funcional de análise de dados.Erro de citação: Elemento de abertura <ref> está mal formado ou tem um nome inválido Na modelagem paramétrica, desvio de funções de assumir uma forma paramétrica e de descrever explicitamente a relação entre a variância e a média de uma quantidade aleatória. Em um não-paramétrico de configuração, o desvio de função é considerado uma função suave.

Intuição[editar]

Em um modelo de regressão definição, o objetivo é determinar se existe uma relação entre uma variável resposta e um conjunto de variáveis preditoras. Além disso, se um relacionamento não existe, o objetivo, então, é ser capaz de descrever essa relação como a melhor possível. Uma hipótese principal em regressão linear é constante, a variância ou (homocedasticidade), o que significa que diferentes variáveis de resposta têm a mesma variância nos seus erros, em todos os prognósticos de nível. Esta suposição funciona bem quando a variável resposta e a variável de previsão são solidariamente Normal, consulte a distribuição Normal. Como veremos mais tarde, o desvio de função na configuração Normal, é constante, no entanto, temos de encontrar uma maneira de quantificar heteroscedasticity (não-variância constante) na ausência de Normalidade conjunta.

Quando é provável que a resposta segue uma distribuição que é um membro da família exponencial, um modelo linear generalizado , pode ser mais adequado usar, e além disso, quando quisermos, não para impor um modelo paramétrico para os nossos dados, uma não-paramétricos de regressão abordagem pode ser útil. A importância de ser capaz de modelar a variância como uma função da média reside na melhoria de inferência (paramétrico), e a estimativa da função de regressão, em geral, para qualquer definição.

Desvio de funções desempenham um papel muito importante na estimativa de parâmetros e de inferência. Em geral, a estimativa de máxima verossimilhança requer que a probabilidade de a função ser definida. Este requisito, em seguida, implica que primeiro deve-se especificar a distribuição das variáveis de resposta observada. No entanto, para definir um quase-verossimilhança, é necessário apenas especificar uma relação entre a média e a variância das observações, em seguida, ser capaz de usar o quasi-probabilidade de função para estimativa.Erro de citação: Elemento de abertura <ref> está mal formado ou tem um nome inválido Quasi-probabilidade estimativa é particularmente útil quando há overdispersion. Overdispersion ocorre quando há maior variabilidade nos dados, que deve ser de alguma forma esperado, de acordo com a suposta distribuição dos dados.

Em resumo, para garantir a eficiência de inferência dos parâmetros de regressão e a função de regressão, o heteroscedasticity deve ser considerado. Desvio de funções quantificar a relação entre a variância e a média dos dados observados e, portanto, desempenham um papel significativo na regressão estimação e inferência.

Tipos de desvio de funções[editar]

O desvio de função e suas aplicações em muitas áreas de análise estatística. Muito importante o uso desta função é, no quadro de modelos lineares generalizados e não-paramétricos de regressão.

Modelo linear generalizado[editar]

Quando um membro da família exponencial tiver sido especificado, o desvio de função pode ser facilmente derivada.^[1]^:29 A forma geral do desvio de função é apresentado sob a exponencial contexto familiar, bem como formas específicas de Normal, de Bernoulli, Poisson e Gama. Além disso, podemos descrever as aplicações e uso da variância de funções na estimativa de máxima verossimilhança e de quasi-probabilidade de estimativa.

Derivação[editar]

O modelo linear generalizado (GLM), é uma generalização do processo de análise de regressão que se estende a qualquer membro da família exponencial. É particularmente útil quando a variável resposta é categórica, binário ou sujeita a uma restrição (e.g. apenas respostas positivas fazem sentido). Um resumo rápido dos componentes de um GLM são resumidos nesta página, mas para mais detalhes e informações, veja a página em modelos lineares generalizados.

Um GLM é composto de três ingredientes principais:

1. Componente aleatório: uma distribuição de y a partir da família exponencial,

2. Preditor Linear:

3. Função de ligação:

Primeiro é importante encontrar um par chave propriedades da exponencial de família.

Qualquer variável aleatória na família exponencial tem uma função de densidade de probabilidade da forma,

com loglikelihood,

Aqui, é canônico parâmetro e o parâmetro de interesse, e é um incômodo parâmetro que desempenha um papel na variância. Usamos as Identidades de Bartlett para derivar uma expressão geral para o desvio de função. O primeiro e o segundo Bartlett resultados garante que, sob condições adequadas ((ver Leibniz integral regra)), para uma função de densidade dependente ,

Essas identidades levar a cálculos simples do valor esperado e a variância de qualquer variável aleatória na família exponencial .

Valor esperado de Y: Tomando a primeira derivada com respeito ao o log da densidade na família exponencial forma descrita acima, temos

Em seguida, tomando o valor esperado e a sua definição igual a zero leva a,

A variação de Y: Para calcular a variância usamos o segundo Bartlett identidade,

Temos agora uma relação entre e , nomeadamente

e

, o que permite uma relação entre

e a variância,

Observe que, porque e , em seguida, é invertível. Obtemos o desvio de função para algumas distribuições comuns.

Exemplo – normal[editar]

A distribuição Normal é um caso especial onde o desvio de função é uma constante. Deixe em seguida, colocamos a função densidade de y na forma de exponencial da família descrito acima:

onde

Para calcular o desvio de função , nós primeiro express como uma função de . Em seguida, podemos transformar em uma função de

Portanto, o desvio de função é constante.

Exemplo – Bernoulli[editar]

Deixe e , em seguida, gostaríamos de expressar a densidade da distribuição de Bernoulli em exponencial na formula,

logit(p), o que nos dá

expit

e

expit

Isto dá-nos

Exemplo – Poisson[editar]

Deixe e , em seguida, gostaríamos de expressar a densidade da distribuição de Poisson exponencial em forma da família,

o que nos dá

e

Isto dá-nos

Aqui vemos a central de propriedade de Poisson de dados, de que a variância é igual à média.

Exemplo – Gama[editar]

A distribuição Gama e função de densidade pode ser expressa sob diferentes parametrizações. Vamos usar a forma de gama com parâmetros

Em seguida, na forma da família exponencial temos

E nós temos

Aplicação – weighted least squares[editar]

Uma aplicação muito importante do desvio de função, é a sua utilização na estimativa de parâmetros e de inferência quando a variável de resposta é necessário exponencial forma da família, bem como, em alguns casos, quando não é (que vamos discutir em quasi-probabilidade). Weighted least squares (WLS) é um caso especial de generalized least squares. Cada termo do WLS critério inclui um peso que determina que a influência de cada observação tem no final estimativas de parâmetros. Como no regular de mínimos quadrados, o objetivo é estimar os parâmetros desconhecidos na função de regressão por encontrar valores para estimativas de parâmetros que minimizam a soma dos desvios quadrados entre o observado respostas e a parte funcional do modelo.

Enquanto WLS pressupõe a independência das observações não assume a igualdade de variância e, portanto, é uma solução para a estimativa de parâmetros na presença de heteroscedasticity. O Gauss–Markov teorema e Aitken demonstrar que o best linear unbiased estimator (AZUL), o estimador imparcial com mínima variância, tem cada peso igual ao recíproco do desvio da medição.

No GLM quadro, o nosso objetivo é estimar parâmetros , onde . Portanto, gostaríamos de minimizar e se definirmos o peso matriz W como

onde são definidos na seção anterior, permite iteratively reweighted least squares (IRLS) estimativa dos parâmetros. Consulte a seção sobre iteratively reweighted least squares para mais de derivação e de informação.

Além disso, é importante notar que, quando o peso da matriz é da forma aqui descrita, minimizando a expressão também minimiza a distância de Pearson. Consulte a Distância de correlação para mais.

A matriz W cai para a direita fora da estimativa de equações para a estimativa da . Máxima verossimilhança estimativa para cada parâmetro , requer

, onde

é a log-verossimilhança.

e notando que

temos que

A matriz Hessiana é determinado de maneira semelhante e pode ser mostrado para ser,

Percebendo que o Pescador de Informações (FI),

permite uma aproximação assintótica de

e , portanto, a inferência pode ser realizada.

Aplicativo – quase-probabilidade[editar]

Porque a maioria das características dos GLMs depende apenas os dois primeiros momentos da distribuição, ao invés de incluir, em seguida, toda a distribuição, o quase-probabilidade pode ser desenvolvido apenas a especificação de uma função de ligação e um desvio de função. Isto é, precisamos especificar

– Função de ligação:

– Desvio de função:

Com um determinado desvio de função e função de ligação que podem se desenvolver, como alternativas para a log-probabilidade de função, a função de pontuação, e o Fisher informações, um quase-probabilidade, um quase-pontuação, e a quase-informações. Isso permite total de inferência de .

(QL)

Embora chamado de quase-verossimilhança, isto é, na verdade, um quase-log-verossimilhança. O QL para uma observação é

E, portanto, o QL para todas as n observações é

A partir do QL temos o quase-pontuação

Quase-pontuação (QS)

Lembro a pontuação de função, U, para dados com o log-probabilidade é

Obtém-se o quase-pontuação de modo idêntico,

Notar que, para uma observação, a pontuação é

Os dois primeiros Bartlett equações são satisfeitas para a quase-pontuação, nomeadamente

e

Além disso, o quase-pontuação é linear em y.

Em última análise, o objetivo é encontrar informações sobre os parâmetros de interesse . Tanto o QS e QL são, na verdade, funções do . Lembro, e portanto ,

(QI)

O QI, é semelhante ao de Fisher informações,

QL,QS,QI como funções de

O QL, QS e QI fornecem os blocos de construção para a inferência sobre os parâmetros de interesse e, portanto, é importante expressar o QL, QS e QI de tudo, como funções de .

Lembrando novamente que derivamos as expressões de QL,QS e QI parametrizadas em .

Quasi-probabilidade ,

O QS como uma função de é, portanto,

Onde,

O quase-matriz de informação em é,

Obter a pontuação função e a informação de permite a estimativa de parâmetros e de inferência em uma maneira similar como descrito na Aplicação ponderada dos quadrados mínimos.

Não-paramétrico de análise de regressão[editar]

Não-paramétrico de estimação de desvio de função e a sua importância, tem sido amplamente discutidos na literaturaErro de citação: Elemento de abertura <ref> está mal formado ou tem um nome inválidoErro de citação: Elemento de abertura <ref> está mal formado ou tem um nome inválidoErro de citação: Elemento de abertura <ref> está mal formado ou tem um nome inválido Em não-paramétricos de regressão análise, o objetivo é expressar o valor esperado de sua variável de resposta(y) como uma função de seus preditores (X). De que é que estamos olhando para estimar uma média de função, sem assumir uma forma paramétrica. Há muitas formas de não-paramétrico de suavização de métodos para ajudar a estimar a função . Uma abordagem interessante é, também, olhar para um não-paramétrico de desvio de função, . Um não-paramétrica de variância função permite procurar em média função de como ele se relaciona com o desvio de função e observar padrões nos dados.

Um exemplo é detalhado nas fotos para a esquerda. O objetivo do projeto foi a de determinar, entre outras coisas, se é ou não o bolão, o número de anos nas ligas principais (beisebol,) tinha um efeito sobre a resposta, salário, um jogador fez. Uma primeira gráfico de dispersão dos dados indica que há heteroscedasticity em dados como a variância não é constante em cada nível do bolão. Porque podemos visualmente detectar o não-variância constante, é útil agora a trama e olhar para ver se a forma é indicativo de qualquer conhecidos de distribuição. Pode-se estimar e usando geral de suavização método. O enredo do não-paramétrico de suavizadas desvio de função pode dar ao pesquisador uma idéia da relação entre a variância e a média. A imagem à direita indica uma relação quadrática entre a média e a variância. Como vimos acima, a Gama de desvio de função é quadrática em média.

Notas[editar]

↑ McCullagh, Peter; Nelder, John (1989). Generalized Linear Models second ed. [S.l.]: London: Chapman and Hall. ISBN 0-412-31760-5

Este artigo "Função de variância" é da wikipedia The list of its authors can be seen in its historical and/or the page Edithistory:Função de variância.

Facebook Page

Follow us on Twitter !

Read or create/edit this page in another language[editar]

Função de variância in English

[1] McCullagh, Peter; Nelder, John (1989). Generalized Linear Models second ed. [S.l.]: London: Chapman and Hall. ISBN 0-412-31760-5

[1]