Fórmulas de distribuição hipergeométrica, equações, modelo

3024
Charles McCarthy

O distribuição hipergeométrica é uma função estatística discreta, adequada para calcular a probabilidade em experimentos aleatórios com dois resultados possíveis. A condição necessária para aplicá-lo é que sejam pequenas populações, nas quais as extrações não sejam substituídas e as probabilidades não sejam constantes.. 

Portanto, quando um elemento da população é escolhido para saber o resultado (verdadeiro ou falso) de uma determinada característica, esse mesmo elemento não pode ser escolhido novamente..

Figura 1. Em uma população de parafusos como essa, certamente existem amostras com defeito. Fonte: Pixabay.

Certamente, o próximo elemento escolhido é, portanto, mais provável de obter um resultado verdadeiro, se o elemento anterior teve um resultado negativo. Isso significa que a probabilidade varia conforme os elementos são extraídos da amostra..

As principais aplicações da distribuição hipergeométrica são: controle de qualidade em processos com pouca população e cálculo de probabilidades em jogos de azar.

Já a função matemática que define a distribuição hipergeométrica é constituída por três parâmetros, que são:

- Número de elementos da população (N)

- Tamanho da amostra (m) 

- Número de eventos em toda a população com resultado favorável (ou desfavorável) da característica estudada (n).

Índice do artigo

  • 1 Fórmulas e equações
    • 1.1 Variáveis ​​estatísticas importantes
  • 2 Modelo e propriedades 
    • 2.1 Principais propriedades da distribuição hipergeométrica
    • 2.2 Aproximação pela distribuição binomial
  • 3 exemplos
    • 3.1 Exemplo 1
    • 3.2 Exemplo 2
  • 4 exercícios resolvidos
    • 4.1 Exercício 1
    • 4.2 Exercício 2
    • 4.3 Exercício 3
  • 5 referências

Fórmulas e equações

A fórmula para a distribuição hipergeométrica dá a probabilidade P de que x casos favoráveis ​​de uma determinada característica ocorrem. A maneira de escrever matematicamente, com base nos números combinatórios, é:

Na expressão acima N, n Y m são parâmetros e x a própria variável. 

-População total é N.

-O número de resultados positivos de uma certa característica binária em relação à população total é n.

-Quantidade de itens de amostra é m.

Neste caso, X é uma variável aleatória que assume o valor x P (x) indica a probabilidade de ocorrência de x casos favoráveis ​​da característica estudada.

Variáveis ​​estatísticas importantes

Outras variáveis ​​estatísticas para a distribuição hipergeométrica são:

- Metade μ = m * n / N

- Variância σ ^ 2 = m * (n / N) * (1-n / N) * (N-m) / (N-1)

- Desvio típico σ que é a raiz quadrada da variância.

Modelo e propriedades 

Para chegar ao modelo da distribuição hipergeométrica, partimos da probabilidade de obter x casos favoráveis ​​em um tamanho de amostra m. A referida amostra contém elementos que estão de acordo com a propriedade em estudo e elementos que não.

Lembre-se disso n representa o número de casos favoráveis ​​na população total de N elementos Então, a probabilidade seria calculada assim:

P (x) = (# de maneiras de obter x # de maneiras com falha) / (# total de maneiras de selecionar)

Expressando o acima na forma de números combinatórios, chegamos ao seguinte modelo de distribuição de probabilidade:

Principais propriedades da distribuição hipergeométrica

São as seguintes:

- A amostra deve ser sempre pequena, mesmo se a população for grande.

- Os elementos da amostra são extraídos um a um, sem incorporá-los de volta à população..

- A propriedade a ser estudada é binária, ou seja, pode assumir apenas dois valores: 1 ou 0, o bem certo ou falso.

Em cada etapa de extração de elemento, a probabilidade muda dependendo dos resultados anteriores.

Aproximação usando a distribuição binomial

Outra propriedade da distribuição hipergeométrica é que ela pode ser aproximada pela distribuição binomial, denotada como Bi, contanto que a população N é grande e pelo menos 10 vezes maior do que a amostra m. Nesse caso, seria assim:

P (N, n, m; x) = Bi (m, n / N, x)           

Aplicável desde que N seja grande e N> 10m

Exemplos

Exemplo 1

Suponha que uma máquina que produz parafusos e os dados acumulados indiquem que 1% apresenta defeitos. Então, em uma caixa de N = 500 parafusos, o número de defeituosos será:

n = 500 * 1/100 = 5

Probabilidades usando a distribuição hipergeométrica

Suponha que dessa caixa (ou seja, dessa população) tiremos uma amostra de m = 60 parafusos.

A probabilidade de que nenhum parafuso (x = 0) na amostra seja defeituoso é de 52,63%. Este resultado é alcançado usando a função de distribuição hipergeométrica:

P (500, 5, 60, 0) = 0,5263

A probabilidade de que x = 3 parafusos na amostra sejam defeituosos é: P (500, 5, 60, 3) = 0,0129.

Por outro lado, a probabilidade de que x = 4 parafusos dos sessenta da amostra sejam defeituosos é: P (500, 5, 60; 4) = 0,0008.

Finalmente, a probabilidade de que x = 5 parafusos nessa amostra sejam defeituosos é: P (500, 5, 60; 5) = 0.

Mas se você quiser saber a probabilidade de que nessa amostra haja mais de 3 parafusos com defeito, você deve obter a probabilidade cumulativa, adicionando:

P (3) + P (4) + P (5) = 0,0129 + 0,0008 + 0 = 0,0137.

Este exemplo é ilustrado na figura 2, obtido usando GeoGebra um software livre amplamente utilizado em escolas, institutos e universidades.

Figura 2. Exemplo de distribuição hipergeométrica. Preparado por F. Zapata com GeoGebra.

Exemplo 2

Um deck espanhol tem 40 cartas, das quais 10 são douradas e as 30 restantes não. Suponha que 7 cartas sejam retiradas aleatoriamente desse baralho, que não são reincorporadas ao baralho.

Se X for o número de ouros presentes nas 7 cartas sorteadas, então a probabilidade de haver x golds em uma retirada de 7 cartas é dada pela distribuição hipergeométrica P (40,10,7; x).

Vamos ver assim: para calcular a probabilidade de ter 4 ouros em um sorteio de 7 cartas, usamos a fórmula da distribuição hipergeométrica com os seguintes valores:

E o resultado é: 4,57% de probabilidade.

Mas se você quiser saber a probabilidade de obter mais de 4 cartas, então você deve adicionar:

P (4) + P (5) + P (6) + P (7) = 5,20%

Exercícios resolvidos

O seguinte conjunto de exercícios destina-se a ilustrar e assimilar os conceitos apresentados neste artigo. É importante que o leitor tente resolvê-los sozinho, antes de olhar para a solução.

Exercício 1

Uma fábrica de preservativos descobriu que de cada 1.000 preservativos produzidos por uma determinada máquina, 5 saem com defeito. Para controle de qualidade, 100 preservativos são retirados ao acaso e o lote é rejeitado caso haja pelo menos um ou mais com defeito. Responder:

a) Qual a possibilidade de que um lote de 100 seja descartado?

b) Este critério de controle de qualidade é eficiente??

Solução

Nesse caso, números combinatórios muito grandes aparecerão. O cálculo é difícil, a menos que um pacote de software adequado esteja disponível.

Mas como se trata de uma grande população e a amostra é dez vezes menor que a população total, é possível usar a aproximação da distribuição hipergeométrica pela distribuição binomial:

P (1000,5,100; x) = Bi (100, 5/1000, x) = Bi (100, 0,005, x) = C (100, x) * 0,005 ^ x (1-0,005) ^ (100-x)

Na expressão acima C (100, x) é um número combinatório. Então, a probabilidade de haver mais de um defeito será calculada assim:

P (x> = 1) = 1 - Bi (0) = 1- 0,6058 = 0,3942

É uma excelente aproximação, se comparada com o valor obtido pela aplicação da distribuição hipergeométrica: 0,4102

Pode-se dizer que, com 40% de probabilidade, um lote de 100 profiláticos deve ser descartado, o que não é muito eficiente..

Mas, sendo um pouco menos exigente no processo de controle de qualidade e descartando o lote de 100 apenas se houver dois ou mais defeituosos, a probabilidade de descarte do lote cairia para apenas 8%..

Exercício 2

Uma máquina de plugue plástico funciona de forma que a cada 10 peças uma saia deformada. Em uma amostra de 5 peças, qual a probabilidade de que apenas uma peça esteja com defeito?.

Solução

População: N = 10

Número n de defeituosos para cada N: n = 1

Tamanho da amostra: m = 5

P (10, 1, 5; 1) = C (1,1) * C (9,4) / C (10,5) = 1 * 126/252 = 0,5

Portanto, há uma probabilidade de 50% de que em uma amostra de 5, uma sugestão saia deformada.

Exercício 3

Em uma reunião de jovens graduados do ensino médio, há 7 senhoras e 6 senhores. Entre as meninas, 4 estudam humanidades e 3 ciências. No grupo masculino, 1 estuda humanidades e 5 ciências. Calcule o seguinte:

a) Escolher três meninas ao acaso: qual é a probabilidade de que todas elas estudem humanidades?.

b) Se três participantes da reunião de amigos forem escolhidos ao acaso: Qual é a possibilidade de que três deles, independentemente do sexo, estudem ciências nos três, ou ciências humanas também nos três?.

c) Agora selecione dois amigos aleatoriamente e ligue x à variável aleatória "número de pessoas que estudam humanidades". Entre os dois escolhidos, determine a média ou valor esperado de x e a variância σ ^ 2.

Solução para 

A população é o número total de meninas: N = 7. Quem estuda humanidades é n = 4, do total. A amostra aleatória de meninas será m = 3.

Neste caso, a probabilidade de que todos os três sejam estudantes de humanidades é dada pela função hipergeométrica:

P (N = 7, n = 4, m = 3, x = 3) = C (4, 3) C (3, 0) / C (7, 3) = 0,1143

Portanto, há uma probabilidade de 11,4% de que três meninas escolhidas ao acaso estudem ciências humanas..

Solução b

Os valores a serem usados ​​agora são:

-População: N = 14

-Quantidade que estuda letras é: n = 6 e o

-Tamanho da amostra: m = 3.

-Número de amigos estudando humanidades: x

De acordo com isso, x = 3 significa que todos os três estudam humanidades, mas x = 0 significa que nenhum estuda humanidades. A probabilidade de que todos os três estudem o mesmo é dada pela soma:

P (14, 6, 3, x = 0) + P (14, 6, 3, x = 3) = 0,0560 + 0,1539 = 0,2099

Então, temos uma probabilidade de 21% de que três participantes da reunião, escolhidos aleatoriamente, estudem a mesma coisa.

Solução c

Aqui temos os seguintes valores:

N = 14 população total de amigos, n = 6 número total na população estudando humanidades, o tamanho da amostra é m = 2.

A esperança é:

E (x) = m * (n / N) = 2 * (6/14) = 0,8572

E a variação:

σ (x) ^ 2 =  m * (n / N) * (1-n / N) * (Nm) / (N-1) = 2 * (6/14) * (1-6 / 14) * (14-2) / (14 -1) =

= 2 * (6/14) * (1-6 / 14) * (14-2) / (14-1) = 2 * (3/7) * (1-3 / 7) * (12) / (13 )  = 0,4521

Referências

  1. Distribuições discretas de probabilidade. Recuperado de: biplot.usal.es
  2. Estatística e probabilidade. Distribuição hipergeométrica. Recuperado de: projectdescartes.org
  3. CDPYE-UGR. Distribuição hipergeométrica. Recuperado de: ugr.es
  4. Geogebra. Geogebra clássica, cálculo de probabilidade. Recuperado de geogebra.org
  5. Tente fácil. Resolvidos problemas de distribuição hipergeométrica. Recuperado de: probafacil.com
  6. Minitab. Distribuição hipergeométrica. Recuperado de: support.minitab.com
  7. Universidade de Vigo. Principais distribuições discretas. Recuperado de: anapg.webs.uvigo.es
  8. Vitutor. Estatística e combinatória. Recuperado de: vitutor.net
  9. Weisstein, Eric W. Hypergeometric Distribution. Recuperado de: mathworld.wolfram.com
  10. Wikipedia. Distribuição hipergeométrica. Recuperado de: es.wikipedia.com

Ainda sem comentários