Estatística A
Prof.º Francisco Farias
1. Apresentação de Dados Estatísticos
Quando lidamos com poucos valores numéricos, o trabalho estatístico fica
sensivelmente reduzido. No entanto, normalmente teremos que trabalhar com grande
quantidade de dados. Um dos objetivos da Estatística Descritiva, neste caso, é obter uma
significativa redução na quantidade de dados com os quais devemos operar diretamente.
Isto pode ser conseguido modificando-se a forma de apresentação destes dados.
Uma maneira de reduzir a quantidade de dados é agrupá-los em uma tabela chamada
distribuição de freqüência. Na construção de uma tabela de distribuição de freqüência
devemos levar em conta a quantidade de valores distintos do conjunto de dados. Se a
quantidade de valores distintos é pequena, então a tabela é construída através de uma variável
discreta, porém, se a quantidade de valores distintos for grande, então devemos construir a
tabela através de uma variável contínua.
2. Distribuição de Freqüência - Variável Discreta
É uma representação tabular de um conjunto de valores em que colocamos na primeira
coluna em ordem crescente apenas os valores distintos da série e na segunda coluna
colocamos os valores das freqüências simples correspondentes.
2.1. Freqüência Simples de um Elemento
A freqüência simples de um elemento do conjunto de dados representa o número de
vezes que este elemento se repete no conjunto de dados.
Exemplo 1: Uma amostra de 25 empresas, de médio porte, foi escolhida para um estudo sobre
o nível educacional dos funcionários de setor de vendas. Os dados estatísticos coletados,
quanto ao número de empregados com curso superior completo, são apresentados abaixo.
X: 4 1 2 5 3 1 0 2 4 3
2 3 0 1 4 3 2 3 1 2
1 2 4 3 2
Os valores distintos da seqüência são: 0, 1, 2, 3, 4, 5.
As freqüências simples respectivas são: 2, 5, 7, 6, 4, 1.
Portanto, a distribuição de freqüência simples deste conjunto de dados é:
OBSERVAÇÕES:
1. Note que a colocação de um índice i para x e para f tem a finalidade de referência. Deste
modo, x1 representa o primeiro valor distinto da série, x2 representa o segundo valor
distinto da série, f1 representa a freqüência simples do primeiro valor distinto da série, f2
representa a freqüência simples do segundo valor distinto da série e assim sucessivamente.
2. Note que conseguimos reduzir de vinte e cinco elementos que constituíam a série original
para apenas seis elementos.
3. Note também que a variável discreta só é uma forma eficiente de redução dos dados,
quando o número de elementos distintos da série for pequeno.
Uma vez que o interessado tenha colocado os dados na forma de uma distribuição de
freqüência simples, ele poderá rapidamente obter algumas informações adicionais e úteis para
a compreensão da série: as freqüências relativa, acumulada e relativa acumulada.
2.2. Freqüência Relativa de um Elemento
É a razão da freqüência simples do elemento pela freqüência total.
Da mesma forma determinamos a freqüência relativa dos demais elementos:
Note que estes valores representam a participação percentual de cada elemento distinto no conjunto de dados. Assim, podemos fazer a interpretação: 8% das empresas não possui nenhum funcionário com curso superior completo; 20% das empresas possui 1 funcionário com curso superior completo; 28% das empresas possuem 2 funcionários com curso superior completo; 24% das empresas possuem 3 funcionários com curso superior completo; 16% das empresas possuem 4 funcionários com curso superior completo e 4% das empresas possuem 5 funcionários com curso superior completo. 2.3. Freqüência Acumulada de um Elemento É a soma da freqüência simples deste elemento com as freqüências simples dos elementos que o antecedem. Desta forma, as freqüências acumuladas para os elementos do conjunto de dados valem respectivamente: F1 = f1 = 2 F2 = f1 + f2 = 2 + 5 = 7 F3 = f1 + f2 + f3 = 2 + 5 + 7 = 14 F4 = f1 + f2 + f3 + f4 = 2 + 5 + 7 + 6 = 20 F5 = f1 + f2 + f3 + f4 + f5 = 2 + 5 + 7 + 6 + 4 = 24 F6 = f1 + f2 + f3 + f4 + f5 + f6 = 2 + 5 + 7 + 6 + 4 + 1 = 25 Estes valores podem ser interpretados da seguinte forma: 2 empresas não possui nenhum funcionário com curso superior completo; 7 empresas possui 1 ou nenhum funcionário com curso superior completo; 14 empresas possuem 2 ou menos funcionários com curso superior completo; 20 empresas possuem 3 ou menos funcionários com curso superior completo; 24 empresas possuem 4 ou menos funcionários com curso superior completo e 25 empresas possuem 5 ou menos funcionários com curso superior completo.
2.4. Freqüência Relativa Acumulada de um Elemento É a soma da freqüência relativa deste elemento com as freqüências relativas dos elementos que o antecedem. Assim, as freqüências relativas acumuladas dos elementos do conjunto de dados são: 1 0,08 r F = ou 8%. 2 0,08 0,20 0, 28 r F = + = ou 28%. 3 0,08 0, 20 0,28 0,56 r F = + + = ou 56%. 4 0,08 0,20 0, 28 0, 24 0,80 r F = + + + = ou 80%. 5 0,08 0, 20 0,28 0, 24 0,16 0,96 r F = + + + + = ou 96%. 6 0,08 0,20 0, 28 0,24 0,16 0,04 1 r F = + + + + + = ou 100%. Estes valores podem ser interpretados da seguinte forma: 8% das empresas não possui nenhum funcionário com curso superior completo; 28% das empresas possui 1 ou nenhum funcionário com curso superior completo; 56% das empresas possuem 2 ou menos funcionários com curso superior completo; 80% das empresas possuem 3 ou menos funcionários com curso superior completo; 96% das empresas possuem 4 ou menos funcionários com curso superior completo e 4% das empresas possuem 5 ou menos funcionários com curso superior completo. Quando acrescentamos estes valores à tabela original, esta passa a se chamar distribuição de freqüência. Para o exemplo estabelecido, a tabela de distribuição de freqüência é: xi fi fri % Fi Fri % 0 2 8 2 8 1 5 20 7 28 2 7 28 14 56 3 6 24 20 80 4 4 16 24 96 5 1 4 25 100 Total 25 100 - - Tabela 1: Distribuição de freqüência do número de empregados com curso superior completo
3. Distribuição de Freqüência – Variável Contínua
A variável contínua é conceituada como uma representação tabular em que colocamos
na primeira coluna os intervalos de classe, e na segunda coluna os valores das freqüências
simples correspondentes.
Exemplo 2: Suponha que estejamos interessados nas vendas diárias de 36 lojas varejistas.
X: 10 33 37 26 32 20 7 12 21
12 24 35 43 4 32 13 24 38
27 31 12 25 12 23 30 27 34
39 17 20 9 27 35 12 37 25
Observando estes valores notamos grande número de elementos distintos, o que
significa que neste caso a variável discreta não é aconselhável na redução de dados. Nesta
situação é conveniente agrupar os dados por faixas de valores, ficando o conjunto de dados
com a seguinte apresentação:
Classe Vendas diárias fi
1 4 |--- 12 4
2 12 |--- 20 7
3 20 |--- 28 12
4 28 |--- 36 8
5 36 |--- 44 5
Tabela 2: Número de vendas diárias em lojas varejistas.
A construção da variável contínua requer o conhecimento de alguns conceitos que
vamos estabelecer aproveitando a Tabela 2 acima como exemplificação.
3.1. Amplitude Total de uma Seqüência
É a diferença entre o maior e o menor elemento de uma seqüência.
Representando a amplitude total por At o maior elemento da seqüência X por Xmáx e o
menor elemento por Xmin a amplitude total é detonada por:
At = Xmáx – Xmin
Nos dados do Exemplo 2 observamos que, Xmáx = 43 e Xmin = 4.
Portanto: At = 43 – 4 = 39.
A amplitude total representa o comprimento total da seqüência e é dada na mesma
unidade de medida dos dados da seqüência.
3.2. Intervalo de Classe
É qualquer subdivisão da amplitude total de uma série estatística.
Observa-se que na Tabela 2 subdividimos a amplitude total em cinco classes, obtendo
os intervalos de classe 4 |--- 12; 12 |--- 20; 20 |--- 28; 28 |--- 36 e 36 |--- 44.
Note que na realidade não trabalhamos com At = 39 e sim com a amplitude total
ajustada para 40 como justificaremos adiante.
3.3. Limite de Classe
Cada intervalo de classe fica caracterizado por dois números reais. O menor valor é
chamado limite inferior da classe e será indicado por LI. O maior valor é chamado limite
superior da classe e será indicado por LS. Por exemplo, na classe 4 |--- 12, LI = 4 e LS = 12.
3.4. Amplitude do Intervalo de Classe
É a diferença entre o limite superior e o limite inferior da classe. Se usarmos h para
representar a amplitude do intervalo de classe, podemos estabelecer:
h = LS − LI
OBSERVAÇÕES:
1º Na realidade, as classes não precisam necessariamente ter a mesma amplitude como no
exemplo acima. Porém sempre que possível, devemos trabalhar com classes de mesma
amplitude. Isto facilita sobremaneira os cálculos posteriores.
2º Note que usamos para representar as classes, intervalos reais semiabertos à direita. Isto
significa que o intervalo contém o limite inferior, mas não contém o limite superior, ou
seja, o intervalo de classe 4 |--- 12 contém os valores reais maiores ou iguais a 4 e
menores que 12. Desta forma, o último intervalo da série que é 36 |--- 44 não contém o
valor 44. É por isso que não utilizamos a amplitude 39, pois, se isto fosse feito o limite
superior não deve pertencer à classe, o elemento 43 da seqüência estatística original
ficaria sem classificação. Como vamos utilizar este critério, precisaremos ajustar sempre o
valor máximo da série ao definir a amplitude total. Outros critérios poderiam ser adotados
como o intervalo real semiaberto à esquerda ou mesmo o intervalo real aberto, mas
nenhum destes critérios é melhor que o critério adotado.
3.5. Número de Classes
O número de classes a ser utilizado depende muito da experiência do pesquisador e
das questões que ele pretende responder com a variável contínua. Isto pode ser verificado
facilmente pelo próprio interessado ao longo desta exposição. Para efeito de nossos exemplos,
utilizaremos o critério da raiz para a determinação do número de classes.
Se a seqüência estatística contém n elementos e se indicarmos por K o número de
classes a ser utilizado, então pelo critério da raiz:
K = n
Como o número K de classes deve ser necessariamente um número inteiro e como
dificilmente n , é um número inteiro, deixaremos como opção para o valor de K o valor
inteiro mais próximo de n , uma unidade a menos ou a mais que este valor.
Voltando ao Exemplo 2 vemos que n = 36 e, conseqüentemente, k = 36 = 6 ; temos
assim três opções para k, que são: 5 ou 6 ou 7.
A amplitude do intervalo de classe que designamos por h é determinada da seguinte
forma:
t A
h
K
=
e, portanto,
40
8
5
h = = .
Observe que a opção por cinco classes foi feita em função de um valor de h mais fácil
de operar. Se tivéssemos optado por seis classes, o valor de h seria 40/6 = 6,666...; se
tivéssemos optado por sete classes, o valor de h seria 40/7 = 5,714...
Veja que o melhor valor para se trabalhar em cálculos é o h = 8. Foi por isto que
optamos por cinco classes. Conhecendo-se o valor Xmin = 4 e a amplitude de classe h = 8,
concluímos que o limite superior da primeira classe é 12. Portanto, a primeira classe é o
intervalo 4 |--- 12. O limite inferior da segunda classe é 12. Somando-se a amplitude de classe
obteremos 20. Portanto, a segunda classe é 12 |--- 20, e assim sucessivamente.
Exemplo 3: O gerente de um banco está pensando em aumentar o número de caixas, entre as
diversas variáveis do estudo ele resolveu analisar a quantidade de pessoas que chegam ao
banco diariamente. Os seguintes dados estatísticos foram obtidos.
X: 111 90 121 105 122 61 128 112 128 93 108 138 88 110
112 112 97 128 102 125 87 119 104 116 96 114 107 113
80 113 123 95 115 70 115 101 114 127 92 103 78 118
100 115 116 98 119 72 125 109 79 139 75 109 123 124
108 125 116 83 94 106 117 82 122 99 124 84 91 130
Para a construção da variável contínua, devemos determinar o número de elementos da
seqüência. Verificamos que a seqüência possui n = 70 elementos.
Pelo critério da raiz K = n . No caso, K = 70 = 8,37 . O valor inteiro mais
próximo é 8. Portanto, temos como opções para construir a tabela de distribuição de
freqüência: 7 ou 8 ou 9 classes.
O maior valor da seqüência é Xmáx = 139 e o menor valor da seqüência é Xmin = 61.
Portanto, a amplitude total da seqüência é At = 139 – 61 = 78. No entanto, sabemos que pelo
fato de o critério adotado do intervalo de classe ser semi-aberto à direita, devemos ajustar o
valor Xmáx. Se ajustássemos Xmáx para 140, a amplitude ajustada passaria a ser At = 140 – 61 =
79. Este valor não é divisível de forma inteira nem por 7, nem por 8, nem por 9, que são
nossas opções de classes.
Nesta situação devemos ajustar Xmáx para 141, obtendo At = 141 – 61 = 80 que é
divisível exatamente por 8, obtendo-se uma amplitude do intervalo de classe h dada por:
80
10
8
At
h
K
= = =
.
Observe que o ajuste do valor Xmáx foi de duas unidades, passando de 139 para 141.
A experiência do pesquisador, nesta situação, o levaria a distribuir este erro de duas
unidades, iniciando a representação da série em 60 e terminando em 140. A amplitude total
ajustada para série é: At = 140 – 60 = 80.
O comprimento do intervalo de classes é h = 10 e o número de classes é K = 8.
3.6. Freqüência Simples de uma Classe
Chama-se freqüência simples de uma classe ao número de elementos da seqüência que
são maiores ou iguais ao limite inferior desta classe e menores que o limite superior desta
classe.
Na contagem das freqüências simples devemos anotar: na primeira classe quantos
valores estão na faixa de 60 a 69, na segunda classe quantos valores estão na faixa de 70 a 79,
na terceira classe quantos valores estão na faixa de 80 a 89, e assim sucessivamente.
Computando as freqüências simples de cada classe, obtemos.
Intervalo de
Classe fi
60 |--- 70 1
70 |--- 80 5
80 |--- 90 6
90 |--- 100 10
100 |--- 110 12
110 |--- 120 19
120 |--- 130 14
130 |--- 140 3
Total 70
No caso da variável contínua, pelo fato de termos utilizado intervalos de classe, semiabertos
à direita, as interpretações das freqüências relativa, acumulada e relativa acumulada
são diferentes. Portanto, redefiniremos estes tipos de freqüências.
3.7. Freqüência Relativa de uma Classe
É a divisão da freqüência simples desta classe pela freqüência total.
i
ri
f
f
n
=
Portanto, as freqüências relativas das classes são:
1
1
0,014
70 r f = = ou 1,4%.
2
5
0,071
70 r f = = ou 7,1%.
3
6
0,086
70 r f = = ou 8,6%.
E assim sucessivamente.
Observe que estes valores representam a participação percentual dos elementos por
classe.
3.8. Freqüência Acumulada de uma Classe
É a soma da freqüência simples desta classe com as freqüências simples das classes
anteriores. Desta forma, as freqüências acumuladas para estas classes são:
F1 1 = .
2 F =1+ 5 = 6 .
3 F =1+ 5 + 6 =12 .
E assim sucessivamente.
3.9. Freqüência Relativa Acumulada de uma Classe
É a soma da freqüência relativa da classe com as freqüências relativas das classes
anteriores. Deste modo, a freqüência relativa acumulada para cada classe é:
1 1, 4 r F = %.
2 1, 4 7,1 8,5 r F = + = %.
3 1,4 7,1 8,6 17,1 r F = + + = %.
E assim sucessivamente.
Quando acrescentamos estes valores à tabela original, esta passa a se chamar
distribuição de freqüência. Para o exemplo estabelecido, a distribuição de freqüência é:
Dias fi fri % Fi Fri %
60 |--- 70 1 1,4 1 1,4
70 |--- 80 5 7,1 6 8,5
80 |--- 90 6 8,6 12 17,1
90 |--- 100 10 14,3 22 31,4
100 |--- 110 12 17,1 34 48,5
110 |--- 120 19 27,1 53 75,6
120 |--- 130 14 20,0 67 95,6
130 |--- 140 3 4,3 70 100,0
Total 70 100,00 - -
4. Representação Gráfica de uma Distribuição
Uma distribuição de freqüência pode ser representada graficamente pelo histograma,
pelo polígono de freqüência e pelo polígono de freqüência acumulada. Construímos qualquer
um dos gráficos mencionados utilizando o primeiro quadrante do sistema de eixos
coordenados cartesianos ortogonais. Na linha horizontal (eixo das abscissas) colocamos os
valores da variável e na linha vertical (eixo da ordenadas), as freqüências.
4.1. Histograma
O histograma é formado por um conjunto de retângulos verticais justapostos, cujas
bases se localizam sobre o eixo horizontal, de tal modo que seus pontos médios coincidam
com os pontos médios dos intervalos de classe.
As larguras dos retângulos são iguais às amplitudes dos intervalos de classe. As alturas
dos retângulos devem ser proporcionais às freqüências das classes, sendo a amplitude dos
intervalos igual. Isso nos permite tomar as alturas numericamente iguais às freqüências.
A distribuição de freqüência do número de pessoas que chegam ao banco por dia, do
Exemplo 3, corresponde o seguinte histograma:
OBSERVAÇÔES:
1º Na construção de um histograma podemos utilizar tanto as freqüências simples quanto as
freqüências relativas.
2º No caso de usarmos as freqüências relativas, obtemos um gráfico de área unitária.
3º Quando queremos comparar duas distribuições, o ideal é fazê-lo pelo histograma de
freqüências relativas.
4.2. Polígono de Freqüência
O polígono de freqüência é um gráfico em linha. A linha é obtida unindo-se os pontos
médios das bases superiores dos retângulos do histograma. Para realmente obtermos um
polígono (linha fechada), devemos completar a figura, ligando os extremos da linha obtida aos
pontos médios da classe anterior à primeira e da posterior à última, da distribuição.
A distribuição de freqüência do número de pessoas que chegam ao banco por dia
corresponde ao seguinte polígono de freqüência.
Figura 2: Polígono de freqüência do número de pessoas que chegam ao banco diariamente.
Prof.º Francisco Farias
1. Apresentação de Dados Estatísticos
Quando lidamos com poucos valores numéricos, o trabalho estatístico fica
sensivelmente reduzido. No entanto, normalmente teremos que trabalhar com grande
quantidade de dados. Um dos objetivos da Estatística Descritiva, neste caso, é obter uma
significativa redução na quantidade de dados com os quais devemos operar diretamente.
Isto pode ser conseguido modificando-se a forma de apresentação destes dados.
Uma maneira de reduzir a quantidade de dados é agrupá-los em uma tabela chamada
distribuição de freqüência. Na construção de uma tabela de distribuição de freqüência
devemos levar em conta a quantidade de valores distintos do conjunto de dados. Se a
quantidade de valores distintos é pequena, então a tabela é construída através de uma variável
discreta, porém, se a quantidade de valores distintos for grande, então devemos construir a
tabela através de uma variável contínua.
2. Distribuição de Freqüência - Variável Discreta
É uma representação tabular de um conjunto de valores em que colocamos na primeira
coluna em ordem crescente apenas os valores distintos da série e na segunda coluna
colocamos os valores das freqüências simples correspondentes.
2.1. Freqüência Simples de um Elemento
A freqüência simples de um elemento do conjunto de dados representa o número de
vezes que este elemento se repete no conjunto de dados.
Exemplo 1: Uma amostra de 25 empresas, de médio porte, foi escolhida para um estudo sobre
o nível educacional dos funcionários de setor de vendas. Os dados estatísticos coletados,
quanto ao número de empregados com curso superior completo, são apresentados abaixo.
X: 4 1 2 5 3 1 0 2 4 3
2 3 0 1 4 3 2 3 1 2
1 2 4 3 2
Os valores distintos da seqüência são: 0, 1, 2, 3, 4, 5.
As freqüências simples respectivas são: 2, 5, 7, 6, 4, 1.
Portanto, a distribuição de freqüência simples deste conjunto de dados é:
OBSERVAÇÕES:
1. Note que a colocação de um índice i para x e para f tem a finalidade de referência. Deste
modo, x1 representa o primeiro valor distinto da série, x2 representa o segundo valor
distinto da série, f1 representa a freqüência simples do primeiro valor distinto da série, f2
representa a freqüência simples do segundo valor distinto da série e assim sucessivamente.
2. Note que conseguimos reduzir de vinte e cinco elementos que constituíam a série original
para apenas seis elementos.
3. Note também que a variável discreta só é uma forma eficiente de redução dos dados,
quando o número de elementos distintos da série for pequeno.
Uma vez que o interessado tenha colocado os dados na forma de uma distribuição de
freqüência simples, ele poderá rapidamente obter algumas informações adicionais e úteis para
a compreensão da série: as freqüências relativa, acumulada e relativa acumulada.
2.2. Freqüência Relativa de um Elemento
É a razão da freqüência simples do elemento pela freqüência total.
Da mesma forma determinamos a freqüência relativa dos demais elementos:
Note que estes valores representam a participação percentual de cada elemento distinto no conjunto de dados. Assim, podemos fazer a interpretação: 8% das empresas não possui nenhum funcionário com curso superior completo; 20% das empresas possui 1 funcionário com curso superior completo; 28% das empresas possuem 2 funcionários com curso superior completo; 24% das empresas possuem 3 funcionários com curso superior completo; 16% das empresas possuem 4 funcionários com curso superior completo e 4% das empresas possuem 5 funcionários com curso superior completo. 2.3. Freqüência Acumulada de um Elemento É a soma da freqüência simples deste elemento com as freqüências simples dos elementos que o antecedem. Desta forma, as freqüências acumuladas para os elementos do conjunto de dados valem respectivamente: F1 = f1 = 2 F2 = f1 + f2 = 2 + 5 = 7 F3 = f1 + f2 + f3 = 2 + 5 + 7 = 14 F4 = f1 + f2 + f3 + f4 = 2 + 5 + 7 + 6 = 20 F5 = f1 + f2 + f3 + f4 + f5 = 2 + 5 + 7 + 6 + 4 = 24 F6 = f1 + f2 + f3 + f4 + f5 + f6 = 2 + 5 + 7 + 6 + 4 + 1 = 25 Estes valores podem ser interpretados da seguinte forma: 2 empresas não possui nenhum funcionário com curso superior completo; 7 empresas possui 1 ou nenhum funcionário com curso superior completo; 14 empresas possuem 2 ou menos funcionários com curso superior completo; 20 empresas possuem 3 ou menos funcionários com curso superior completo; 24 empresas possuem 4 ou menos funcionários com curso superior completo e 25 empresas possuem 5 ou menos funcionários com curso superior completo.
2.4. Freqüência Relativa Acumulada de um Elemento É a soma da freqüência relativa deste elemento com as freqüências relativas dos elementos que o antecedem. Assim, as freqüências relativas acumuladas dos elementos do conjunto de dados são: 1 0,08 r F = ou 8%. 2 0,08 0,20 0, 28 r F = + = ou 28%. 3 0,08 0, 20 0,28 0,56 r F = + + = ou 56%. 4 0,08 0,20 0, 28 0, 24 0,80 r F = + + + = ou 80%. 5 0,08 0, 20 0,28 0, 24 0,16 0,96 r F = + + + + = ou 96%. 6 0,08 0,20 0, 28 0,24 0,16 0,04 1 r F = + + + + + = ou 100%. Estes valores podem ser interpretados da seguinte forma: 8% das empresas não possui nenhum funcionário com curso superior completo; 28% das empresas possui 1 ou nenhum funcionário com curso superior completo; 56% das empresas possuem 2 ou menos funcionários com curso superior completo; 80% das empresas possuem 3 ou menos funcionários com curso superior completo; 96% das empresas possuem 4 ou menos funcionários com curso superior completo e 4% das empresas possuem 5 ou menos funcionários com curso superior completo. Quando acrescentamos estes valores à tabela original, esta passa a se chamar distribuição de freqüência. Para o exemplo estabelecido, a tabela de distribuição de freqüência é: xi fi fri % Fi Fri % 0 2 8 2 8 1 5 20 7 28 2 7 28 14 56 3 6 24 20 80 4 4 16 24 96 5 1 4 25 100 Total 25 100 - - Tabela 1: Distribuição de freqüência do número de empregados com curso superior completo
3. Distribuição de Freqüência – Variável Contínua
A variável contínua é conceituada como uma representação tabular em que colocamos
na primeira coluna os intervalos de classe, e na segunda coluna os valores das freqüências
simples correspondentes.
Exemplo 2: Suponha que estejamos interessados nas vendas diárias de 36 lojas varejistas.
X: 10 33 37 26 32 20 7 12 21
12 24 35 43 4 32 13 24 38
27 31 12 25 12 23 30 27 34
39 17 20 9 27 35 12 37 25
Observando estes valores notamos grande número de elementos distintos, o que
significa que neste caso a variável discreta não é aconselhável na redução de dados. Nesta
situação é conveniente agrupar os dados por faixas de valores, ficando o conjunto de dados
com a seguinte apresentação:
Classe Vendas diárias fi
1 4 |--- 12 4
2 12 |--- 20 7
3 20 |--- 28 12
4 28 |--- 36 8
5 36 |--- 44 5
Tabela 2: Número de vendas diárias em lojas varejistas.
A construção da variável contínua requer o conhecimento de alguns conceitos que
vamos estabelecer aproveitando a Tabela 2 acima como exemplificação.
3.1. Amplitude Total de uma Seqüência
É a diferença entre o maior e o menor elemento de uma seqüência.
Representando a amplitude total por At o maior elemento da seqüência X por Xmáx e o
menor elemento por Xmin a amplitude total é detonada por:
At = Xmáx – Xmin
Nos dados do Exemplo 2 observamos que, Xmáx = 43 e Xmin = 4.
Portanto: At = 43 – 4 = 39.
A amplitude total representa o comprimento total da seqüência e é dada na mesma
unidade de medida dos dados da seqüência.
3.2. Intervalo de Classe
É qualquer subdivisão da amplitude total de uma série estatística.
Observa-se que na Tabela 2 subdividimos a amplitude total em cinco classes, obtendo
os intervalos de classe 4 |--- 12; 12 |--- 20; 20 |--- 28; 28 |--- 36 e 36 |--- 44.
Note que na realidade não trabalhamos com At = 39 e sim com a amplitude total
ajustada para 40 como justificaremos adiante.
3.3. Limite de Classe
Cada intervalo de classe fica caracterizado por dois números reais. O menor valor é
chamado limite inferior da classe e será indicado por LI. O maior valor é chamado limite
superior da classe e será indicado por LS. Por exemplo, na classe 4 |--- 12, LI = 4 e LS = 12.
3.4. Amplitude do Intervalo de Classe
É a diferença entre o limite superior e o limite inferior da classe. Se usarmos h para
representar a amplitude do intervalo de classe, podemos estabelecer:
h = LS − LI
OBSERVAÇÕES:
1º Na realidade, as classes não precisam necessariamente ter a mesma amplitude como no
exemplo acima. Porém sempre que possível, devemos trabalhar com classes de mesma
amplitude. Isto facilita sobremaneira os cálculos posteriores.
2º Note que usamos para representar as classes, intervalos reais semiabertos à direita. Isto
significa que o intervalo contém o limite inferior, mas não contém o limite superior, ou
seja, o intervalo de classe 4 |--- 12 contém os valores reais maiores ou iguais a 4 e
menores que 12. Desta forma, o último intervalo da série que é 36 |--- 44 não contém o
valor 44. É por isso que não utilizamos a amplitude 39, pois, se isto fosse feito o limite
superior não deve pertencer à classe, o elemento 43 da seqüência estatística original
ficaria sem classificação. Como vamos utilizar este critério, precisaremos ajustar sempre o
valor máximo da série ao definir a amplitude total. Outros critérios poderiam ser adotados
como o intervalo real semiaberto à esquerda ou mesmo o intervalo real aberto, mas
nenhum destes critérios é melhor que o critério adotado.
3.5. Número de Classes
O número de classes a ser utilizado depende muito da experiência do pesquisador e
das questões que ele pretende responder com a variável contínua. Isto pode ser verificado
facilmente pelo próprio interessado ao longo desta exposição. Para efeito de nossos exemplos,
utilizaremos o critério da raiz para a determinação do número de classes.
Se a seqüência estatística contém n elementos e se indicarmos por K o número de
classes a ser utilizado, então pelo critério da raiz:
K = n
Como o número K de classes deve ser necessariamente um número inteiro e como
dificilmente n , é um número inteiro, deixaremos como opção para o valor de K o valor
inteiro mais próximo de n , uma unidade a menos ou a mais que este valor.
Voltando ao Exemplo 2 vemos que n = 36 e, conseqüentemente, k = 36 = 6 ; temos
assim três opções para k, que são: 5 ou 6 ou 7.
A amplitude do intervalo de classe que designamos por h é determinada da seguinte
forma:
t A
h
K
=
e, portanto,
40
8
5
h = = .
Observe que a opção por cinco classes foi feita em função de um valor de h mais fácil
de operar. Se tivéssemos optado por seis classes, o valor de h seria 40/6 = 6,666...; se
tivéssemos optado por sete classes, o valor de h seria 40/7 = 5,714...
Veja que o melhor valor para se trabalhar em cálculos é o h = 8. Foi por isto que
optamos por cinco classes. Conhecendo-se o valor Xmin = 4 e a amplitude de classe h = 8,
concluímos que o limite superior da primeira classe é 12. Portanto, a primeira classe é o
intervalo 4 |--- 12. O limite inferior da segunda classe é 12. Somando-se a amplitude de classe
obteremos 20. Portanto, a segunda classe é 12 |--- 20, e assim sucessivamente.
Exemplo 3: O gerente de um banco está pensando em aumentar o número de caixas, entre as
diversas variáveis do estudo ele resolveu analisar a quantidade de pessoas que chegam ao
banco diariamente. Os seguintes dados estatísticos foram obtidos.
X: 111 90 121 105 122 61 128 112 128 93 108 138 88 110
112 112 97 128 102 125 87 119 104 116 96 114 107 113
80 113 123 95 115 70 115 101 114 127 92 103 78 118
100 115 116 98 119 72 125 109 79 139 75 109 123 124
108 125 116 83 94 106 117 82 122 99 124 84 91 130
Para a construção da variável contínua, devemos determinar o número de elementos da
seqüência. Verificamos que a seqüência possui n = 70 elementos.
Pelo critério da raiz K = n . No caso, K = 70 = 8,37 . O valor inteiro mais
próximo é 8. Portanto, temos como opções para construir a tabela de distribuição de
freqüência: 7 ou 8 ou 9 classes.
O maior valor da seqüência é Xmáx = 139 e o menor valor da seqüência é Xmin = 61.
Portanto, a amplitude total da seqüência é At = 139 – 61 = 78. No entanto, sabemos que pelo
fato de o critério adotado do intervalo de classe ser semi-aberto à direita, devemos ajustar o
valor Xmáx. Se ajustássemos Xmáx para 140, a amplitude ajustada passaria a ser At = 140 – 61 =
79. Este valor não é divisível de forma inteira nem por 7, nem por 8, nem por 9, que são
nossas opções de classes.
Nesta situação devemos ajustar Xmáx para 141, obtendo At = 141 – 61 = 80 que é
divisível exatamente por 8, obtendo-se uma amplitude do intervalo de classe h dada por:
80
10
8
At
h
K
= = =
.
Observe que o ajuste do valor Xmáx foi de duas unidades, passando de 139 para 141.
A experiência do pesquisador, nesta situação, o levaria a distribuir este erro de duas
unidades, iniciando a representação da série em 60 e terminando em 140. A amplitude total
ajustada para série é: At = 140 – 60 = 80.
O comprimento do intervalo de classes é h = 10 e o número de classes é K = 8.
3.6. Freqüência Simples de uma Classe
Chama-se freqüência simples de uma classe ao número de elementos da seqüência que
são maiores ou iguais ao limite inferior desta classe e menores que o limite superior desta
classe.
Na contagem das freqüências simples devemos anotar: na primeira classe quantos
valores estão na faixa de 60 a 69, na segunda classe quantos valores estão na faixa de 70 a 79,
na terceira classe quantos valores estão na faixa de 80 a 89, e assim sucessivamente.
Computando as freqüências simples de cada classe, obtemos.
Intervalo de
Classe fi
60 |--- 70 1
70 |--- 80 5
80 |--- 90 6
90 |--- 100 10
100 |--- 110 12
110 |--- 120 19
120 |--- 130 14
130 |--- 140 3
Total 70
No caso da variável contínua, pelo fato de termos utilizado intervalos de classe, semiabertos
à direita, as interpretações das freqüências relativa, acumulada e relativa acumulada
são diferentes. Portanto, redefiniremos estes tipos de freqüências.
3.7. Freqüência Relativa de uma Classe
É a divisão da freqüência simples desta classe pela freqüência total.
i
ri
f
f
n
=
Portanto, as freqüências relativas das classes são:
1
1
0,014
70 r f = = ou 1,4%.
2
5
0,071
70 r f = = ou 7,1%.
3
6
0,086
70 r f = = ou 8,6%.
E assim sucessivamente.
Observe que estes valores representam a participação percentual dos elementos por
classe.
3.8. Freqüência Acumulada de uma Classe
É a soma da freqüência simples desta classe com as freqüências simples das classes
anteriores. Desta forma, as freqüências acumuladas para estas classes são:
F1 1 = .
2 F =1+ 5 = 6 .
3 F =1+ 5 + 6 =12 .
E assim sucessivamente.
3.9. Freqüência Relativa Acumulada de uma Classe
É a soma da freqüência relativa da classe com as freqüências relativas das classes
anteriores. Deste modo, a freqüência relativa acumulada para cada classe é:
1 1, 4 r F = %.
2 1, 4 7,1 8,5 r F = + = %.
3 1,4 7,1 8,6 17,1 r F = + + = %.
E assim sucessivamente.
Quando acrescentamos estes valores à tabela original, esta passa a se chamar
distribuição de freqüência. Para o exemplo estabelecido, a distribuição de freqüência é:
Dias fi fri % Fi Fri %
60 |--- 70 1 1,4 1 1,4
70 |--- 80 5 7,1 6 8,5
80 |--- 90 6 8,6 12 17,1
90 |--- 100 10 14,3 22 31,4
100 |--- 110 12 17,1 34 48,5
110 |--- 120 19 27,1 53 75,6
120 |--- 130 14 20,0 67 95,6
130 |--- 140 3 4,3 70 100,0
Total 70 100,00 - -
4. Representação Gráfica de uma Distribuição
Uma distribuição de freqüência pode ser representada graficamente pelo histograma,
pelo polígono de freqüência e pelo polígono de freqüência acumulada. Construímos qualquer
um dos gráficos mencionados utilizando o primeiro quadrante do sistema de eixos
coordenados cartesianos ortogonais. Na linha horizontal (eixo das abscissas) colocamos os
valores da variável e na linha vertical (eixo da ordenadas), as freqüências.
4.1. Histograma
O histograma é formado por um conjunto de retângulos verticais justapostos, cujas
bases se localizam sobre o eixo horizontal, de tal modo que seus pontos médios coincidam
com os pontos médios dos intervalos de classe.
As larguras dos retângulos são iguais às amplitudes dos intervalos de classe. As alturas
dos retângulos devem ser proporcionais às freqüências das classes, sendo a amplitude dos
intervalos igual. Isso nos permite tomar as alturas numericamente iguais às freqüências.
A distribuição de freqüência do número de pessoas que chegam ao banco por dia, do
Exemplo 3, corresponde o seguinte histograma:
OBSERVAÇÔES:
1º Na construção de um histograma podemos utilizar tanto as freqüências simples quanto as
freqüências relativas.
2º No caso de usarmos as freqüências relativas, obtemos um gráfico de área unitária.
3º Quando queremos comparar duas distribuições, o ideal é fazê-lo pelo histograma de
freqüências relativas.
4.2. Polígono de Freqüência
O polígono de freqüência é um gráfico em linha. A linha é obtida unindo-se os pontos
médios das bases superiores dos retângulos do histograma. Para realmente obtermos um
polígono (linha fechada), devemos completar a figura, ligando os extremos da linha obtida aos
pontos médios da classe anterior à primeira e da posterior à última, da distribuição.
A distribuição de freqüência do número de pessoas que chegam ao banco por dia
corresponde ao seguinte polígono de freqüência.
Figura 2: Polígono de freqüência do número de pessoas que chegam ao banco diariamente.