Estatística na Ciência de Dados

Precisa como um laser, dispersa como um espirro.

“Há mentiras, mentiras grosseiras e estatísticas.” [Mark Twain]

“Existem dois tipos de estatística, aquele que você observa e aquela que você inventa.” [Rex Stout]

Assim como os sonhos, a estatística é uma forma de realização de desejos.” [Jean Baudrillard]

A figura acima busca remeter ao significado contemporâneo da palavra estatística; hoje resumida a um conjunto de dados que, de posse de seus donos, são veiculados como verdades absolutas. Pode aparentar ser uma “perseguição boba”, mas a verdade é que a estatística dominou nossas vidas muito mais do que percebemos e certamente além do limite saudável e adequado para nossa sociedade. Quem nunca ouviu um “estatiscamente falando” para justificar um argumento?

Acredito ser válido frisar: Eu amo a estatística!!!É uma ferramenta formidável, verdadeira e de grande utilidade. Chegaria a dizer que sem ela não conseguiríamos viver hoje, com o volume e complexidade dos problemas que temos em empresas e governos, simplificar algo, nem que seja estatisticamente falando, é algo essencial. No entanto, considero uma missão alertá-lo: a estatística tem o poder de camuflar a verdade lhe carregando ao precipício enquanto acreditas estar esquiando em áreas seguras dos alpes suíços.

Basicamente existem dois tipos de áreas de estudo na estatística: A estatística descritiva e a estatística inferencial. A primeira é humilde e modesta, e concentra-se em como descrever uma amostra de dados, a segunda é presunçosa e rica, e concentra-se em criar modelos de predições, hipóteses e estimativas. A primeira é ver e descrever, a segunda é induzir um modelo lógico. Para exemplificar, considere a seguinte amostra de dados:

A estatística descritiva apontaria que 20% dos números são “1s”, a média é “3”, etc. Enquanto a estatística inferencialapontaria que dado um número, existe 20% de chance que ele será um “1”, que dado um número “4” ele é mais próximo de “1” do que de “9”. Até aqui nada mal, ambas parecem estar corretas. Agora imagine que esta amostra é limitada, e o conjunto de dados reais representem todos números naturais; a probabilidade de um número ser “1” é praticamente nula. Se estamos falando de números elevados ao quadrado, o “4” está tão próximo de “9” quanto de “1”, pois

Importante não esquecer: a estatística inferencial é lógica e faz todo sentido, mas nem sempre pode estar certa, e esta é a parte da estatística mais utilizada nos dias de hoje.

Os conceitos mais básicos da estatística são o de moda, mediana e média. A moda nada mais é do que o valor que possui maior frequência, enquanto a mediana o valor que divide igualmente um conjunto de outros valores em dois e a média a soma de todos os valores divididos por sua quantidade. E para que estes servem na Ciência de Dados?

Se a moda de um conjunto de objetos é desproporcional e sabemos que as distribuições destes objetos tendem a seguir a moda, esta basicamente indica onde apostar nossas fichas. Por exemplo, é moda entre corredores utilizarem um relógio que mede a pulsação e o desempenho físico durante suas atividades, se a população – que é extremamente sensível a seguir modas – de pessoas que praticam corrida está aumentando já sabemos onde podemos ganhar um bom dinheiro.

A mediana nos auxilia a criar grupos equitativos, se nossa amostra é muito grande e precisamos atacar o problema por partes, nada mal dividi-los seguindo sua mediana (existem meios muito mais adequados, mas por enquanto fiquemos com este mesmo). Por exemplo, se estamos abrindo um restaurante em um bairro e nele temos pessoas dos mais diversos pesos, e queremos atender os gordinhos e os magros, seria interessante dividir o grupo para que preparássemos cardápios adequados para cada qual.

A média sozinha não tem muita utilidade, afirmaria até que utilizá-la sem um desvio padrão é algo extremamente perigoso. De qualquer maneira seu uso mais comum é aplica-la de forma uniforme para toda uma população. Por exemplo, se em um ano a empresa executou diversos projetos e alguns adiantaram e outros atrasaram de forma que a média foi de 10 horas de atraso, poder-se-ia utilizar o valor de 10 horas extras por projeto para o ano subsequente para melhorar a assertividade da previsão. A média também é chamada de valor esperado, pois é o valor que se espera como um todo.

O gráfico abaixo mostra o conceito de moda (mode), mediana (median) e média (means)em uma distribuição qualquer. Válido destacar que, nem sempre os valores destas medidas são iguais, e claro, nem sempre se trata de um gráfico 2D, se tivermos um feature vector de N dimensões podemos chegar a imagens bem mais elegantes.

Outro conceito importante de estatística está relacionado a dispersão ou distribuição da amostra, ou seja, como uma amostra se comporta.  Trata-se de um conceito importante pois permite identificar se a amostra de dados é estável e “previsível”. Voltemos ao caso dos projetos de uma empresa, se todos os projetos atrasam 10 horas ou adiantam 10 horas fica mais fácil apostar que poucos no futuro deverão atrasar ou adiantar mais do que isto.

Agora se existem projetos que atrasaram 1000 horas e outros 1 hora, é possível perceber que qualquer predição será mais complexa, pois não existe um comportamento uniforme. O gráfico abaixo mostra duas amostras de dados com dispersões distintas, onde a distribuição em vermelho é menos dispersa do que a azul, e, portanto, mais fácil fazer previsões, poderíamos até afirmar que qualquer tentativa de previsão na distribuição azul seria tão tola quanto perguntar a uma criança o que pode acontecer.

A questão então seria, como calcular esta distribuição ou dispersão? A estatística possui diversos modelos: diferença absoluta das médias, média absoluta, média da dispersão, desvio da distância padrão, desvio padrão, variância. Porque existem vários? Pois cada um pode ser mais apropriado para um tipo de distribuição. Como saber qual utilizar? Experimentando. Estatísticos ou profissionais com mais experiência conseguem definir o melhor modelo só de olhar para uma distribuição, existem outros que estão tão íntimos que mesmo sem a distribuição e suportado apenas por seu “feeling” sobre do que se trata os dados já arrisca um modelo ou outro; o que reduz a estatística do patamar de ciências exatas para o status de esoterismo.

De longe, o cálculo de distribuição mais utilizado é o desvio padrão e a variância. A variância nada mais é do que pegar cada elemento da amostra, subtrair seu valor da média e elevar ao quadrado, soma-se tudo isso e divide-se pela quantidade de elementos (para toda uma população) ou a quantidade de elementos menos 1 (para uma amostra). Já o desvio padrão é a raiz quadrada da variância. Por exemplo:

Para simplificar todos estes cálculos e nomenclaturas os estatísticos criaram alguns padrões. A média costuma ser denotada pela letra µ, a variância pela letra s² e o desvio padrão por σ.  Se você conseguir entender as fórmulas abaixo estamos aptos para ir ao próximo passo, se não conseguiu ler a explicação está logo abaixo.

s² como já mencionamos é a variância, e não uma variável elevada ao quadrado, portanto, por favor nunca diga que s = raiz de s².

σ² indica que o desvio padrão ao quadrado é igual a variância, ou seja σ é a raiz quadrada da variância. O último termo, indica que vamos somar todos os valores subtraídos de sua média ao quadrado e dividi-los pela quantidade de objetos menos 1. Ou seja, é a definição de variância. Ou seja, a fórmula nada mais é do que os últimos parágrafos descritos em uma linguagem chata e matemática, porém bem compacta.

Não se preocupe se tudo parece difícil, acostumar com as sopas de letras gregas da matemática é só uma pequena barreira criada pelos próprios para que estes pudessem se diferenciar dos leigos e dificultar a aproximação e a crítica de iniciantes. A imagem abaixo ilustra como o desvio padrão se comporta com relação a média em uma distribuição gaussiana (você vai ouvir falar muito dela); fácil perceber que o σ ajuda a medir a dispersão da distribuição com relação à média.

Em um momento destes, onde já passamos por algumas definições, alguém curioso poderia estar se perguntando. Porque alguém colocaria o símbolo da variância como sendo porque não simplesmente utilizar outra letra grega como α ou β? Não sei lhe responder, foi uma convenção, agora o porquê do é fácil; porque a variância eleva a diferença da média ao quadrado. Se alguém for um pouco mais crítico estaria perguntando, mas porque elevar ao quadrado? Porque não ao cubo? Porque não elevar a nada? Bom, não elevar a nada existe uma explicação óbvia; se pegarmos a diferença de cada valor para a média o resultado da soma será sempre zero, afinal de contas estamos falando da média. Se não acreditou pode tentar!!!

A explicação para elevar ao quadrado, é que a variância foi inspirada pelo cálculo do momento na física, onde o momento “0” é sempre “1”, o primeiro é a média (ou seja onde um corpo tende a estar) e o segundo momento indica onde um corpo estaria se saísse de sua trajetória inicial. Obviamente na física podemos ter N outros momentos, mas a estatística ficou com o segundo, muito provavelmente por ser aquele que vem logo depois da média, ou seja, enquanto o ponto onde está a média sustentaria todos os valores, o segundo momento é o ponto único que sustenta toda a dispersão.

Será que isso faz sentido? Muito provavelmente não, talvez ele faça sentido para a física e o movimento dos corpos, agora para a dispersão da idade de pessoas que não possui relação alguma a gravidade e forças entre massas é um disparate, um absurdo. Seria como afirmar que por uma abelha fazer mel o urso também o faria. Mas por algum motivo, em algum momento da história isto ganhou força, muito provavelmente tudo começou pois os físicos estavam brincando de arquitetos do universo e utilizaram o “segundo momento” para explicar boa parte do modelo planetário. Já sabemos como a sociedade científica funciona, assim como todo o resto, se um assunto está em destaque, tratamos de utilizá-lo em diversas outras áreas.

Só esqueceram de nos avisar que aplicar a mesma coisa em outros conjuntos de dados desconexos não faria sentido. Se fosse arriscar, apostaria, que este conceito foi movido para diversas outras áreas do conhecimento, inclusive a Ciência de Dados porque alguém fez alguma tese de doutorado a respeito, ou talvez alguém, quem sabe um ganhador de prêmio Nobel, ou um destes cientistas malucos renomados que tenha feito analogia entre áreas. O que posso lhe afirmar com certeza é que este conceito é aplicado em tudo no mundo, desde biologia, sociologia, pedagogia e até os divertidos analistas financeiros que lhe recomendam onde guardar o seu dinheiro.

Porque será que algo tão sem sentido se perpetuou? Porque isto encanta as multidões, tenho certeza que ninguém vê sentido algum em uma profissão onde se brinca com a morte buscando encantar serpentes venenosas, afinal de contas, cobras não podem ser hipnotizadas. Mas o “show” vale o risco, e nem mencionemos a quantia de dinheiro envolvida. Enfim, não sejamos pessimistas, deixe estes detalhes de lado e vamos nos concentrar no que é possível fazer com tais modelos. O Universo possui outras mentiras bem maiores pelas quais somos amparados e nem por isso deixamos de respirar, viver, sorrir, chorar, enfim, emocionarmos e sermos Seres Humanos.

No próximo artigo vamos falar um pouco mais sobre funções de distribuições, que nada mais são que modelos que permitem descrever como uma amostra de dados está dispersa. Todos estes conceitos são muito importantes antes de começarmos a falar de fato sobre a Ciência de Dados, pois ela é amparada fortemente na estatística e suas invenções.

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

Conectando a %s