25-317825.0 CDD-005.73
Dados In e nacionais de Ca alogação na Publicação (CIP)
(Câma a B asilei a do Li o, SP, B asil)
Ciência de dados [li o ele ônico] : (es udos
p á icos de análise e explo ação de dados com
Py hon) / Raimundo Fagne Cos a ... [e al.]. --
p e ácio po Ni aldo Rod igues e Sil a ;
e isão Alyson de Jesus dos San os 2. ed. --
Manaus, AM : Ed. dos Au o es, 2025.
PDF
Ou os au o es: Edua do Palha es Júnio ,
Wenndisson da Sil a Souza, Alexand e Lopes
Ma iniano, Ni aldo Rod igues e Sil a
Bibliog a ia
ISBN 978-65-01-80960-1
1. Ciência de dados 2. Dados - Análise 3. Py hon
(Linguagem de p og amação pa a compu ado es)
I. Cos a, Raimundo Fagne . II. Palha es Júnio ,
Edua do. III. Souza, Wenndisson da Sil a.
IV. Ma iniano, Alexand e Lopes. V. Sil a, Ni aldo
Rod igues e. VI. San os, Alyson de Jesus dos
Índices pa a ca álogo sis emá ico:
1. Ciência de dados 005.73
Ma ia Alice Fe ei a - Biblio ecá ia - CRB-8/7964
DOI: 10.5281/zenodo.17675244
Expedien e do IFAM
MINISTÉRIO DA EDUCAÇÃO
SECRETARIA DE EDUCAÇÃO PROFISSIONAL E TECNOLÓGICA
INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DO AMAZONAS
Rei o
Jaime Ca alcan e Al es
P ó-Rei o de Adminis ação
Fábio Teixei a Lima
P ó-Rei o de Ges ão de Pessoas
Leand o Amo im Damasceno
P ó-Rei o a de Ensino
Rosângela San os da Sil a
P ó-Rei o a de Ex ensão
Ma ia F ancisca Mo ais de Lima
P ó-Rei o de Pesquisa, Pós-G aduação e Ino ação
Paulo Hen ique Rocha A ide
Di e o Ge al do Campus Manaus Dis i o Indus ial
Ni aldo Rod igues e Sil a
Expedien e do P oje o CITHA
MINISTÉRIO DA EDUCAÇÃO
SECRETARIA DE EDUCAÇÃO PROFISSIONAL E TECNOLÓGICA
INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DO AMAZONAS
Ges o es
Ni aldo Rod igues e Sil a
Sami ames da Sil a Fleu y
Alyson de Jesus dos San os
Ma ia Cassiana And ade B aga
Adanil on Rabelo de And ade
Coo denado es
Tiago F ancisco And ade Diocesano
Jaidson B andão da Cos a
Elci an dos San os Sil a
Ma inho Co eia Ba os
Adelino Maia Gal ão Filho
Expedien e de P odução
Au o es
Raimundo Fagne Cos a
Wenndisson da Sil a Souza
Edua do Palha es J .
Alexand e Lopes Ma iniano
Ni aldo Rod igues e Sil a
A aliação Pedagógica
Sami ames da Sil a Fleu y
Diag amado es
Wenndisson da Sil a Souza
Edua do Palha es J .
Fabio Se a Ribei o Cou o
Re iso es de Tex o
Alyson de Jesus dos San os
Ciência de Dados
(Es udos P á icos de Análise e Explo ação
de Dados com Py hon)
Au o es
Raimundo Fagne Cos a
Wenndisson da Sil a Souza
Edua do Palha es J .
Alexand e Lopes Ma iniano
Ni aldo Rod igues e Sil a
P e ácio po Ni aldo Rod igues e Sil a
Re isão
Alyson de Jesus dos San os
2ª Edição
Manaus - AM
2025
Lis a de Exp essões pa a En iquecimen o
de Con eúdo
Es e ma e ial oi cuidadosamen e es u u ado pa a apoia sua jo nada de ap endizado.
Ao longo dos capí ulos, ocê encon a á di e sas chamadas sinalizadas po ícones especiais,
que ajuda ão a des aca pon os-cha e e en iquece sua comp eensão. Du an e a diag amação,
esses ícones se ão inse idos con o me as indicações dos au o es, guiando ocê pa a di e en es
ipos de con eúdo e a i idades que po encializam seu es udo.
Fique Ale a!
Des aque pa a concei os, exp essões e echos undamen ais que me ecem sua a enção
especial pa a a comp eensão do con eúdo.
Iniciando o diálogo...
Espaço pa a e lexão c í ica. Aqui ocê se á con idado(a) a p oblema iza os emas abo da-
dos, elacionando-os com sua expe iência e buscando conexões ele an es pa a ap o unda
seu ap endizado.
Conhecendo um pouco mais!
Indicação de on es complemen a es, como li os, en e is as, ídeos, aplica i os, links e
ou os ecu sos pa a amplia seu conhecimen o sob e o ema.
Caso P á ico
Aplicação di e a do con eúdo em exemplos conc e os, pa a acili a a ixação e demons a
a u ilidade do que oi ap endido.
Copie e Tes e!
T echos de código p on os pa a se em copiados e execu ados, pa a que ocê possa expe i-
men a , alida e explo a na p á ica os concei os es udados.
Tela do Te minal
Ap esen a o esul ado espe ado após a execução de um
bloco de código. Se e como um gaba i o pa a que ocê
possa e i ica se sua implemen ação es á uncionando
co e amen e.
P e ácio
A e a digi al ans o mou a manei a como lidamos com a in o mação, o nando a Ciência
de Dados uma e amen a essencial pa a a análise e in e p e ação de g andes olumes de
dados. Es e e-book o e ece um pe cu so es u u ado pa a aqueles que desejam comp eende os
undamen os dessa á ea e aplicá-los de o ma p á ica, abo dando desde concei os básicos a é
écnicas a ançadas de análise. Com um en oque cla o e obje i o, es e ma e ial se e an o pa a
inician es quan o pa a p o issionais que buscam ap imo a suas habilidades.
A es u u a do con eúdo oi cuidadosamen e planejada pa a p opo ciona um ap endizado
p og essi o. O p imei o capí ulo ap esen a os undamen os da Ciência de Dados, incluindo
concei os es a ís icos, p og amação em Py hon e manipulação de dados. No segundo capí ulo,
são explo adas e amen as e écnicas de análise, capaci ando o lei o a ans o ma dados b u os
em in o mações aliosas. O e cei o capí ulo oca em on es de dados climá icos, demons ando
como a Ciência de Dados pode se aplicada na sus en abilidade e na ges ão de ecu sos na u ais.
No capí ulo inal, a eo ia ganha ida po meio de um expe imen o p á ico, pe mi indo aos
lei o es aplica os conhecimen os adqui idos na análise de dados pa a a ag icul u a sus en á el.
A p opos a é omen a a in eg ação en e eo ia e p á ica, p epa ando p o issionais pa a lida
com desa ios eais e oma decisões undamen adas em dados. Essa abo dagem in e a i a
o alece o ap endizado e p omo e uma isão ampla do impac o da Ciência de Dados em
di e en es se o es.
Es e e-book é mais do que um guia écnico; é um con i e à explo ação do po encial
ans o mado dos dados. Ao comp eende e aplica os concei os aqui ap esen ados, o lei o
es a á ap o a en en a os desa ios da e a digi al com compe ência e ino ação. Que es a jo nada
seja eple a de descobe as e insigh s aliosos pa a a cons ução de um u u o mais in eligen e
e sus en á el.
P oje o de Capaci ação e In e io ização
em Tecnologias Habili ado as na
Amazônia - CITHA
O p oje o CITHA su ge com o obje i o de o alece a economia da Amazônia po meio
do incen i o ao emp eendedo ismo local e do desen ol imen o sus en á el. Sua p opos a é
capaci a p o issionais e impulsiona a c iação de s a ups ol adas pa a a bioeconomia, além
de apoia coope a i as locais na melho ia de seus p ocessos p odu i os. A implemen ação de
ecnologias ino ado as é uma das es a égias cen ais do p oje o, isando o e ece soluções
e icien es que a endam às necessidades egionais, como a o imização dos ecu sos na u ais e a
melho ia da in aes u u a local.
Ao longo de sua execução, o p oje o se comp ome e a in eg a os di e sos s akeholde s,
como go e nos, emp esas, ONGs e comunidades, po meio da capaci ação da mão de ob a
local. O obje i o é o ma um capi al in elec ual quali icado, capaz de apoia uma go e nança
e icien e, p omo e a ino ação e assegu a a sus en abilidade. O CITHA dedica-se à c iação
de p ocessos in e nos que incen i em o desen ol imen o de no os mé odos e ecnologias,
adap á eis às pa icula idades do e i ó io amazônico.
Em sín ese, o p oje o CITHA isa c ia um ciclo de desen ol imen o que não só incen i e
o emp eendedo ismo, mas ambém p omo a a mode nização das es u u as locais, ele ando
a qualidade de ida das populações da Amazônia. Focado em á eas como bioeconomia, ino-
ação e ans e ência de ecnologia, o p oje o busca es abelece um ecossis ema mais o e e
au ossus en á el, capaz de esponde e icien emen e às demandas do me cado e da sociedade.
CAPÍTULO 1. A JORNADA DOS DADOS: DO PROBLEMA À DECISÃO
Nes e cená io, a Ciência de Dados deixa de se uma e amen a abs a a e o na-se um
pila es a égico pa a a sob e i ência e o desen ol imen o sus en á el. Ela é a única e amen a
capaz de p ocessa o imenso e a iado olume de dados (de sa éli es, senso es climá icos,
senso es acús icos, ní eis dos ios e egis os de saúde) e ans o má-los em espos as acioná eis.
A aplicação da Ciência de Dados é, po an o, cen al pa a a egião amazônica, con e gindo
di e amen e com os obje i os de ino ação, capaci ação e sus en abilidade do p oje o CITHA.
Ou os exemplos de aplicações:
•
Bioeconomia e Cadeias P odu i as: P e isão da p odu i idade de sa as de açaí e
cupuaçu com base em dados de solo, clima e imagens de sa éli e (senso iamen o emo o),
o imizando a colhei a e eduzindo pe das.
•
Moni o amen o Ambien al: Análise de imagens de sa éli e (compa ando pixels ao
longo do empo) e dados de senso es acús icos (sons da lo es a) pa a de ec a desma a-
men o ou a i idade de mine ação ilegal quase em empo eal.
•
Logís ica Flu ial e U bana: O “Waze” dos ios. O imização de o as de ba cos ( ans-
po e de pessoas e ca gas) com base em dados de ní el dos ios e his ó ico de na egação,
eduzindo cus os de combus í el e empo de iagem.
•
Saúde Pública: Mapeamen o p edi i o de ocos de doenças como malá ia e dengue,
co elacionando dados de saúde (no os casos) com condições climá icas (umidade, chu a)
e geog á icas, pe mi indo que a igilância sani á ia a ue p e en i amen e.
1.2 O Ciclo de Vida de um P oje o de Dados
Figu a 1.3: As Fases do P ocesso de Descobe a de Conhecimen o em Dados (KDD). É um ciclo
con ínuo de ap endizado e e inamen o.
Um p oje o de Ciência de Dados não é um único bloco de código que se esc e e de uma
ez. É undamen al en ende que ele é um p ocesso i e a i o (um ciclo), mui o semelhan e ao
p óp io mé odo cien í ico, que ans o ma uma pe gun a de negócio aga em uma espos a
cla a e baseada em e idências.
15
CAPÍTULO 1. A JORNADA DOS DADOS: DO PROBLEMA À DECISÃO
A pala a-cha e aqui é ciclo: o que se descob e na ase de Análise Explo a ó ia (passo 3),
po exemplo, pode e ela que os dados cole ados são insu icien es ou endenciosos, o çando
um e o no imedia o à ase de Cole a e P epa ação (passo 2) pa a busca no as on es. Da
mesma o ma, um modelo complexo (passo 4) pode se mos a imp a icá el pa a o negócio,
exigindo uma ede inição do p oblema o iginal (passo 1).
En ende esse luxo e sabe na ega po ele é, indiscu i elmen e, a habilidade mais
impo an e de um cien is a de dados, supe ando a é o domínio de uma e amen a especí ica.
Sabe a sin axe de uma biblio eca de Machine Lea ning é ú il, mas sabe qual pe gun a aze
p imei o, como alida os dados pa a ela e quando pa a de modela e oca na comunicação
é o que ealmen e de ine um p oje o bem-sucedido. Es e ciclo, seja conhecido como KDD
(Descobe a de Conhecimen o em Dados) ou CRISP-DM, é o e dadei o o ei o do cien is a.
1.2.1 En endimen o do P oblema (O “Po quê”)
Es a é a ase mais impo an e e a que menos en ol e código. An es de ab i o Py hon,
gas amos empo com as pessoas, azendo pe gun as. Se e a mos aqui, cons ui emos uma
solução inc í el pa a o p oblema e ado. O obje i o é aduzi um obje i o de negócio ago em
uma pe gun a de dados cla a.
•P oblema de Negócio (Vago): “Nossa coope a i a de açaí p ecisa se mais e icien e.”
•
Pe gun as de Análise (In es igação): “O que signi ica ’e icien e’? Gas a menos?
Pe de menos p odu o? En ega mais ápido?”
•
Pe gun a de Dados (Especí ica): “Qual é a co elação en e o empo de anspo e
lu ial e o pe cen ual de pe da de açaí po oxidação? Se eduzi mos o empo de iagem
em 24h, quan o economizamos?”
Um bom cien is a de dados não é quem sabe as espos as ce as, mas sim quem é capaz
de aze as pe gun as ce as.
1.2.2 En endendo a Ma é ia-P ima: Tipos de Dados
An es de cole a e limpa , p ecisamos en ende a na u eza undamen al dos nossos dados.
Es a e apa não é um me o exe cício acadêmico; ela é a undação sob e a qual oda a nossa
análise se á cons uída. O ipo de dado de ine quais ope ações ma emá icas, quais compa ações
es a ís icas e quais g á icos podemos u iliza . Ten a calcula a “média” de uma coluna de
“Municípios” (um dado nominal) não é apenas um e o de código, é um e o concei ual. Da
mesma o ma, en a aça um g á ico de linha pa a mos a a “dis ibuição” de um dado
ca egó ico não az sen ido.
Quando ca egamos dados no Py hon, e amen as como o Pandas en a ão “adi inha ”
esses ipos (ex: in 64, loa 64, objec ). No en an o, é esponsabilidade do cien is a e i ica e
co igi essa classi icação. Uma coluna de “ID de Usuá io” pode pa ece um núme o (quan i a-
i a), mas na e dade é uma ca ego ia (quali a i a nominal), e a á-la como um núme o em
um modelo ma emá ico le a ia a esul ados desas osos. Po an o, es a classi icação é o nosso
p imei o il o pa a de ini a e amen a de análise co e a. Fundamen almen e, odos os dados
se di idem em dois g andes g upos:
•
Dados Quali a i os (ou Ca egó icos): Desc e em uma qualidade ou ca ac e ís ica.
São di ididos em:
16
CAPÍTULO 1. A JORNADA DOS DADOS: DO PROBLEMA À DECISÃO
– Nominais: Ca ego ias que não possuem uma o dem in ínseca. Exemplos:
∗Município: (“Manaus”, “Pa in ins”, “Te é”)
∗P odu o: (“Açaí”, “Cupuaçu”, “Mandioca”)
∗Gêne o: (“Masculino”, “Feminino”)
– O dinais: Ca ego ias que possuem uma o dem lógica ou hie a quia. Exemplos:
∗Escola idade: (“Fundamen al”, “Médio”, “Supe io ”)
∗Classi icação: (“Ruim”, “Bom”, “Excelen e”)
∗Tamanho: (“Pequeno”, “Médio”, “G ande”)
•
Dados Quan i a i os (ou Numé icos): Desc e em uma quan idade (núme os). São
di ididos em:
–
Disc e os: Núme os que esul am de uma con agem (ge almen e in ei os). Exem-
plos:
∗Núme o de Cole o es: (10, 11, 12)
∗To al de Semen es
∗Quan idade de ba cos: (1, 2, 3)
–
Con ínuos: Núme os que esul am de uma medição (podem e casas decimais).
Exemplos:
∗Tempe a u a: (26.5 °C)
∗Ní el do Rio: (14.82 m)
∗P eço: (R$ 10,50)
∗Peso: (120.4 kg)
Fique Ale a!
En ende essa di e ença é i al. Não podemos calcula a “média” de um dado nominal (Qual
a média en e “Manaus” e “Te é”?). Da mesma o ma, o g á ico de ba as não é ideal pa a
e a “dis ibuição” de um dado con ínuo. O ipo de dado de ine a e amen a de análise.
1.2.3 A Realidade dos Dados: Cole a e P epa ação
Ago a que sabemos o quê p ocu a (os ipos de dados), podemos cole á-los de on es
di e sas (senso es, APIs, bancos de dados, planilhas Excel, a qui os CSV). Aqui, nos depa amos
com a p imei a e mais impo an e lição da á ea: os dados do mundo eal são sujos (messy). Es a
não é uma exceção, é a eg a. É nes a ase que a maio ia dos p oje os alha e onde os cien is as
de dados, ealis icamen e, gas am a é 80% do seu empo.
Dados são “sujos” po inúme as azões: e os humanos de digi ação (“Manaus” s “ma-
naus”), alhas de senso es ( alo es ausen es ou NaN), sis emas di e en es que não con e sam
(um usa “10,50” e ou o “10.50”), ou a é mesmo ieses in encionais ou não nos egis os his ó i-
cos.
Nes a ase, o p incípio mais impo an e é o GIGO (Ga bage In, Ga bage Ou ), ou “Lixo
En a, Lixo Sai”. Podemos e o modelo de Machine Lea ning mais a ançado e complexo (que
e emos na ase 4), mas se o alimen a mos com dados inconsis en es, incomple os ou inco e os,
o modelo apenas ap ende á pad ões e ados. Ele nos da á p e isões inú eis (ou a é pe igosas)
com g ande elocidade.
17
CAPÍTULO 1. A JORNADA DOS DADOS: DO PROBLEMA À DECISÃO
Pa a ealiza essa limpeza, não usamos o Py hon pu o. Nossa p incipal e amen a se á a
biblio eca Pandas. Pense no Pandas como a bancada de abalho ou a planilha in eligen e do
cien is a de dados. Ele nos pe mi e ca ega a qui os (como CSVs ou Excel) pa a uma es u u a
chamada Da aF ame (essencialmen e, uma abela) onde podemos il a , modi ica e limpa os
dados com e iciência.
A maio pa e das Ações de limpeza que e emos a segui , como pad oniza Manaus e
manaus, são ei as com comandos do Pandas. A p epa ação, ambém chamada de da a cleaning
(limpeza de dados) ou da a w angling, é o p ocesso de ans o ma esses dados b u os e caó icos
em uma on e única, limpa, es u u ada e con iá el, p on a pa a a análise.
Conhecendo um pouco mais!
Exemplos de “sujei a” e como limpamos:
•
Valo es Ausen es (NaN): O senso de umidade do solo alhou. O que aze : Remo-
emos a linha ou p eenchemos o bu aco com a média dos alo es izinhos.
•
Dados Inconsis en es (Tipog a ia): Na coluna
Município
, encon amos “Ma-
naus”, “manaus” e “MANAUS”. O que aze : Pad onizamos udo pa a le as maiús-
culas (“MANAUS”).
•
Fo ma os E ados: O sis ema b asilei o egis a
P eço
como “10,50” (com í gula),
mas o Py hon espe a “10.50” (com pon o). O que aze : Subs i uímos odas as
í gulas po pon os e con e emos a coluna pa a núme o.
•
Ou lie s (Valo es Ex emos): Um senso de empe a u a na lo es a ma cou 200°C.
O que aze : Isso é cla amen e um e o de medição. Remo emos o egis o ou o
a amos como “Valo Ausen e”.
1.2.4 Análise Explo a ó ia de Dados
Com os dados limpos, iniciamos um “diálogo” com eles. Es a é, pa a mui os, a ase mais
in e essan e e c ia i a do ciclo. A Explo a o y Da a Analysis (EDA) é o momen o de se cé ico e
cu ioso, a uando como um de e i e que in e oga as e idências. Mesmo após a limpeza (passo
an e io ), os dados podem con e su p esas. A EDA é nossa ede de segu ança pa a alida se
nossas suposições es ão co e as e se os dados ealmen e azem sen ido.
Po exemplo, a limpeza a ou os dados de Tempe a u a? Um his og ama aqui alida ia
apidamen e se a aixa de alo es (ex: 20°C a 40°C) é plausí el pa a a Amazônia. Pa a isso,
usamos duas e amen as p incipais: es a ís ica desc i i a (como média, mediana, moda e des io
pad ão) pa a esumi os dados, e a isualização (g á icos simples) pa a e ela suas o mas e
elações. O obje i o não é c ia modelos complexos ainda, mas sim en ende p o undamen e a
ma é ia-p ima, encon a pad ões ób ios, iden i ica anomalias (como ou lie s que a limpeza
pode não e pego) e es a nossas p imei as hipó eses. Pe gun as ípicas da EDA:
• “Qual é a dis ibuição dos meus dados con ínuos?” (Ex: His og ama de Tempe a u a)
•
“Qual é a con agem dos meus dados ca egó icos?” (Ex: G á ico de Ba as de P odução
po Município)
•
“Exis e alguma elação (co elação) en e duas a iá eis numé icas?” (Ex: G á ico de
Dispe são de Chu a s. P odução)
18
CAPÍTULO 1. A JORNADA DOS DADOS: DO PROBLEMA À DECISÃO
•
“Como uma a iá el numé ica se compa a en e di e en es ca ego ias?” (Ex: Boxplo do
P eço do Açaí po Município)
Como dialogamos com os dados? Usando nossos olhos. As e amen as cen ais da
EDA são as biblio ecas de isualização, p incipalmen e Ma plo lib e Seabo n. O Ma plo lib é
o mo o que desenha os g á icos, e o Seabo n é uma in e ace mais amigá el que, com uma
linha de código, nos pe mi e c ia os g á icos es a ís icos complexos que ocê ê nes a lis a
(His og amas, Boxplo s, e c.). É a a és delas que espondemos a essas pe gun as isualmen e.
Nes a ase, um simples g á ico e ela insigh s que nenhuma abela complexa ou modelo
a ançado mos a ia. Pula a EDA é o e o mais comum de um inician e, que en a i di e o
pa a a modelagem (passo 4). Isso é como en a cons ui um elhado sem an es inspeciona os
alice ces: o esul ado quase ce amen e se á um acasso, pois o modelo pode acaba ap endendo
com dados uidosos ou en iesados que uma simples análise explo a ó ia e ia e elado.
1.2.5 Modelagem e Análise P edi i a
Se a EDA (passo an e io ) encon ou pad ões o es e elações p omisso as, podemos
i além da simples desc ição e en a “p e e ” o u u o. É aqui que en amos no domínio do
Ap endizado de Máquina (Machine Lea ning). E pa a cons ui essa ecei a ma emá ica, nossa
p incipal e amen a é a biblio eca Sciki -Lea n. Ela é a caixa de e amen as de IA de ini i a
pa a a maio ia das a e as de Ciência de Dados, indo com dezenas de modelos p on os pa a
Reg essão e Classi icação. Ela nos pe mi e eina o modelo nos dados passados (com um
comando chamado . i ()) e usá-lo pa a p e e o u u o (com um comando chamado .p edic ()).
Cons uímos um modelo (uma “ ecei a” ma emá ica ou um “conjun o de eg as” que o
compu ado ap ende). O obje i o de um modelo não é “ace a ” pe ei amen e os dados que ele
já iu; é gene aliza . Ele p ecisa ap ende com os dados do passado (o conjun o de eino) pa a
aze p e isões p ecisas sob e dados no os, que ele nunca iu (o conjun o de es e).
O maio pe igo nes a ase é o o e i ing (sob eajus e): quando o modelo é ão complexo
que, em ez de ap ende o pad ão eal dos dados, ele acaba “deco ando” odo o uído e as
pa icula idades do conjun o de eino. Esse modelo “deco ado ” e á um desempenho pe ei o
nos dados de eino, mas alha á mise a elmen e em dados no os. Po an o, a modelagem é um
balanço delicado en e complexidade e gene alização. Os dois ipos mais comuns de modelagem
supe isionada são:
•
Reg essão (P e e um núme o Quan i a i o): Usamos o passado pa a p e e quan o.
Ex: Com base nos dados de chu a e umidade, p e e o
Ní el do Rio
em milíme os
pa a daqui a 30 dias.
•
Classi icação (P e e uma ca ego ia Quali a i a): Usamos o passado pa a p e e o
quê. Ex: Com base em uma imagem de sa éli e (dados de pixels), classi ica se uma á ea
é “Flo es a” ou “Desma amen o”.
1.2.6 Da a S o y elling
Es a é a ase inal e, possi elmen e, a mais subes imada do ciclo. É o momen o em que
odo o abalho á duo de limpeza, análise e modelagem (os 99% écnicos do p oje o) encon a
o mundo eal. De nada adian a um modelo ma emá ico complexo com 99% de acu ácia se o
ges o da coope a i a ou o omado de decisão não en ende o que ele signi ica, ou pio , não
con ia nele pa a oma uma decisão. Um p oje o de dados só em alo eal se ele muda uma
ação ou uma es a égia no mundo eal.
19
CAPÍTULO 1. A JORNADA DOS DADOS: DO PROBLEMA À DECISÃO
É aqui que en a o Da a S o y elling. Es a não é apenas a a e de aze “g á icos boni os”.
É a habilidade de ans o ma insigh s écnicos complexos em uma na a i a cla a, con incen e
e, acima de udo, acioná el. Um ges o não que sabe sob e a sua cu a ROC ou o P- alo do
seu es e es a ís ico. Ele que espos as di e as pa a as pe gun as do negócio: “Onde es amos
pe dendo dinhei o?”, “Qual é a causa?”, e “O que de emos aze a espei o?”
Es a ase é a pon e en e análise e a ação, ans o mando insigh s écnicos em ela ó ios
execu i os e isualizações cla as que con am uma his ó ia comple a: o con ex o (o p oblema), a
descobe a (o pad ão nos dados) e a ecomendação (a decisão suge ida).
Fique Ale a!
Comunicação F aca: “O es e de co elação de Pea son en e Tempo de T anspo e e Pe da
de P odu o esul ou em um P-Valo de 0.002 e um R² de 0.78.”
Comunicação Fo e: “Nossa análise p o a que há uma o e elação en e o empo de iagem
e a pe da de açaí. O modelo p e ê que, pa a cada dia que eduzimos no anspo e lu ial,
economizamos R$ 15.000 em p odu o. Recomendamos in es i em ba cos mais ápidos pa a a
o a de Coa i, pois o e o no do in es imen o se á de 6 meses.”
1.3 O Cien is a de Dados: Um Pe il In e disciplina
O Cien is a de Dados é o p o issional esponsá el po cole a , o ganiza e analisa g andes
olumes de dados pa a ge a in o mações que auxiliem na omada de decisões es a égicas.
1.3.1 Habilidades Fundamen ais
A p incipal e amen a de um cien is a de dados é a cu iosidade. As habilidades écnicas
podem se ap endidas, mas a on ade de aze pe gun as e in es iga é o que mo e a análise.
•
P og amação e Lógica: Domínio de linguagens como Py hon (pa a análise) e SQL (pa a
busca dados em bancos de dados), e a comp eensão de como es u u a um p oblema.
•
Es a ís ica e Ma emá ica: Fundamen os c uciais pa a ealiza análises, ge a es a ís icas
e, o mais impo an e, en ende a ince eza (sabe se um esul ado é um pad ão eal ou
apenas uma coincidência).
•
Conhecimen o de Negócio e Comunicação: O analis a de e en ende o domínio em
que a ua (ex: p ocessos ag ícolas, logís ica lu ial) e possui excelen e capacidade de
comunicação ( e bal e esc i a) pa a p opo soluções adequadas.
1.3.2 A Dis upção e as No as Ca ei as
A compu ação mode na e a capacidade de p ocessa dados em la ga escala es ão causando
uma dis upção p o unda na sociedade. Ca ei as adicionais ocadas em a e as epe i i as
(como en ada de dados manual ou análise desc i i a simples) es ão sendo apidamen e au o-
ma izadas. No en an o, essa mesma o ça es á c iando uma explosão de no as ca ei as que
não exis iam há uma década. Essas no as unções nascem exa amen e da in e secção de á eas
que an es não dialoga am:
20
CAPÍTULO 1. A JORNADA DOS DADOS: DO PROBLEMA À DECISÃO
•
Engenhei o de ML Ops (Machine Lea ning Ope a ions): A in e secção en e Enge-
nha ia de So wa e (De Ops) e Ciência de Dados. Foca em como coloca um modelo de
IA em p odução de o ma con iá el e escalá el.
•
Analis a de Bioin o má ica: A in e secção en e Biologia/Gené ica e Ciência da Compu-
ação. Analisa sequências de DNA e dados genômicos pa a descob i no os medicamen os
ou en ende doenças.
•
Especialis a em NLP (P ocessamen o de Linguagem Na u al): A in e secção en e
Linguís ica e Compu ação. C ia cha bo s in eligen es, sis emas de adução ou e amen as
que analisam o sen imen o em mídias sociais.
•
Cien is a de Dados Ju ídicos (Legal Tech): A in e secção en e Di ei o e Es a ís ica.
Analisa milhões de documen os de p ocessos pa a encon a pad ões, p e e esul ados
de casos ou au oma iza a e isão de con a os.
O pode do p og amado mode no não es á mais apenas em “cons ui so wa e”, mas
em “cons ui sis emas que ap endem”. Es amos mig ando de uma sociedade que egis a
dados pa a uma sociedade que oma decisões baseadas em dados, e o Cien is a de Dados é o
p o issional que lide a essa ans o mação.
1.3.3 A É ica dos Dados
O abalho ai além da écnica. Dados são e lexos de p ocessos humanos e, po an o,
podem con e ieses (p econcei os). Se um banco de dados his ó ico mos a que um g upo
de pessoas ecebeu menos c édi o no passado, um modelo de IA einado com esses dados
“ap ende á” esse p econcei o e con inua á a disc imina esse g upo no u u o.
Imagine um modelo de IA einado pa a ap o a emp és imos. Se os dados his ó icos
(dos úl imos 20 anos) mos am que o banco, po azões de p econcei o social, ap o ou menos
emp és imos pa a um de e minado g upo demog á ico, o modelo de IA ap ende á esse pad ão.
O esul ado? O modelo i á au oma iza e pe pe ua a disc iminação, dando ap o ações mais
baixas pa a esse mesmo g upo, mas ago a sob o p e ex o de se uma decisão obje i a da IA.
O papel é ico do cien is a de dados é mi iga a i amen e esse isco. Na ase de Análise
Explo a ó ia (EDA), ele de e se pe gun a : Meus dados es ão balanceados? A axa de ap o ação
his ó ica é a mesma en e odos os g upos?. Se um desequilíb io o encon ado, ele de e aplica
écnicas de mi igação, como eamos agem dos dados (pa a o ça o balanceamen o) ou usa
mé icas de jus iça ( ai ness) pa a a alia o modelo, ga an indo que ele não penalize nenhum
g upo. É undamen al ga an i o uso é ico e anspa en e dos dados, em con o midade com as
legislações igen es (como a LGPD - Lei Ge al de P o eção de Dados).
Fique Ale a!
Sua unção não se limi a à écnica. É essencial que o p o issional man enha-se a ualizado
quan o às boas p á icas, desen ol endo uma isão mul idisciplina que una ecnologia, é ica
e senso de esponsabilidade pa a ques iona a i amen e: “O meu modelo es á e o çando um
p oblema social ou ajudando a esol ê-lo?”
21
CAPÍTULO 1. A JORNADA DOS DADOS: DO PROBLEMA À DECISÃO
1.4 Aplicando seus conhecimen os
1.
Ciclo de Vida: Se ocê osse con a ado pa a analisa o mo i o da e asão escola
(abandono) em escolas u ais do Amazonas, quais se iam as duas p imei as pe gun as
que ocê a ia na ase de En endimen o do P oblema?
2.
Tipos de Dados: Classi ique cada uma das a iá eis abaixo como Quali a i a Nominal,
Quali a i a O dinal,Quan i a i a Disc e a ou Quan i a i a Con ínua:
(a) O P eço do li o do açaí.
(b) O Município de o igem da semen e.
(c) A Classi icação de um u o (Ex: “Tipo A”, “Tipo B”, “Tipo C”).
(d) A Quan idade de u os em uma caixa.
3.
Limpeza de Dados: Você ecebe uma planilha com uma coluna “Idade” que con ém
os seguin es alo es:
[25, 30, “ in e”, 45, -10, 999, 28]
. Quais são os
p oblemas (pelo menos 3) nes a coluna e que ações de limpeza ocê oma ia?
4.
Modelagem: Explique a di e ença en e a Modelagem de Reg essão e a de Classi ica-
ção (discu idas na Seção 1.2.5). Dê um exemplo p á ico pa a cada uma, di e en e dos
ap esen ados no ex o, aplicado ao con ex o amazônico.
1.5 Conside ações des e Capí ulo
Nes e capí ulo, ocê es abeleceu o mapa da nossa jo nada: a Ciência de Dados é a união
da ecnologia, es a ís ica e conhecimen o de negócio. O Ciclo de Vida do P oje o é o seu o ei o,
e as biblio ecas Py hon são suas e amen as. Você ap endeu a di e encia os ipos de dados, o
que é o p imei o passo pa a uma análise co e a. Mais impo an e, ocê comp eendeu seu papel
como um p o issional é ico, mul idisciplina e, acima de udo, cu ioso. No p óximo capí ulo,
ap o unda emos as ases de Cole a e P epa ação dos Dados, colocando a mão na massa com
Pandas pa a ans o ma a qui os b u os e não con iá eis em Da aF ames limpos e p on os
pa a a análise.
22
Capí ulo 2
Explo ando Dados: Visualização e
Es a ís ica Desc i i a
Iniciando o diálogo...
No Capí ulo 1, desenhamos o “mapa” da jo nada de um cien is a de dados, desde a o mu-
lação de um p oblema a é a ap esen ação de uma solução. Ago a, nes e capí ulo, amos
cons ui nosso “labo a ó io” e ap ende a usa as e amen as undamen ais de análise.
Quando um cien is a de dados ecebe um no o conjun o de dados, ele não começa aplicando
algo i mos complexos. O abalho se assemelha mais ao de um de e i e: o p imei o passo é
a explo ação. P ecisamos in e oga nossos dados, en ende sua o ma, sua es u u a e suas
peculia idades.
•Quan os dados emos?
•Eles es ão concen ados ou espalhados?
•Exis e algum alo “es anho” ou a ípico?
•Duas a iá eis pa ecem es a elacionadas?
Pa a esponde a essas pe gun as, não podemos con ia apenas na in uição. P ecisamos de
um alice ce sólido em Es a ís ica.
2.1 O Expe imen o do Peixe
Pa a o na esses concei os cla os e p á icos, usa emos um cená io de labo a ó io ao
longo de odo es e capí ulo. Imagine que somos analis as em uma coope a i a de piscicul u a
aqui na Amazônia. A coope a i a que decidi em qual ação in es i pa a o p óximo ano e nos
en ega um pequeno conjun o de dados de um expe imen o:
Temos dados de 30 peixes, onde 15 o am alimen ados com a “Ração A” e 15 com
a “Ração B”. Pa a cada peixe, medimos seu c escimen o em quilos e o quan o ele
consumiu de ação. Qual ação é ealmen e melho ?
Usa emos es e da ase simples e con olado como nosso “ io condu o ”. Com ele, amos
ap ende isualmen e como desc e e e esumi os dados usando a Es a ís ica Desc i i a.
23
CAPÍTULO 2. EXPLORANDO DADOS: VISUALIZAÇÃO E ESTATÍSTICA DESCRITIVA
Pa a c ia es e cená io, usamos o código Py hon abaixo pa a ge a um da ase ic ício e
ep odu í el chamado expe imen o_peixes.cs .
Copie e Tes e!
impo pandas as pd
impo numpy as np
impo ma plo lib.pyplo as pl
impo seabo n as sns
om scipy impo s a s
# 1. De ini o "seed" pa a que os esul ados sejam semp e os
mesmos ( ep odu ibilidade)
np. andom.seed(42)
# 2. De ini o núme o de amos as (peixes) po g upo
N = 15
# Ração A: C escimen o CONCENTRADO, Co elação FORTE
# Média 5.0, Des io Pad ão 0.5
c escimen o_A = np. andom.no mal(loc=5.0, scale=0.5, size=N)
# Consumo em CORRELAÇÃO FORTE com c escimen o
consumo_A = (c escimen o_A * 1.5) + np. andom.no mal(loc=0, scale
=0.3, size=N)
# Ração B: C escimen o DISPERSO, OUTLIER, Co elação FRACA
# Média ~4.2, Des io Pad ão 1.5 (N-1 pa a o ou lie )
c escimen o_B_base = np. andom.no mal(loc=4.2, scale=1.5, size=N
-1)
# Adicionamos o OUTLIER
ou lie _B = [25.0]
c escimen o_B = np.conca ena e((c escimen o_B_base, ou lie _B))
# Consumo em CORRELAÇÃO FRACA
consumo_B = np. andom.no mal(loc=7.0, scale=2.0, size=N)
# --- Jun ando os dados ---
d _A = pd.Da aF ame({
' ipo_ acao':'Ração A',
'c escimen o_kg': c escimen o_A,
'consumo_ acao_kg': consumo_A
})
d _B = pd.Da aF ame({
' ipo_ acao':'Ração B',
'c escimen o_kg': c escimen o_B,
'consumo_ acao_kg': consumo_B
})
# Combinando os g upos em um único Da aF ame
d _peixes = pd.conca ([d _A, d _B], igno e_index=T ue)
24
CAPÍTULO 2. EXPLORANDO DADOS: VISUALIZAÇÃO E ESTATÍSTICA DESCRITIVA
Copie e Tes e!
p in ("--- Ge ando Boxplo s Compa a i os ---")
pl . igu e( igsize=(10, 7))
# Usamos o Seabo n (sns) pa a c ia o boxplo
# x = eixo ca egó ico, y = eixo numé ico
sns.boxplo (x=' ipo_ acao', y='c escimen o_kg', da a=d _peixes)
pl . i le('Compa ação da Dis ibuição do C escimen o (kg) po
Ração')
pl .xlabel('Tipo de Ração')
pl .ylabel('C escimen o (kg)')
pl .show()
Figu a 2.4: Boxplo da compa ação da dis ibuição do c escimen o (kg) po ação.
Análise: A aliando a dis o ção causada pelo Ou lie
Es e g á ico é a p o a de ini i a do nosso s o y elling e nos con a oda a his ó ia em uma
única imagem:
•
Ração A: É uma caixa “cu a” e “simé ica”. A mediana (linha cen al) es á bem no
meio. Os “bigodes” são cu os. Isso nos diz isualmen e que os dados são consis en es,
p e isí eis e concen ados em o no de 5.0 kg.
•
Ração B: É uma caixa “longa” e “assimé ica”. A mediana es á na pa e de baixo da caixa.
E, o mais impo an e, emos um pon o soli á io lá em cima (nosso ou lie de 25.0 kg).
Isso nos diz que os dados são dispe sos, imp e isí eis e assimé icos.
31
CAPÍTULO 2. EXPLORANDO DADOS: VISUALIZAÇÃO E ESTATÍSTICA DESCRITIVA
O Boxplo é a e amen a pe ei a pa a complemen a o his og ama. Ele con i mou o
ou lie , mas a que cus o?
Obse e no g á ico 2.4 que a p esença do alo ex emo de 25.0 kg “acha a” comple amen e
o boxplo da Ração B. A escala do eixo Y p ecisa se ajus a pa a inclui o ou lie , o nando a
“caixa” (o IQR) e os “bigodes” da Ração B ão pequenos que são quase impossí eis de le . Não
conseguimos compa a de o ma jus a a mediana ou a a iabilidade da Ração B com a Ração A.
Pa a esol e isso e analisa a dis ibuição p incipal dos dados, podemos c ia um segundo
g á ico, il ando empo a iamen e esse ou lie . Es a é uma écnica comum pa a comp eende o
compo amen o do “g osso” dos dados.
Figu a 2.5: Boxplo al e na i o da compa ação da dis ibuição do c escimen o (kg) po ação,
co igido pela emoção do ou lie .
Análise: A aliando a dis ibuição dos dados sem o Ou lie
Ago a com o g á ico 2.5 a ualizado, podemos inalmen e e a his ó ia com mais cla eza:
•Ração A: Con inua a mesma, um g upo coeso e p e isí el.
•
Ração B: A e dadei a o ma da sua dis ibuição é e elada, ela é ex emamen e longa e
assimé ica.
–
A mediana (linha cen al, 4.1kg) é isi elmen e mais baixa que a da Ração A ( 4.9kg).
–
A a iabilidade é imensa, com a caixa (IQR) mui o mais al a que a Ração A, enquan o
que o “bigode” in e io se es ende a é 1.2kg e o supe io a é 7.0kg.
O uso dos dois g á icos nos pe mi iu conclui o s o y elling: A Ração A p oduz um
c escimen o consis en e. A Ração B é al amen e imp e isí el; a maio ia dos peixes em um
c escimen o meno e mais a iá el que a Ração A, mas ela ambém em o po encial de ge a
um esul ado ex emo (o ou lie de 25.0 kg), que pode e sido um “supe peixe” ou um e o de
medição.
32
CAPÍTULO 2. EXPLORANDO DADOS: VISUALIZAÇÃO E ESTATÍSTICA DESCRITIVA
2.2.5 G á ico de Dispe são
“Minhas a iá eis se mo em jun as? Quando uma sobe, a ou a ambém sobe? Ou ela desce?”
O G á ico de Dispe são (ou Sca e Plo ) é a nossa e amen a pa a in es iga a co elação en e
duas a iá eis quan i a i as. Cada pon o no g á ico ep esen a uma única obse ação (um
peixe), posicionado de aco do com seus alo es nos eixos X e Y. Ao olha mos o pad ão o mado
po odos os pon os, podemos e se exis e uma elação.
No nosso “Expe imen o do Peixe”, a pe gun a mais impo an e é: “O quan o um peixe
come (
consumo_ acao_kg
) in luencia o quan o ele c esce (
c escimen o_kg
)?” E se á
que essa elação é a mesma pa a as duas ações?
Copie e Tes e!
# --- 1. C iação dos G á icos de Dispe são ---
p in ("--- Ge ando G á icos de Dispe são (Co elação) ---")
# C iamos uma igu a com dois g á icos, um ao lado do ou o
ig, axes = pl .subplo s(1, 2, igsize=(14, 6))
ig.sup i le('Relação en e Consumo de Ração e C escimen o')
# G á ico da Ração A
# Usamos sns. egplo () pa a já aça a linha de endência
sns. egplo (da a=d _peixes[d _peixes[' ipo_ acao'] == 'Ração A'],
x='consumo_ acao_kg', y='c escimen o_kg', ax=axes[0], ci=None,
line_kws={'colo ':' ed'})
axes[0].se _ i le('Ração A')
axes[0].se _xlabel('Consumo (kg)')
axes[0].se _ylabel('C escimen o (kg)')
# G á ico da Ração B
sns. egplo (da a=d _peixes[d _peixes[' ipo_ acao'] == 'Ração B'],
x='consumo_ acao_kg', y='c escimen o_kg', ax=axes[1], ci=None,
line_kws={'colo ':' ed'})
axes[1].se _ i le('Ração B')
axes[1].se _xlabel('Consumo (kg)')
axes[1].se _ylabel('')# Remo e o ó ulo Y
pl .show()
# --- 2. Cálculo Numé ico (O Coe icien e de Co elação) ---
# O g á ico é isual, o coe icien e é o núme o.
p in (" n--- Coe icien e de Co elação (Pea son) ---")
# Fil a os dados de cada ação
d _A = d _peixes[d _peixes[' ipo_ acao'] == 'Ração A']
d _B = d _peixes[d _peixes[' ipo_ acao'] == 'Ração B']
# Calcula a co elação en e as duas colunas
co _A = d _A['consumo_ acao_kg'].co (d _A['c escimen o_kg'])
co _B = d _B['consumo_ acao_kg'].co (d _B['c escimen o_kg'])
33
CAPÍTULO 2. EXPLORANDO DADOS: VISUALIZAÇÃO E ESTATÍSTICA DESCRITIVA
p in ( "Co elação Ração A: {co _A:.4 }")
p in ( "Co elação Ração B: {co _B:.4 }")
Tela do Te minal
--- Coe icien e de Co elação (Pea son) ---
Co elação Ração A: 0.9571
Co elação Ração B: 0.2139
Figu a 2.6: Diag ama de dispe são e elação en e consumo e c escimen o pa a as Rações A e B.
Análise: Uma Relação Cla a s. o Caos
Os esul ados aqui são inc i elmen e e elado es e cump em exa amen e o que p oje amos
em nosso da ase :
•
Ração A: Os pon os o mam um pad ão linea quase pe ei o, subindo da esque da pa a
a di ei a. A linha de endência e melha cap u a essa elação com cla eza. O coe icien e
numé ico de +0.9571 con i ma uma co elação posi i a mui o o e.
–
Tendência: Com a Ração A, o c escimen o é di e amen e e p e isi elmen e ligado
ao consumo. Mais comida = mais c escimen o.
•
Ração B: Os pon os es ão espalhados po odo o g á ico como uma nu em caó ica
(incluindo o ou lie de 25kg, que es á deslocado no opo). A linha de endência ica quase
na ho izon al, mos ando que não há um pad ão cla o. O coe icien e de +0.2139 con i ma
que há uma co elação mui o aca.
–
Tendência: Com a Ração B, o quan o um peixe come não pa ece e elação com o
quan o ele c esce. Isso e o ça nossa conclusão de que a Ração B é imp e isí el.
O G á ico de Dispe são é a nossa p incipal e amen a pa a alida hipó eses de causa e
e ei o. Ele é a base isual pa a a seção de Co elação que e emos mais à en e.
34
CAPÍTULO 2. EXPLORANDO DADOS: VISUALIZAÇÃO E ESTATÍSTICA DESCRITIVA
2.2.6 Mapa de Calo
“Qual é a o ça da co elação en e odos os pa es de a iá eis numé icas do meu da ase ?”
No ópico an e io , in es igamos a elação en e
consumo_ acao_kg
e
c escimen o_kg
.
Mas o que aze quando emos 5, 10, ou 50 a iá eis numé icas? C ia um g á ico de dispe são
pa a cada pa se ia imp a icá el. É aqui que o Mapa de Calo (Hea map) se o na essencial. Ele
exibe uma ma iz onde cada célula mos a o coe icien e de co elação (um núme o en e -1 e
+1) en e duas a iá eis. As co es nos dão um diagnós ico isual imedia o:
•Co es Quen es (ex: e melho): Co elação Posi i a Fo e (p óximo de +1).
•Co es F ias (ex: azul): Co elação Nega i a Fo e (p óximo de -1).
•Co es Neu as (ex: b anco): Sem Co elação (p óximo de 0).
Copie e Tes e!
# --- 1. P epa ação dos Dados (Cálculo da Co elação) ---
# Selecionamos apenas as colunas numé icas
colunas_nume icas = ['c escimen o_kg','consumo_ acao_kg','
meses_cul i o']
d _nume ico = d _peixes[colunas_nume icas]
# Calculamos a ma iz de co elação
ma iz_co = d _nume ico.co ()
p in ("--- Ma iz de Co elação ---")
p in (ma iz_co )
p in (" n")
# --- 2. C iação do Mapa de Calo ---
p in ("--- Ge ando Mapa de Calo (Hea map) ---")
pl . igu e( igsize=(8, 6))
sns.hea map(ma iz_co , anno =T ue, cmap='coolwa m', m ='.2 ',
linewid hs=0.5)
pl . i le('Mapa de Calo das Co elações')
pl .show()
Tabela 2.4: Ma iz de Co elação.
c escimen o_kg consumo_ acao_kg meses_cul i o
c escimen o_kg 1.00 0.21 0.14
consumo_ acao_kg 0.21 1.00 0.23
meses_cul i o 0.14 0.23 1.00
35
CAPÍTULO 2. EXPLORANDO DADOS: VISUALIZAÇÃO E ESTATÍSTICA DESCRITIVA
Figu a 2.7: Mapa de calo da ma iz de co elação.
Uma Visão Pano âmica
A ma iz imp essa e o mapa de calo nos dão uma isão ápida de odas as elações:
1.
Diagonal P incipal: A diagonal de ( opo-esque da pa a baixo-di ei a) é semp e 1.00
( e melho escu o). Isso é ób io, pois mos a a co elação de uma a iá el com ela mesma.
2. c escimen o_kg
s.
consumo_ acao_kg:
Vemos um alo aco (0.21). Po quê?
Po que o g á ico jun a ambas as ações. A Ração A em co elação o e (0.96) e a Ração
B em co elação aca (0.21); O esul ado ge al é uma média “mo na”.
3.
Ou as Relações: Vemos que
meses_cul i o
em uma co elação mui o aca com
as ou as a iá eis.
O Mapa de Calo é a sua e amen a de diagnós ico ápido pa a da ase s complexos. Ele
iden i ica quais a iá eis pa ecem e uma elação o e e que me ecem uma in es igação mais
p o unda com um G á ico de Dispe são (como izemos ao sepa a as Rações A e B).
2.2.7 G á ico de Pizza
“Qual é a p opo ção ou po cen agem de cada ca ego ia den o de um odo?” Enquan o os
g á icos de ba as compa am os alo es absolu os dos g upos, o G á ico de Pizza (ou G á ico
de Se o es) oca exclusi amen e na composição pe cen ual. Ele é usado pa a mos a como
um odo (100%) é di idido em pa es. No nosso “Expe imen o do Peixe”, emos a coluna
a aliacao_saude
. Uma pe gun a in e essan e se ia: “Qual a p opo ção de peixes com saúde
Al a, Média ou Baixa em nosso expe imen o comple o?”
36
CAPÍTULO 2. EXPLORANDO DADOS: VISUALIZAÇÃO E ESTATÍSTICA DESCRITIVA
Copie e Tes e!
# P ecisamos con a quan as ezes cada ca ego ia apa ece.
equencia_saude = d _peixes['a aliacao_saude']. alue_coun s()
p in ("--- Tabela de F equência (Dados pa a o G á ico) ---")
p in ( equencia_saude)
p in (" n")
p in ("--- Ge ando G á ico de Pizza ---")
pl . igu e( igsize=(8, 8))
pl .pie( equencia_saude, labels= equencia_saude.index, au opc ='
%1.1 %%', s a angle=90)
pl . i le('P opo ção da A aliação de Saúde dos Peixes')
pl .axis('equal')
pl .show()
Tabela 2.5: Tabela de F equência da A aliação de Saúde (Dados pa a o G á ico).
A aliação de Saúde F equência
Média 13
Al a 10
Baixa 7
Figu a 2.8: G á ico de pizza da p opo ção da a aliação de saúde dos peixes.
37
CAPÍTULO 2. EXPLORANDO DADOS: VISUALIZAÇÃO E ESTATÍSTICA DESCRITIVA
Análise: Vendo as “Fa ias”
O g á ico nos mos a ins an aneamen e a composição do nosso da ase . No nosso exemplo,
a a ia Média (43.3%) é cla amen e a maio , seguida po Al a (33.3%) e Baixa (23.3%).
Fique Ale a!
O Pe igo do G á ico de Pizza
Embo a popula , o G á ico de Pizza de e se usado com ex emo cuidado. O cé eb o humano
em mui a di iculdade em compa a o amanho de ângulos e á eas ( a ias). E i e o G á ico
de Pizza quando:
1.
Você em mui as ca ego ias (mais de 5 ou 6), pois o g á ico se o na um “a co-í is”
ilegí el.
2. As ca ego ias êm alo es mui o p óximos, assim ica quase impossí el dize isual-
men e se uma a ia de 23% é maio que uma de 25%.
Na dú ida, use um G á ico de Ba as. Um g á ico de ba as (como o que imos no
ópico 2.2.1) mos a ia as mesmas con agens de saúde de o ma mui o mais cla a e ácil de
compa a .
2.3 Es a ís ica Desc i i a
Nas seções an e io es, ap endemos a isualiza dados (com g á icos). Ago a, amos
adiciona a segunda e amen a da explo ação: os núme os que esumem os dados. A es a-
ís ica desc i i a é o conjun o de écnicas que usamos pa a desc e e e esumi as p incipais
ca ac e ís icas de um conjun o de dados. An es de cons ui um modelo complexo, p ecisamos
p imei o en ende o básico.
2.3.1 Tipos de Va iá eis
O p imei o passo de qualque análise é iden i ica os ipos de a iá eis que emos. A
escolha de qual g á ico usa (Seção 2.2) ou qual cálculo aze (média, con agem, e c.) depende
100% dessa iden i icação. Em es a ís ica, não es amos ão p eocupados com os ipos de dados
do compu ado (
in
,
loa
,
s
). Es amos in e essados nos ipos concei uais. Todas as
a iá eis se di idem em duas g andes amílias:
1. Va iá eis Quali a i as (Ca egó icas)
Desc e em uma qualidade, um ipo ou uma ca ego ia. Elas não podem se somadas ou
sub aídas. Elas se di idem em:
•Nominal: Ca ego ias que não possuem uma o dem na u al.
–
Exemplos:
ipo_ acao
(“Ração A”, “Ração B”),
especie
(“Tambaqui”, “Pi a-
ucu”).
–
Análise Típica: Con agem de equência (Tabela de F equências) e G á ico de
Ba as/Pizza.
38
CAPÍTULO 2. EXPLORANDO DADOS: VISUALIZAÇÃO E ESTATÍSTICA DESCRITIVA
•O dinal: Ca ego ias que possuem uma o dem ou hie a quia lógica.
–
Exemplos:
a aliacao_saude
(“Baixa”, “Média”, “Al a”),
amanho
(“Pequeno”,
“Médio”, “G ande”).
–
Análise Típica: Tabela de F equências, Mediana (pa a encon a a ca ego ia cen al)
e G á ico de Ba as.
2. Va iá eis Quan i a i as (Numé icas)
Desc e em uma quan idade ou um núme o. São dados que podemos usa em ope ações
ma emá icas. Elas se di idem em:
•
Disc e a: Núme os que podem se con ados. Ge almen e são in ei os e não exis em
alo es “en e” eles.
–Exemplos: meses_cul i o (6, 7, 8), quan idade_de_peixes (10, 11, 12).
–Análise Típica: Média, Mediana, G á ico de Ba as ou G á ico de Linha.
•
Con ínua: Núme os que podem se medidos. Eles podem assumi qualque alo den o
de um in e alo.
–
Exemplos:
c escimen o_kg
(5.04 kg, 5.05 kg, 5.051 kg),
consumo_ acao_kg
,
empe a u a.
–Análise Típica: Média, Mediana, Des io Pad ão, His og ama, Boxplo , Dispe são.
Vamos oda o comando
.in o()
do Pandas pa a e como o compu ado “enxe ga”
nossos dados e, ao lado, a emos nossa classi icação es a ís ica.
Copie e Tes e!
p in ("--- Saída do d _peixes.in o() ---")
d _peixes.in o()
Tela do Te minal
--- Saída do d _peixes.in o() ---
<class 'pandas.co e. ame.Da aF ame'>
RangeIndex: 30 en ies, 0 o 29
Da a columns ( o al 6 columns):
# Column Non-Null Coun D ype
--- ------ -------------- -----
0 id_peixe 30 non-null in 64
1 ipo_ acao 30 non-null objec
2 c escimen o_kg 30 non-null loa 64
3 consumo_ acao_kg 30 non-null loa 64
4 meses_cul i o 30 non-null in 64
5 a aliacao_saude 30 non-null objec
d ypes: loa 64(2), in 64(2), objec (2)
memo y usage: 1.5+ KB
39
CAPÍTULO 2. EXPLORANDO DADOS: VISUALIZAÇÃO E ESTATÍSTICA DESCRITIVA
Análise: Classi icação de Va iá eis
Sabe classi ica suas a iá eis é a habilidade núme o um da análise de dados. É ela que
de ine odo o seu plano de a aque:
•
Se a a iá el é Quali a i a, sua p imei a pe gun a se á: “Qual a equência de cada
ca ego ia?”
•
Se a a iá el é Quan i a i a, sua p imei a pe gun a se á: “Qual a endência cen al e a
dispe são?”
Tabela 2.6: Classi icação Es a ís ica das Va iá eis do Expe imen o.
Coluna Tipo Pandas Tipo Es a ís ico Po Quê?
id_peixe in 64 Quali a i a Nominal É um código. Não az
sen ido calcula a “média”
dos IDs.
ipo_ acao objec Quali a i a Nominal É um ó ulo de ca ego ia
sem o dem.
c escimen o_kg loa 64 Quan i a i a Con ínua
É um alo medido (peso).
consumo_ acao_kg loa 64 Quan i a i a Con ínua
É um alo medido (peso).
meses_cul i o in 64 Quan i a i a Disc e a É um alo con ado
(núme o in ei o de
meses).
a aliacao_saude objec Quali a i a O dinal É uma ca ego ia (“Baixa”,
“Média”, “Al a”) com
o dem.
2.3.2 Desc e endo Va iá eis Quali a i as: Tabela de F equências
“Quan as ezes cada ca ego ia apa ece no meu da ase ?” Pa a a iá eis quali a i as (como
ipo_ acao
ou
a aliacao_saude
), a p imei a análise que azemos é uma abela de
equências. Ela simplesmen e con a quan as obse ações pe encem a cada ca ego ia. No
Pandas, azemos isso com o comando . alue_coun s().
Copie e Tes e!
# --- 1. Con agem de F equência pa a ' ipo_ acao' (Absolu a)
p in ("--- F equência pa a ' ipo_ acao' ---")
eq_ acao = d _peixes[' ipo_ acao']. alue_coun s()
p in ( eq_ acao)
# --- 2. Con agem de F equência pa a 'a aliacao_saude' (Absolu a)
p in (" n--- F equência pa a 'a aliacao_saude' ---")
eq_saude = d _peixes['a aliacao_saude']. alue_coun s()
p in ( eq_saude)
# --- 3. F equência em Po cen agem (Rela i a)
# Passamos o pa âme o no malize=T ue
40
CAPÍTULO 2. EXPLORANDO DADOS: VISUALIZAÇÃO E ESTATÍSTICA DESCRITIVA
Tabela 2.8: Ma iz de Co elação (Ge al).
c escimen o_kg consumo_ acao_kg meses_cul i o
c escimen o_kg 1.00 0.21 0.14
consumo_ acao_kg 0.21 1.00 0.23
meses_cul i o 0.14 0.23 1.00
Tabela 2.9: Co elação (C escimen o s. Consumo) po Tipo de Ração.
Ração Co elação ( ) Classi icação
Ração A 0.96 Fo e
Ração B 0.21 F aca/Nenhuma
Análise: A aliando a Dispe são
Os núme os con i mam o que imos nos g á icos de dispe são na seção 2.2.5.
•
Ração A: Ap esen a um
= +0.96
. Es a é uma co elação posi i a mui o o e. A
conclusão é cla a: pa a a Ração A, o consumo es á di e amen e ligado ao c escimen o.
•
Ração B: Ap esen a um
= +0.21
. Es e alo é aco, indicando baixa co elação linea .
O que nos le a ao ale a es a ís ico mais impo an e de
odos!
2.4.2 Co elação NÃO implica Causalidade
Es e é, al ez, o concei o mais impo an e des e capí ulo. Você p ecisa en ende a di e ença
en e co elação e causalidade pa a não i a conclusões e adas.
•Co elação signi ica apenas que duas a iá eis se mo em jun as.
•Causalidade signi ica que a mudança em uma a iá el causa a mudança na ou a.
Encon a uma co elação o e NÃO p o a que uma a iá el causa a ou a. Quase
semp e, exis e uma “ a iá el ocul a” (ou a iá el de con usão) que explica a elação.
Fique Ale a!
Exemplo Clássico: So e e e A aques de Tuba ão
Se analisa mos dados de uma cidade de p aia, encon a emos uma co elação posi i a mui o
o e en e o núme o de so e es endidos e o núme o de a aques de uba ão.
•
Conclusão Ruim (Causalidade): “Vende so e e causa a aques de uba ão! Vamos
p oibi a enda de so e es pa a sal a os banhis as.” (“Isso é absu do”).
•
Conclusão Co e a (Co elação): Exis e uma a iá el ocul a: a empe a u a (calo ).
47
CAPÍTULO 2. EXPLORANDO DADOS: VISUALIZAÇÃO E ESTATÍSTICA DESCRITIVA
1. Quando az mais calo , mais pessoas ão à p aia e comp am so e e.
2.
Quando az mais calo , mais pessoas en am na água, aumen ando a p obabili-
dade de um encon o com um uba ão.
A enda de so e es e os a aques de uba ão não êm elação causal. Ambos são causados
po uma e cei a a iá el (o calo ).
Em nosso expe imen o, encon amos uma co elação o e en e consumo e c escimen o
na Ração A. Isso suge e que o consumo causa o c escimen o (o que é biologicamen e plausí el).
Mas, como cien is as de dados, nosso abalho é dize : “Encon amos uma o e elação linea ”. A
a i mação de causa só pode i de um expe imen o con olado e do conhecimen o de especialis as
(biólogos, nes e caso).
2.5 Aplicando seus conhecimen os
1.
Visualização: Você iu na Seção 2.2.1 que um G á ico de Ba as, po mos a apenas a
média, pode se enganoso. Se ocê quisesse in es iga a consis ência (dispe são) e os
ou lie s do c escimen o da Ração A s. Ração B em um único g á ico, qual g á ico da
Seção 2.2 ocê usa ia e po quê?
2.
Média s. Mediana: No “Expe imen o do Peixe”, a Média da Ração B (5.33 kg) oi
maio que a da Ração A (5.01 kg), mas a Mediana da Ração B (4.18 kg) oi mui o meno .
Explique, em suas pala as, po que isso acon eceu e qual mé ica (Média ou Mediana)
ocê con ia ia mais pa a desc e e o peixe “ ípico” da Ração B?
3.
Des io Pad ão: A Ração A e e um Des io Pad ão de 0.50 kg, enquan o a Ração B
e e um de 5.63 kg (Seção 2.3.4). O que esse núme o (Des io Pad ão) nos diz sob e a
p e isibilidade do c escimen o de cada ação?
4.
Co elação s. Causalidade: Você analisa dados de uma cidade e encon a uma
co elação posi i a mui o o e (
= +0.90
) en e o núme o de so e es endidos e
o núme o de a ogamen os na p aia. O seu colega diz: “Isso p o a que oma so e e
causa a ogamen os!”. Usando o concei o da Seção 2.4.2, qual é a “ a iá el ocul a” que
p o a elmen e explica essa elação?
2.6 Conside ações des e Capí ulo
Nes e capí ulo, me gulhamos na p imei a me ade da análise: a Explo ação e Desc ição.
Vimos, com o “Expe imen o do Peixe”, a impo ância de isualiza os dados (com G á icos de
Ba a, His og amas e Boxplo s) an es de con ia cegamen e em um único núme o. Ap endemos
a usa a Es a ís ica Desc i i a (Média, Mediana e, c ucialmen e, Des io Pad ão) pa a esumi e
compa a g upos, en endendo como o Pandas e o Seabo n são nossas e amen as pa a execu a
esses cálculos e isualizações.
Po im, in es igamos a Co elação, ap endendo a quan i icá-la com o Coe icien e de
Pea son e in e nalizando a eg a mais impo an e da análise de dados: co elação não implica
causalidade. Ago a que sabemos como desc e e o que acon eceu no passado, es amos p on os
pa a o p óximo passo. O p óximo capí ulo nos ensina á a lida com a ince eza e a decidi o
que aze a segui , usando o pode da P obabilidade e da In e ência Es a ís ica.
48
Capí ulo 3
Da Ince eza à Decisão: P obabilidade e
In e ência
Iniciando o diálogo...
No capí ulo an e io , ap endemos a “olha pa a o passado”. Usamos a Es a ís ica Desc i i a
e a Visualização pa a esumi e en ende os dados que já cole amos. Vimos que a Ração A
pa ecia mais consis en e que a Ração B. Mas isso desc e e apenas aqueles 30 peixes. Como
podemos usa essa in o mação pa a oma uma decisão u u a? Como podemos e ce eza
de que a di e ença que imos não oi “apenas so e”?
Pa a esponde a isso, p ecisamos de um no o conjun o de e amen as. P ecisamos da
linguagem ma emá ica pa a quan i ica a ince eza e da es u u a o mal pa a oma decisões
baseadas em e idências. Es e é o mundo da P obabilidade e da Es a ís ica In e encial.
3.1 P obabilidade
A é ago a, a amos nossos dados como a os conc e os. Nós calculamos a média exa a do
c escimen o_kg
(5.01 kg pa a a Ração A) e a co elação exa a (
= 0.96
). Esse é o mundo
da Es a ís ica Desc i i a: esumi o que já acon eceu. Mas a Ciência de Dados a amen e se
con en a em apenas desc e e o passado. Nosso e dadei o obje i o é usa o passado pa a
oma decisões sob e o u u o.
• Qual a chance do p óximo peixe alimen ado com Ração A c esce mais de 5kg?
•
Qual a p obabilidade de a Ração A se ealmen e melho que a Ração B, ou se á que o
esul ado que imos oi apenas so e?
Pa a esponde a essas pe gun as, p ecisamos de uma no a linguagem: a P obabilidade.
Ela é a e amen a ma emá ica que nos pe mi e quan i ica a ince eza e ge encia o isco.
3.1.1 Va iá eis Alea ó ias
O p imei o concei o que p ecisamos é o de Va iá el Alea ó ia. Uma a iá el alea ó ia
não é como uma a iá el no mal de p og amação (como
x = 10
). É um concei o que desc e e
um p ocesso ou e en o u u o cujo esul ado é ince o, mas que pe ence a um conjun o de
possibilidades.
49
CAPÍTULO 3. DA INCERTEZA À DECISÃO: PROBABILIDADE E INFERÊNCIA
•
Exemplo Disc e o: O esul ado de joga um dado. A a iá el alea ó ia “Dado” pode
assumi os alo es {1, 2, 3, 4, 5, 6}.
•
Exemplo Con ínuo: A empe a u a de amanhã. A a iá el alea ó ia “Tempe a u a”
pode assumi qualque alo den o de um in e alo (ex: 20°C, 20.1°C, 20.11°C...).
É aqui que udo se conec a. Em Ciência de Dados, a amos nossas colunas de dados
como obse ações passadas de uma a iá el alea ó ia.
•
A coluna
c escimen o_kg
do nosso
d _peixes
é uma amos a de 30 obse ações
da a iá el alea ó ia “C escimen o de um Peixe”.
•
Ao analisa a dis ibuição dessa coluna (com um his og ama), es amos, na e dade,
en ando es ima a “ o ma” da dis ibuição de p obabilidade dessa a iá el alea ó ia.
En ende isso é o que nos pe mi e usa os dados que emos pa a aze p e isões sob e os
dados que não emos.
3.1.2 Dis ibuições Con ínuas
No úl imo ópico, imos que exis em a iá eis alea ó ias disc e as (como um dado, com
6 esul ados possí eis) e con ínuas (como o
c escimen o_kg
de um peixe, que pode se
5.0, 5.1, 5.001, e c.). Desc e e a p obabilidade de um dado é ácil: a chance de sai “4” é 1/6.
Mas como desc e emos a p obabilidade de uma a iá el con ínua? Qual é a chance de um
peixe c esce exa amen e 5.00000000... kg? A espos a é ze o. Exis e um núme o in ini o de
esul ados possí eis, en ão a chance de ace a um alo exa o é nula. Pa a a iá eis con ínuas,
nunca pe gun amos a p obabilidade de um pon o, mas sim a p obabilidade de um in e alo.
• Qual a chance do peixe c esce en e 4.5 kg e 5.5 kg?
• Qual a chance do pH da água se maio que 7.0?
Pa a esponde a isso, usamos uma Função Densidade de P obabilidade, ou P obabili y
Densi y Func ion. A Função Densidade de P obabilidade é uma cu a que desc e e a “ o ma” da
nossa a iá el alea ó ia. Ela em duas eg as p incipais:
1. Ela nunca pode se nega i a (não exis e chance nega i a).
2.
A á ea o al sob a cu a in ei a é exa amen e 1 ( ep esen ando 100% de chance de algum
esul ado acon ece ).
A p obabilidade de um e en o acon ece den o de um in e alo é, en ão, a á ea sob a
cu a den o daquele in e alo. A p obabilidade de a a iá el
X
cai en e os alo es
a
e
b
é a
in eg al (a á ea) da unção de densidade (x)de aa é b:
P(a≤X≤b) = Zb
a
(x)dx
O His og ama que plo amos na seção 2.2.3 é a nossa melho en a i a de “desenha ”
a Função Densidade de P obabilidade da nossa a iá el
c escimen o_kg
, usando nossos
dados de amos a. A linha sua e que o Seabo n desenhou (quando usamos
kde=T ue
) é
uma es ima i a es a ís ica dessa cu a
(x)
. Ela nos mos ou que a Função Densidade de
P obabilidade da “Ração A” se pa ece mui o com uma o ma especí ica, amosa e inc i elmen e
impo an e na es a ís ica: a Dis ibuição No mal.
50
CAPÍTULO 3. DA INCERTEZA À DECISÃO: PROBABILIDADE E INFERÊNCIA
3.1.3 A Dis ibuição No mal
“Exis e um ‘pad ão na u al’ pa a a dis ibuição de dados con ínuos?” A Dis ibuição
No mal (ou Cu a de Sino / Cu a de Gauss) é a dis ibuição de p obabilidade mais impo an e.
Mui os enômenos do mundo eal (al u a de pessoas, e os de medição, e o c escimen o dos
peixes da Ração A) endem a segui es a dis ibuição.
P op iedades da Dis ibuição No mal
Uma Dis ibuição No mal é simé ica e de inida po apenas dois pa âme os:
1.
Média (
µ
): O cen o exa o da cu a (onde es á o pico). Na no mal, a Média, a Mediana e
a Moda são o mesmo alo .
2.
Des io Pad ão (
σ
): A “la gu a” da cu a. Um des io pad ão pequeno (como o da Ração
A) esul a em uma cu a al a e es ei a.
Vamos plo a o his og ama da Ração A no amen e, mas des a ez sob epondo a cu a de
uma Dis ibuição No mal “pe ei a” que usa a média e o des io pad ão que calculamos.
Copie e Tes e!
# --- 1. P epa a os dados da Ração A ---
c escimen o_A = d _peixes[d _peixes[' ipo_ acao'] == 'Ração A']['
c escimen o_kg']
# --- 2. Calcula os pa âme os (Média e Des io Pad ão) ---
media_A = c escimen o_A.mean()
s d_A = c escimen o_A.s d()
p in ( "--- Pa âme os da Ração A ---")
p in ( "Média μ(): {media_A:.2 }")
p in ( "Des io Pad ão σ(): {s d_A:.2 }")
# --- 3. Plo a o His og ama e a Cu a No mal Teó ica ---
p in (" n--- Ge ando G á ico de Compa ação ---")
pl . igu e( igsize=(10, 6))
# Plo a o His og ama dos nossos dados (s a ='densi y' no maliza a
á ea pa a 1)
sns.his plo (c escimen o_A, kde=T ue, s a ='densi y', label='Dados
Reais (His og ama)')
# Ge a uma cu a no mal "pe ei a" com a mesma média e des io
pad ão
x = np.linspace(media_A - 3*s d_A, media_A + 3*s d_A, 100)
cu a_no mal = s a s.no m.pd (x, media_A, s d_A)
# Plo a a cu a eó ica po cima
pl .plo (x, cu a_no mal, colo =' ed', lw=3, lines yle='--', label
='Dis ibuição No mal Teó ica')
51
CAPÍTULO 3. DA INCERTEZA À DECISÃO: PROBABILIDADE E INFERÊNCIA
# --- 4. Cus omização ---
pl . i le('Dis ibuição da Ração A s. Cu a No mal')
pl .xlabel('C escimen o (kg)')
pl .ylabel('Densidade de P obabilidade')
pl .legend()
pl .show()
Tela do Te minal
--- Pa âme os da Ração A ---
Média (μ): 5.01
Des io Pad ão (σ): 0.50
Figu a 3.1: Compa ação da dis ibuição da Ração A com a cu a no mal eó ica.
Análise: O Desa io da In e ência com Dados Não-No mais
Como o g á ico mos a, nossos dados da Ração A seguem quase pe ei amen e uma
Dis ibuição No mal, o que nos pe mi e usa odo o pode p edi i o dessa dis ibuição.
• Mas e a Ração B? Ela não e a no mal po causa do ou lie .
• Isso é um p oblema?
• E se nossos dados nunca o em no mais?
• Como podemos aze in e ências?
A espos a é o concei o mais impo an e da es a ís ica.
52
CAPÍTULO 3. DA INCERTEZA À DECISÃO: PROBABILIDADE E INFERÊNCIA
3.1.4 O Teo ema do Limi e Cen al (TLC)
“O que eu aço se meus dados não seguem uma Dis ibuição No mal?” Es a é a espos a pa a
o nosso p oblema com a Ração B. O Teo ema do Limi e Cen al (TLC) a i ma algo ex ao diná io,
não impo a o quão es anha ou assimé ica seja a dis ibuição dos seus dados o iginais (pode se
a Ração B, pode se qualque coisa). Se ocê i e amos as su icien emen e g andes (ge almen e
n > 30) desses dados, calcula a média de cada amos a, e depois plo a um his og ama dessas
médias, o esul ado se á ap oximadamen e uma Dis ibuição No mal.
Em ou as pala as, os dados indi iduais podem se assimé icos, mas a dis ibuição das
médias das amos as (
¯x
) semp e ende á a se no mal. Vamos p o a isso. Vamos c ia uma
população de dados o almen e “bagunçada” (usando uma dis ibuição exponencial) e e o que
acon ece com as médias de suas amos as.
Copie e Tes e!
# --- 1. C ia uma População "Mãe" Assimé ica ---
# Usa emos uma dis ibuição exponencial (mui o assimé ica)
populacao_mae = np. andom.exponen ial(scale=2, size=100_000)
# Plo a os dados o iginais
pl . igu e( igsize=(10, 4))
pl .subplo (1, 2, 1) # G á ico da esque da
sns.his plo (populacao_mae, kde=T ue, bins=100)
pl . i le('1. Dis ibuição da População "Mãe" n(Assimé ica)')
pl .xlabel('Valo ')
pl .ylabel('F equência')
# --- 2. Simula a Cole a de Amos as e Calcula suas Médias ---
# Vamos simula 10.000 cole as, cada uma com 30 obse ações (n=30)
amanho_amos a = 30
nume o_de_amos as = 10_000
medias_das_amos as = []
o iin ange(nume o_de_amos as):
# Pega uma amos a alea ó ia de 30 alo es
amos a = np. andom.choice(populacao_mae, size= amanho_amos a)
# Calcula a média da amos a e gua da
medias_das_amos as.append(np.mean(amos a))
# --- 3. Plo a o His og ama DAS MÉDIAS ---
pl .subplo (1, 2, 2) # G á ico da di ei a
sns.his plo (medias_das_amos as, kde=T ue, bins=50, colo ='g een'
)
pl . i le('2. Dis ibuição das MÉDIAS das Amos as n(Mágica: É
No mal!)')
pl .xlabel('Média da Amos a')
pl .ylabel('F equência')
pl . igh _layou ()
pl .show()
53
CAPÍTULO 3. DA INCERTEZA À DECISÃO: PROBABILIDADE E INFERÊNCIA
Figu a 3.2: Ilus ação do Teo ema do Limi e Cen al (TLC).
Análise: A Mágica do TLC
Acabamos de p o a o Teo ema do Limi e Cen al.
1.
Começamos com dados o iginais (G á ico 1) que não inham nada a e com uma Dis i-
buição No mal.
2. Mas a dis ibuição das médias de suas amos as (G á ico 2) é pe ei amen e no mal.
Po que isso é ão impo an e? Po que o TLC nos dá luz e de pa a usa es es
es a ís icos (como o Tes e T) que se baseiam na Dis ibuição No mal. Quando compa amos
a média(Ração A) s. média(Ração B), não es amos es ando os dados indi iduais, es amos
es ando as médias. E g aças ao TLC, sabemos que essas médias (assumindo N > 30) se
compo am de manei a no mal e p e isí el.
3.1.5 Dependência e Independência
“O esul ado de um e en o a e a a p obabilidade de ou o e en o acon ece ?”
•
E en os Independen es: O esul ado de um não a e a a p obabilidade do ou o. (Ex:
Joga um dado duas ezes).
•
E en os Dependen es: O esul ado de um a e a a p obabilidade do ou o. (Ex: Ti a
uma ca a de um ba alho e não a coloca de ol a).
No nosso expe imen o, nossa hipó ese cen al é que o c escimen o_kg depende do
ipo_ acao. Se os e en os ossem independen es, signi ica ia que a ação não az a meno
di e ença.
3.1.6 P obabilidade Condicional
“Qual é a p obabilidade do e en o A acon ece , dado que o e en o B já acon eceu?” Es e
concei o nos pe mi e a ualiza nossas c enças à medida que ecebemos no as in o mações. A
p obabilidade é deno ada como P(A|B), ou “a p obabilidade de A, dado B”.
54
CAPÍTULO 3. DA INCERTEZA À DECISÃO: PROBABILIDADE E INFERÊNCIA
Fo malismo Ma emá ico:
P(A|B) = P(A∩B)
P(B)
Onde:
•P(A|B): A chance de A acon ece , sabendo que B acon eceu.
•P(A∩B): A chance de ambos A e B acon ece em jun os.
•P(B): A chance o al de B acon ece .
Caso P á ico
Vamos calcula a P obabilidade Condicional no “Expe imen o do Peixe”.
1. P(A)= P obabilidade de um peixe qualque e saúde “Al a”.
2. P(A|B)= P obabilidade de um peixe e saúde “Al a”, dado que ele comeu “Ração A”.
Copie e Tes e!
# 1. Calcula a P obabilidade To al (P(Al a))
o al_peixes = len(d _peixes)
peixes_saude_al a = d _peixes[d _peixes['a aliacao_saude'] == '
Al a'].shape[0]
p ob_al a_ o al = peixes_saude_al a / o al_peixes
p in ( "P obabilidade o al de saúde 'Al a' (P(Al a)): {
p ob_al a_ o al:.2%}")
# 2. Calcula a P obabilidade Condicional P(Al a | Ração A)
# P(A|B) = P(A e B) / P(B)
# P(B): P obabilidade de se Ração A
o al_ acao_A = d _peixes[d _peixes[' ipo_ acao'] == 'Ração A'].
shape[0]
p ob_ acao_A = o al_ acao_A / o al_peixes
# P(A e B): P obabilidade de se 'Al a' E 'Ração A'
peixes_al a_e_A = d _peixes[(d _peixes['a aliacao_saude'] == 'Al a
') & (d _peixes[' ipo_ acao'] == 'Ração A')].shape[0]
p ob_al a_e_A = peixes_al a_e_A / o al_peixes
# Finalmen e, P(A|B)
p ob_al a_dado_A = p ob_al a_e_A / p ob_ acao_A
p in ( "P ob. de 'Al a' DADO 'Ração A' (P(Al a|Ração A)): {
p ob_al a_dado_A:.2%}")
# 3. A Manei a In ui i a (e mais ácil) de Calcula P(A|B)
# "Reduzimos o uni e so" p imei o, il ando apenas pela Ração A
d _ acao_A = d _peixes[d _peixes[' ipo_ acao'] == 'Ração A']
# Calculamos a p obabilidade de 'Al a' DENTRO desse no o uni e so
55
CAPÍTULO 3. DA INCERTEZA À DECISÃO: PROBABILIDADE E INFERÊNCIA
p ob_al a_dado_A_in ui i a = d _ acao_A[d _ acao_A['
a aliacao_saude'] == 'Al a'].shape[0] / len(d _ acao_A)
p in ( "Cálculo in ui i o P(Al a|Ração A): {
p ob_al a_dado_A_in ui i a:.2%}")
Tela do Te minal
P obabilidade o al de saúde Al a - (P(Al a)): 33.33%
P ob. de Al a DADO Ração A - (P(Al a|Ração A)): 20.00%
Cálculo in ui i o - P(Al a|Ração A): 20.00%
A análise mos a que a p obabilidade muda!
• A chance de um peixe alea ó io e saúde “Al a” é de 33.33%.
•
Mas, no momen o em que sabemos que ele comeu a “Ração A”, nossa es ima i a de
p obabilidade cai pa a 20.00%.
Isso p o a que os e en os são dependen es. A no a in o mação (
ipo_ acao
) al e ou
a p obabilidade do esul ado (a aliacao_saude).
3.1.7 Teo ema de Bayes
“Eu obse ei um e ei o. Qual a p obabilidade de que ele enha indo de uma causa especí ica?”
Na seção an e io , espondemos
P(A|B)
(“Qual a chance de Al a, dado Ração A?”). O Teo ema
de Bayes nos pe mi e in e e essa pe gun a pa a
P(B|A)
: “Eu obse ei um peixe com saúde
Al a. Qual a chance de ele e indo da Ração A?”
Fo malismo Ma emá ico:
P(A|B) = P(B|A)·P(A)
P(B)
Vamos aduzi :
•P(A|B)(Pos e io ): O que que emos sabe →P(Ração A|Saúde Al a)
•P(B|A)(Likelihood): O que calculamos an es →P(Saúde Al a|Ração A)
•P(A)(P io ): Nossa c ença inicial →P(Ração A)
•P(B)(E idência): A p obabilidade o al da e idência →P(Saúde Al a)
Copie e Tes e!
# --- 1. Cole a odas as p obabilidades necessá ias ---
# (Calculadas no bloco an e io e no alue_coun s)
p ob_A = 0.50 # P(Ração A) - Nossos g upos são
balanceados (15/30)
p ob_B = 0.3333 # P(Saúde Al a) - (10/30)
p ob_B_dado_A = 0.2000 # P(Saúde Al a | Ração A) - (3/15)
56
CAPÍTULO 3. DA INCERTEZA À DECISÃO: PROBABILIDADE E INFERÊNCIA
media_A = g upo_A.mean()
e o_pad ao_A = s a s.sem(g upo_A) # sem = S anda d E o o he
Mean
ic_A = s a s. .in e al(con ianca, g aus_libe dade_A, loc=media_A,
scale=e o_pad ao_A)
p in ( "--- Ração A ---")
p in ( "Média da Amos a: {media_A:.2 } kg")
p in ( "In e alo de Con iança (95%): [{ic_A[0]:.2 }, {ic_A[1]:.2
}]")
# --- 3. Calcula o IC de 95% pa a a Média da Ração B (limpa) ---
g aus_libe dade_B = len(g upo_B_sem_ou lie ) - 1
media_B = g upo_B_sem_ou lie .mean()
e o_pad ao_B = s a s.sem(g upo_B_sem_ou lie )
ic_B = s a s. .in e al(con ianca, g aus_libe dade_B, loc=media_B,
scale=e o_pad ao_B)
p in ( " n--- Ração B (Sem Ou lie ) ---")
p in ( "Média da Amos a: {media_B:.2 } kg")
p in ( "In e alo de Con iança (95%): [{ic_B[0]:.2 }, {ic_B[1]:.2
}]")
Tela do Te minal
--- Ração A ---
Média da Amos a: 5.01 kg
In e alo de Con iança (95%): [4.73, 5.28]
--- Ração B (Sem Ou lie ) ---
Média da Amos a: 3.92 kg
In e alo de Con iança (95%): [3.06, 4.79]
Análise: Quan i icando o Tamanho da Di e ença
Es a saída é a espos a inal pa a o omado de decisão.
• O p- alue (da seção an e io ) nos disse: A di e ença é eal? (Sim, p < 0.05).
• O In e alo de Con iança (acima) nos diz: O quão g ande é a di e ença?
Podemos a i ma com 95% de con iança que o c escimen o e dadei o da Ração A es á
em algum luga en e 4.73 kg e 5.28 kg. Também podemos a i ma com 95% de con iança que o
c escimen o e dadei o da Ração B (limpa) es á em algum luga en e 3.06 kg e 4.79 kg.
Fique Ale a!
No e que os dois in e alos mal se sob epõem. O alo mais baixo do IC da Ração A
(4.73 kg) é p a icamen e igual ao alo mais al o do IC da Ração B (4.79 kg). Essa al a de
sob eposição dos in e alos de con iança é a con i mação isual do que o p- alue nos disse
nume icamen e: a di e ença en e os g upos é eal e não apenas so e!
63
CAPÍTULO 3. DA INCERTEZA À DECISÃO: PROBABILIDADE E INFERÊNCIA
3.2.6 O Pe igo do P-Hacking
“Se eu não encon a um p- alue baixo, posso ‘ajus a ’ meus dados a é encon a um?” No
nosso expe imen o, ínhamos uma jus i ica i a hones a pa a emo e o ou lie . Mas, e se o
p- alue o iginal osse 0.06, mui o p óximo do nosso αde 0.05, mas ainda “ alhando” o es e?
Você pode ia ica en ado a “ajuda ” os dados: “E se eu emo e os 2 peixes com c escimen o
mais baixo?” ou “E se eu só analisa os peixes do
mes_cul i o
== 8?” Se ocê oda o
Tes e T epe idamen e, mudando os il os, uma ho a, po pu a so e, ocê ai encon a uma
combinação que lhe dê um p- alue < 0.05. Isso é P-Hacking (ou “ o u a os dados a é que eles
con essem”).
Fique Ale a!
Po que isso é ão pe igoso e an ié ico?
O Tes e de Hipó ese só é álido se ocê de ini sua hipó ese e sua amos a ANTES de
olha os dados. Ao “caça ” um p- alue baixo, ocê es á queb ando a eg a undamen al da
es a ís ica. Você es á apenas medindo o “ uído” e a “so e”, e não um e ei o eal. Você es á
enganando a si mesmo e ao seu clien e. A emoção de ou lie s é álida, mas de e se ei a
com anspa ência e uma jus i ica i a o e, e não com o obje i o de o ça um esul ado.
Um p- alue de 0.83 não é um “ acasso”; é uma descobe a que nos diz: “Com os dados que
emos, não podemos conclui que uma ação é melho que a ou a.”
3.2.7 O Tes e A/B
“Eu enho duas e sões de algo (A e B). Qual delas em o melho desempenho na p á ica?”
O Tes e A/B não é uma no a écnica es a ís ica. É o nome de me cado pa a a aplicação de
um Tes e de Hipó ese (ge almen e um Tes e T) pa a compa a duas e sões de um p odu o. O
“Expe imen o do Peixe” que analisamos é um Tes e A/B clássico.
• Uma emp esa es a duas co es de bo ão “Comp a ” (Ve são A: e de, Ve são B: azul).
• Um piscicul o es a duas ações (Ração A s. Ração B).
O Fluxo de T abalho de um Tes e A/B
Vamos oda o es e inal, como um cien is a de dados a ia pa a ap esen a uma eco-
mendação.
1. De ini as Hipó eses:
•H0: As médias de c escimen o das ações são iguais. (µA=µB)
•Ha: As médias de c escimen o são di e en es. (µA6=µB)
2. De ini o Ní el de Signi icância (α): α= 0.05.
3. Cole a Dados e Execu a o Tes e: Usa emos os dados limpos (sem o ou lie ).
Copie e Tes e!
# --- 1. P epa a os g upos pa a o Tes e A/B ---
# Vamos usa os dados limpos (sem o ou lie )
64
CAPÍTULO 3. DA INCERTEZA À DECISÃO: PROBABILIDADE E INFERÊNCIA
g upo_A = d _peixes[d _peixes[' ipo_ acao'] == 'Ração A']['
c escimen o_kg']
g upo_B_limpo = d _peixes[(d _peixes[' ipo_ acao'] == 'Ração B')
&(d _peixes['c escimen o_kg'] < 20)]['c escimen o_kg']
p in ("--- Dados P on os pa a o Tes e A/B ---")
p in ( "Média Ração A: {g upo_A.mean():.2 } kg (n={len(g upo_A)})"
)
p in ( "Média Ração B (limpa): {g upo_B_limpo.mean():.2 } kg (n={
len(g upo_B_limpo)})")
# --- 2. Execu a o Tes e T ---
_s a , p_ alue = s a s. es _ind(g upo_A, g upo_B_limpo,
equal_ a =False)
p in ( " n--- Resul ados do Tes e ---")
p in ( "Es a ís ica T ( -s a is ic): { _s a :.4 }")
p in ( "Valo -p (p- alue): {p_ alue:.4 }")
Tela do Te minal
--- Dados P on os pa a o Tes e A/B ---
Média Ração A: 5.01 kg (n=15)
Média Ração B (limpa): 3.92 kg (n=14)
--- Resul ados do Tes e ---
Es a ís ica T ( -s a is ic): 2.5804
Valo -p (p- alue): 0.0204
Análise: A Tomada de Decisão
1. In e p e a o p- alue: Nosso p- alue é 0.0204. Nosso αe a 0.05.
2. Decisão: Como 0.0204 <0.05, o esul ado é es a is icamen e signi ica i o.
3. Ve edi o: Nós Rejei amos a Hipó ese Nula (H0).
4.
T adução pa a o Negócio: “A di e ença que imos no c escimen o en e a Ração A
(Média de 5.01 kg) e a Ração B (Média de 3.92 kg) não oi um acaso. Nossos es es mos am
com al a con iança (98%) que a Ração A é es a is icamen e supe io .”
3.2.8 A In e ência Bayesiana
“Eu i uma no a e idência. Como isso a ualiza minha c ença na minha hipó ese?” Tudo o
que imos a é ago a (p- alues, ICs) pe ence à escola de pensamen o mais comum: a In e ência
F equen is a. A lógica equen is a é um pouco con ain ui i a. Nós NÃO calculamos a
p obabilidade da hipó ese. Nós calculamos a p obabilidade dos nossos dados, assumindo que
a hipó ese é e dadei a (o p- alue). A In e ência Bayesiana é uma escola de pensamen o
al e na i a que nos pe mi e esponde à pe gun a que o omado de decisão ealmen e que
sabe : “Ok, mas qual é a p obabilidade de que a Ração A seja ealmen e melho que a Ração B?”
65
CAPÍTULO 3. DA INCERTEZA À DECISÃO: PROBABILIDADE E INFERÊNCIA
A Lógica Bayesiana
Pa a um es a ís ico Bayesiano, a p obabilidade é um g au de c ença. O p ocesso é um
ciclo de a ualização dessa c ença usando o Teo ema de Bayes (que imos na seção 3.1.7):
1.
Começamos com uma C ença Inicial (P io ): “Acho que há 50% de chance da Ração A
se melho ”.
2. Cole amos E idências: nossos dados.
3. Usamos o Teo ema de Bayes pa a combina o P io com a E idência.
4.
O esul ado é uma C ença A ualizada (Pos e io ): “Ago a que i os dados, enho 98%
de ce eza de que a Ração A é melho ”.
Fo malismo Ma emá ico:
P(Ha|Dados) = P(Dados|Ha)·P(Ha)
P(Dados)
•
Van agem: A conclusão Bayesiana é in ui i a. Dize “Há uma p obabilidade de 98% de
que a Ração A seja supe io ” é mui o mais cla o do que “Rejei amos a hipó ese nula com
p=0.02”.
•Des an agem: Complexidade, a abo dagem em dois desa ios:
1. Subje i idade do P io : Como de inimos a “c ença inicial” (P(Ha))?
2.
Complexidade Ma emá ica: Calcula
P(Dados)
é ma ema icamen e ex ema-
men e di ícil e, na p á ica, eque simulações compu acionais pesadas (MCMC).
Pa a a maio ia dos Tes es A/B, a abo dagem F equen is a (p- alues) é a e amen a
“pad ão”: é ápida e uni e salmen e en endida. É i al, no en an o, sabe que a In e ência
Bayesiana exis e como uma al e na i a pode osa pa a p oblemas mais complexos.
3.3 Aplicando seus conhecimen os
1.
Hipó ese Nula e Al e na i a: Você é um cien is a de dados em uma emp esa de logís ica
lu ial na Amazônia. A emp esa es a um no o ipo de mo o de ba co (Mo o B) que
p ome e se mais ápido que o mo o a ual (Mo o A). Você cole a dados de 50 iagens de
cada mo o . Qual se ia sua Hipó ese Nula (
H0
)e sua Hipó ese Al e na i a (
Ha
)pa a
es e es e?
2.
In e p e ando o p- alue: Após oda seu es e dos mo o es, ocê ob ém um p- alue =
0.45. Seu ní el de signi icância (
α
) é 0.05. O que ocê decide (Rejei a
H0
ou Falha em
Rejei a H0)? O que ocê di ia ao seu ge en e sob e o no o Mo o B?
3.
In e p e ando o p- alue (Cená io 2): Imagine que, em ez disso, ocê ob e e um
p- alue = 0.003. O que ocê decide (Rejei a
H0
ou Falha em Rejei a
H0
)? O que ocê
di ia ao seu ge en e?
4.
p- alue s. In e alo de Con iança: No Cená io 3 (p- alue = 0.003), ocê ejei ou a
H0
e disse ao seu ge en e que o Mo o B é mais ápido. Ele en ão pe gun a: “Ó imo! Mas
quan o mais ápido? Ele economiza 5 minu os ou 5 ho as?” Qual e amen a es a ís ica
da Seção 3.2 ocê usa ia pa a esponde a essa pe gun a sob e a magni ude da di e ença?
66
CAPÍTULO 3. DA INCERTEZA À DECISÃO: PROBABILIDADE E INFERÊNCIA
3.4 Conside ações des e Capí ulo
Nes e capí ulo, cons uímos a pon e en e a desc ição e a decisão. Começamos com a P o-
babilidade, a linguagem da ince eza, en endendo concei os undamen ais como a Dis ibuição
No mal e o pode oso Teo ema do Limi e Cen al (TLC). En amos no “ ibunal” da es a ís ica:
a In e ência. Ap endemos o luxo de abalho mais impo an e pa a um cien is a de dados: o
Tes e de Hipó ese. Vimos como o mula a Hipó ese Nula (
H0
), usa o p- alue pa a decidi se
uma e idência é “apenas so e” e, inalmen e, usa In e alos de Con iança pa a comunica o
amanho de um e ei o.
Comple amos nossa análise do “Expe imen o do Peixe”, p o ando es a is icamen e (e
não apenas isualmen e) que a Ração A é, de a o, a escolha supe io . Ap endemos a eo ia e
p a icamos com um da ase ic ício (os peixes). No p óximo capí ulo, amos aplica odo esse
conhecimen o em um cená io eal, usando dados públicos pa a analisa o clima da Amazônia.
67
Capí ulo 4
Es udo de Caso Real: Análise de Dados
Climá icos e Ag ícolas
Iniciando o diálogo...
Você já pa ou pa a pensa de onde êm os dados sob e o clima? Quando assis imos à
p e isão do empo ou emos g á icos sob e mudanças climá icas, essas in o mações não
su gem do nada. Elas são cole adas po di e en es on es e analisadas pa a nos ajuda a
en ende pad ões e aze p e isões mais p ecisas. Mas como isso acon ece na p á ica?
Nes e capí ulo, amos aplica udo o que ap endemos. Usa emos os concei os de Análise
Explo a ó ia e as e amen as de limpeza pa a abalha com dados eais da Amazônia,
ocando em on es climá icas e ag ícolas.
Figu a 4.1: Imagem ob ida em SOS Amazonia - SIPAM com a laye (camada) a i a:
Fon e: Rada Manaus – SIPAM, da a e ho a 2025-02-17 15:48:00
68
CAPÍTULO 4. ESTUDO DE CASO REAL: ANÁLISE DE DADOS CLIMÁTICOS E AGRÍCOLAS
Es ações Me eo ológicas e Rada es:Já iu aquelas o es com senso es espalhados
po cidades, odo ias ou á eas ag ícolas? São as es ações me eo ológicas! Elas egis am
empe a u a, umidade, elocidade do en o, p essão a mos é ica e mui o mais. No B asil, o
INMET (Ins i u o Nacional de Me eo ologia) ope a uma as a ede de es ações au omá icas e
con encionais, ga an indo um luxo con ínuo de in o mações sob e o clima. Além das es ações
me eo ológicas, os ada es me eo ológicos são essenciais pa a moni o a empes ades e pad ões
a mos é icos em empo eal. O SIPAM (Sis ema de P o eção da Amazônia) u iliza ada es pa a
mapea chu as in ensas, en os e ou os enômenos climá icos, ajudando a p e e condições
me eo ológicas ad e sas e a planeja ações p e en i as.
Figu a 4.2: Exemplo de uma Es ação Me eo ológica Au omá ica. Es es senso es em supe ície
são a p incipal on e de dados locais de empe a u a, umidade e en o.
Fon e: h ps://amazonasa ual.com.b /es acao-me eo ologica-em-manaus-emi e-dados-a-cada-5-
minu os/
Sa éli es Me eo ológicos: Ago a, imagine obse a o clima de uma pe spec i a bem
mais ampla... do espaço! Sa éli es me eo ológicos cap am imagens e medições da a mos e a
e es e, ajudando a moni o a en es ias, empes ades e a é mesmo o desma amen o. Ó gãos
como o INPE (Ins i u o Nacional de Pesquisas Espaciais) o necem imagens de sa éli e que
auxiliam cien is as e go e nos a comp eende em mudanças climá icas em ní el global. O
oceano ambém in luencia mui o o clima, e pa a moni o á-lo, exis em boias equipadas com
senso es que cole am in o mações sob e empe a u a da água, co en es ma í imas e ní eis de
CO₂ (gás ca bônico). Essas medições são essenciais pa a p e e e en os como o El Niño e La
Niña, que a e am o clima no mundo odo.
69
CAPÍTULO 4. ESTUDO DE CASO REAL: ANÁLISE DE DADOS CLIMÁTICOS E AGRÍCOLAS
Figu a 4.3: Rep esen ação a ís ica de um sa éli e de obse ação da Te a.
E como esses dados chegam a é nós? Mui os ó gãos disponibilizam seus dados publica-
men e a a és de APIs (In e aces de P og amação de Aplicações) e bancos de dados online.
Pla a o mas como o BDMEP do INMET o e ecem acesso a egis os his ó icos e in o mações
em empo eal, pe mi indo que cien is as, emp esas e a é es udan es ealizem suas p óp ias
análises. E po que udo isso é ão impo an e? Os dados climá icos ajudam a p e e secas,
chu as in ensas e ou as a iações me eo ológicas que impac am desde a ag icul u a a é a
segu ança da população. Com eles, podemos oma decisões mais in o madas, como planeja a
i igação de la ou as, e i a despe dícios de ecu sos na u ais e a é mi iga os impac os das
mudanças climá icas. Ago a que ocê já sabe de onde êm os dados climá icos, que al explo a
algumas dessas on es e começa a analisa pad ões po con a p óp ia?
Figu a 4.4: Diag ama de uma a qui e u a web mode na, ilus ando como o Clien e se comunica
com os ecu sos do Se ido de Aplicação e o Banco de Dados a a és de uma API.
Fique Ale a!
Pa a es e es udo, amos nos concen a na p á ica com as es ações au omá icas, pois elas
o necem um olume maio de dados disponí eis, pe mi indo uma análise mais ab angen e
e de alhada.
70
CAPÍTULO 4. ESTUDO DE CASO REAL: ANÁLISE DE DADOS CLIMÁTICOS E AGRÍCOLAS
4.1 Passo a Passo: Cole ando Dados do INMET
Pa a acessa os dados me eo ológicos, isi e o si e do INMET em h ps://po al.in-
me .go .b /, na egue a é a seção “Dados Me eo ológicos” e clique em “Banco de Dados Me e-
o ológicos”. Isso pe mi i á acesso ao po al em h ps://bdmep.inme .go .b , onde é possí el
consul a e baixa in o mações de alhadas sob e o clima. Ao en a no Banco de Dados Me eo-
ológicos, se á necessá io segui algumas ins uções, incluindo dois ale as impo an es:
•
Pa a baixa paco es anuais de dados de odas as es ações au omá icas sepa adas po ano,
pode-se clica no link a segui : h ps://po al.inme .go .b /dadoshis o icos.
•
Pa a cole a de dados ho á ios de cu a du ação (a é 6 meses) de uma es ação especí ica,
u iliza a “Tabela de Dados de Es ação” a a és do sis ema TEMPO, acessí el em h ps://-
empo.inme .go .b /TabelaEs acoes/A001, que nesse caso acessa á a es ação de B asília
com os dados a ualizados do dia de hoje.
•
E se deseja escolhe uma es ação especí ica, consul a a dis ibuição espacial das es ações
no “Mapa de Es ações” disponí el no ende eço h ps://mapas.inme .go .b /.
Figu a 4.5: In e ace do sis ema TEMPO do INMET.
71
CAPÍTULO 4. ESTUDO DE CASO REAL: ANÁLISE DE DADOS CLIMÁTICOS E AGRÍCOLAS
Ao acessa o sis ema TEMPO no link h ps:// empo.inme .go .b /TabelaEs acoes/A001,
ocê isualiza á um menu. A pa i dele, é possí el:
• Seleciona o p odu o “Tabela de Dados das Es ações”.
• Escolhe o ipo de es ação (Au omá icas ou Con encionais).
• De ini o Es ado (UF) e a es ação desejada.
• Especi ica a da a de início e a da a de im pa a a consul a.
• Clica no bo ão “Ge a Tabela” pa a ob e os dados.
É impo an e comp eende que os dados exibidos na ela são aqueles disponí eis pa a
il agem na base de dados acessada. Essa in e ace acili a a isualização pa a usuá ios sem
expe iência com linguagens de banco de dados elacional como SQL. No en an o, pa a análises
mais a ançadas, é essencial e conhecimen o em Py hon pa a ealiza il agens de dados com
base em c i é ios como da a e ho a.
No Capí ulo 2, usamos o Pandas pa a limpa e ag upa dados. Aqui, a emos o mesmo.
Os dados do INMET êm em o ma o CSV, mas podem p ecisa de limpeza. O código a segui
usa pd. ead_cs pa a ca ega os dados.
No e, po ém, algo c ucial: pa a o compu ado , uma da a como “20/02/2025” é apenas um
ex o (s ing). Pa a que o Py hon en enda que isso é um momen o no empo e nos pe mi a il a
po pe íodos (como “ odos os dados de Fe e ei o”), p ecisamos con e e essa coluna de ex o
pa a um o ma o especial de da e ime. Pa a isso, usamos a unção pd. o_da e ime().
Copie e Tes e!
impo pandas as pd
# A biblio eca Pandas É undamen al pa a ca ega e manipula
# dados de manei a e icien e.
# Ela pe mi e a lei u a de a qui os CSV e a aplicacao de il os
# pa a analise de pe iodos especi icos.
dados = pd. ead_cs ('dados_clima.cs ', sep=';')
# An es p ecisamos con e e a coluna de da a co e amen e pa a a
# il agem unciona
dados["Da a"] = pd. o_da e ime(dados["Da a"], day i s =T ue,
e o s='coe ce')
# Fil a os dados pa a um pe iodo especi ico, nesse exemplo
# apenas no dia 20 de e e ei o de 2025,
# ga an indo que apenas as in o macoes desejadas sejam analisadas.
dados_ il ados = dados[(dados['Da a'] >= '2025-02-20') & (dados['
Da a'] <= '2025-02-20')]
# Exibi as p imei as linhas do Da aF ame pa a e i ica se os
# dados o am ca egados co e amen e.
p in (dados_ il ados.head())
72
CAPÍTULO 4. ESTUDO DE CASO REAL: ANÁLISE DE DADOS CLIMÁTICOS E AGRÍCOLAS
# C ia colunas de Ano e Mes pa a ag egacao dos dados
dados['Ano'] = dados['Da a'].d .yea
dados['Mes'] = dados['Da a'].d .mon h
# P eenchendo alo es ausen es com a media das colunas nume icas
dados. illna(dados.mean(nume ic_only=T ue), inplace=T ue)
# Seleciona a coluna de empe a u a a se analisada
coluna_ empe a u a = "Temp. Ins. (C)"
# Con e e pa a alo es nume icos, lidando com possi eis e os
dados[coluna_ empe a u a] = pd. o_nume ic(dados[coluna_ empe a u a
], e o s='coe ce')
# Ag upa os dados e calcula a media mensal da empe a u a
hea map_da a = dados.g oupby(['Ano','Mes'])[coluna_ empe a u a].
mean().uns ack()
# C ia o mapa de calo u ilizando Seabo n
pl . igu e( igsize=(12, 6))
sns.hea map(hea map_da a, cmap="coolwa m", anno =T ue, m =".1 ",
linewid hs=0.5)
pl . i le("Va iacao da Tempe a u a ao Longo dos Meses")
pl .xlabel("Mes")
pl .ylabel("Ano")
pl .show()
Figu a 4.9: Hea map da Va iação da Tempe a u a ao Longo dos Meses.
79
CAPÍTULO 4. ESTUDO DE CASO REAL: ANÁLISE DE DADOS CLIMÁTICOS E AGRÍCOLAS
Nos g á icos de linha, ocê pode no a que a empe a u a “pula” mui o de um dia pa a o ou-
o. Esse “ uído” de cu o p azo pode di icul a a isualização da endência p incipal. Pa a “sua i-
za ” o g á ico, usamos a écnica de Média Mó el. O comando
. olling(window=7).mean()
do Pandas calcula, pa a cada dia, a média dos úl imos 7 dias. Isso emo e o “ uído” e e ela a
endência de longo p azo de o ma mui o mais cla a.
Copie e Tes e!
# Aplica uma media mo el de 7 dias pa a sua izacao dos dados
dados['Media Mo el (7 dias)'] = dados[coluna_ empe a u a]. olling(
window=7).mean()
# C ia um g a ico de endencia com a media mo el
pl . igu e( igsize=(15, 5))
pl .plo (dados['Da a'], dados[coluna_ empe a u a], label='
Tempe a u a Ins an anea', colo ='blue', alpha=0.5)
pl .plo (dados['Da a'], dados['Media Mo el (7 dias)'], label='
Media Mo el (7 dias)', colo =' ed', linewid h=2)
# Pe sonaliza o g a ico
pl .xlabel('Da a')
pl .ylabel('Tempe a u a (°C)')
pl . i le('Tendencia de Tempe a u a com Media Mo el')
pl .legend()
pl .g id(T ue)
pl .show()
Figu a 4.10: G á ico de Tendência de Tempe a u a com Média Mó el.
4.3 Es udo de Caso Real: P odução de Semen es (SIGEF)
Nes a seção, aplica emos as écnicas es a ís icas e de isualização ap endidas em um
con ex o p á ico e de al a ele ância: a análise da p odução de semen es no B asil. O ag onegócio
é um pila da economia nacional, e en ende seus dados é undamen al pa a a omada de decisão,
an o no se o p i ado quan o no público.
80
CAPÍTULO 4. ESTUDO DE CASO REAL: ANÁLISE DE DADOS CLIMÁTICOS E AGRÍCOLAS
Es e es udo de caso o e ece uma opo unidade aliosa pa a conec a a eo ia da ciência
de dados com p oblemas eais. U iliza emos um da ase go e namen al au ên ico, ex aído
di e amen e do Sis ema de Ges ão de Fiscalização (SIGEF) do Minis é io da Ag icul u a, Pecuá ia
e Abas ecimen o (MAPA).
Fique Ale a!
Todos os dados u ilizados nesse exe cício o am ex aídos do link abaixo:
h ps://dados.ag icul u a.go .b /s /da ase /dados- e e en e
s-ao-con ole-da-p oducao-de-semen es-sige
4.3.1 Obje i os da Análise
Mais do que apenas aplica unções, nosso obje i o é ex ai insigh s es a égicos des e
conjun o de dados. Busca emos esponde a pe gun as-cha e que um ges o ou analis a de
polí icas públicas a ia, ais como:
•
Tendências Tempo ais: Como a á ea plan ada e a p odução e oluí am ao longo das
sa as? Exis em endências de c escimen o ou e ação?
•
Dis ibuição Geog á ica: Quais es ados e municípios são os pila es da p odução de
semen es no país? Como essa p odução es á dis ibuída?
•
Análise de P ecisão: Qual é a elação en e a á ea es imada an es do plan io e a á ea
e e i amen e plan ada? Isso pode indica o ní el de p ecisão das p e isões do se o .
4.3.2 Ro ei o Me odológico
Pa a esponde a essas pe gun as, execu a emos um o ei o me odológico que consolida
as habilidades desen ol idas nos capí ulos an e io es. O p ocesso se á di idido em e apas:
1.
Ca ga e P epa ação dos Dados: Ca ega o a qui o
.cs
usando
pd. ead_cs
e
ealiza uma inspeção inicial.
2.
Ag egação e Suma ização: Ag ega os dados em ní eis ele an es (po sa a, po es ado,
e c.), combinando .g oupby() com .sum() ou .mean()
3. Tendências: Aplica sns.lineplo pa a analisa a e olução empo al da p odução.
4.
Compa ações: Emp ega
sns.ba plo
pa a compa a a p odução en e di e en es
es ados ou municípios.
5.
Relações: U iliza
sns.sca e plo
pa a in es iga a co elação en e a á ea es i-
mada e a á ea plan ada.
Copie e Tes e!
impo pandas as pd
impo ma plo lib.pyplo as pl
impo seabo n as sns
81
CAPÍTULO 4. ESTUDO DE CASO REAL: ANÁLISE DE DADOS CLIMÁTICOS E AGRÍCOLAS
# Ca ega o da ase
ile_pa h = "sige decla acaoa eap oducao.cs "
d = pd. ead_cs ( ile_pa h, encoding="u 8", delimi e =";")
# Con e e coluna de da a
i 'DATAPLANTIO' in d .columns:
d ['DATAPLANTIO'] = pd. o_da e ime(d ['DATAPLANTIO'], e o s='
coe ce')
# Ag upa po pe iodo e soma a a ea plan ada
a ea_po _sa a = d .g oupby('PERIODO')['AREAPLANTADA'].sum()
# G a ico de e olucao da a ea plan ada ao longo das sa as
pl . igu e( igsize=(10,5))
sns.lineplo (x=a ea_po _sa a.index, y=a ea_po _sa a. alues,
ma ke ='o')
pl .x icks( o a ion=45)
pl .xlabel("Sa a")
pl .ylabel("A ea Plan ada (ha)")
pl . i le("E olucao da A ea Plan ada po Sa a")
pl .g id()
pl .show()
# Dis ibuicao da A ea Plan ada po Es ado (UF)
pl . igu e( igsize=(12,6))
a ea_po _es ado = d .g oupby('UF')['AREAPLANTADA'].sum().
so _ alues(ascending=False)
sns.ba plo (x=a ea_po _es ado.index, y=a ea_po _es ado. alues)
pl .xlabel("Es ado (UF)")
pl .ylabel("A ea Plan ada (ha)")
pl . i le("A ea Plan ada po Es ado")
pl .x icks( o a ion=90)
pl .show()
# Top 10 municipios com maio quan idade ese ada de semen es
pl . igu e( igsize=(12,6))
op_municipios = d .g oupby('MUNICIPIO')['QUANTRESERVADA'].sum().
so _ alues(ascending=False).head(10)
sns.ba plo (y= op_municipios.index, x= op_municipios. alues)
pl .xlabel("Quan idade Rese ada (kg)")
pl .ylabel("Municipio")
pl . i le("Top 10 Municipios com Maio Quan idade de Semen es
Rese adas")
pl .show()
# Compa acao en e A ea Es imada e A ea Plan ada
pl . igu e( igsize=(8,6))
sns.sca e plo (x=d ['AREAPLANTADA'], y=d ['AREAESTIMADA'])
pl .xlabel("A ea Plan ada (ha)")
pl .ylabel("A ea Es imada (ha)")
82
CAPÍTULO 4. ESTUDO DE CASO REAL: ANÁLISE DE DADOS CLIMÁTICOS E AGRÍCOLAS
pl . i le("Relacao en e A ea Es imada e Plan ada")
pl .g id()
pl .show()
Figu a 4.11: E olução empo al da á ea plan ada po sa a.
Figu a 4.12: Dis ibuição da á ea plan ada po es ado (UF).
83
CAPÍTULO 4. ESTUDO DE CASO REAL: ANÁLISE DE DADOS CLIMÁTICOS E AGRÍCOLAS
Figu a 4.13: Lis a dos 10 municípios com maio quan idade de semen es ese adas.
Figu a 4.14: Diag ama de dispe são da elação en e a á ea es imada e a á ea plan ada.
Con idamos ocê a i além dos g á icos ap esen ados e ap o unda sua in es igação.
Suges ões de no as análises:
• Tendência de c escimen o da p odução po es ado.
84
CAPÍTULO 4. ESTUDO DE CASO REAL: ANÁLISE DE DADOS CLIMÁTICOS E AGRÍCOLAS
• Análise especí ica po cul u a.
• Mapeamen o geog á ico da p odução.
AGORA É COM VOCÊ! O QUE MAIS OS DADOS PODEM REVELAR?
4.4
Con ex o Adicional: Dados na Ag icul u a Sus en á el
As seções a segui o necem con ex o sob e como a análise de dados, simila à que izemos
com os dados do INMET, é c ucial pa a a sus en abilidade. Elas se em de inspi ação pa a os
desa ios inais.
4.4.1 Como Dados Auxiliam na Economia de Água e Ene gia?
Você já pa ou pa a pensa em como usamos água e ene gia no dia a dia? Mui as ezes,
esses ecu sos são consumidos de o ma excessi a ou ine icien e, e é aí que os dados en am em
ação! Com a análise de in o mações, podemos en ende melho como u ilizamos esses ecu sos
e encon a manei as de economiza sem comp ome e a qualidade de ida ou a p odução
ag ícola, po exemplo. Mas como isso unciona na p á ica?
Imagine que ocê em senso es espalhados po uma azenda ou a é mesmo em uma
cidade in ei a. Esses senso es cole am in o mações sob e consumo de água e ene gia a odo
momen o. Se hou e um uso excessi o em de e minado ho á io ou local, os dados podem
indica isso ins an aneamen e, pe mi indo que ajus es sejam ei os na ho a. E se pudéssemos
p e e o u u o? Bom, os dados podem nos ajuda nisso! Com base no his ó ico de consumo
e em a o es como empe a u a e umidade, modelos p edi i os conseguem es ima quando a
demanda po água ou ene gia se á maio .
Fique Ale a!
Da p óxima ez que ocê liga a luz ou ab i a o nei a, pense no pode que os dados êm
pa a ans o ma a o ma como u ilizamos esses ecu sos!
4.4.2 E iciência no uso de ecu sos ag ícolas
A Ciência de Dados em sido uma g ande aliada do se o ag ícola, ajudando p odu o es
a oma decisões mais in eligen es e sus en á eis. Imagine um ag icul o que p ecisa i iga
sua plan ação, mas não em ce eza de quan a água é ealmen e necessá ia. An es, ele pode ia
simplesmen e segui um c onog ama ixo de i igação, despe diçando água em dias chu osos
ou não i igando o su icien e em pe íodos mais secos.
Mas ago a, senso es de umidade do solo e dados climá icos são cole ados em empo
eal. Com essa in o mação, sis emas in eligen es ajus am au oma icamen e a i igação pa a
o nece apenas a quan idade de água necessá ia. Além disso, imagens de sa éli e podem ajuda
ag icul o es a aplica e ilizan es apenas onde é ealmen e necessá io. O que odos esses casos
mos am? Que a ecnologia e a análise de dados es ão ans o mando a o ma como usamos os
ecu sos na u ais na ag icul u a.
85
CAPÍTULO 4. ESTUDO DE CASO REAL: ANÁLISE DE DADOS CLIMÁTICOS E AGRÍCOLAS
Figu a 4.15: Senso de umidade do solo com A duino.
Fon e: h ps://elce eza.com/senso -de-umidade-do-solo/
4.5 Desa ios Adicionais com Da ase s Simulados
Os es udos de caso an e io es usa am dados eais. Ago a, é sua ez de p a ica com
da ase s simulados, c iados especi icamen e pa a es a suas habilidades de análise explo a ó ia.
4.5.1 Desa io 1: Planejamen o de I igação
Es e exe cício em como p opósi o explo a o uso de Py hon e Ciência de Dados pa a
auxilia no planejamen o e icien e da i igação. A a és da análise de in o mações como
umidade do solo, empe a u a e pad ões climá icos, ocê ap ende á a iden i ica os momen os
ideais pa a i igação, e i ando despe dícios e ga an indo uma melho p odu i idade ag ícola.
Oda ase con ém in o mações essenciais pa a o planejamen o da i igação, incluindo o ipo de
plan io, a umidade do solo, a empe a u a ambien e e um indicado biná io que in o ma se a
i igação oi acionada ou não.
Copie e Tes e!
impo pandas as pd
impo ma plo lib.pyplo as pl
impo seabo n as sns
# Ca ega os dados do a qui o CSV
dados = pd. ead_cs ('da a.cs ')
# Ve i ica es a is icas basicas
dados.desc ibe()
# C ia um g a ico de dispe sao pa a isualiza a elacao en e
umidade e empe a u a
pl . igu e( igsize=(10, 5))
86
CAPÍTULO 4. ESTUDO DE CASO REAL: ANÁLISE DE DADOS CLIMÁTICOS E AGRÍCOLAS
sns.sca e plo (x=dados['umidade'], y=dados[' empe a u a'], hue=
dados['bombea _agua'], pale e='coolwa m')
pl .xlabel("Umidade do Solo")
pl .ylabel("Tempe a u a")
pl . i le("Relacao en e Umidade, Tempe a u a e Necessidade de
I igacao")
pl .show()
# C ia um his og ama pa a isualiza a dis ibuicao da umidade
dados['umidade'].his (bins=20, edgecolo ='black', alpha=0.7)
pl .xlabel("Umidade do Solo")
pl .ylabel("F equencia")
pl . i le("Dis ibuicao da Umidade do Solo")
pl .show()
# C ia um g a ico de linha pa a isualiza a endencia da umidade
do solo ao longo do empo
pl . igu e( igsize=(12, 5))
pl .plo (dados.index, dados['umidade'], label='Umidade do Solo',
colo ='blue')
pl .axhline(y=600, colo =' ed', lines yle='--', label='Limi e
C i ico de Umidade')
pl .xlabel("Indice do Regis o")
pl .ylabel("Umidade do Solo")
pl . i le("Tendencia da Umidade do Solo ao Longo do Tempo")
pl .legend()
pl .g id(T ue)
pl .show()
Figu a 4.16: Relação en e a umidade do solo, a empe a u a e a necessidade de i igação.
87
CAPÍTULO 4. ESTUDO DE CASO REAL: ANÁLISE DE DADOS CLIMÁTICOS E AGRÍCOLAS
Figu a 4.17: Dis ibuição da equência dos ní eis de umidade do solo.
Figu a 4.18: Tendência da umidade do solo ao longo do empo, com o limi e c í ico.
Temos algumas pe gun as pa a ocê:
1.
Qual a elação en e umidade do solo e empe a u a? Os dados mos am algum pad ão?
Em que si uações a i igação oi acionada?
2.
Como a a iação da umidade in luencia a decisão de i igação? Há um limi e cla o onde
a i igação se o na necessá ia?
3.
Se ocê osse um ag icul o , como u iliza ia essas in o mações na sua plan ação pa a
o na a i igação mais e icien e e sus en á el?
4.
Como a Ciência de Dados pode con ibui pa a a ag icul u a mode na, que ou os desa ios
ag ícolas pode iam se esol idos com a análise de dados?
88
CAPÍTULO 5. ESTUDO DE CASO SOBRE CLASSIFICAÇÃO DO PIB BRASILEIRO
O p imei o passo pa a cons ui nosso da ase é ob e os dados b u os. A on e p imá ia e
o icial pa a indicado es mac oeconômicos no B asil é o Sis ema Ge enciado de Sé ies Tempo ais
(SGS) do Banco Cen al, um po al público que pe mi e a consul a a milha es de sé ies his ó icas.
A abo dagem mais di e a, e o pon o de pa ida de mui os analis as, é a cole a manual. O
p ocesso en ol e na ega pela in e ace do sis ema, busca cada indicado indi idualmen e,
con igu a os pa âme os da consul a e, inalmen e, expo a os dados. A Figu a 5.2 ilus a a
in e ace de busca do SGS, onde o usuá io pode pesquisa po código ou nome pa a encon a a
sé ie empo al de in e esse.
Uma ez que a sé ie é encon ada e o pe íodo desejado é con igu ado, a pla a o ma
ap esen a os dados b u os que podem se izualizados de o ma abula ou g á ica na p ó pia
pla a o ma, pe mi indo uma análise p é ia das in o mações. Pa a uma análise pa a de alhada
em e amen a ex e na, exis e a opção de expo á-los pa a um a qui o, ge almen e no o ma o
CSV (Valo es Sepa ados po Ví gulas) ou XLSX (planilha Excel), como des acado na Figu a 5.3.
Figu a 5.3: Visualização e expo ação de uma sé ie empo al no po al SGS.
Fon e: O p óp io au o
Es e p ocesso, embo a uncional pa a uma única consul a, e ela apidamen e suas
limi ações quando aplicado a um p oje o de maio escala. Pa a o nosso es udo que u iliza
di e sos indicado es dis in os o luxo de abalho manual se ia o seguin e:
1.
Repe i o p ocesso de busca, con igu ação e download di e sas ezes, uma pa a cada
indicado .
2. Ge encia cada a qui os CSV ou XLSX sepa ados em uma pas a.
3.
Ab i cada um desses a qui os e copia manualmen e os dados pa a uma única planilha
mes a, omando ex emo cuidado pa a alinha co e amen e as da as de cada sé ie.
95
CAPÍTULO 5. ESTUDO DE CASO SOBRE CLASSIFICAÇÃO DO PIB BRASILEIRO
As des an agens des a abo dagem são e iden es:
•
P ocesso Len o e Repe i i o: A a e a de baixa e consolida os dados consome um
empo conside á el que pode ia se dedicado à análise.
•
Al o Risco de E o Humano: A consolidação manual de dados (copia e cola ) é uma
das maio es on es de e os em planilhas, podendo in alida comple amen e a análise.
•
Baixa Rep odu ibilidade: Se p ecisa mos a ualiza nosso es udo com dados de um
no o mês, odo o p ocesso manual e ia que se e ei o do ze o.
Pa a supe a esses desa ios, a abo dagem de um cien is a de dados é c ia uma solu-
ção au oma izada, ep odu í el e e icien e. Vamos e i ica como au oma iza esse p ocesso
u ilizando a API do Banco Cen al e a biblio eca Pandas.
5.2.3 A Solução Au oma izada com API
O Banco Cen al do B asil disponibiliza uma API (In e ace de P og amação de Aplica-
ções), que pe mi e que nossos sc ip s acessem o Sis ema Ge enciado de Sé ies Tempo ais (SGS)
di e amen e pa a consul a e baixa dados.
U ilizando a biblio eca Pandas, podemos c ia uma unção em Py hon pa a ealiza essa
a e a. A unção a segui encapsula oda a lógica necessá ia pa a se conec a à API, solici a
uma sé ie empo al especí ica pelo seu código, il a o pe íodo desejado e e o na os dados já
es u u ados em um Da aF ame.
de consul a_bc(codigo_bcb, da a_inicial, da a_ inal):
u l = 'h p://api.bcb.go .b /dados/se ie/bcda a.sgs.{
codigo_bcb}/dados? o ma o=json'
d = pd. ead_json(u l)
d ['da a'] = pd. o_da e ime(d ['da a'], day i s =T ue)
pe iodo = (d ['da a'] >= da a_inicial) & (d ['da a'] <=
da a_ inal)
d = d .loc[pe iodo]
d .se _index('da a', inplace=T ue)
e u n d
An es de analisa mos a lógica in e na, é undamen al en ende a ”in e ace”da unção, ou
seja, os dados que ela ecebe (a gumen os) e o que ela de ol e ( e o no).
•A gumen os (o que a unção ecebe):
–codigo_bcb:
Um núme o in ei o que ep esen a o código único da sé ie no
sis ema SGS. Cada indicado (PIB, IPCA, e c.) possui seu p óp io código.
–da a_inicial:
Uma s ing de ex o no o ma o ’AAAA-MM-DD’ que de ine o
início do pe íodo de consul a.
–da a_ inal:
Uma s ing de ex o no o ma o ’AAAA-MM-DD’ que de ine o im
do pe íodo de consul a.
96
CAPÍTULO 5. ESTUDO DE CASO SOBRE CLASSIFICAÇÃO DO PIB BRASILEIRO
•Re o no (o que a unção de ol e):
–
A unção e o na um Da aF ame do Pandas. Es e Da aF ame con ém a sé ie empo al
solici ada, com as da as como índice e os alo es do indicado em uma única coluna.
A elegância des a unção es á em sua simplicidade e no pode das e amen as que u iliza.
Vamos analisa suas e apas p incipais:
1.
Cons ução da URL: A p imei a linha usa uma -s ing pa a cons ui dinamicamen e
o ende eço da API, inse indo o codigo_bcb do indicado que que emos consul a .
2.
Lei u a Di e a com Pandas: Em ez de a a a espos a da API manualmen e, a unção
pd. ead_json(u l)
do Pandas se conec a à in e ne , baixa os dados em o ma o
JSON e os con e e ins an aneamen e em um Da aF ame.
3.
Con e são de Da as:
pd. o_da e ime(d ['da a'], day i s =T ue)
é
um passo c ucial de limpeza. Ela ga an e que a coluna de da as seja a ada como um
obje o empo al, e não como ex o, o que é essencial pa a qualque análise de sé ies
empo ais. O a gumen o
day i s =T ue
especi ica o o ma o de da a u iizado no
B asil (DD/MM/AAAA).
4.
Fil agem po Pe íodo: A unção c ia uma másca a booleana pa a seleciona apenas as
linhas cujo índice de da a es eja den o do pe íodo de in e esse, in e alo especi icado
po da a_inicial eda a_ inal.
5.
Indexação po Da a: Po im,
d .se _index('da a', inplace=T ue)
de ine
a coluna de da as como o índice do Da aF ame. Es a é uma con enção e boa p á ica em
análise de sé ies empo ais com Pandas, pois o imiza e simpli ica u u as manipulações e
isualizações baseadas no empo.
Com a unção
consul a_bc
p on a, podemos ago a i e a sob e nossa lis a de indicado-
es pa a cons ui nosso da ase comple o. Pa a au oma iza o p eenchimen o dos a gumen os
da unção, de inimos o pe íodo de análise a a és de a iá eis e c iamos um Da aF ame ini-
cialmen e azio, cujas colunas se ão populadas com os dados e e en es a cada indicado
selecionado.
da a_inicial = '2002-01-01'
da a_ inal = '2025-09-01'
base = pd.Da aF ame()
base['PIB'] = consul a_bc(4380, da a_inicial, da a_ inal)[' alo ']
base['IBOV']= consul a_bc(7849, da a_inicial, da a_ inal)[' alo ']
base['IPA'] = consul a_bc(7450, da a_inicial, da a_ inal)[' alo ']
# ... (e assim po dian e pa a odos os indicado es) ...
Es a abo dagem p og amá ica busca esol e os p oblemas do mé odo manual:
•Velocidade: eduz pa a segundos o que le a ia minu os ou ho as
•Con iabilidade: elimina o isco de e o humano
•Rep odu ibilidade: pe mi e que qualque pessoa sem expe iencia execu e a cole a
97
CAPÍTULO 5. ESTUDO DE CASO SOBRE CLASSIFICAÇÃO DO PIB BRASILEIRO
5.2.4 Re inando o Da ase : C i é ios de Seleção e Limpeza
Te uma lis a de po enciais indicado es é apenas o começo. Um dos passos mais im-
po an es na p epa ação de dados é ga an i a consis ência e a in eg idade do conjun o de
dados inal. An es de p ossegui pa a a análise, a lis a inicial de a iá eis oi subme ida a um
igo oso p ocesso de e inamen o, onde cada sé ie oi a aliada com base em c i é ios écnicos.
As seguin es decisões o am omadas:
•
Ha monização da G anula idade Tempo al: A análise de múl iplas sé ies empo ais
exige que odas possuam a mesma equência. Na lis a inicial, o ”Índice de Con iança do
Emp esá io Indus ial”e a uma sé ie imes al, enquan o odos os ou os indicado es
e am mensais. Inclui es a a iá el exigi ia a con e são de odas as 15 sé ies mensais
pa a imes ais, um p ocesso que esul a ia em uma pe da d ás ica de mais de 60% dos
pon os de dados. Conside ando que as sé ies já e am ela i amen e cu as, a decisão oi
emo e o indicado imes al pa a p ese a a iqueza dos dados mensais.
•
A ualização de Me odologia (Dados Descon inuados): Sé ies empo ais podem
so e al e ações me odológicas ou se em descon inuadas. Foi o caso das sé ies o iginais
de ”Meios de Pagamen o”(M1 e M2), que o am o icialmen e descon inuadas em 2018.
Pa a ga an i a ele ância da análise, es as o am subs i uídas pelas no as sé ies
me odológicas co esponden es.
•
In eg idade da Sé ie His ó ica: Uma a iá el pode se eo icamen e ele an e, mas
p a icamen e in iá el se seus dados o em incomple os. A sé ie do IBOV (Valo das
emp esas lis adas na Bo espa) oi emo ida em uma e apa pos e io da análise ao se
cons a a que es a a descon inuada e incomple a no pe íodo inal do es udo. Es e é um
exemplo p á ico de como a qualidade dos dados se sob epõe à ele ância eó ica.
•
De inindo a Janela Tempo al Comum: Pa a ga an i que odas as sé ies sejam compa-
á eis desde o p imei o pon o, é necessá io de ini uma da a de início comum. Analisando
a Tabela 5.1, no a-se que um conjun o signi ica i o de indicado es de p odução do IBGE
inicia sua sé ie his ó ica em Janei o de 2002. Po an o, pa a assegu a que não ha e ia
dados al an es no início do pe íodo, a da a de início do nosso es udo oi de inida
como janei o de 2002.
Es e p ocesso de e inamen o é undamen al e ilus a a na u eza in es iga i a do abalho
com dados, ga an indo que a base inal seja coesa, ín eg a e p on a pa a a p óxima e apa: a
análise explo a ó ia.
5.3 Análise Explo a ó ia e T ans o mação dos Dados
Com o nosso Da aF ame
base
consolidado, o p óximo passo em qualque p oje o
de análise é a Análise Explo a ó ia de Dados (EDA). O obje i o des a e apa é ”sen i ”os
dados, en ende suas ca ac e ís icas e, p incipalmen e, iden i ica p oblemas que p ecisam se
co igidos an es de qualque modelagem.
5.3.1 O Diagnós ico do P oblema de Escala
A p imei a e mais in ui i a e apa da EDA é isualiza as sé ies empo ais. Um g á ico
simples pode e ela mui o sob e a es u u a e os desa ios ocul os em um conjun o de dados.
98
CAPÍTULO 5. ESTUDO DE CASO SOBRE CLASSIFICAÇÃO DO PIB BRASILEIRO
ig, ax = pl .subplo s( igsize=(10, 5))
base.plo (ax=ax)
ax.se _ i le('Indicado es Mac oeconômicos', on size=16)
ax.se _xlabel('Ano', on size=12)
ax.se _ylabel('Valo ', on size=12)
ax.legend(loc='uppe le ', ameon=T ue)
pl .show()
Figu a 5.4: Compo amen o empo al dos indicado es em escala linea .
O g á ico 5.4 e ela um p oblema clássico em dados mac oeconômicos, conhecido como
a disc epância de escalas. Va iá eis mone á ias como
M1
e
M2
, cujos alo es es ão na casa dos
milhões, dominam comple amen e o eixo e ical. Como esul ado, as ou as a iá eis, que são
índices ou a iações, apa ecem como uma linha acha ada e indis inguí el p óxima ao ze o.
ig, ax = pl .subplo s( igsize=(9, 5))
base.plo (ax=ax)
ax.se _ i le('Indicado es Mac oeconômicos', on size=16)
ax.se _xlabel('Ano', on size=12)
ax.se _ylabel('Valo (escala loga í mica)', on size=12)
ax.se _yscale('log')
ax.legend(loc='uppe le ', ameon=T ue, bbox_ o_ancho =(1, 1))
pl .show()
99
CAPÍTULO 5. ESTUDO DE CASO SOBRE CLASSIFICAÇÃO DO PIB BRASILEIRO
Figu a 5.5: Compo amen o empo al dos indicado es em escala loga í mica.
Uma écnica comum pa a isualiza dados com di e en es o dens de magni ude é usa
uma escala loga í mica. A a és da Figu a 5.5 podemos dis ingui cla amen e o compo amen o
de odas as a iá eis, que se ag upam em di e en es o dens de g andeza, e le indo suas dis in as
unidades de medida:
•1ª O dem (108a1010): As a iá eis M1 eM2 (Meios de Pagamen o).
•2ª O dem (105a107): OPIB, o IBOV e os saldos de c édi o (Spub,Sp i ).
•3ª O dem (104): As endas de eículos (VVCC,VVCCL).
•4ª O dem (102): O es an e dos indicado es, que são majo i a iamen e núme os-índice.
Essa isualização deixa cla o que es amos compa ando ”la anjas com melancias”. O
p oblema, no en an o, não é apenas isual, já que ao calcula mos a ma iz de co elação de
Pea son dos dados b u os, a dis o ção se o na es a is icamen e e iden e.
An es de analisa a ma iz, é impo an e en ende o que ela ep esen a. A ma iz de
co elação é uma abela que mos a o coe icien e de co elação de Pea son en e odas as
combinações de a iá eis de um da ase . Es e coe icien e é um núme o que a ia de -1 a +1:
•
+1: Co elação posi i a pe ei a. Quando uma a iá el sobe, a ou a sobe na mesma
p opo ção.
•
0: Nenhuma co elação linea . As a iá eis não se elacionam, ou seja, o c escimen o
de uma não diz nada sob e o c escimen o da ou a.
•
-1: Co elação nega i a pe ei a. Quando uma a iá el sobe, a ou a desce na mesma
p opo ção.
Em um hea map (mapa de calo ) como o da Figu a 5.6, co es quen es ( e melho/la anja)
indicam co elação posi i a, co es ias (azul) indicam co elação nega i a, e co es neu as
(p óximas ao b anco) indicam baixa co elação.
100
CAPÍTULO 5. ESTUDO DE CASO SOBRE CLASSIFICAÇÃO DO PIB BRASILEIRO
pea son_base = base.co ()
pl . igu e( igsize=(12, 10))
sns.hea map(pea son_base, anno =T ue, cmap='coolwa m', m =".2 ",
linewid hs=.5)
pl . i le('Mapa de Calo dos Indicado es', on size=16)
pl .show()
Figu a 5.6: Ma iz de co elação de Pea son dos indicado es
O mapa de calo da Figu a 5.6 suge e co elações al íssimas (co es quen es in ensas) en e
o PIB e as a iá eis mone á ias. No en an o, es a é uma co elação espú ia. Ela exis e não
po uma elação econômica di e a, mas po que odas essas sé ies compa ilham uma mesma
endência de c escimen o ao longo do empo e possuem o dens de magni ude semelhan es.
Pa a cons ui um modelo p edi i o obus o, p ecisamos isola as elações de cu o p azo, e
pa a isso, a no malização dos dados é indispensá el.
101
CAPÍTULO 5. ESTUDO DE CASO SOBRE CLASSIFICAÇÃO DO PIB BRASILEIRO
5.3.2 No malização das Va iá eis
A análise dos dados b u os deixou cla o que as di e en es escalas e as endências de
longo p azo dis o cem a análise de co elação e isualização. Pa a que as a iá eis se o nem
compa á eis e pa a que possamos oca nas dinâmicas de cu o p azo — que são mais ele an es
pa a p e e o p óximo passo da economia — p ecisamos no maliza os dados.
A inspi ação pa a a solução eio de um dos p óp ios indicado es, o IPA (Índice de
P eços po A acado), que já é na u almen e medido em a iação pe cen ual. Es a unidade
em a an agem de se adimensional e de e le i a mudança ela i a de um pe íodo pa a o
ou o, em ez de seu ní el absolu o. Decidiu-se, po an o, aplica essa mesma ans o mação a
odas as ou as sé ies.
Pa a es a a e a, a biblio eca Pandas o e ece o mé odo
.pc _change()
. Com uma
única linha de código, ele calcula a a iação pe cen ual de cada elemen o em elação ao elemen o
an e io da sé ie. O indicado IPA já é um dado de a iação pe cen ual, po an o essa a iá el
não é incluida di e amen e na cons ução do Da aF ame
base
. Pa a incluí-lo no da a ame já
no malizado, é impo an e se a en a a unidade de medida, já que o mé odo
.pc _change()
e o na um alo decimal, ou seja, é p eciso no maliza a a iá el IPA ans o mando de
po cen agem pa a decimal.
# 1. Calcula a a iação pe cen ual pa a odas as colunas
base_ e o no = base.pc _change()
# 2. Inse i a coluna 'IPA' (di idida po 100 pa a no maliza )
base_ e o no.inse (loc=1, column='IPA', alue=base_IPA/100)
# 3. T a a a p imei a linha (NaN)
base_ e o no.iloc[0] = 0
# 4. Remo e a coluna 'IBOV' incomple a
base_ e o no = base_ e o no.d op(['IBOV'], axis=1)
Des endando o P ocesso:
•.pc _change(): A unção pe co e cada coluna e, pa a cada linha, calcula:
alo _a ual − alo _an e io
alo _an e io
O esul ado é uma no a sé ie de dados que ep esen a a axa de c escimen o de cada
indicado em elação a obse ação (mês) an e io .
•
T a ando o
NaN
inicial: A p imei a linha de
base_ e o no
se o na
NaN
(Nulo),
pois não há um ”mês an e io ”pa a o cálculo da a iação da p imei a obse ação. A
decisão de p eenche com
0
é uma con enção comum, assumindo que não hou e a iação
no pon o de pa ida da nossa análise.
•
Remoção Final: A emoção (
.d op()
) da coluna
IBOV
aqui é o passo inal de limpeza,
ga an indo que apenas sé ies comple as e ín eg as p ossigam pa a a modelagem.
102
CAPÍTULO 5. ESTUDO DE CASO SOBRE CLASSIFICAÇÃO DO PIB BRASILEIRO
Com es a ans o mação, nosso Da aF ame deixa de ep esen a os alo es absolu os
dos indicado es e passa a ep esen a suas axas de a iação mensais. Ago a, a pe gun a
que analisa emos não é mais ”quão g ande é a p odução indus ial?”, mas sim ”a p odução
indus ial es á c escendo ou diminuindo, e com que in ensidade?”.
Figu a 5.7: Compo amen o empo al dos indicado es no malizados
É possí el e i ica na Figu a 5.7 que odas as sé ies ago a oscilam em o no de um eixo
cen al em ze o e suas a iações são di e amen e compa á eis. Onde an es ínhamos um g á ico
ilegí el, ago a emos uma isualização cla a da ola ilidade de cada indicado . O excesso de
in o mações ainda o na o g á ico pouco in o ma i o mas su icien e pa a ga an i que os dados
ago a são compa á eis
Analisando o no o mapa de calo , a igu a 5.8 e ela um cená io mui o mais ealis a e ú il
pa a a análise. As co elações espú ias e in ladas desapa ece am. Ago a podemos obse a que:
•
Indicado es de A i idade Econômica, como IPIT (Indús ia de T ans o mação) e VVCC
(Vendas de Caminhões), man êm a co elação posi i a mais o e com a a iação do PIB.
•
Indicado es de Con iança (IEF, ICC) possuem uma co elação posi i a, po ém mais
mode ada.
•
Os Indicado es Mone á ios, que an es pa eciam dominan es, ago a mos am uma co ela-
ção bem mais aca, con i mando que sua elação an e io e a um a e a o da escala e da
endência.
Isso nos o e ece insigh s mui o mais plausí eis do pon o de is a econômico, podendo
no a alguns pad ões in e essan es:
•
Al a Co elação In a-Ca ego ia: Como espe ado, mui os indicado es den o da mesma
ca ego ia es ão o emen e co elacionados en e si. Po exemplo, os di e sos índices
de p odução indus ial (IPIT, IPBC, IPBCD) e de endas de eículos (IVVV, VVCCL,
VVCC) mos am uma o e co elação posi i a. Isso az sen ido, pois eles medem ace as
di e en es da mesma dimensão da economia: a a i idade do se o p i ado.
103
CAPÍTULO 5. ESTUDO DE CASO SOBRE CLASSIFICAÇÃO DO PIB BRASILEIRO
•
A Dinâmica dos Indicado es Mone á ios: Cu iosamen e, a sua obse ação es á
co e a: essa al a co elação in a-g upo não se epe e com a mesma in ensidade pa a os
indicado es mone á ios (Spub, Sp i , M1, M2). Eles mos am uma co elação mais aca
en e si. Isso suge e que eles cap u am dinâmicas di e en es. Po exemplo, o c édi o ao
se o público (Spub) e ao se o p i ado (Sp i ) podem não se mo e em pe ei a sinc onia,
e le indo di e en es polí icas de c édi o ou ape i es de isco.
•
Relação com o PIB: Mais impo an e, ago a podemos e as co elações mais genuínas
com a a iação do PIB. Indicado es de A i idade como IPIT e VVCC man êm a co elação
mais o e, con i mando seu papel como impo an es e môme os da economia. Em
con as e, os indicado es mone á ios mos am uma elação bem mais aca, alidando
nossa hipó ese de que a co elação an e io e a espú ia.”
Figu a 5.8: Ma iz de co elação de Pea son dos indicado es no malizados
Com os dados de idamen e ans o mados e alidados, concluímos a e apa de p epa ação
e es amos p on os pa a a engenha ia de ea u es da nossa a iá el-al o.
104
CAPÍTULO 5. ESTUDO DE CASO SOBRE CLASSIFICAÇÃO DO PIB BRASILEIRO
O aciocínio aplicado é o mesmo, mas ago a conside ando no os limia es em dois des ios
pad ão (
±2σ
)dis an es da média pa a isola os e en os ex emos, como mos a a Figu a 5.14.
Figu a 5.14: Disc e ização em 5 classes, com limia es em ±1σe±2σ.
Essa segmen ação c ia as classes ”Queda Fo e”(-2), ”Queda Mode ada”(-1), ”Es abili-
dade”(0), ”Al a Mode ada”(1) e ”Al a Fo e”(2), no en an o é impo an e salien a que a iações
supe io es a
±2σ
podem conside ados e en os ela i amen e a os, especialmen e em sis emas
pouco olá eis. Po an o, é impo an e in es iga a dis ibuição das classes pa a e i ica se esses
limia es suge idos são uma ep esen ação adequada pa a o enômeno es udado. In es igando a
dis ibuição das 5 classes pa a a a iá el PIB, a Figu a 5.15 mos a um desbalanceamen o en e
as classes, já que a ”Queda Fo e”é mui o mais incomum que a ”Al a Fo e”.
Figu a 5.15: Dis ibuição das 5 classes do PIB após a disc e ização.
111
CAPÍTULO 5. ESTUDO DE CASO SOBRE CLASSIFICAÇÃO DO PIB BRASILEIRO
•
Van agem: A abo dagem suge ida possuí a capacidade de di e encia a magni ude
dos e en os econômicos, o e ecendo insigh s po encialmen e mais icos pa a a omada
de decisão.
•
Limi ação e Pon o de Re lexão: O his og ama demons a que as classes ex emais (-2
e 2) são e en os a os, acen uando o desbalanceamen o de classes, um desa io pa a o
einamen o de modelos. Adicionalmen e, é c ucial e le i se es a eg a, ao se aplicada
a a iá eis menos olá eis, pode ia esul a em classes azias, um pon o de a enção
que de e se in es igado du an e o p é-p ocessamen o pa a e i a p oblemas de íes nos
modelos de p e isão.
Depois de analisa di e sas abo dagens, é possí el obse a que cada umas das es a égias
ap esen adas em seus pon os o es e acos, podendo ou não se acei á el a depende do
con ex o. Ve i icamos uma cons ução g adual onde se suge e a solução mais simples possí el,
iden i ica suas limi ações e (se necessá io) aplica melho ias. Modelos mais so is icados podem
co ige alguns p oblemas e c ia ou os, po an o, é undamen al semp e aze um balanço
en e e e i idade e in e p e abilidade.
5.5 Análise Complemen a e Boas P á icas com Dados
Ao longo des e capi ulo, seguimos o luxo de a e as essencial pa a cole a e a amen o
de um dado ela i amen e compo ado, sepa ando as e apas e en ando não se ap o unda
em de alhes mui o especí icos. No en an o, a análise de dados pode se mui o as a, já que
emos di e en es me odologias e e amen as pa a abo da os p oblemas, buscando ga an i a
in eg idade e au omação das análises. Es a seção ap o unda alguns concei os e e amen as de
boas p á icas essenciais no a senal de um cien is a de dados.
5.5.1 Backup e Rep odu bilidade de Dados
Em um p oje o de ciência de dados, é conside ada uma boa p á ica c ia ” o og a ias”ou
backups dos seus da ase s em di e en es es ágios. Essa p á ica, conhecida como e sionamen o
de dados, é c ucial pa a ga an i a ep odu ibilidade da análise — a capacidade de ob e exa-
amen e os mesmos esul ados ao execu a o mesmo código no u u o. Na a qui e u a do
nosso p oje o ep esen ada na Figu e 5.1, o bloco ”A qui os CSV” ep esen a esses pon os de
sal amen o.
Fon es de dados ” i as”, como APIs, podem so e al e ações. Dados econômicos, em
pa icula , equen emen e passam po e isões e oa i as ou co eções pela on e o iginal. Se
ealiza mos a cole a hoje e no amen e daqui a um mês, su is di e enças nos dados his ó icos
podem su gi . Pa a e i a que essas mudanças inespe adas a e em nossa análise, sal amos uma
cópia local dos dados b u os assim que os cole amos.
base. o_cs ('dados.cs ', index=T ue, sep=';', encoding='u -8')
O mé odo
. o_cs ()
é usado pa a expo a o con eúdo de um Da aF ame pa a um
a qui o de ex o no o ma o CSV. Embo a simples, seus pa âme os nos dão con ole o al sob e
o a qui o de saída.
112
CAPÍTULO 5. ESTUDO DE CASO SOBRE CLASSIFICAÇÃO DO PIB BRASILEIRO
•'dados_b u os.cs '
: O p imei o a gumen o é o caminho e o nome do a qui o que
se á c iado.
•index=T ue
: Es e é um pa âme o c ucial. Se T ue (o pad ão), ele sal a a coluna de
índice do Da aF ame no a qui o. Se False, o índice é desca ado. A escolha depende se o
seu índice con ém in o mações impo an es (como da as, que é o nosso caso).
•sep=';'
: De ine o sepa ado (ou delimi ado ) que se á usado pa a sepa a os alo es
em cada linha, onde o pad ão é a í gula (,).
•encoding='u -8
’: Especi ica a codi icação de ca ac e es do a qui o. Usa ’u -8’ é
uma boa p á ica uni e sal, pois ga an e que ca ac e es especiais e acen os (comuns na
língua po uguesa) sejam sal os e lidos co e amen e em qualque sis ema.
Após e apas ele an e de p ocessamen o é ecomendá el sal a o Da aF ame a ualizado,
c iando uma espécie de ”checkpoin ”que poupa o e abalho de e-execu a odas as e apas
de limpeza a cada no a sessão de análise. De manei a análoga, p ocessos que en ol e á ias
e apas podem se modula izados e abalhados em pa alelo, desde que as in o mações possam
lui a ualizadas en e as camadas. Pa a ca ega os dados um a qui o sal o localmen e em
o ma o CSV pa a um Da aF ame Pandas, podemos u iliza o mé odo pd. ead_cs ().
base_ e o no = pd. ead_cs ('dados_no malizados.cs ', index_col='
da a', pa se_da es=T ue, sep=';')
•'backup/dados_no malizados.cs ': O caminho pa a o a qui o a se lido.
•index_col='da a'
: In o ma ao Pandas que a coluna chamada ’da a’ no a qui o
CSV de e se usada como o índice do nosso no o Da aF ame. Isso é undamen al pa a
es au a a es u u a o iginal da nossa sé ie empo al.
•pa se_da es=T ue
: Um pa âme o ex emamen e ú il. Ele ins ui o Pandas a en a
con e e o índice (ou ou as colunas, se especi icadas) pa a o o ma o de da a/ho a
(da e ime), o que é essencial pa a nossas análises empo ais.
•sep=';'
: Assim como no sal amen o, p ecisamos in o ma ao Pandas qual é o sepa ado
u ilizado no a qui o pa a que ele possa di idi as colunas co e amen e.
Embo a o o ma o CSV seja uni e sal, a biblio eca Pandas é equipada pa a le e esc e e
dados em di e sos ou os o ma os (Excel, JSON, SQL, Pa que , Fea he , e c...), cada um com
suas p óp ias an agens. Conhece essas al e na i as é c ucial pa a escolhe a e amen a ce a
pa a cada necessidade do p oje o.
Quando es amos abalhando com uma ins alação local do Py hon, os a qui os são sal os
e/ou ca egados no p óp io disco, a pa i do di e ó io onde o sc ip es á a mazenado, ou ainda
de inindo o caminho manualmen e na unção. Po ou o lado, quando es amos abalhando em
um ambien e em nu em (como o Google Colab), mui as ezes é necessá ia conec a -se a um
di e ó io ex e no pa a ga an i a pe sis encia dos dados.
Quando es amos abalhando com uma ins alação local do Py hon, os a qui os são sal os
e/ou ca egados no p óp io disco, a pa i do di e ó io onde o sc ip es á a mazenado, ou ainda
de inindo o caminho manualmen e na unção. Po ou o lado, quando es amos abalhando em
um ambien e em nu em (como o Google Colab), mui as ezes é necessá ia conec a -se a um
di e ó io ex e no pa a ga an i a pe sis encia dos dados.
113
CAPÍTULO 5. ESTUDO DE CASO SOBRE CLASSIFICAÇÃO DO PIB BRASILEIRO
Fique Ale a!
O a qui o sal o no ambien e pad ão do Google Colab é empo á io. Se sua sessão o
desconec ada po ina i idade ou se ocê echa a aba, a máquina i ual é desligada e
odos os a qui os sal os nela são pe manen emen e apagados. A es a égia de sal a
localmen e no Colab só é segu a pa a uso imedia o den o da mesma sessão.
5.5.2 Análise de Dis ibuições Assimé icas: O Caso da Va iá el M2
Uma análise explo a ó ia comple a não se ence a na isão ge al do da ase . É c ucial
in es iga a dis ibuição de a iá eis indi iduais, especialmen e aquelas que se compo am de
manei a a ípica. Ao con á io do PIB, cuja a iação pe cen ual se mos ou azoa elmen e simé-
ica, o ag egado mone á io
M2
ap esen a um compo amen o bas an e assimé ico, con o me
podemos obse a na Figu a 5.16.
Figu a 5.16: Análise da dis ibuição do ag egado mone á io M2 ( alo es b u os).
O his og ama (esque da) mos a uma o e assime ia, com uma longa cauda à di ei a. O
boxplo (di ei a) con i ma isso, iden i icando mui as obse ações como ”ou lie s”. Es e pad ão
é ca ac e ís ico de mui as sé ies empo ais econômicas, como a base mone á ia de um país, que
em alo es nominais endem a c esce con inuamen e ao longo do empo, ca ac e izando uma
sé ie com o e endência, ou não-es acioná ia. U iliza uma a iá el com uma dis ibuição ão
en iesada di e amen e em uma análise de co elação ou ainda em um modelo de p edição pode
lhe a ibui um peso desp opo cional e le a a conclusões equi ocadas.
A ans o mação em a iação pe cen ual (
.pc _change()
) é uma das écnicas pa a
a a sé ies com o es endências. O seu obje i o p incipal não é c ia uma dis ibuição
pe ei amen e simé ica, mas sim emo e a endência e o na a sé ie ap oximadamen e
es acioná ia. Ao no maliza as a iá eis e al e a o oco da análise dos ní eis absolu os da
M2
pa a suas axas de c escimen o mensais, emos como consequencia dados cujas p op iedades
es a ís icas são mui o mais es á eis, como pode se obse ado na Figu a 5.17.
114
CAPÍTULO 5. ESTUDO DE CASO SOBRE CLASSIFICAÇÃO DO PIB BRASILEIRO
Figu a 5.17: Análise da dis ibuição da a iação mensal do M2 (após no malização).
•
A média ainda é ligei amen e posi i a, o que az sen ido economicamen e, pois a base
mone á ia ende a se expandi mais do que se con ai . O impo an e é que a média ago a
é es á el ao longo do empo, em ez de c escen e.
•
A dis ibuição ainda possui uma le e assime ia e ”caudas pesadas”(ou lie s), ca ac e ís i-
cas comuns em dados inancei os e econômicos.
No en an o, a sé ie ans o mada é bem supe io à o iginal pa a ins de modelagem. A
ans o mação oi bem-sucedida não po e c iado uma cu a Gaussiana pe ei a, mas po e
con e ido uma sé ie não-es acioná ia, com endência e a iância c escen es, em uma sé ie
ap oximadamen e es acioná ia, cujas lu uações oco em em o no de uma média cons an e. É
essa es abilidade que a o na uma a iá el álida e mui o mais con iá el pa a se compa ada
com as ou as e u ilizada como ea u e em um modelo p edi i o.
A e dadei a impo ância de en ende a dis ibuição de uma a iá el se e ela quando
aplicamos e apas de engenha ia de ea u es, como a disc e ização. Vimos que a
M2
o iginal
possui uma o e assime ia. Embo a a ans o mação
.pc _change()
enha o nado a sé ie
mais es acioná ia, a na u eza in ínseca da a iá el (poucas quedas acen uadas) ainda pe sis e e
em um impac o di e o quando conside amos o e ei o da disc e ização. Conside ando o modelo
baseado em 5 classes con o me Figu a 5.18, podemos obse a :
•
Desbalanceamen o Ex emo de Classes: A classe ”Es abilidade”(0) domina esmaga-
do amen e a dis ibuição. As classes de a iação mode ada (-1 e 1) são mui o menos
equen es, e as de a iação ex ema (2) são a íssimas. Um modelo de Machine Lea ning
einado com dados ão desbalanceados e á uma o e endência a p e e semp e a classe
majo i á ia, igno ando os e en os a os, que são jus amen e os mais impo an es de se
p e e .
•
O P oblema da Classe Vazia: A obse ação mais c í ica é a ausência comple a da classe
-2”(Queda Fo e). Isso oco e po que, no pe íodo analisado, a a iação mensal da M2
nunca oi nega i a o su icien e pa a c uza o limia de µ−2σ.
115
CAPÍTULO 5. ESTUDO DE CASO SOBRE CLASSIFICAÇÃO DO PIB BRASILEIRO
Figu a 5.18: Dis ibuição das 5 classes pa a a a iá el M2 no malizada.
Es e é um exemplo p á ico e undamen al do dia a dia de um cien is a de dados. A mesma
eg a de engenha ia de ea u es, quando aplicada a a iá eis com dis ibuições di e en es,
pode ge a esul ados d as icamen e dis in os. A p esença de classes azias em uma a iá el
explica i a é um ”sinal de ale a”. Ela nos in o ma que, pa a es a a iá el especí ica (
M2
), o
modelo não e á nenhum exemplo de como ela se compo a du an e e en os de ”Queda Fo e”,
o que pode limi a seu pode p edi i o em cená ios de c ise.
Es a análise não in alida a a iá el, mas nos o ça a p ossegui com um en endimen o
mais p o undo de suas limi ações, um conhecimen o c ucial pa a in e p e a co e amen e os
esul ados do modelo de Machine Lea ning.
5.5.3 Técnicas Al e na i as de No malização: Z-sco e e Min-Max
Em nosso es udo de caso oi u ilizada a a iação pe cen ual (
.pc _change()
)pa a
ans o ma os dados a im de o na-los compa á eis. Exis em di e sas écnicas pa a essa
inalidade, mas quando se a a da p epa ação de dados pa a a maio ia dos algo i mos de
Machine Lea ning, des acam-se a Pad onização (Z-sco e) e a No malização Min-Max.
O obje i o dessas écnicas é coloca odas as a iá eis ( ea u es) em uma escala comum,
o que é undamen al pa a o bom desempenho de mui os algo i mos sensí eis à escala dos dados,
como edes neu ais e SVMs.
APad onização (Z-sco e) ambém conhecida como
S anda dScale
, é a écnica
mais obus a e u ilizada. Ela ans o ma os dados pa a que a no a dis ibuição enha uma
média de 0 e um des io pad ão de 1. Sua p incipal an agem é a obus ez a ou lie s. Pa a
cada alo xna sé ie, o Z-sco e é calculado a a és da exp essão:
Z=(x−µ)
σ
onde µé a média e σé o des io pad ão da sé ie o iginal.
ANo malização Min-Max chamada de
MinMaxScale
, edimensiona os dados pa a
um in e alo ixo, ge almen e en e 0e1. É ú il pa a algo i mos que exigem dados em um
116
CAPÍTULO 5. ESTUDO DE CASO SOBRE CLASSIFICAÇÃO DO PIB BRASILEIRO
in e alo especí ico, mas é sensí el a ou lie s. Pa a cada alo
x
, o no o alo
x0
é calculado
como:
x0=(x−min(X))
(max(X)−min(X))
onde min(X)e max(X)são os alo es mínimo e máximo da sé ie o iginal.
om sklea n.p ep ocessing impo S anda dScale , MinMaxScale
alo es_zsco e = S anda dScale (). i _ ans o m(base)
base_zsco e = pd.Da aF ame( alo es_zsco e,
columns=base.columns,
index=base.index)
alo es_minmax = MinMaxScale (). i _ ans o m(base)
base_minmax = pd.Da aF ame( alo es_minmax,
columns=base.columns,
index=base.index)
5.5.4 Codi icação de Va iá eis Ca egó icas (One-Ho Encoding)
Quando oi ealizada a e apa de disc e ização da a iá el PIB, algumas classes numé icas
(-1, 0, 1) o am c iadas pa a ep esen a o compo amen o da a iá el. Mui os algo i mos
de in e ência es a ís ica ou Machine Lea ning podem in e p e a isso de o ma equi ocada,
assumindo uma alsa elação o dinal e de magni ude. O modelo pode ap ende , po exemplo,
que a classe ”Al a”(1) é ma ema icamen e ”maio ”que a ”Es abilidade”(0), ou ainda que Queda
(-1) + Al a (1) = Es abilidade (0), o que não az sen ido economicamen e.
Pa a emo e essa ambiguidade, é conside ada uma boa p á ica u iliza o concei o One-
Ho Encoding, uma écnica que ans o ma uma única coluna con endo
N
ca ego ias em
N
no as colunas, uma coluna pa a cada ca ego ia. Cada uma dessas no as colunas é biná ia (
0
ou
1
), indicando a p esença (
1
) ou ausência (
0
) daquela ca ego ia na obse ação o iginal. No
Pandas, a manei a mais ácil de aplica es a écnica é com a unção pd.ge _dummies().
pd.ge _dummies(base_3classes["PIB"], p e ix='PIB', d ype=in )
PIB
da a
2017-01-01 -1
2017-02-01 0
2017-03-01 1
2017-04-01 -1
2017-05-01 0
⇒
PIB_-1 PIB_0 PIB_1
da a
2017-01-01 1 0 0
2017-02-01 0 1 0
2017-03-01 0 0 1
2017-04-01 1 0 0
2017-05-01 0 1 0
A coluna o iginal oi ans o mada em ês no as colunas, eliminando qualque elação de
o dem en e as classes e ep esen ando cada ca ego ia de o ma independen e. No en an o, em
ce os casos a c iação de mui as colunas pode causa um p oblema conhecido como ”maldição
da dimensionalidade”, o nando o modelo compu acionalmen e ca o e len o, além de aumen a
a endência a o e i ing e mul icolinea idade. Mé odos de in e ência linea es ou baseados
117
CAPÍTULO 5. ESTUDO DE CASO SOBRE CLASSIFICAÇÃO DO PIB BRASILEIRO
em dis ância endem a so e in luencia mais signi ica i a desse ipo de abo dagem, como a
Reg essão Logís ica, K-Vizinhos P óximos, Máquina de Ve o es de Supo e e Redes Neu ais.
Em con apa ida, modelos baseados em á o es não são mui o impac ados de ido a sua
ca ac e ís ica ine en emen e não-linea , cuja omada de decisão é baseada em co es sequênciais
nos dados. A dis inção en e ca ego ias não se elaciona com a magni ude, o nando mé odos
como Á o es de Decisão, Flo es a Alea ó ia e eX eme G adien Boos , menos sensí eis a
elação o dinal e al a dimensionalidade.
Conhecendo um pouco mais!
A biblio eca
yda a-p o iling
é uma e amen a pode osa pa a analisa um Da aF ame,
c iando au oma icamen e um ela ó io HTML in e a i o que compila in o mações sob e as
a iá eies e suas elações. Po não se a a de uma biblio eca na i a do Py hon, é necessá io
que seja ins alada no sis ema an es de u iliza pela p ime a ez .
pip ins all yda a-p o iling
O ela ó io con ém um esumo das es a ís icas ge ais do da ase , bem como das a iá eis
indi iduais. Além disso é possí el e i ica de o ma in e a i a os diag amas de dispe são
das a iá eis 2 a 2 bem como o mapa de calo , os dados al an es e amos as do da ase . O
ela ó io pode se inco po ado den o do p óp io no ebook ou expo ado em HTML.
om yda a_p o iling impo P o ileRepo
ela o io = P o ileRepo (base_ e o no, i le="Rela ó io de
Análise", h ml={'s yle':{' ull_wid h':T ue}})
ela o io. o_no ebook_i ame() # Visualização no no ebook
ela o io. o_no ebook_ o_ ile() # Expo ação pa a a qui o HTML
Po se uma biblio eca ex e na é p eciso se a en a a sua a ualização e manu enção, especi-
almen e quando se u iliza um ambien e em nu em cuja ins alação de e se epe ida semp e
que uma no a sessão é iniciada. Embo a seja uma e amen a que acele a e pad oniza as
análises, é c ucial domina as e apas in e mediá ias manualmen e pa a consegui ealiza a
explo ação manualmen e em caso de necessidade.
5.6 Aplicando seus Conhecimen os
Ago a que ocê acompanhou odo o luxo de abalho de um es udo de caso eal, é ho a
de coloca a mão na massa! Os exe cícios a segui o mam um p oje o comple o, p oje ado
pa a que ocê possa p a ica , ap o unda os concei os e desen ol e seu senso c í ico como
cien is a de dados.
118
CAPÍTULO 5. ESTUDO DE CASO SOBRE CLASSIFICAÇÃO DO PIB BRASILEIRO
Exe cício 1: Validação da Cole a e Expansão do Da ase
a)
Acesse o po al do SGS do Banco Cen al e u ilize a Tabela 5.1 como guia pa a pesquisa
os indicado es e seus espec i os códigos.
b)
U ilizando a unção
consul a_bc
, aça a impo ação dos dados e compa e a a és da
API e compa e com os alo es exibidos na abela do po al do SGS. Eles são consis en es?
c)
Desa io: Pesquise no po al po ou os indicado es de seu in e ese, que ac edi e se em
ele an es pa a p e e o PIB (como po exemplo emp ego, ju os ou in lação).
Exe cício 2: Compa ando Técnicas de No malização
a)
No malize as a iá eis u ilizando a Pad onização (Z-sco e) e a No malização Min-
Max, e i ique o compo amen o empo al (g á ico) e o mapa de calo .
b)
Conside ando o nosso obje i o (analisa o compo amen o do ciclo econômico), qual
das ês no malizações ocê conside a a mais adequada e po quê? A espos a es á
elacionada ao concei o de es aciona iedade.
c)
Desa io: Inclua os no os indicado es escolhidos no Exe cício 1, e i ique se o mé odo de
no malização se man ém iá el e jus i ique.
Exe cício 3: Implemen ação da Disc e ização com 5 Classes
a)
Pa a cada uma das a iá eis explica i as, aça uma análise es a ís ica u ilizando unções
e g á icos. Os indicado es escolhidos são compa á eis ou suas dis ibuições possuem
compo amen o mui o dis in o?
b)
Aplique a eg a de disc e ização de 5 classes (com os limia es de
µ±1σ
e
µ±2σ
) a odas
as a iá eis. Ve i ique se alguma delas esul ou em classes azias.
c)
Desa io: C ie uma unção que eceba um Da aF ame e um dicioná io com as eg as de
disc e ização e e o ne o Da aF ame in ei o com odas as colunas disc e izadas de uma
só ez.
Exe cício 4: In es igando In e alos de Disc e ização
a)
Modi ique a eg a de disc e ização de 5 classes, al e ando os limia es (
µ±0.6745σ
e
µ±1.645σ
) e compa e o balanceamen o das classes esul an e em elação a abo dagem
”Clássica”.
b)
Quais as an agens e limi ações de usa in e alos mais cu os em elação aos in e alos
pad ão da abo dagem Clássica? Pense no ade-o en e o núme o de obse ações
na classe ”Es abilidade”e a sensibilidade do modelo pa a cap u a mo imen os menos
in ensos.
c)
Desa io: P oponha uma eg a de disc e ização baseada em qua is ou ou o c i é io
in e esse, e jus i ique po que ela pode ia se in e essan e pa a es e p oblema.
119
CAPÍTULO 5. ESTUDO DE CASO SOBRE CLASSIFICAÇÃO DO PIB BRASILEIRO
Exe cício 5: Cons uindo um Modelo P edi i o
a) Com os dados de idamen e p epa ados, sepa e as a iá eis explica i as (X) da a iá el-
al o (y) e cons ua os conjun os de einamen o, alidação e es e.
b) U ilize algum algo i mo de classi ição pa a es ima o ye a alie sua pe o mance.
c)
Compa e a pe o mance dos di e en es cená ios de p epa ação de dados que o am
es adas nos exe cícios an e io es:
•
As di e en es es a égias de no malização discu idas como a iação pe cen ual,
Z-sco e eMin-Max.
•
Os di e en es in e alos de disc e ização conside ando 3 ou 5 classes com os limia es
clássicos ou modi icações nos in e alos.
• A abo dagem baseada em classes numé icas e o One-Ho Encoding.
Fique Ale a!
Os exe cicios suge idos seguem uma a qui e u a es u u ada, onde cada pa âme o c ia um
cená io de análise único. Após p o o ipa a solução básica, é suge ido c ia uma me odologia
pa a compa a os inúme os cená ios p opos os, acili ando ambém uma ánalise quali a i a.
O obje i o maio não é necessa iamen e encon a a melho solução, mas comp eende
o p ocesso de análise e o ganização baseado no mé odo cien í ico, conseguindo u iliza
dados pa a a omada de decisão. Como on e de inspi ação e a é mesmo alidação, podemos
ci a [
20
,
2
,
3
,
22
,
21
], abalhos que e o çam o p ocesso de melho ia con ínua baseada na
obse ação e e lexão.
120
REFERÊNCIAS BIBLIOGRÁFICAS
[13]
MATTHES, E ic. Cu so in ensi o de Py hon: uma in odução p á ica e baseada em
p oje os à p og amação. São Paulo: No a ec Edi o a, 2023.
[14] MCKINNEY, Wes. Py hon pa a análise de dados. São Paulo: No a ec Edi o a, 2018.
[15] MITCHELL, Tom M. Machine Lea ning. New Yo k: WCB/McG aw-Hill, 1997.
[16]
MUELLER, John Paul. Ap endizado de máquina pa a leigos. Rio de Janei o: Al a Books,
2019.
[17] NG, And ew. Machine Lea ning Yea ning: echnical s a egy o AI enginee s, in
he e a o deep lea ning. [S.l.]: deeplea ning.ai p ojec , 2018. Disponí el em:
h ps:
//in o.deeplea ning.ai/machine-lea ning-yea ning-book/.
[18]
NG, And ew. Machine Lea ning Specializa ion. [Cu so online]. [S.l.]: DeepLea ning.AI;
S an o d Online, 2022. Disponí el em:
h ps://www.cou se a.o g/specializ
a ions/machine-lea ning-in oduc ion.
[19]
O’NEIL, Ca hy; SCHUTT, Rachel. Fazendo ciência de dados: con e sa di e a do F on line.
1. ed. Sebas opol: O’Reilly Media, 2013.
[20]
PALHARES JÚNIOR, Edua do.; ARAUJO, An ônio Ma cos Teixei a de ; SOUZA, Ad iano
Hono a o de ; SILVA, Noam Gadelha da ; SOUZA, Wenndisson da Sil a. ENSEMBLE OF
MACHINE LEARNING APPLIED TO ECONOMIC CYCLES ANALYSIS: A COMPARATIVE
STUDY USING ANTECEDENT MACROECONOMIC INDICATORS FOR BRAZILIAN
GDP PREDICTION CLASSIFICATION. In: II Con e ência In e nacional de Polí icas
Públicas e Ciência de Dados, 2024, Cu i iba. Anais da II Con e ência In e nacional
de Polí icas Públicas e Ciência de Dados, 2024, ISBN 978-65-272-0661-3. Disponí el em:
h ps://www.e en3.com.b . Acesso em: 22 se . 2025
[21]
PALHARES JÚNIOR, Edua do ; PENACHI, Rian ; SOUZA, Ad iano Hono a o de ; SILVA,
Ni aldo Rod igues da; SOUZA, Wenndisson da Sil a ; CARDOSO, Edga d, Golçal es.
The e ec o disc e iza ion on classi ica ion: a compa a i e s udy o machine lea ning
me hods applied o unusual disc e iza ion in e als o he cha ac e iza ion and p edic ion
o economic a iables. In: III Con e ência In e nacional de Polí icas Públicas e
Ciência de Dados, A ei o, 2025.
[22]
PALHARES JÚNIOR, Edua do.; ARAUJO, An ônio Ma cos Teixei a de ; SOUZA, Ad iano
Hono a o de ; SILVA, Noam Gadelha da ; SOUZA, Wenndisson da Sil a. ENSEMBLE OF
MACHINE LEARNING APPLIED TO ECONOMIC CYCLES ANALYSIS: A COMPARATIVE
STUDY USING ANTECEDENT MACROECONOMIC INDICATORS FOR BRAZILIAN GDP
PREDICTION CLASSIFICATION. REVISTA BRASILEIRA DE PLANEJAMENTO E
DESENVOLVIMENTO, ISSN: 2317-2363, Cu i iba, no p elo, 2025.
[23]
PROVOST, Fos e ; FAWCETT, Tom. Da a Science o Business: wha you need o know
abou da a mining and da a-analy ic hinking. 1. ed. Sebas opol: O’Reilly Media, 2013.
[24]
RASCHKA, Sebas ian. Py hon Machine Lea ning: machine lea ning e deep lea ning
com Py hon, Sciki -lea n e Tenso Flow 2. São Paulo: No a ec, 2021.
[25]
RUSSELL, S ua ; NORVIG, Pe e . A i icial In elligence: a mode n app oach. 3. ed.
Uppe Saddle Ri e : P en ice Hall, 2010.
127
REFERÊNCIAS BIBLIOGRÁFICAS
[26]
STOCK, J. H.; WATSON, M. W. Business cycle luc ua ions in US mac oeconomic ime
se ies. Handbook o Mac oeconomics, ol. 1, 1999, pp. 3–64.
[27]
VASILIEV, Yuli. Py hon pa a ciência de dados: uma in odução p á ica. 1. ed. São Paulo:
No a ec Edi o a, 2023.
128