
MAPA - CDAC - ANÁLISE PREDITIVA E CLASSIFICAÇÃO - 53_2025
MAPA - CDAC - ANÁLISE PREDITIVA E CLASSIFICAÇÃO - 53_2025
Olá, estudante!
Nesta atividade MAPA, você terá a oportunidade de colocar em prática seus conhecimentos. A proposta simula um desafio real do mercado, no qual é necessário compreender, preparar e analisar dados para gerar valor e insights relevantes.
Você terá que desenvolver um projeto completo de análise preditiva e classificação, baseado em uma base de dados semelhante à famosa *Iris Dataset*.
O objetivo principal é aplicar todos os conceitos vistos ao longo do curso, incluindo:
- Limpeza e pré-processamento de dados.
- Análise exploratória (EDA).
- Mineração e vetorização de textos (se houver colunas textuais).
- Criação de modelo preditivo.
- Avaliação do modelo.
- Explicação e interpretação dos resultados.
Base de Dados
Você deverá utilizar um conjunto de dados real do Kaggle.
[Base de Dados – Iris Species](https://www.kaggle.com/datasets/uciml/iris)
Etapas Obrigatórias do Projeto
1. Importação e leitura dos dados.
2. Análise exploratória com visualizações.
3. Tratamento de valores ausentes, duplicados e outliers.
4. Codificação de variáveis categóricas (se necessário).
5. Pré-processamento para classificação (scaling, vetorização se houver texto).
6. Divisão entre treino e teste.
7. Criação de pelo menos dois modelos classificadores.
8. Avaliação de performance com métricas.
9. Conclusão com insights e interpretação.
10. Documentação clara e bem comentada.
Dicas
- Explore bem os gráficos como `pairplot`, `heatmap`, `scatter`, `boxplot`.
- Avalie o desempenho com **accuracy, f1-score, matriz de confusão**.
- Utilize `train_test_split`, `StandardScaler`, `CountVectorizer`, `LogisticRegression`, `RandomForestClassifier`, `Naive Bayes`, entre outros.
- Justifique as escolhas de modelo e mostre o raciocínio por trás das decisões.
Para a entrega da atividade siga as seguintes orientações.
1. Importação e Leitura dos Dados
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
url = 'https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv'
df.head()
# 2. Análise Exploratória (EDA)
# Estatísticas descritivas
# Informações do DataFrame
# Gráfico de pares
plt.show()
# Heatmap de correlação (apenas colunas numéricas)
plt.show()
3. Limpeza de Dados
df.isnull().sum()
df.duplicated().sum()
df.drop_duplicates(inplace=True)
Pré-processamento
from sklearn.preprocessing import LabelEncoder, StandardScaler
# Transforma a coluna 'species' de string para número
Escrever aqui o código ->
Escrever aqui o código ->
# Padroniza as features numéricas (média 0, desvio-padrão 1)
Escrever aqui o código ->
Escrever aqui o código ->
Escrever aqui o código ->
5. Separação de Dados
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
6. Criação dos Modelos
from sklearn.ensemble import RandomForestClassifier
from sklearn.naive_bayes import GaussianNB
model1 =
model2 =
Escrever aqui o código ->
Escrever aqui o código ->
7. Avaliação dos Modelos
from sklearn.metrics import classification_report, confusion_matrix
print('Random Forest')
y_pred1 =
# mostre a matrix de confusão
Escrever aqui o código ->
#mostre o report classification
Escrever aqui o código ->
8. Conclusão
IMPORTANTE:
1. Acesse o link com um vídeo tutorial para ajudá-lo nesse processo de criação e desenvolvimento. O acesso deverá ser realizado em: Materiais >> Material da Disciplina.
2. Responda a todos os itens, seguindo como roteiro os tópicos elencados anteriormente, e coloque em um único arquivo.
3. A entrega deve ser feita por meio do Template de entrega da atividade MAPA, disponível no material da disciplina.
4. Antes de enviar sua atividade, certifique-se de que respondeu a todas as perguntas e realize uma cuidadosa correção ortográfica.
5. Após o envio não são permitidas alterações ou modificações. Logo, você tem apenas uma chance de enviar o arquivo corretamente. Revise bem antes de enviar!
6. Lembre-se de que evidências de cópias de materiais, incluindo de outros estudantes, sem devidas referências, serão inquestionavelmente zeradas. As citações e referências, mesmo que do livro da disciplina, devem ser realizadas conforme normas da Instituição de Ensino.
7. Não são permitidas correções parciais no decorrer do módulo, ou seja, o famoso: “professor, veja se minha atividade está certa?”. Isso invalida seu processo avaliativo. Lembre-se de que a interpretação da atividade também faz parte da avaliação.
8. Procure sanar suas dúvidas junto à mediação em tempo hábil sobre o conteúdo exigido na atividade, de modo que consiga realizar sua participação.
9. Atenção ao prazo de entrega, evite envio de atividade em cima do prazo. Você pode ter algum problema com internet, computador, software etc., e os prazos não serão flexibilizados, mesmo em caso de comprovação.
Bons estudos!
