Falta Ciência de Dados nos Bootcamps de Python para Ciência de Dados!
- #Python
Ficou confuso? Não esquenta não! Já já você vai entender.
Bom, meu primeiro artigo aqui na DIO e gostaria de falar sobre o que venho estudando no momento, python e ciência de dados. Mas, por que, na minha opinião, falta ciência de dados nos bootcamps de python para ciência de dados?
Atualmente, aqui na plataforma, temos dois bootcamps voltados para essa área e, ao analisar os módulos dentro de cada bootcamp, temos os módulos que falam sobre introdução a ciência de dados com python, SQL, power bi e machine learning. No primeiro módulo temos o necessário que devemos saber sobre python para darmos os primeiros passos nesse mundo de análise e ciência de dados, mas o que temos é somente o python puro, e na minha humilde opinião, falta de fato um módulo que nos introduza a ciência de dados com python, e por isso gostaria de citar aqui cinco pontos fundamentais dentro da ciência de dados que são essenciais para quem esta começando e que esta faltando nos bootcamps.
1. Estatística: Como estudar ciência de dados sem conhecer ao menos o básico sobre essa disciplina? É preciso ter o mínimo de conhecimento sobre análise exploratória e suas estimativas como média, mediana, média aparada, mediana ponderada! Partindo desse ponto, começamos a falar então sobre as bibliotecas python mais utilizadas em ciência de dados.
2. Numpy: Uma biblioteca poderosa para se trabalhar com arrays multi-dimensionais. Ela nos trás uma vasta coleção de funções matemáticas que facilita o trabalho com dados. É aqui que aplicamos de fato o conhecimento em estatística através do python. Algumas dessas funções nos ajudam a aplicar as estimativas estatísticas como mean(retorna a média), std(desvio padrão), average(calculo da média ponderada), dentre varias outras.
3. Pandas: O pandas nos permite realizar análise de dados em varios tipos de arquivos, xls e csv são alguns exemplos. Criação de dataframes, manipulação e limpeza dos dados, todo o processo de ETL(extração, transformação e carregamento dos dados), e muito mais.
4. Matplotlib: Trabalhando em conjunto com a biblioteca numpy, é utilizada para a criação de gráficos, facilitando a visualização e o entendimento dos dados obtidos.
5. Seaborn: Uma biblioteca de analise gráfica de dados em python. O seaborn é baseado no matplotlib e como tal, serve para criar gráficos estatísticos mais elegantes. Ele é útil para se trabalhar com dados complexos, pois oferece ferramentas que simplificam o processo de visualização.
É isso! Acho que um módulo que abrangesse esses cinco pontos, a disciplina de estatística e as quatro bibliotecas que estão entre as mais utilizadas para ciência de dados, seria o ideal para termos uma formação ideal em ciência de dados. Lógico que é apenas minha opinião, até mesmo pelo que tenho visto de outros cursos. Deixando claro que não estou querendo desmerecer a qualidade do ensino aqui na DIO, sou aluno e sei da qualidade da plataforma, mas esse artigo é como uma critica construtiva para que plataforma possa melhorar cada vez mais.
Fica a dica ai DIO, esse conteúdo aqui seria ótimo em futuros bootcamps e/ou formações. Agora gostaria de saber sua opinião! Concorda, discorda, tem algo a acrescentar? Então, até o próximo artigo.