Si tuviera que aprender Data Science de nuevo, ¿Cómo lo haría?

Un día de estos me puse a pensar por dónde empezaría a aprender machine learning y data science si tuviera que comenzar de nuevo. Y lo vacilón de este ejercicio es que la ruta que me imaginé no fue nada similar a la que hice en su momento.

Estoy consciente de que todos aprendemos de distintas maneras. Algunos prefieren videos, a otros les basta con unos buenos libros y muchos ocupan un curso pago para sentir un poco de presión extra. Y todos están bien, lo importante es aprender y disfrutarlo.

Entonces, hablando desde mi propia experiencia y conociendo cómo es que aprendo mejor, creé esta ruta que explica por dónde empezaría a aprender sobre ciencias de datos si tuviera que iniciar de nuevo.

Como irán viendo mi manera preferida de aprender es ir de lo simple a lo complejo gradualmente. Es decir comenzar con ejemplos concretos para luego poder entender los conceptos más abstractos.

Kaggle micro-cursos

Sé que quizás sea raro empezar por acá, muchos preferían comenzar por los fundamentos y videos más pesados en mate para entender a fondo que es lo que está pasando, pero desde mi perspectiva creo que empezar con algo práctico y concreto ayuda a tener una mejor perspectiva.

Además, estos son mini cursos de 4 horas cada uno. Entonces ir cumpliendo esas pequeñas metas al inicio agrega un boost de motivación adicional.

Si ya sabés Python podés saltarte esta parte. Acá aprenderás los conceptos básicos de Python que luego te ayudarán para poder empezar a aprender sobre ciencias de datos. Habrán un montón de cosas sobre Python que todavía van a ser un misterio. Pero conforme vayamos avanzando vas a ir aprendiendo con la práctica.

Link: https://www.kaggle.com/learn/python

Precio: Gratis

Pandas nos va a dar las habilidades para empezar a manipular datos en Python. Considero que con un mini curso de 4 horas y ejemplos prácticos es suficiente para tener una noción de las cosas que se pueden hacer. Más adelante con práctica y otros recursos vamos a ir refinando las habilidades.

Link: https://www.kaggle.com/learn/pandas

Precio: Gratis

Visualización de datos es quizás una de las habilidades más subestimadas pero es de las más importantes que podés tener. Te va a permitir entender más a fondo los datos con los que vas a estar trabajando.

Link: https://www.kaggle.com/learn/data-visualization

Precio: Gratis

Acá es donde se empieza a poner emocionante. Vas a aprender conceptos básicos pero muy importantes para empezar a entrenar modelos de machine learning. Conceptos que luego va a ser fundamental tenerlos muy claros.

Link: https://www.kaggle.com/learn/intro-to-machine-learning

Precio: Gratis

Este es complementario al anterior pero acá vas a trabajar con variables categóricas por primera vez y lidiar con campos nulos en tus datos.

Link: https://www.kaggle.com/learn/intermediate-machine-learning

Precio: Gratis

Detengamonos un momento acá. Hay que tener claro que estos 5 mini cursos no van a ser un proceso lineal, probablemente vayas a tener que estar yendo y viniendo entre uno y otro para refrescar conceptos. Cuando estés en el Pandas tal vez tengas que volver a de Python para recordar algunas cosas o ir a la documentación de pandas para entender nuevas funciones que viste en el de Introducción a Machine Learning. Y todo esto está bien, justo acá es dónde va a ocurrir el aprendizaje real.

Ahora, si te das cuenta estos primeros 5 cursos te van a dar las habilidades necesarias para hacer análisis exploratorios y crear modelos base que luego más adelante vas a poder mejorar. Así que este es el momento justo para empezar con competencias simples en Kaggle y poner en práctica lo que has aprendido.

Acá vas a poner en práctica lo que aprendiste en los cursos introductorios. Quizás vaya a ser algo intimidante al inicio, pero no importa no se trata de quedar de primero en la tabla, se trata de ir aprendiendo. En esta competencia vas a aprender sobre clasificación y métricas relevantes para este tipo de problemas como precision, recall y accuracy.

Link: https://www.kaggle.com/c/titanic

En esta competencia vas a poner aplicar modelos de regresión y aprender sobre métricas relevantes para este tipo de problemas como RMSE.

Link: https://www.kaggle.com/c/home-data-for-ml-course

Ya para este punto tenés bastante experiencia práctica y sentís que podés resolver un montón de problemas, peeero tal vez no entendés qué es lo que pasa por detrás de cada uno de los algoritmos de clasificación y regresión que has usado. Así que aquí es donde tenemos que ponernos a estudiar los fundamentos de lo que estamos aprendiendo.

Muchos cursos empiezan por aquí, pero al menos yo absorbo mejor esta información ya una vez que he trabajado en algo práctico antes.

En este punto nos vamos a separar momentáneamente de pandas, scikit-learn y demás bibliotecas con las que hemos venido trabajando para aprender de una manera práctica que es lo que ocurre “por debajo” de estos algoritmos.

Este libro es bastante amigable de leer, trae ejemplos en Python de cada uno de los temas y no tiene mucha matemática pesada, que es algo fundamental para esta etapa. Queremos entender el principio de los algoritmos pero aún teniendo una perspectiva práctica, no queremos desmotivarnos viendo un montón de notación matemática densa.

Link: Amazon

Precio: $26 aprox

Si llegaste hasta acá diría que sos bastante capaz de trabajar en ciencias de datos y entender los principios fundamentales detrás de las soluciones. Entonces acá te invito a seguir participando en competencias de Kaggle más complejas, participar en los foros y explorar nuevos métodos que te vayas encontrando en las soluciones de otros participantes.

Acá vamos a ver muchas de las cosas que ya aprendimos pero lo vamos a ver explicado por uno de los lideres del machine learning además que el enfoque va a ser más matemático así que va a ser una excelente forma de ir entendiendo aún a más a fondo el funcionamiento de nuestro modelos.

Link: https://www.coursera.org/learn/machine-learning

Precio: Gratis sin el certificado - $79 con el certificado

Ahora sí llegamos a la parte de matemática más pesada. Imagínate si hubiéramos empezado por acá, hubiera sido un camino cuesta arriba todo el tiempo y probablemente nos hubiéramos rendido más fácil, más si estás estudiando por tu cuenta.

Link: Amazon

Precio: $60, hay una versión gratuita oficial en la página de Stanford.

Para entonces probablemente ya has leído sobre deep learning y traveseado algunos modelos. Pero acá vamos a sentar las bases de qué son las redes neuronales, para qué funcionan y aprender a implementar y aplicar las distintas arquitecturas que hay.

Link: https://www.deeplearning.ai/deep-learning-specialization/

Precio: $49/mes

Y ya en este punto depende mucho de tus propios intereses, podés concentrarte en problemas de regresión y series de tiempo o quizás ir más en deep learning. Va a depender mucho de vos.

Por último les quería contar que estoy pronto a lanzar un juego de Trivia de Data Science con preguntas y respuestas que suelen salir en las entrevistas. Para recibir más noticias sobre el juego pueden suscribirse acá.

Physicist turned data scientist. Creator of http://datasciencetrivia.com a Q&A card game to learn key data science concepts by playing.

Physicist turned data scientist. Creator of http://datasciencetrivia.com a Q&A card game to learn key data science concepts by playing.