Bibliotecas para hacer análisis de datos en Python

Avatar Tutor | octubre 28, 2018

Vamos a dar un paso adelante en nuestro viaje para aprender Python conociendo algunas bibliotecas útiles. El primer paso es, obviamente, aprender a importarlas en nuestro entorno. Hay varias formas de hacerlo en Python:

import math as m
from math import *

De la primera manera, hemos definido un alias m para la librería math . Ahora podemos usar varias funciones de la biblioteca matemática (por ejemplo, factorial) haciendo referencia a ella usando el alias m.factorial().

En la segunda forma, ha importado todo el espacio de nombres de math, es decir, puede usar directamente factorial() sin hacer referencia a la biblioteca math.

Consejo: Google recomienda que use el primer estilo de importación de bibliotecas, ya que sabrá de dónde provienen las funciones.

A continuación encontrará una lista de bibliotecas, que necesitará para cualquier cálculo científico y análisis de datos:

NumPy significa Numerical Python. La característica más poderosa de NumPy es la matriz n-dimensional. Esta biblioteca también contiene funciones básicas de álgebra lineal, transformadas de Fourier, capacidades avanzadas de números aleatorios y herramientas para la integración con otros lenguajes de bajo nivel como Fortran, C y C ++.

SciPy significa Scientific Python. SciPy se basa en NumPy. Es una de las bibliotecas más útiles para una variedad de módulos de ciencia e ingeniería de alto nivel como la transformada de Fourier discreta, el álgebra lineal, la optimización y las matrices dispersas.

Matplotlib para trazar una gran variedad de gráficos, desde histogramas hasta trazados de líneas para gráficos de calor.

Pandas para operaciones de datos estructurados y manipulaciones. Es ampliamente utilizado para la recopilación de datos y la preparación. Las pandas se agregaron relativamente recientemente a Python y han sido fundamentales para impulsar el uso de Python en la comunidad científica de datos.

Scikit Learn para el aprendizaje automático. Construida sobre NumPy, SciPy y matplotlib, esta biblioteca contiene una gran cantidad de herramientas eficientes para el aprendizaje automático y el modelado estadístico, que incluyen clasificación, regresión, agrupación y reducción de dimensionalidad.

Statsmodels para el modelado estadístico. Statsmodels es un módulo de Python que permite a los usuarios explorar datos, estimar modelos estadísticos y realizar pruebas estadísticas. Se encuentra disponible una lista extensa de estadísticas descriptivas, pruebas estadísticas, funciones de trazado y estadísticas de resultados para diferentes tipos de datos y cada estimador.

Seaborn para visualización de datos estadísticos. Seaborn es una biblioteca para hacer gráficos estadísticos atractivos e informativos en Python. Se basa en matplotlib. Seaborn tiene como objetivo hacer de la visualización una parte central de la exploración y comprensión de los datos.

Bokeh para crear paneles interactivos, paneles de control y aplicaciones de datos en navegadores web modernos. Permite al usuario generar gráficos elegantes y concisos al estilo de D3.js. Además, tiene la capacidad de interactividad de alto rendimiento en datasets muy grandes o de transmisión.

Blaze por ampliar la capacidad de Numpy y Pandas para la distribución y transmisión de datos. Puede usarse para acceder a datos de una multitud de fuentes, incluyendo Bcolz, MongoDB, SQLAlchemy, Apache Spark, PyTables, etc. Junto con Bokeh, Blaze puede actuar como una herramienta muy poderosa para crear visualizaciones y cuadros de mando efectivos en grandes cantidades de datos.

Scrapy para rastreo web. Es un marco muy útil para obtener patrones específicos de datos. Tiene la capacidad de comenzar en la URL de inicio de un sitio web y luego profundizar en las páginas web del sitio web para recopilar información.

SymPy para computación simbólica. Tiene una amplia gama de capacidades, desde aritmética simbólica básica hasta cálculo, álgebra, matemáticas discretas y física cuántica. Otra característica útil es la capacidad de formatear el resultado de los cálculos como código LaTeX.

Requests para solicitudes de acceso a la web. Funciona de manera similar a la biblioteca estándar de python urllib2 pero es mucho más fácil de codificar. Encontrará diferencias sutiles con urllib2, pero para los principiantes, las solicitudes pueden ser más convenientes.


Written by Tutor