Data Scientist – El nuevo rol

Ya hace unos años, con el advenimiento de BIG DATA se comenzó a hablar sobre un nuevo rol dentro de la empresa. Se trata del Data Scientist, este nuevo rol parece ser el indicado para poder analizar grandes volúmenes de información.

Según sostienen, el Data Scientist tiene que estar familiarizado con el proceso de capturar, analizar y presentar los datos de negocio. Veamos cada una de estas características con mayor detalle:

Captura

El Data Scientist tendrá que conocer sobre programación y base de datos. Tecnologías y lenguajes como Hadoop, Java, Python, SQL, Hive y Pig son algunas de las características esenciales. También deben predominar los conocimientos de procesos de ETL (Extract, Transform, y Load). Por supuesto también deberá conocer donde guardar estos datos y cual es la mejor manera, entonces este rol tenga que conocer sobre modelado de datos, data warehouse y datos no estructurados. Por último tendrá que entender que es lo que está procesando y para qué le puede servir. Así, el Data Scientist tendrá que tener amplios conocimientos del negocio, cosa que solo se gana con la experiencia y con formularse preguntas continuas sobre la temática en al cual esté trabajando.

Análisis

Utilizar R, Excel, SAS y otras herramientas que ayuden a construir proposiciones, descubrir patrones y correlaciones a través de las estadísticas es el corazón del trabajo con datos. La utilización de estas herramientas es una de las principales habilidades requeridas por el Data Scientist. Todo esto deberá estar acompañado por conocimientos en matemática, este rol deberá entender qué es una correlación, o una regresión y todos los aspectos de masajear los datos en conjunto para verlo desde diferentes ángulos para su uso en modelado predictivo y descriptivo es la columna vertebral del conocimiento que ayudan a dar el paso para revelar la inteligencia.

Presentación

Por último, pero tan importante como los puntos anteriores, este nuevo rol deberá manejar herramientas de visualización como Flare, HighCharts, AmCharts, D3.js, entre otros de forma tal de encontrar la mejor manera de presentar los resultados visualmente. Pero no solo bastará con una buena presentación sino que el Data Scientist tendrá que ser bueno explicando y contando como llegó a los resultados y por qué esos resultados son confiables. El Data Scientist deberá tener habilidades de Storytelling.

 

Algunos links sobre el tema:
http://www.sas.com/en_us/insights/analytics/what-is-a-data-scientist.html
https://datajobs.com/what-is-data-science

facebooktwitter

3 errores a evitar en la visualización de datos

Cuando hablamos de Big Data todos pensamos en la problemática de cómo procesar grandes volúmenes de datos. Pero ¿qué hay sobre la visualización de los mismos? Sin duda la forma en que visualizamos estos grandes volúmenes de datos no es trivial, y no la podemos pasar por alto. Aquí les presentamos 3 errores comunes que debemos evitar cuando queremos mostrar datos:

1°) Mostrar todos los datos:

Lamento comunicarles que al usuario final no le importará que tan grande son la cantidad de datos que procesamos, ni el esfuerzo que nos lleva, ni que tan grande es nuestro cluster de Hadoop.
Los clientes y usuarios internos quieren respuestas pertinentes y específicas, y mientras más pronto se puedan obtener esas respuestas, mejor. Mientras le brindemos la información más cercana a lo que necesitan, menos tiempo tendrán que perder en obtener dicha información. Cualquier dato irrelevante que mostremos, hará más difícil encontrar datos relevantes. Todo dato irrelevante generará “ruido” en nuestra información.

Es muy común encontrar ruido en los tableros de comando, donde muchas veces la lógica que se sigue es “¡Mostremos todo!” Un buen tablero debería mostrar solo lo que importa o interesa medir. Debemos dar prioridad a lo importante, lo que es inesperado, y lo que es accionable, y restarle importancia a todo lo demás. Profundizar sobre los datos puede ser importante, pero los tableros no son el lugar para realizar esto.

2°) Mostrar datos incorrectos:

Este error es tan peligroso como el primero. Mostrar subconjuntos de información está muy bien, siempre y cuando las relaciones entre los datos sean relevantes. Si usted se preocupa por las ventas, por ejemplo, es posible que también le preocupen las ventas por región o ventas a través del tiempo. Piense como utilizará estos datos para la toma de decisiones y evalúe si son útiles.

Mostrar varios gráficos fuertemente relacionados puede ser una buena ecuación entre mostrar demasiado en un mismo gráfico o mostrar un gráfico demasiado general. Algunos gráficos claros, con poca información, y relacionados entre sí, son mucho mejor que una única visualización complicada.

3°) Representación pobre de los datos

Incluso cuando seleccionemos los datos correctos, los podemos estar mostrando de una forma equivocada. Los gráficos exóticos son raramente vistos, ya que no funcionan muy bien y son difíciles de comprender. La mayoría de las veces la información a mostrar se resuelve con gráficos de barra o líneas, gráficos de dispersión, y de torta.

Detecte las relaciones claves entre los datos, y considere en poner esos datos en los ejes del gráfico. Agrupe por categoría y luego ordene los datos por tiempo, o magnitud, o importancia. Utilice colores para las categorías, y no magnitudes; se pude usar brillos o saturación para ilustrar una magnitud. Utilice etiquetas y otras marcas de forma selectiva para llamar la atención sin estorbar.
Aquí algunos consejos para un buen diseño: Piense y planifique primero .

La mejor forma de evitar todos estos errores es centrarse primero en sus metas. Antes de decidir cómo realizar sus visualizaciones, hágase las siguientes preguntas, en este orden:

1. ¿Qué acciones necesita realizar para llevar a cabo su negocio (o lo que es lo que importa)?
2. ¿Qué decisiones debe informar (y ¿qué vamos a hacer al respecto)?
3. ¿Qué preguntas necesita hacerse?
4. ¿Qué datos tiene que ver?
5. ¿Cuál es la mejor estructura para revelar las relaciones importantes entre los datos?
6. ¿Qué datos hay que destacar?

Fuente | Information Management

facebooktwitter

Estaciones con más pasajeros – Metro de Buenos Aires

Estaciones con mayor cantidad de pasajeros según sus molinetes en el metro de Buenos Aires.
Datos tomados de OpenData del Gobierno de la Ciudad de Buenos Aires.
Muestra: 3 millones de registros.
Herramienta utilizada: Tableau

estaciones con más pasajeros

facebooktwitter

BI Self Service

Forrester no se confundió cuando en el 2011 dio como una de sus predicciones de Business Intelligence el crecimiento de las herramientas de BI Self Serivice. Está modalidad de “Sírvase usted misimo” (y no dependa de IT) ha ido creciendo en estos años. Uno de los pioneros, sobre todo en sud américa y américa latina, fue sin duda QlikView, quien llegó con un cambió de paradigma a lo que se conocía como el “BI tradicional”, no ETL y no Data Warehouse es el eslogan de este nuevo tipo de herramientas. El usuario puede conectarse directamente a una o varias fuentes de datos, selecciona que datos quiere utilizar, elige un tipo de gráfico, y listo! La herramienta hace el resto del trabajo. Otras herramientas con estas características son Tableau y Spotfire que cada vez empiezan a sonar más fuerte por estos lugares.

Como siempre decimos, hoy en día casi todas las herramientas de BI ofrecen las mismas capacidades, y si no las ofrecen, hacen lo posible para agregarlas rápidamente a su suite para ser competitivos en el mercado. Así es, por ejemplo, el caso de Microsoft y Microstrategy, las cuales cuentan con herramientas de BI Tradicional, y que, para competir con las herramientas de self-services, lanzaron Powerpivot y Microstrategy Analytics respectivamente.

Más allá de la herramienta de Business Intelligence que elijamos para nuestra organización, debemos enfocarnos en cómo gobernaremos nuestra solución como un todo. ¿Cómo haremos para que se siga consumiendo la información de un único repositorio de datos? ¿Cómo haremos para que convivan más de una herramienta de BI en nuestra empresa? ¿Cómo lograremos tener control del consumo de información sin perjudicar a los usuarios finales? Estas son algunas de las preguntas que tenemos que tener en cuenta para seguir brindando la información necesaria en el momento justo a la persona indicada.

facebooktwitter

Cuadrante Mágico BI y Analytics 2014

Fuente: Gartner

facebooktwitter