data-mining-python

Python Data Mining: Análisis de las Elecciónes en Nuevo León

Análisis de información en redes sociales 

El análisis de información en redes sociales es una de las tendencias de minería de datos y extracción de información de los últimos años que está siendo practicada especialmente en países desarrollados.

Es utilizada para recolectar y encontrar patrones en los datos de cualquier tipo de tema o área de investigación, desde marketing o ventas, hasta temas en donde se conoce poco y se pretende indagar como por ejemplo: estudios de mercado haciendo uso de lo que la gente piensa u opina sobre alguna marca o producto e incluso sobre política.

Este tipo de análisis puede incluir distinción de sentimientos, haciendo un uso extensivo de la manipulación y procesamiento del lenguaje natural. Actualmente Python es uno de los lenguajes de programación que ya posee un diccionario o cuerpo de palabras en varios lenguajes, el cual nos permite realizar la separación de las oraciones hasta su más bajo nivel; éste es el “Natural Language Processing Toolkit” (NLTK). Existe también otro lenguaje de programación y estadístico llamado R, el cual también posee un cuerpo de palabras para ayudarnos a clasificar, limpiar y realizar un proceso similar al de NLTK.

El famoso Word Cloud

Con ambos podemos construir la denominada “Word Cloud”, nube de palabras, la cual básicamente pretende mostrar al lector de una manera muy gráfica, un mundo de las palabras más usadas, basada en la frecuencia con la que se topa dicha palabra en una serie de textos o sentencias. El objetivo final es darnos una idea general de lo que se está hablando acerca de cierto tema, acontecimiento, producto, servicio, empresa, etc.

¿Qué fue lo que hicimos?

Durante los últimos 2 meses, Northware realizó la minería de datos acerca del las elecciones del estado de Nuevo León en Twitter. Para ello, fue necesario localizar los parámetros de búsqueda que nos llevarían a obtener el mayor número de afluencia en la información, llámese #hashtags, @usuarios o textos libres. Para llegar a los hashtags, usuarios y/o parámetros de búsqueda, primero se analizaron de manera manual las cuentas de los candidatos, así como los #hashtags más usados, quienes derivaron en otros que también fueron seleccionados por los internautas para expresar su parecer sobre el candidato o tema relacionado a las elecciones para Gobernador en Nuevo Léon.

Arrancando el 22 de marzo del 2015 se recolectaron un total de 130,430 tweets en un periodo de 2 meses, de los cuales sólo 98,598 fueron realmente utilizados, ya que el resto habla de las candidaturas de los partidos políticos en otros estados en donde Nuevo León sólo figura como actor secundario y nunca como un actor principal.

El mes de abril fue uno de lo meses con mayor afluencia de “twitteros” en la red social, recolectando 55,880 tweets correspondientes al 42.84% del total, seguido del mes de marzo con sólo unas unidades por abajo con 40.06% y por último el mes de mayo pues no fue un mes completo para este análisis con un 17.10%, ¿Será que la afluencia mayor ya fue dada en el mes de abril y los internautas han perdido el interés de seguir usando la red social para expresar su sentir en este tema?

Además de Monterrey y su área metropolitana (Apodaca, Santa Catarina, San Nicolás de los Garza, San Pedro Garza García, Guadalupe, Escobedo, García), nos encontramos con otras ciudades y países en donde el tema es reconocido como en China Nuevo León, la ciudad de México, Guadalajara, Chihuahua, Mazatlán, Tijuana, Arizona; sin embargo, la ciudad de Monterrey es la locación que posee más del 50% de la fuente de datos, lo que nos muestra que el tema de las elecciones de Nuevo León no es un tema que no sólo compete a este estado, sino que es de interés nacional.

Para llegar a cabo esta indagación, se juntaron 18 bases de datos, cada una corresponde al parámetro de búsqueda, ya sea hashtag o usuario, de las cuales la búsqueda “#claroquepodemos” recolectó 52,478, seguido de “#yosoybronco” con 11,489 tweets y por muy poco “#buengobierno”, almacenando 10,627 tweets. Es importante remarcar que una base de datos que supera a las 2 últimas es la de “#nuevoleon”, juntando 31,838 tweets, sin embargo no puede figurar dentro de las más concurridas para este tema, puesto que en ella se mezclan temas de otra índole y no necesariamente hablan de las elecciones. Aunque es posible separar temas haciendo uso de la herramienta NTLK de Python o R, nos tomaría mucho tiempo determinar y clasificar los diferentes tópicos aún apoyándonos de herramientas como Tokenizing, pero por el momento el alcance de esta investigación no llegó hasta ahí.

Con base a lo anterior, se echó un “vistazo” a la información recolectada y se trabajó en el limpiado de sentencias y palabras como artículos, preposiciones, etc. en cada una de las bases de datos con el fin de mostrar de una manera más “gráfica y rápida” la tendencia en la red social. Para los residentes del estado de Nuevo León, tal vez el hallazgo no sea de los más sorprendente e impactante, puesto que vivimos directamente con ello y diariamente se habla del tema, pero este hecho no le quita su nivel de relevancia.

A continuación presentamos el “word cloud” generado con toda la información, exceptuando la base de datos de “#nuevoleon”, descartada por cuestiones previamente establecidas, con la finalidad de no generar ruido en la proyección:

El resultado: Las 600 palabras más sobresalientes y usadas

python-data-mining-elecciones-nuevo-leon

Recordemos que un word-cloud se construye a partir de una serie de palabras dadas en un cuerpo de sentencias y palabras clasificadas por medio del lenguaje, pero más importante, por la frecuencia de aparición.

El color y el tamaño dan al espectador una idea clara de qué es lo que más se dice o se espera de cierto tema, en este caso pudiéramos interpretar que hay un pueblo lleno de esperanza que cree que sí se pude lograr un buen gobierno, y que además no sólo existe un candidato (#yosoybronco); el candidato Felipe Cantú también aparece en esta imagen, pero a juzgar por el color, posición y tamaño en el gráfico, la gente no muestra tanto interés como en el candidato conocido como “El bronco”, quien encabeza al menos en las redes sociales, la lista de candidatos de este tema.

Como dato curioso, a pesar de que la candidata del PRI – Ivonne Álvarez es una de las más promocionadas y que aparece en muchísimos anuncios y espectaculares en la ciudad, en la redes sociales no sucede lo mismo. ¿Será que no le apuesta tanto a la tecnología y en específico a las redes sociales como los otros candidatos? ¿Crees que su estrategia en redes sociales fue la adecuada?

Si bien es cierto que las elecciones aún no han llegado y que estamos a 5 días de que éstas tomen lugar, es muy posible que la perspectiva de este gráfico cambie, tal como lo puede hacer la decisión de aquellos que aún no definen su voto.

Analizando sentimientos entre líneas

Dentro del área de análisis de información, existe algo que ha tenido un gran auge en los últimos años: el análisis de sentimientos en los textos. Lo anterior es posible hacerlo mediante un algoritmo especial en el lenguaje español, pero para ser más exactos ocuparíamos detallarlo de tal forma que se de significado a las palabras especiales que los mexicanos utilizamos día con día; de lo contrario, no tendría un valor agregado puesto que la inferencia del sentimiento sería mas o menos de un 50%. La razón de ello es que además de clasificar los textos en positivos, negativos y neutros, es necesario traspolarlos a un sentimiento como: felicidad, enojo, tristeza, indiferencia, ironía, sarcasmo, etc.; siendo estos 2 últimos los principales retos en este tipo de análisis.

Definitivamente no todo es el sentimiento, pero sí ayuda para identificar qué áreas de oportunidad existen en cierto tema y describir incluso cosas que de las cuales se tenía una muy vaga idea.

Existen n tipo de ejercicios y estudios que podemos realizar con estas herramientas, por ejemplo: las quejas de algún producto o servicio, la atención al cliente por parte de las empresas, elecciones nacionales, temas de interés y furor social, temas laborales como quejas de trabajadores, o bien el desfogue de algún problema colectivo en nuestra sociedad. Definitivamente es todo un reto trabajar la parte de investigación y más cuando podemos descubrir nuevos patrones para llegar a una conclusión y en el mejor de los casos poder tomar la decisión correcta.

Esperamos que te haya parecido interesante este artículo, si fue así, ayúdanos a compartirlo.

  • Para esta investigación fueron analizadas únicamente cuentas activas de twitter con un perfil público.
  • Este artículo no constituye una posición a favor de ningun candidato, los datos aquí mostrados son resultados reales de una serie de estudios y pruebas.
  • Northware se declara una empresa totalmente apartidista sin la intención de incitar el voto a ningún candidato.

Si estás próximo a arrancar un proyecto de desarrollo de software, estás buscando soluciones en sistemas de información o desarrollo de aplicaciones móviles y/o te interesa conocer más sobre este tema, te invito a que nos contactes.

Somos una empresa de software, especialista en desarrollo de aplicaciones web, fábrica de software y desarrollo de aplicaciones móviles. Desarrollamos software basado en Microsoft .NET, y aplicaciones nativas en iOS o Android; para aquellas empresas que solo requieren la contratación directa de especialistas, proveemos consultores por proyecto, temporales o fijos, con experiencia en las tecnologías más avanzadas para apoyar tu estrategia en desarrollo de sistemas y desarrollo de apps.