Limpieza de texto utilizando Python

Como buen científico de datos, es muy común tenes proyectos e historias donde tengas que analizar grandes cantidades de texto. A veces te puede suceder que tengas que analizar texto escrito por los operadores de atención al público, o quizá analizar publicaciones de redes sociales.

Las ventajas y posibilidades que te abre minar el texto que consigas son varias:

  • Análisis de sentimiento
  • Medir popularidad de la marca midiendo la actividad de las publicaciones
  • Identificar los puntos problemáticos en la relacion con los clientes
  • Predecir sucesos, como por ejemplo identificar cuando un cliente esta por dejar la marca.

Pasos

  1. Escapar caracteres HTML
  2. Decodificar los datos
  3. Eliminar palabras comunes
  4. Eliminar puntuaciones
  5. Separar palabras pegadas
  6. Reemplazar el argot / jerga
  7. Estandarizar palabras
  8. Eliminar urls
  9. Controlar la gramática
  10. Corregir la sintaxis

Código de ejemplo

Veamos un ejemplo simple en español, no es un ejemplo que puedas ejecutar directamente, ya que asume que se han armado algunos diccionarios (como el de gramatica, sintaxis, jerga, etc) para la limpieza del texto. Al final de la entrada publicaré una pequeña lista de recursos que puedes utilizar, y en los comentarios se pueden dejar más, si es que conocen.


Recursos

  • Natural Languaje Toolkit:
    • http://www.nltk.org/
  • Stop Words:
    • https://www.ranks.nl/stopwords/spanish
  • Gramática:
    • https://pypi.python.org/pypi/language-check
  • Sintaxis:
    • https://pypi.python.org/pypi/autocorrect

Dejá una respuesta