Descripción
Cree su propio corpus de entrenamiento de lenguaje natural para el aprendizaje automático. Ya sea que trabaje con inglés, chino o cualquier otro lenguaje natural, este libro práctico lo guía a través de un ciclo de desarrollo de anotaciones probado, el proceso de agregar metadatos a su corpus de entrenamiento para ayudar a que los algoritmos de aprendizaje automático funcionen de manera más eficiente. No necesita experiencia en programación ni lingüística para empezar.
Con ejemplos detallados en cada paso, aprenderá cómo el Proceso de desarrollo de anotaciones MATTER le ayuda a Modelar, Anotar, Entrenar, Probar, Evaluar y Revisar su corpus de entrenamiento. También obtendrá un recorrido completo por un proyecto de anotación del mundo real.
- Defina un objetivo de anotación claro antes de recopilar su conjunto de datos (corpus)
- Aprenda herramientas para analizar el contenido lingüístico de su corpus
- Cree un modelo y una especificación para su proyecto de anotación
- Examine los diferentes formatos de anotación, desde XML básico hasta el Marco de anotación lingüística
- Cree un corpus de referencia que pueda usarse para entrenar y probar algoritmos de aprendizaje automático
- Seleccione los algoritmos de aprendizaje automático que procesarán sus datos anotados
- Evalúe los resultados de la prueba y revise su tarea de anotación
- Aprenda a usar software liviano para anotar textos y adjudicar las anotaciones
Este libro es un compañero perfecto para Natural Language Processing with Python de O'Reilly.
Autor: James Pustejovsky, Amber Stubbs
Editorial: O'Reilly Media
Publicado: 20/11/2012
Páginas: 342
Tipo de encuadernación: Tapa blanda
Peso: 1.21 libras
Tamaño: 9.01h x 7.07w x 0.73d
ISBN13: 9781449306663
ISBN10: 1449306667
Categorías BISAC:
- Informática | Ciencia de datos | Modelado y diseño de datos
- Informática | Inteligencia artificial | Procesamiento de lenguaje natural
Sobre el autor
James Pustejovsky enseña e investiga en Inteligencia Artificial y Lingüística Computacional en el Departamento de Ciencias de la Computación de la Universidad de Brandeis. Sus principales áreas de interés incluyen: significado léxico, semántica computacional, razonamiento temporal y espacial y lingüística de corpus. Es activo en el desarrollo de estándares para la interoperabilidad entre aplicaciones de procesamiento de lenguaje, y lideró la creación del estándar ISO recientemente adoptado para la anotación temporal, ISO-TimeML. Actualmente está liderando el desarrollo de un estándar para anotar información espacial en el lenguaje. Más información sobre publicaciones y actividades de investigación se puede encontrar en su página web: pusto.com.
Amber Stubbs completó recientemente su doctorado en Ciencias de la Computación en la Universidad de Brandeis y actualmente es Asociada Postdoctoral en SUNY Albany. Su disertación se centró en la creación de una metodología de anotación para ayudar a extraer información de alto nivel de archivos de lenguaje natural, particularmente textos biomédicos. Su sitio web se puede encontrar en http: //pages.cs.brandeis.edu/ astubbs/

