Lingüística Computacional

Lingüística Computacional

La lingüística computacional (LC) es una ciencia interdisciplinaria
que se ubica entre la lingüística y la informática, con énfasis en la lingüística. Su fin es la elaboración de modelos computacionales que reproduzcan uno o más aspectos del lenguaje humano. Dos áreas cercanas a la LC son el procesamiento del habla realizado por parte de la informática y el reconocimiento de voz desarrollado por la ingeniería eléctrica.
Historia de la LVC

El término “lingüística computacional” comenzó a usarse en los años
sesenta, pero ya a finales de la Segunda Guerra Mundial se había estado trabajando en este campo. De hecho, uno de los primeros usos que se les dio a la computadoras fue en el área del procesamiento del lenguaje humano.
En los años 40 y 50 se produjeron grandes avances en dos áreas que
resultarían claves para la evolución de las tecnologías de procesamiento del lenguaje humano: la teoría de los autómatas y los modelos probabilísticos o de teoría de la información.  
A finales de los años 50, las investigaciones fueron concentrándose
en dos áreas principales: un campo simbólico y uno estocástico (un proceso no determininista).
El corpus Brown de inglés gringo fue el primer corpus de gran
envergadura y el que motivó en los años 60 diversas investigaciones en la
lingüística de corpus.
En los 80,los modelos probabilísticos dejaron de ser dominio
primordial de los ingenieros en el área de reconocimiento de voz y comenzaron a ser utilizados para el análisis morfológico y sintáctico, para la traducción automática y para muchas otras áreas.
Los años 90 han visto la revolución de Internet y una consecuente
necesidad de perfeccionar las tecnologías de procesamiento automático del lenguaje. 

AREAS de la LC
Cualquier aspecto del lenguaje puede ser estudiado por la LC desde métodos para transformar conceptos complejos en representaciones semánticas fácilmente procesables por máquinas, hasta la transformación de un texto en un lenguaje concreto y con convenciones muy particulares en una voz de apariencia humana. Por ser un estudio tan amplio, se divide en distintas áreas:
1. Etiquetamiento morfológico o Tagging
Es el análisis morfológico automático de las palabras que componen una frase dada. Datos de carácter sintáctico y/o semántico son con frecuencia necesarios si se quiere obtener una sola interpretación posible de la morfología de una palabra dada en una oración.Si las ambigüedades no son resueltas en el etiquetamiento, pueden ser analizadas en una posterior etapa de análisis sintáctico-semántico.

2. Análisis Sintáctico o Parsing: 
Es el análisis automático de una oración dada.Los problemas de ambigüedad son relativamente "sencillos" a nivel morfológico en comparación con los que se producen a nivel sintáctico. Se
usa cada vez más la estadística para resolver ambigüedades sintácticas y
semánticas.
3.Técnicas de reconocimiento de voz y conversión de texto a voz
Artefactos o software que transcriben de manera automática la
voz humana en datos que puedan ser procesados por la computadora. 
En el reconocimiento automático de voz, la señal acústica se considera como un flujo de datos que pasa por un canal de ruido: hay que decodificar la información que está mezclada con el ruido del ambiente. 
La conversión de texto a voz tiene como objetivo generar de manera
automática los sonidos que produciría una persona al leer en voz alta cualquier texto. Un sistema de conversión de texto a voz deberá, asimismo, producir los sonidos no sólo de una manera inteligible, sino también natural. 

4. Recuperación digital
La recuperación digital de información es un campo muy amplio que
incluye todas las formas de almacenamiento y envío digital de datos de
cualquier índole. En el caso de la LC, se trata principalmente de técnicas para la extracción de datos contenidos en textos y su transmisión a los usuarios. Los buscadores de Internet se basan en uno o más de estos
métodos de recuperación de información. 

5. Sistemas de diálogo y sistemas expertos
Los sistemas de diálogo son básicamente sistemas que permiten la
comunicación entre uno o más usuarios y la computadora. Comonpueden ser las interfaces.

6. Traducción automática
La traducción es a menudo una labor ardua e interesante que requiere no sólo de una comprensión muy profunda de dos sistemas lingüísticos dados, sino también de dos culturas y técnicas de comunicación. Es por eso que en muchas ocasiones la traducción mediante un software es mala.
Estudio de la LC
La LC abarca tres áreas de estudio: la lingüística propiamente dicha, la informática y la lingüística algorítmica. 
Una persona interesada en la LC, ya sea que venga del área de la informática o de la lingüística, debe saber apreciar tanto las palabras como los números y la lógica.
En el área de la matemática también son absolutamente necesarios
los conocimientos de lógica. Un estudio de lingüística computacional se cierra usualmente con un planteamiento que involucra el desarrollo de un software para una labor de procesamiento del lenguaje. 

Comentarios