Artículos

Powerset vs Google

Al famoso buscador de Internet, Google, le ha salido un nuevo rival, Powerset. Este nuevo buscador ha desarrollado una tecnología de búsqueda en la red basada en el “lenguaje natural” y no en palabras clave, como la que utiliza actualmente Google.

Powerset intenta entender el significado entre palabras, de una forma semejante a como los humanos comprenden el lenguaje; al contrario que otros motores de búsqueda que utilizan un índice de palabras clave, ya que este hace un profundo análisis lingüístico de cada frase que lee. Es decir, Powerset aspira a “entender” el significado de los términos y frases buscados, mientras que el resto usa un sistema de palabras clave -mostrarán páginas que contengan esas palabras en alguna parte de su texto- y complicados algoritmos para determinar la importancia de los resultados.

Por ejemplo, los usuarios de Powerset podrán introducir en la casilla de búsqueda frases completas como “¿Qué dividendo pagará Telefónica este año?“, en lugar de una combinación de palabras como “dividendo + Telefónica + 2007“.

Por ahora, Powerset solo esta funcionando en inglés, aunque no se descarta introducir otros idiomas en el futuro.

¿Qué es un Corpus?

Un Corpus es una colección de datos lingüísticos (textos escritos, transcripción de habla grabada…) que puede ser utilizada como punto de partida para la descripción lingüística o como medio para verificar hipótesis sobre una lengua.

Tales descripciones lingüísticas limitadas a un corpus han sido criticadas, especialmente, por los generativistas -cuyo máximo representante es Chomsky- que indican las carencias de los corpus, porque solo constituyen ejemplos de “actuación” y por ello sigue siendo necesario un medio de proyección que extienda más allá del corpus hasta abarcar el lenguaje en su totalidad.

Pero un corpus proporciona una base para la lingüística computacional, ya que un corpus informático es un extenso conjunto de textos capaz de ser leído por una maquina por orden del usuario. Este tipo de corpus ha ido ampliándose desde los años ochenta y se utiliza en aplicaciones como la lexicografía, el reconocimiento del habla y la traducción automática.

Del.icio.us

del.icio.us es un sitio de marcadores social, es decir, del.icio.us nos permite guardar aquellos enlaces de pagina webs que nos gusta y a los podemos acceder desde cualquier ordenador y añadir más desde cualquier lugar también. Pero no solo podemos ver nuestros enlaces o marcadores, sino que los de otras personas también; por ello es un sitio social.

Se podria decir que del.icio.us es un corpus de enlaces social, por el que podemos explorar y buscar los mejores enlaces que otros han guardado. Para que nuestra búsqueda sea más fácil nos ayudamos de las etiquetas, porque mediante ellas organizamos mucho mejor nuestros enlaces.

Así que podemos usar del.icio.us para:

  • mantener nuestros enlaces favoritos de artículos, blogs, paginas webs… y acceder a ellos desde cualquier ordenador con conexión a Internet.
  • compartir nuestros enlaces con amigos, familiares, compañeros de trabajo y la comunidad de del.icio.us.
  • descubrir cosas nuevas, porque del.icio.us está lleno de enlaces sobre todos los temas: tecnología, entretenimiento, información, curiosidades, lenguas…

Evaluations and Language resources Distribution Agency (ELDA)

ELDA es el organismo operacional del ELRA con la función de identificar, clasificar, recopilar, validar y producir los recursos lingüísticos que pueden ser necesarios para los usuarios. ELDA se ocupa de los aspectos prácticos y cuestiones jurídicas relacionadas con la distribución de los recursos lingüísticos, presta asesoramiento jurídico en el ámbito de éste, y llega a la conclusión de los proyectos y acuerdos de distribución en nombre de ELRA.

Su actividad principal consiste en tres actividades:

1) La distribución de los recursos lingüísticos (incluyendo todos los aspectos jurídicos)

Su catálogo de recursos lingüísticos reúne actualmente alrededor de 850 lenguas habladas y escritas y la identificación y la recaudación de los recursos lingüísticos existentes es parte de su actividad diaria. Una vez que el catálogo se ha actualizado se anuncian en algunas listas de correo, así como en el ELRA de los miembros de noticias y en el boletín trimestral ELRA.

2) La producción de recursos lingüísticos o encargar la producción de recursos lingüísticos

En el marco de la construcción europea y los proyectos internacionales que han participado, han producido lenguajes escritos y hablados, con fines de investigación y desarrollo. Entre su proyectos están Speecon, OrienTel, Red-DC

3) Evaluación de Tecnologías del Lenguaje Humano

ELDA ha participado en algunas campañas de evaluación mediante el suministro de los recursos lingüísticos apropiados para la realización de pruebas y la evaluación de tecnologías del lenguaje.

The European Language Resouces Association (ELRA)

ELRA es una organización sin ánimo de lucro, cuya sede este en Luxemburgo, que pone a disposición los recursos lingüísticos de la lengua y de la ingeniería para evaluar las tecnologías de ingeniería lingüística. Para ello, ELRA identifica, distribuye, recoge, valida, normaliza y mejora la promoción de la producción de recursos lingüísticos.

ELRA tiene dos grandes misiones: una, promocionar los recursos lingüísticos para la Tecnología del Lenguaje Humano (HLT); y dos, evaluar las tecnologías de ingeniería lingüística. Para conseguir esto ofrece varios servicios:

  • Identificación de los recursos lingüísticos
  • El fomento de la producción de recursos lingüísticos
  • La producción de recursos lingüísticos
  • Validación de los recursos lingüísticos
  • Evaluación de los sistemas, productos, herramientas… relacionados con los recursos lingüísticos
  • La distribución de los recursos lingüísticos
  • Normalización

Recursos lingüísticos

Durante los últimos años la utilización de las nuevas tecnologías, donde destacan los ordenadores y las técnicas computacionales, han supuesto una importante vía para el trabajo de todas las disciplinas lingüísticas, ya que permite la consulta cómoda de grandes conjuntos de materiales con los que se puede obtener una visión mucho más ajustada de la realidad de la que era posible hace unos cuantos años. Por ello, los recursos lingüísticos se han convertido en un elemento esencial de la ingeniería lingüística, constituyendo una de las principales formas de representar el conocimiento de la lengua.

A través de la Web es posible crear estos recursos lingüísticos, ya que en Internet se concentra gran cantidad de información. Entre esta gran cantidad de información encontramos herramientas como diccionarios electrónicos, traductores automáticos, corpus… las cuales nos hacen conseguir lo que buscamos o queremos de una manera fácil.

Aunque estas herramientas tenga poca vida todavia, su expansion es increible y cada vez aparecen más y más. Por ello, he aquí el futuro trabajo de los filólogos.

0 Responses to “Artículos”



  1. Dejar un comentario

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s




The Big Bang Theory

Jeremy Brett

Jennifer Morrison

Hugh Laurie

Courtney Cox

Billy Nighy

Alizee

enero 2000
L M X J V S D
    Nov »
 12
3456789
10111213141516
17181920212223
24252627282930
31  

Categorías

Blog Stats

  • 3,285,598 personas han visitado este blog

Suscríbete

Add to Technorati Favorites Add to your del.icio.us network

This Blog works with

Blogissimo

counter


A %d blogueros les gusta esto: