The Stanford NLP Group (Q2)

mayo 14, 2008

          The Natural Language Processing Group at Stanford University is a team of faculty, postdocs, and students who work together on algorithms that allow computers to process and understand human languages. Our work ranges from basic research in computational linguistics to key applications in human language technology, and covers areas such as sentence understanding, probabilistic parsing and tagging, biomedical information extraction, grammar induction, word sense disambiguation, and automatic question answering.

          A distinguishing feature of the Stanford NLP Group is our effective combination of sophisticated and deep linguistic modeling and data analysis with innovative probabilistic and machine learning approaches to NLP. Our research has resulted in state-of-the-art technology for robust, broad-coverage natural-language processing in many languages. These technologies include our part-of-speech tagger, which currently has the best published performance in the world; a high performance probabilistic parser; a competition-winning biological named entity recognition system; and algorithms for processing Arabic, Chinese, and German text.

          The Stanford NLP Group includes members of both the Linguistics Department and the Computer Science Department, and is affiliated with the Stanford AI Lab and the Stanford InfoLab.


C L A R I N (Q2)

abril 14, 2008

          The abbreviations for  C L A R I N stand for Common Language Resources and Technology Infrastructure. The CLARIN project is a large-scale pan-European collaborative effort to create, coordinate and make language resources and technology available and readily useable. CLARIN offers scholars the tools to allow computer-aided language processing, addressing one or more of the multiple roles language plays (i.e. carrier of cultural content and knowledge, instrument of communication, component of identity and object of study) in the Humanities and Social Sciences.

          Its initiative offers:

• Comprehensive service to the humanities disciplines with respect to language resources and technology.
• Technology overcoming the many boundaries currently fragmenting the resources and tools landscape as it is given by institutional, structural and semantic interoperability problems.
• Tools and resources that will be interoperable across languages and domains, thus addressing the issue of preserving and supporting the multilingual and multicultural European heritage.
• Comprehensive training and education programs that include university education in the different member states.
• Improvement and extension of web-based collaborations, i.e. creating virtual working groups breaking the discipline boundaries.
• Development or improvement of standards for language resource maintenance.
• A persistent and stable infrastructure that researchers can rely on for the next decades.

          To achieve these challenging goals CLARIN will be built on and contribute to a number of key technologies coming from the major initiatives advancing the eScience paradigm:

• It includes Data Grid technology to connect the repositories as being implemented in the DAM-LR pilot project and web services the various centres provide;
• It builds on ideas launched by the Digital Library community to create Live Archives, and will further such initiatives;
• It incorporates, and contributes to, Semantic Web technology to overcome the structural and semantic encoding problems;
• It incorporates advanced multi-lingual language processing technology that supports cultural and linguistic integration.

The purpose of the infrastructure is to offer persistent services that are secure and provide easy access to language processing resources. As language, speech and vision technology improve, it should be commonplace to carry out tasks such as: ‘summarize Le Monde from 11th March 2007’ ‘list all uses of “enthusiasm” in 19th century English novels written by women’, ‘find all video clips of Tony Blair on the BBC in 2007’. But without the proper infrastructure, the technologies to make these tasks possible will only be available to a few specialists. At present one needs to find an appropriate program (to do translation, summarization, or extraction of information, etc.), download the program, make sure it is compatible with the computer that will execute the program, understand the form of input it takes, download the data (e.g. novels, newspapers, corpus, videos), and convert them to the correct format for the programs, and all this before one can get started.

For most researchers outside computer science, at least one of these tasks will be an insurmountable barrier. Our vision is that the resources for processing language, the data to be processed as well as appropriate guidance, advice and training be made available and can be accessed over a distributed network from the user’s desktop. CLARIN proposes to make this vision a reality: the user will have access to guidance and advice through distributed knowledge centres, and via a single sign-on the user will have access to repositories of data with standardized descriptions, processing tools ready to operate on standardized data, and all of this will be available on the internet using a service oriented architecture based on secure grid technologies.

The nature of the project is therefore primarily to turn existing, fragmented technology and resources into accessible and stable services that any user can share or adapt and repurpose. CLARIN can build upon a rich history of national and European initiatives in this domain, and it will ensure that Europe maintains the leading position in humanities and social science research in the current highly competitive era.

Language Technology Lab (Q2)

abril 2, 2008

These themes are elaborated in research, development and commercial projects:

1. Computational semantics. (Language technology world).

2. Language checking. (Language technology world).

3. Knowledge Discovery. (Language technology world).

4. Semantic web. (DFKI).

5. The Stanford NLP Group

6. Collaborating Using Diagrams. (Language Technology Group).


8. Shallow Semantic Parsing. (SNLP).

9. Detecting contradictions in Text. (SNLP).

10. Document indexing for German and English. (DFKILT).

XML: Extended Markup Language

enero 16, 2008

        XML, sigla en inglés de Extended Markup Languagelenguaje de marcas extensible»), es un metalenguaje extensible de etiquetas desarrollado por el World Wide Web Consortium (W3C). Es una simplificación y adaptación del SGML y permite definir la gramática de lenguajes específicos (de la misma manera que HTML es a su vez un lenguaje definido por SGML). Por lo tanto XML no es realmente un lenguaje en particular, sino una manera de definir lenguajes para diferentes necesidades. Algunos de estos lenguajes que usan XML para su definición son XHTML, SVG, MathML.

        XML no ha nacido sólo para su aplicación en Internet, sino que se propone como un estándar para el intercambio de información estructurada entre diferentes plataformas. Se puede usar en bases de datos, editores de texto, hojas de cálculo y casi cualquier cosa imaginable.

        XML es una tecnología sencilla que tiene a su alrededor otras que la complementan y la hacen mucho más grande y con unas posibilidades mucho mayores. Tiene un papel muy importante en la actualidad ya que permite la compatibilidad entre sistemas para compartir la información de una manera segura, fiable y fácil.


        Entre las tecnologías XML disponibles se pueden destacar:

        XSL : Lenguaje Extensible de Hojas de Estilo, cuyo objetivo principal es mostrar cómo debería estar estructurado el contenido, cómo debería ser diseñado el contenido de origen y cómo debería ser paginado en un medio de presentación como puede ser una ventana de un navegador Web o un dispositivo móvil, o un conjunto de páginas de un catálogo, informe o libro.

        XPath : Lenguaje de Rutas XML, es un lenguaje para acceder a partes de un documento XML.

        XLink : Lenguaje de Enlace XML, es un lenguaje que permite insertar elementos en documentos XML para crear enlaces entre recursos XML.

        XPointer : Lenguaje de Direccionamiento XML, es un lenguaje que permite el acceso a la estructura interna de un documento XML, esto es, a sus elementos, atributos y contenido.

        XQL : Lenguaje de Consulta XML, es un lenguaje que facilita la extracción de datos desde documentos XML. Ofrece la posibilidad de realizar consultas flexibles para extraer datos de documentos XML en la Web.


        XSL funciona como un lenguaje avanzado para crear hojas de estilos. Es capaz de transformar, ordenar y filtrar datos XML, y darles formato basándolo en sus valores. XPath identifica partes de un documento XML concreto, como pueden ser sus atributos, elementos, etc. XLink por su lado, describe un camino estándar para añadir hiperenlaces en un archivo XML. Es decir, es un mecanismo de vinculación a otros documentos XML. Funciona de forma similar a un enlace en una página Web, es decir, funciona como lo haría <a href="" mce_href="">, sólo que a href es un enlace unidireccional. Sin embargo, XLink permite crear vínculos bidireccionales, lo que implica la posibilidad de moverse en dos direcciones. Esto facilita la obtención de información remota como recursos en lugar de simplemente como páginas Web. XPointer funciona como una sintaxis que apunta a ciertas partes de un documento XML, es como una extensión de XPath. Se utiliza para llegar a ciertas partes de un documento XML. Primero, XLink permite establece el enlace con el recurso XML y luego es XPointer el que va a un punto específico del documento. Su funcionamiento es muy similar al de los identificadores de fragmentos en un documento HTML ya que se añade al final de una URI y después lo que hace es encontrar el lugar especificado en el documento XML. Al ser XPointer una extensión de XPath, XPointer tiene todas las ventajas de XPath y además permite establecer un rango en un documento XML, es decir, con XPointer es posible establecer un punto final y un punto de inicio, lo que incluye todos los elementos XML dentro de esos dos puntos. Finalmente, XQL, lenguaje de consultas, se basa en operadores de búsqueda de un modelo de datos para documentos XML que puede realizar consultas en infinidad de tipos de documentos como son documentos estructurados, colecciones de documentos, bases de datos, estructuras DOM, catálogos, etc.

Web 2.0, ¿En qué consiste?

enero 16, 2008

        La Web 2.0 es la representación de la evolución de las aplicaciones tradicionales hacia aplicaciones web enfocadas al usuario final. El Web 2.0 es una actitud y no precisamente una tecnología.

        Cuando el web inició, nos encontrábamos en un entorno estático, con páginas en HTML que sufrían pocas actualizaciones y no tenían interacción con el usuario.

        La Web 2.0 es la transición que se ha dado de aplicaciones tradicionales hacia aplicaciones que funcionan a través del web enfocadas al usuario final.   Se trata de aplicaciones que generen colaboración y de servicios que reemplacen las aplicaciones de escritorio.

        Todo inició cuando Dale Dougherty de O’Reilly Media utilizó este término en una conferencia en la que compartió una lluvia de ideas junto a Craig Cline de MediaLive en la que hablaba del renacimiento y evolución de la web.  

        Constantemente estaban surgiendo nuevas aplicaciones y sitios con sorprendentes funcionalidades.   Y así se dio la pauta para la Web 2.0 conference de 2004.  Esta conferencia no solo fue exitosa sino que ya tuvo seguimiento en la Web 2.0 Conference del 2005 celebrada en Octubre.

        En la charla inicial del Web Conference se habló de los principios que tenían las aplicaciones Web 2.0:  

  • La web es la plataforma
  • La información es el procesador
  • Efectos de la red movidos por una arquitectura de participación.
  • La innovación surge de características distribuidas por desarrolladores independientes.
  • El fin del círculo de adopción de software (“Servicios en beta perpetuo”)

La Web 2.0 con ejemplos

        La forma más fácil de comprender lo que significa la Web 2.0 es a través de ejemplos.  Podemos comparar servicios web que marcan claramente la evolución hacia el Web 2.0:

  • Web 1.0 > Web 2.0
  • Doubleclick –> Google AdSense (Servicios Publicidad)
  • Ofoto –> Flickr (Comunidades fotográficas)
  • Akamai –> BitTorrent (Distribución de contenidos)
  • –> Napster (Descargas de música)
  • Britannica Online –> Wikipedia (Enciclopedias)
  • Sitios personales –> Blogs (Páginas personales)
  • Especulación con dominios –> Optimización en motores de búsqueda
  • Page views  –> Cost per click
  • CMSs  –> Wikis (Manejo de contenidos)
  • Categorías/Directorios  –> Tagging

¿Qué tecnologías apoyan a la Web 2.0?

        El Web 2.0 no significa precisamente que existe una receta para que todas nuestras aplicaciones web entren en este esquema.   Sin embargo, existen varias tecnologías que están utilizándose actualmente y que deberíamos de examinar con más cuidado en busca de seguir evolucionando junto al web.

Tecnologías que dan vida a un proyecto Web 2.0:

  • Transformar software de escritorio hacia la plataforma del web.
  • Respeto a los estándares del XHTML.
  • Separación de contenido del diseño con uso de hojas de estilo.
  • Sindicación de contenidos.
  • Ajax (Asincronical javascript and xml).
  • Uso de Flash, Flex o Lazlo.
  • Uso de Ruby on Rails para programar páginas dinámicas.
  • Utilización de redes sociales al manejar usuarios y comunidades.
  • Dar control total a los usuarios en el manejo de su información.
  • Proveer APis o XML para que las aplicaciones puedan ser manipuladas por otros.
  • Facilitar el posicionamiento con URL sencillos.

¿En qué nos sirve la Web 2.0?

        El uso de el término de Web 2.0 está de moda, dándole mucho peso a una tendencia que ha estado presente desde hace algún tiempo.  En Internet las especulaciones han sido causantes de grandes burbujas tecnológicas y han hecho fracasar a muchos proyectos. 

        Además, nuestros proyectos tienen que renovarse y evolucionar. El Web 2.0 no es precisamente una tecnología, sino es la actitud con la que debemos trabajar para desarrollar en Internet. Tal vez allí está la reflexión más importante del Web 2.0 y como los webmasters deberían de prepararse.

        En definitiva, la Web 2.0 se refiere a la transición percibida en Internet desde las webs tradicionales a aplicaciones web destinadas a usuarios. Los propulsores de este pensamiento esperan que los servicios de la Web 2.0 sustituyan a las aplicaciones de escritorio en muchos usos.

Oralidad, escritura e hipermedios

enero 11, 2008
        La oralidad es una forma comunicativa que va desde el grito de un recién nacido hasta el diálogo generado entre amigos. Existen dos clases de oralidad: La primaria, que se refiere a las culturas que sólo la poseen a ella para comunicarse y que permite una activación de la memoria. Y la oralidad secundaria, ésta es la que manejan culturas avanzadas que poseen escritura, y se ha convertido en soporte de la memoria. Es de gran interés el estudio de la oralidad efectuado por Walter J. Ong, “Algunas psicodinámicas de la oralidad”, en W. J. Ong [1982], Orality and Literacy. The technologizing of the Word. Así como las palabras de E. A. Havelock [1986], La musa aprende a escribir. Reflexiones sobre oralidad y escritura desde la Antigüedad hasta el presente.

La escritura es un sistema de representación gráfica de una lengua, por medio de signos grabados o dibujados sobre un soporte. Es un método de intercomunicación humana que se realiza por medio de signos visuales que constituyen un sistema. La escritura ha evolucionado a través del tiempo. Fundamentalmente ha sido de dos maneras:

  • Ideográficamente: cuando se expresan las ideas.
  • Fonéticamente: cuando se representan los sonidos.

En cuanto a los hipermedios, primero debemos definir el concepto de “medios” (media en inglés) y después el de “hipertexto”. Pues bien, “media” es la más básica tecnología de comunicación y almacenamiento de información, incluye a los lenguajes humanos como la música, la pintura y el cine. Hipertexto es un término usado para indicar las conexiones entre los documentos de naturaleza textual e hipermedios se refiere a la conexión entre los documentos de diversos tipos de medios [Dale, 1997]. El texto, los gráficos, el audio y el video pueden ahora estar en vivo de forma unificada, respondiendo a las nuevas necesidades que tenemos con las diferentes formas de expresar la información [Nelson, 1987].



enero 9, 2008


Multimedia es la combinación o utilización de dos o más medios de forma concurrente. El término multimedia sigue siendo confuso ya que todavía no ha sido bien definido y sus límites resultan difusos. Si a finales de la década de los 70, multimedia era la integración de voz, texto, datos y gráficos, en los 90 a estos elementos se suman los gráficos interactivos, las imágenes en movimiento, las secuencias de audio y vídeo, las imágenes en tres dimensiones, la composición de documentos digitales y la realidad virtual. En principio, la cualidad multimedial no está restringida a la informática: un libro acompañado de una casete de audio es una obra multimedial, sin embargo, poco a poco, el término multimedia se ha ido generalizando para referirse a la informática y al mundo digital.

Dos problemas clásicos en el desarrollo del multimedia han sido el acceso y la manipulación de este tipo de datos y su almacenamiento, ya que los datos gráficos ocupan una gran cantidad de bytes de memoria. El primer problema se resolvió con el desarrollo de los entornos gráficos en los ordenadores (Macintosh, Windows, etc.), que se basan en la presentación de la información en forma de ventanas, la utilización de iconos y menús con los cuales el usuario puede interactuar de forma rápida y sencilla. Por su parte, el problema del almacenamiento se resolvió con nuevos métodos de comprensión de archivos de imágenes, sonido y vídeo, y con la aparición de los soportes ópticos, ya que éstos son capaces de almacenar una gran cantidad de memoria en un único soporte.

El multimedia interactivo como sistema de comunicación se ha desarrollado de forma exponencial desde la incorporación masiva de los CD-ROM a los ordenadores -cada vez con mayor velocidad de lectura-, y más recientemente con el gran volumen de información que posibilitan los DVD y los soportes ópticos. Y también ha sido fuertemente impulsado por las empresas editoriales convencionales que comenzaron a crear enciclopedias en línea, juegos y programas interactivos multimedia, etc.



El término hipermedia toma su nombre de la suma de hipertexto y multimedia, una red hipertextual en la que se incluye no sólo texto, sino también otros medios: imágenes, audio, vídeo, etc. (multimedia).

Muchos autores coinciden en esta definición de Hipermedia como resultado de la combinación de hipertexto y multimedia, donde hipertexto se entiende como la organización de una base de información en bloques discretos de contenido llamados nodos (en su mínimo nivel), conectados a través de enlaces cuya selección genera distintas formas de recuperar la información de la base; la multimedia consiste en la tecnología que utiliza la información almacenada en diferentes formatos y medios, controlados por un usuario (interactividad).

Así pues, la hipermedia conjuga tanto la tecnología hipertextual, como la multimedia. Si la multimedia proporciona una gran riqueza en los tipos de datos, el hipertexto aporta una estructura que permite que los datos puedan presentarse y explorarse siguiendo distintas secuencias, de acuerdo a las necesidades y preferencias del usuario.

La estructura de un hipermedia es la misma que la de un hipertexto, formado por nodos que se conectan mediante enlaces. La única diferencia es que los nodos contienen elementos de diferentes medios o morfologías. Las anclas ya no sólo son palabras sino que pueden, por ejemplo, ser una imagen o un fragmento de ella, o pueden ser una secuencia de audio o de vídeo. La estructura de un hipermedia es, pues, más compleja que la de un hipertexto. La interactuación de los diferentes medios y la sincronización entre ellos suele ser uno de los aspectos más complejos en el desarrollo de aplicaciones multimedia.

Hipermedia es un nuevo medio. Es la síntesis de hipertexto multimedial, que comparte usos y características tanto del hipertexto como del multimedia, más una serie de propiedades que le son propias. La hipermedia nos permite comunicar de manera más efectiva, ya que al ser relacional y multimedial, puede parecernos más cercana a nuestro modo habitual de expresión y pensamiento, y a su vez, permite al usuario interacturar de manera más rica, sencilla y “amigable”. Se podría decir que la hipermedia, añade al hipertexto y su forma de presentar la información de forma no secuencial (o multisecuencial), cierta faceta multisensorial. Los sistemas hipermedia se basan, pues, en la suma de las potencialidades hipertextuales y multimediáticas. Y se aplican, sobre todo, a un soporte abierto u on line, cuyo máximo exponente es la World Wide Web ya que permite interconectar e integrar, casi sin límites, conjuntos de información de diferentes materias expresivas: texto, imágenes, sonidos, vídeos, bases de datos, etc. La hipermedia se caracteriza por sus posibilidades interactivas y por las posibilidades que ofrece un nuevo medio de comunicación en red. Lo que realmente impulsa la aplicación de la interactividad plena en los sistemas multimediáticos, convirtiéndolos en hipermediáticos, es el desarrollo de las redes de comunicación, de las tecnologías de compresión de datos y la aparición de un servicio y una interfaz específicamente diseñada para los nuevos servicios y contenidos hipermediáticos, materializados en la Web. A la hipermediatividad también contribuyen la utilización de interfaces basadas en sistemas icónicos cuyos signos semejan los objetos representados y que se pueden animar, enlazar y transformar, y que han culminado en el desarrollo de entornos virtuales que integran hipersensorialmente la información.