mayo 14, 2008

          Hans Uszkoreit is Professor of Computational Linguistics at Saarland University. At the same time he serves as Scientific Director at the German Research Center for Artificial Intelligence (DFKI) where he heads the DFKI Language Technology Lab. By cooptation he is also Professor of the Computer Science Department. 

          Uszkoreit studied Linguistics and Computer Science at the Technical University of Berlin. He co-founded the Berlin city magazine Zitty, for which he worked as an part-time editor and writer. In 1977, he received a Fulbright Grant for continuing his studies at the University of Texas at Austin. During his time in Austin he also worked as a research associate in a large machine translation project at the Linguistics Research Center.  In 1984 Uszkoreit received his Ph.D. in linguistics from the University of Texas. From 1982 until 1986, he worked as a computer scientist at the Artificial Intelligence Center of SRI International in Menlo Park, Ca. While working at SRI, he was also affiliated with the Center for the Study of Language and Information at Stanford University as a senior researcher and later as a project leader. In 1986 he spent six months in Stuttgart on an IBM Research Fellowship at the Science Division of IBM Germany. In December 1986 he returned to Stuttgart to work for IBM Germany as a project leader in the project LILOG (Linguistic and Logical Methods for the Understanding of German Texts). At the same time he also taught at the University of Stuttgart.

          In 1988 Uszkoreit was appointed to a newly created chair of Computational Linguistics at Saarland University and started the Department of Computational Linguistics and Phonetics. In 1989 he became the head of the newly founded Language Technology Lab at  DFKI. He has been a co-founder and principal investigator of the Special Collaborative Research Division (SFB 378) “Resource-Adaptive Cognitive Processes” of the DFG (German Science Foundation). He is also co-founder and professor of the “European Postgraduate Program Language Technology and Cognitive Systems”, a joint Ph.D. program with the University of Edinburgh.

          Uszkoreit is Permanent Member of the International Committee of Computational Linguistics (ICCL), Member of the European Academy of Sciences, Past President of the European Association for Logic, Language and Information, Member of the Executive Board of the European Network of Language and Speech, Member of the Board of the European Language Resources Association (ELRA), and serves on several international editorial and advisory boards.  He is co-founder and Board Member of XtraMind Technologies GmbH, Saarbruecken, acrolinx gmbh, Berlin and Yocoy Technologies GmbH, Berlin. Since 2006, he serves as Chairman of the Board of Directors of the international initiative dropping knowledge.

          His current research interests are computer models of natural language understanding and production, advanced applications of language and knowledge technologies such as semantic information systems, translingual technologies, cognitive foundations of language and knowledge, deep linguistic processing of natural language, syntax and semantics of natural language and the grammar of German.


The Stanford NLP Group (Q2)

mayo 14, 2008

          The Natural Language Processing Group at Stanford University is a team of faculty, postdocs, and students who work together on algorithms that allow computers to process and understand human languages. Our work ranges from basic research in computational linguistics to key applications in human language technology, and covers areas such as sentence understanding, probabilistic parsing and tagging, biomedical information extraction, grammar induction, word sense disambiguation, and automatic question answering.

          A distinguishing feature of the Stanford NLP Group is our effective combination of sophisticated and deep linguistic modeling and data analysis with innovative probabilistic and machine learning approaches to NLP. Our research has resulted in state-of-the-art technology for robust, broad-coverage natural-language processing in many languages. These technologies include our part-of-speech tagger, which currently has the best published performance in the world; a high performance probabilistic parser; a competition-winning biological named entity recognition system; and algorithms for processing Arabic, Chinese, and German text.

          The Stanford NLP Group includes members of both the Linguistics Department and the Computer Science Department, and is affiliated with the Stanford AI Lab and the Stanford InfoLab.

C L A R I N (Q2)

abril 14, 2008

          The abbreviations for  C L A R I N stand for Common Language Resources and Technology Infrastructure. The CLARIN project is a large-scale pan-European collaborative effort to create, coordinate and make language resources and technology available and readily useable. CLARIN offers scholars the tools to allow computer-aided language processing, addressing one or more of the multiple roles language plays (i.e. carrier of cultural content and knowledge, instrument of communication, component of identity and object of study) in the Humanities and Social Sciences.

          Its initiative offers:

• Comprehensive service to the humanities disciplines with respect to language resources and technology.
• Technology overcoming the many boundaries currently fragmenting the resources and tools landscape as it is given by institutional, structural and semantic interoperability problems.
• Tools and resources that will be interoperable across languages and domains, thus addressing the issue of preserving and supporting the multilingual and multicultural European heritage.
• Comprehensive training and education programs that include university education in the different member states.
• Improvement and extension of web-based collaborations, i.e. creating virtual working groups breaking the discipline boundaries.
• Development or improvement of standards for language resource maintenance.
• A persistent and stable infrastructure that researchers can rely on for the next decades.

          To achieve these challenging goals CLARIN will be built on and contribute to a number of key technologies coming from the major initiatives advancing the eScience paradigm:

• It includes Data Grid technology to connect the repositories as being implemented in the DAM-LR pilot project and web services the various centres provide;
• It builds on ideas launched by the Digital Library community to create Live Archives, and will further such initiatives;
• It incorporates, and contributes to, Semantic Web technology to overcome the structural and semantic encoding problems;
• It incorporates advanced multi-lingual language processing technology that supports cultural and linguistic integration.

The purpose of the infrastructure is to offer persistent services that are secure and provide easy access to language processing resources. As language, speech and vision technology improve, it should be commonplace to carry out tasks such as: ‘summarize Le Monde from 11th March 2007’ ‘list all uses of “enthusiasm” in 19th century English novels written by women’, ‘find all video clips of Tony Blair on the BBC in 2007’. But without the proper infrastructure, the technologies to make these tasks possible will only be available to a few specialists. At present one needs to find an appropriate program (to do translation, summarization, or extraction of information, etc.), download the program, make sure it is compatible with the computer that will execute the program, understand the form of input it takes, download the data (e.g. novels, newspapers, corpus, videos), and convert them to the correct format for the programs, and all this before one can get started.

For most researchers outside computer science, at least one of these tasks will be an insurmountable barrier. Our vision is that the resources for processing language, the data to be processed as well as appropriate guidance, advice and training be made available and can be accessed over a distributed network from the user’s desktop. CLARIN proposes to make this vision a reality: the user will have access to guidance and advice through distributed knowledge centres, and via a single sign-on the user will have access to repositories of data with standardized descriptions, processing tools ready to operate on standardized data, and all of this will be available on the internet using a service oriented architecture based on secure grid technologies.

The nature of the project is therefore primarily to turn existing, fragmented technology and resources into accessible and stable services that any user can share or adapt and repurpose. CLARIN can build upon a rich history of national and European initiatives in this domain, and it will ensure that Europe maintains the leading position in humanities and social science research in the current highly competitive era.

Language Technology Lab (Q2)

abril 2, 2008

These themes are elaborated in research, development and commercial projects:

1. Computational semantics. (Language technology world).

2. Language checking. (Language technology world).

3. Knowledge Discovery. (Language technology world).

4. Semantic web. (DFKI).

5. The Stanford NLP Group

6. Collaborating Using Diagrams. (Language Technology Group).


8. Shallow Semantic Parsing. (SNLP).

9. Detecting contradictions in Text. (SNLP).

10. Document indexing for German and English. (DFKILT).

XML: Extended Markup Language

enero 16, 2008

        XML, sigla en inglés de Extended Markup Languagelenguaje de marcas extensible»), es un metalenguaje extensible de etiquetas desarrollado por el World Wide Web Consortium (W3C). Es una simplificación y adaptación del SGML y permite definir la gramática de lenguajes específicos (de la misma manera que HTML es a su vez un lenguaje definido por SGML). Por lo tanto XML no es realmente un lenguaje en particular, sino una manera de definir lenguajes para diferentes necesidades. Algunos de estos lenguajes que usan XML para su definición son XHTML, SVG, MathML.

        XML no ha nacido sólo para su aplicación en Internet, sino que se propone como un estándar para el intercambio de información estructurada entre diferentes plataformas. Se puede usar en bases de datos, editores de texto, hojas de cálculo y casi cualquier cosa imaginable.

        XML es una tecnología sencilla que tiene a su alrededor otras que la complementan y la hacen mucho más grande y con unas posibilidades mucho mayores. Tiene un papel muy importante en la actualidad ya que permite la compatibilidad entre sistemas para compartir la información de una manera segura, fiable y fácil.


        Entre las tecnologías XML disponibles se pueden destacar:

        XSL : Lenguaje Extensible de Hojas de Estilo, cuyo objetivo principal es mostrar cómo debería estar estructurado el contenido, cómo debería ser diseñado el contenido de origen y cómo debería ser paginado en un medio de presentación como puede ser una ventana de un navegador Web o un dispositivo móvil, o un conjunto de páginas de un catálogo, informe o libro.

        XPath : Lenguaje de Rutas XML, es un lenguaje para acceder a partes de un documento XML.

        XLink : Lenguaje de Enlace XML, es un lenguaje que permite insertar elementos en documentos XML para crear enlaces entre recursos XML.

        XPointer : Lenguaje de Direccionamiento XML, es un lenguaje que permite el acceso a la estructura interna de un documento XML, esto es, a sus elementos, atributos y contenido.

        XQL : Lenguaje de Consulta XML, es un lenguaje que facilita la extracción de datos desde documentos XML. Ofrece la posibilidad de realizar consultas flexibles para extraer datos de documentos XML en la Web.


        XSL funciona como un lenguaje avanzado para crear hojas de estilos. Es capaz de transformar, ordenar y filtrar datos XML, y darles formato basándolo en sus valores. XPath identifica partes de un documento XML concreto, como pueden ser sus atributos, elementos, etc. XLink por su lado, describe un camino estándar para añadir hiperenlaces en un archivo XML. Es decir, es un mecanismo de vinculación a otros documentos XML. Funciona de forma similar a un enlace en una página Web, es decir, funciona como lo haría <a href="" mce_href="">, sólo que a href es un enlace unidireccional. Sin embargo, XLink permite crear vínculos bidireccionales, lo que implica la posibilidad de moverse en dos direcciones. Esto facilita la obtención de información remota como recursos en lugar de simplemente como páginas Web. XPointer funciona como una sintaxis que apunta a ciertas partes de un documento XML, es como una extensión de XPath. Se utiliza para llegar a ciertas partes de un documento XML. Primero, XLink permite establece el enlace con el recurso XML y luego es XPointer el que va a un punto específico del documento. Su funcionamiento es muy similar al de los identificadores de fragmentos en un documento HTML ya que se añade al final de una URI y después lo que hace es encontrar el lugar especificado en el documento XML. Al ser XPointer una extensión de XPath, XPointer tiene todas las ventajas de XPath y además permite establecer un rango en un documento XML, es decir, con XPointer es posible establecer un punto final y un punto de inicio, lo que incluye todos los elementos XML dentro de esos dos puntos. Finalmente, XQL, lenguaje de consultas, se basa en operadores de búsqueda de un modelo de datos para documentos XML que puede realizar consultas en infinidad de tipos de documentos como son documentos estructurados, colecciones de documentos, bases de datos, estructuras DOM, catálogos, etc.

Web 2.0, ¿En qué consiste?

enero 16, 2008

        La Web 2.0 es la representación de la evolución de las aplicaciones tradicionales hacia aplicaciones web enfocadas al usuario final. El Web 2.0 es una actitud y no precisamente una tecnología.

        Cuando el web inició, nos encontrábamos en un entorno estático, con páginas en HTML que sufrían pocas actualizaciones y no tenían interacción con el usuario.

        La Web 2.0 es la transición que se ha dado de aplicaciones tradicionales hacia aplicaciones que funcionan a través del web enfocadas al usuario final.   Se trata de aplicaciones que generen colaboración y de servicios que reemplacen las aplicaciones de escritorio.

        Todo inició cuando Dale Dougherty de O’Reilly Media utilizó este término en una conferencia en la que compartió una lluvia de ideas junto a Craig Cline de MediaLive en la que hablaba del renacimiento y evolución de la web.  

        Constantemente estaban surgiendo nuevas aplicaciones y sitios con sorprendentes funcionalidades.   Y así se dio la pauta para la Web 2.0 conference de 2004.  Esta conferencia no solo fue exitosa sino que ya tuvo seguimiento en la Web 2.0 Conference del 2005 celebrada en Octubre.

        En la charla inicial del Web Conference se habló de los principios que tenían las aplicaciones Web 2.0:  

  • La web es la plataforma
  • La información es el procesador
  • Efectos de la red movidos por una arquitectura de participación.
  • La innovación surge de características distribuidas por desarrolladores independientes.
  • El fin del círculo de adopción de software (“Servicios en beta perpetuo”)

La Web 2.0 con ejemplos

        La forma más fácil de comprender lo que significa la Web 2.0 es a través de ejemplos.  Podemos comparar servicios web que marcan claramente la evolución hacia el Web 2.0:

  • Web 1.0 > Web 2.0
  • Doubleclick –> Google AdSense (Servicios Publicidad)
  • Ofoto –> Flickr (Comunidades fotográficas)
  • Akamai –> BitTorrent (Distribución de contenidos)
  • mp3.com –> Napster (Descargas de música)
  • Britannica Online –> Wikipedia (Enciclopedias)
  • Sitios personales –> Blogs (Páginas personales)
  • Especulación con dominios –> Optimización en motores de búsqueda
  • Page views  –> Cost per click
  • CMSs  –> Wikis (Manejo de contenidos)
  • Categorías/Directorios  –> Tagging

¿Qué tecnologías apoyan a la Web 2.0?

        El Web 2.0 no significa precisamente que existe una receta para que todas nuestras aplicaciones web entren en este esquema.   Sin embargo, existen varias tecnologías que están utilizándose actualmente y que deberíamos de examinar con más cuidado en busca de seguir evolucionando junto al web.

Tecnologías que dan vida a un proyecto Web 2.0:

  • Transformar software de escritorio hacia la plataforma del web.
  • Respeto a los estándares del XHTML.
  • Separación de contenido del diseño con uso de hojas de estilo.
  • Sindicación de contenidos.
  • Ajax (Asincronical javascript and xml).
  • Uso de Flash, Flex o Lazlo.
  • Uso de Ruby on Rails para programar páginas dinámicas.
  • Utilización de redes sociales al manejar usuarios y comunidades.
  • Dar control total a los usuarios en el manejo de su información.
  • Proveer APis o XML para que las aplicaciones puedan ser manipuladas por otros.
  • Facilitar el posicionamiento con URL sencillos.

¿En qué nos sirve la Web 2.0?

        El uso de el término de Web 2.0 está de moda, dándole mucho peso a una tendencia que ha estado presente desde hace algún tiempo.  En Internet las especulaciones han sido causantes de grandes burbujas tecnológicas y han hecho fracasar a muchos proyectos. 

        Además, nuestros proyectos tienen que renovarse y evolucionar. El Web 2.0 no es precisamente una tecnología, sino es la actitud con la que debemos trabajar para desarrollar en Internet. Tal vez allí está la reflexión más importante del Web 2.0 y como los webmasters deberían de prepararse.

        En definitiva, la Web 2.0 se refiere a la transición percibida en Internet desde las webs tradicionales a aplicaciones web destinadas a usuarios. Los propulsores de este pensamiento esperan que los servicios de la Web 2.0 sustituyan a las aplicaciones de escritorio en muchos usos.

Oralidad, escritura e hipermedios

enero 11, 2008
        La oralidad es una forma comunicativa que va desde el grito de un recién nacido hasta el diálogo generado entre amigos. Existen dos clases de oralidad: La primaria, que se refiere a las culturas que sólo la poseen a ella para comunicarse y que permite una activación de la memoria. Y la oralidad secundaria, ésta es la que manejan culturas avanzadas que poseen escritura, y se ha convertido en soporte de la memoria. Es de gran interés el estudio de la oralidad efectuado por Walter J. Ong, “Algunas psicodinámicas de la oralidad”, en W. J. Ong [1982], Orality and Literacy. The technologizing of the Word. Así como las palabras de E. A. Havelock [1986], La musa aprende a escribir. Reflexiones sobre oralidad y escritura desde la Antigüedad hasta el presente.

La escritura es un sistema de representación gráfica de una lengua, por medio de signos grabados o dibujados sobre un soporte. Es un método de intercomunicación humana que se realiza por medio de signos visuales que constituyen un sistema. La escritura ha evolucionado a través del tiempo. Fundamentalmente ha sido de dos maneras:

  • Ideográficamente: cuando se expresan las ideas.
  • Fonéticamente: cuando se representan los sonidos.

En cuanto a los hipermedios, primero debemos definir el concepto de “medios” (media en inglés) y después el de “hipertexto”. Pues bien, “media” es la más básica tecnología de comunicación y almacenamiento de información, incluye a los lenguajes humanos como la música, la pintura y el cine. Hipertexto es un término usado para indicar las conexiones entre los documentos de naturaleza textual e hipermedios se refiere a la conexión entre los documentos de diversos tipos de medios [Dale, 1997]. El texto, los gráficos, el audio y el video pueden ahora estar en vivo de forma unificada, respondiendo a las nuevas necesidades que tenemos con las diferentes formas de expresar la información [Nelson, 1987].