Explotación de anotaciones semánticas para páginas Web
De Computacion
Linked data o datos vinculados describe los principios dirigidos hacia la consecución de la web de datos. Orientados principalmente a la identificación de recursos por medio de URIs y a través de estas obtener más información de interés inmediato. Los datos vinculados hacen aparecer a la web como una enorme base de datos Global. RDFa mediante el uso de atributos agrega los metadatos enriquecidos a los textos con base en Resource Description Framework RDF. Con el uso de Dublin Core se añadirán metadatos semánticos con las estrategias de Google y los principios de Linked Data.
Index Terms. Datos Vinculados –Linked Data–, Linking Open Data, URI, OER, RDFa, Google, Dubin Core, Open Courseware.
- Introducción.
En la actualidad se vive una etapa de transición entre la web de documentos en la cual los enlaces de hipertexto son el “pegamento” que une la estructura de la antigua web. En la web de datos, las URIs, aquellos ids son el nexo que mantiene unidos a los recursos, y que nos permiten. Para publicar datos vinculados, se pueden utilizar muchos medios, pero todos tienen una cosa en común: el uso de RDF. Como parte de este trabajo, se ha considerado a RDFa, como alternativa viable para describir semánticamente elementos de interés, incluyendo a los recursos educativos abiertos OERs.
- Linked Data.
En la web actual, la información se encuentra enlazada por medio de hipervínculos, para lograr la Web de datos a la cual se quiere llegar se requiere vincular los datos. Esto involucra el empleo de RDF, para publicar datos estructurados y conectar datos de diferentes data sources, usando la URI (Uniform Resource Identifier) una cadena de caracteres que identifica o nombra a un recurso en la web. Los principios de los datos vinculados fueron delineados por Tim Berners Lee en 2006:
- Utilizar URI para identificar los recursos publicados en la Web
- Aprovechar el HTTP de la URI para que la gente pueda localizar y consultar (es decir, desreferenciar) estos recursos.
- Proporcionar información útil acerca del recurso cuando la URI haya sido desreferenciada.
- Incluir enlaces a otras URI relacionadas con los datos contenidos en el recurso, de forma que se potencie el descubrimiento de información en la Web.
Para vincular estos datos se hace una importante aclaración respecto de los recursos, que se pueden simplificar así [2]:
- Todo ítem de interés en nuestro dominio es un recurso.
- Dos tipos de recursos:
- Information Resources: Todos los recursos de un documento web tradicional: documentos, imágenes y otros archivos de medios.
- Non Information Resources: Personas, productos, lugares, conceptos, etc. Objetos del mundo real que existen fuera de la web.
Hay que poner especial énfasis en desreferenciar, que se puede resumir como: tomar la URI de un recurso de la Web, y utilizarla para obtener información de este recurso.
Luego volvemos a la diferenciación que se ha hecho anteriormente los recursos son desreferenciados de diferente forma:
- Recursos de información: al ser desrefenciada su URI, el servidor genera una nueva representación, una instantánea del estado actual del recurso y devuelve el código de respuesta HTTP 200 OK.
- Para los otros recursos, el servidor, al no poder presentar una nueva representación del recurso, le devuelve al cliente una URI que describe un recurso de información que describe a este recurso desreferenciado y devuelve el código de respuesta HTTP 303 See other. Como siguiente paso el cliente desreferencia esta nueva URI y obtiene la representación que describe al recurso original.
-
- Publicación de Datos vinculados.
Para la publicación, la comunidad describe ciertos lineamientos basados en los principios anteriormente vistos y en el uso de RDF y vocabularios ya establecidos.
Si se necesita URI para lugares geográficos, temas generales, áreas de investigación, artistas libros o CDs se debe usar las que estan disponibles en los data sources de la comunidad W3C SWEO Linking Open Data.
En el caso de buscar URIs ya existentes de tal manera que usted las reuse, generalmente se optará por aquellas con mayor aplicabilidad, según popularidad.
En este punto hay que recalcar que los datasources podrían redirigir hacia URIs de recursos informativos que describen a un recurso no informativo, en tal caso hay que asegurarse que estamos vinculando a la URI del recurso y no del documento sobre el mismo.
Además, para información ya publicada las alternativas para incluir linked data son diversas. En Drupal con algunas configuraciones esto es razonablemente sencillo. Para el caso de las bases de datos se puede incluir una representación de esos mismos datos como datos vinculados (substituir-añadir).
Antes de publicar, es necesario testear y depurar con el fin de probar si la información será correctamente accesada. Con este fin es aconsejable:
- Probar las URIs a. usando el servicio de Vapour. Este nos permitirá ver el comportamiento de nuestras URIs.
- Usar los navegadores para linked data, como Tabulator, Disco, Marbles o el RDF Browser. Alternativamente usar bookmarklets Tabulate y Disco. Así se notarán comportamientos erróneos, propios de la publicación o de rendimiento del servidor. Adicionalmente tenemos OpenLink Data Explorer, un plugin disponible actualmente sólo para Firefoxque muestra los Data Sources asociados a los contenidos de la página.
Como fuerza impulsora para este cometido, el proyecto Linking Open Data además provee multitud de recursos para dar el salto hacia la web de datos. Su meta es “exponer” data sets abiertos en RDF. Esta comunidad además muestra herramientas y proyectos orientados a esta nueva web.
-
- Uso.
Cada día nuevas organizaciones incorporan en sus Web sites datos vinculados, entre los más relevantes:
- Los gobiernos de los Estados Unidos y del Reino Unido. (con RDFa).
- BBC. Para programación y música. Arquitectura RESTful y uso de la ontología BBC Programmes.
- NY Times
- Best Buy. Con RDFa
-
- RDFa.
RDFa permite que, usando algunos simples atributos los autores de XHTML, puedan marcar datos legibles por humanos con indicadores permitiendo que los navegadores y/u otros programas los entiendan. Una página Web puede contener metadatos que expresen desde el título de un artículo, hasta algo complejo como la red social completa del autor del mismo.
Con RDFa las reglas para interpretar los datos son genéricas, por lo tanto no hay necesidad de diferentes reglas para diferentes formatos; facilitando a los autores y publicadores de datos definir sus propios formatos sin tener que actualizar software, o registrarlos ante una autoridad central o preocuparse que dos formatos interfieran entre sí.
En el DERI-internal RDFa hands-on, se reproduce una guía bastante sencilla de pasos para usar RDFa en la publicación de linked data, resumibles en:
- Preparar el documento HTML.
- Marcar las entidades.
- Añadir las propiedades a las entidades.
- Google y el Marcado semántico. Una actualización.
En trabajos anteriores se ha hecho referencia al soporte de anotaciones semánticas por parte de Google y Yahoo! para proveer una mejora en la experiencia de búsquedas con los Rich Snippets.
En la primera etapa de este trabajo, se analizó las diferentes opciones para incluir metadatos semánticos en documentos web, partiendo desde la visión práctica de los Microformatos, para analizar más detalladamente a las dos opciones para utilizar el Marco de descripción de recursos (RDF) en páginas web: eRDF y RDFa. Con la aparición de HTML5 y conforme se ha ido refinando su propuesta de Microdata, ha sido considerada también como alternativa válida y el hecho que ha partir de Marzo de este año Google anuncia el soporte de Microdata[29] en sus Rich Snippets.</nowiki>
Para esta característica se impone el uso de las propiedades definidas para describir estos recursos utilizando las convenciones de nombres para atributos de RDFa.
Hasta la anterior versión de este trabajo Google Rich Snippets permitía la descripción de: Productos y Revisiones (simples y agregadas), adicionando Personas, Negocios y Organizaciones y video, este particularmente usando Facebook Share y RDFa Video
- Descripción de Recursos Educativos usando RDFa
Dadas estas nuevas adiciones de Google, para el portal de OCW se puede utilizar lo ya definido para describir la organización (UTPL), el equipo docente y a considerar los eventos y la descripción de Videos usando el vocabulario Media de SearchMonkey. Consideradas todas las alternativas, los principios de linked data y las estrategias de Google, se propone la utilización de RDFa para añadir metadatos semánticos en las páginas de Open Courseware de la UTPL.
Además, considerando los principios de Google, se usará anotaciones semánticas anidadas para los elementos que constituyan personas y/o organizaciones. (Datos anidados al estilo de la propiedad location de un evento cuando se describe una organización).
Durante el desarrollo de este trabajo se produjeron cambios significativos en la forma que trabaja Google, principalmente en el aspecto de ya permitir los elementos div ocultos. Partiendo de esto, y como recomendación se va a realizar una descripción utilizando el principio de Snippets RDFa citado en la Wiki de RDFa Authoring.<ref name="ftn37"> http://www.ebusiness-unibw.org/wiki/RDFaAuthoring </ref> Este principio se basa en sencillas reglas para la organización del contenido marcado con RDFa, principalmente haciendo énfasis en la separación del contenido visible del oculto, aquel solo para los buscadores y los agentes software, así como unos tips en lo concerniente a la sintaxis de elementos div con consideraciones del idioma que describe al recurso.
Con estas recomendaciones en mente y con aspectos inherentes a la clasificación de los recursos disponibles en la web, tenemos que modificar la propuesta inicial para extender este modelo a todos los posibles escenarios, esto debido a la diversidad de recursos (video, presentaciones, podcast, etc.) que deberían ser accesibles y describibles por este modelo.
Tomando esto en consideración de la propuesta inicial, vale decir que los primeros elementos de DublinCore, referentes a la autoría, serán necesariamente mandatorios, puesto que es justo precisar a la Persona/s y organización que han realizado este aporte. El resto de atributos son descritos de acuerdo al tipo de recurso puntual.
En el caso de los videos será necesario el uso del vocabulario RDFa de Yahoo! Search Monkey Media Video, el cual provee los elementos comunes a los videos publicados en la red. Esta estructura escalonada servirá de plantilla para los demás recursos reemplazando simplemente los elementos que les diferencian por los de video.
Remitiéndonos al apartado anterior de las características admitidas actualmente por Google, podemos sacar del ámbito de DC al autor para reemplazar por los elementos RDFa de Google para el autor utilizando FOAF. En la parte central deberemos incluir una sección de licenciamiento del trabajo. Con el uso de las herramientas provistas por Creative Commons para la generación de un Snippet XHTML se puede agilitar este paso.
-
- Elementos usados en el Laboratorio.
- Consideraciones Iniciales.
- Loomp
- Consideraciones Iniciales.
- Elementos usados en el Laboratorio.
Además fue considerado Loomp http://loomp.u0d.de una herramienta en fase beta que mediante mashups, busca convertirse en el Wordpress para linked data. Una interfaz fácil de usar, pero limitada sólo a describir personas y lugares. Quizás con el tiempo provea una interfaz para que todos incluyan anotaciones semánticas en sus publicaciones.
-
-
-
- StyLiD
-
-
Es una aplicación de Software social que permite a crear y compartir datos vinculados. Primordial en su enfoque son los conceptos. Un concepto es una entidad abstracta que describe un elemento particular.
Para su uso sólo es necesaria la creación de una cuenta en la página de StYLiDhttp://www.stylid.org/
. Además se puede realizar búsquedas entre los conceptos y con atributos específicos una búsqueda más elaborada, así también consultas SPARQL.
Para el caso particular de los Recursos Educativos Abiertos (OERs) se precisa la creación de su concepto, puesto que hasta ahora la comunidad no lo ha publicado. Si bien, al momento existen conceptos relacionados, tales como curso (course), seminario (seminar), conferencia (conference), se hace necesaria la creación del concepto OER.
Este concepto contará con atributos basados en los elementos de Dublin Core.
-
-
- Herramientas
-
Se consideró en primera instancia dos editores: Adobe Dreamweaver CS4http://www.adobe.com
Y Aptana Studio 2.0http://www.aptana.com/ . La existencia de una extensión para trabajar con documentos HTML+RDFa (beta) ha sido trascendente para la elección de esta herramienta. [36]
Finalmente se usarán los plugins, y bookmarklets mencionados en el trabajo anterior así como las herramientas de debug del apartado 2.2 Publicación de Datos vinculados.
-
-
- Información.
-
La información de prueba será el contenido del curso Fundamentos Informáticoshttp://ocw.utpl.edu.ec/sistemas-informaticos-y-computacion/fundamentos-informaticos. Disponible en el portal OCW de la UTPL.
- Desarrollo.
Con todas las consideraciones tenidas en cuenta, como primera parte se ha implementado una página XHTML+RDFa 1.0, puesto que es la versión que esta siendo validada. Aunque parte de este trabajo considera a HTML5 como el lenguaje a usar, al estar en desarrollo lo limita para ser tomado en cuenta.
Los primeros recursos en ser descritos en esta experiencia fueron los textos y las guías, para posteriormente realizar las pruebas con los videos.
En el caso de los textos trabaja bien con la propuesta inicial, pero se ve más organizado y completo, ya que se individualizan las licencias y de esta manera lograr ser más descriptivos. En el caso de los videos, se hace necesaria las pruebas en un servidor, hasta el momento solo se ha realizado en un servidor local, falta todavía evidenciar su comportamiento en línea.
En los recursos descritos con RDFa y reconocidos por los plugins que han sido utilizados como primer elemento de validación de las anotaciones semánticas, en el caso de Operator se limita a mostrar como contenido marcado con RDF, mientras que Fuzz y su plugin de extensión ya nos muestran las tripletas generadas para el recurso seleccionado. Semantic Radar que lo único que hace es mostrar un icono que permite realizar una búsqueda de linked data de los recursos descritos en nuestra página.
- Material.
Presentación del Trabajo Estado del Arte Propuesta Descripción Linked Data Exploradores: Web Metadatos Anotaciones semanticas Recursos
- Referencias.
[1] BERNERS-LEE, Tim. Linked Data [Consultado a 14 de abril de 2010] [En línea] Disponible en: http://www.w3.org/DesignIssues/LinkedData.html
[2] Dereferencing HTTP URIs. W3C Technical Architecture Group (TAG) [Consultado a 15 de abril de 2010] [En línea] Disponible en: http://www.w3.org/2001/tag/doc/httpRange-14/2007-05-31/HttpRange-14
[3] How to publish Linked data on the Web. [Consultado a 15 de abril de 2010] [En línea] Disponible en: http://sites.wiwiss.fu-berlin.de/suhl/bizer/pub/LinkedDataTutorial/
[4] URI, Wikipedia the Free Encyclopedia. [Consultado a 15 de abril de 2010] [En línea] Disponible en: http://en.wikipedia.org/wiki/URI
[5] Give yourself an URI. [Consultado a 24 de Noviembre 2009] [En línea] Disponible en http://dig.csail.mit.edu/breadcrumbs/node/71
[6] How to publish Linked data on the Web. [Consultado a 15 de abril de 2010] [En línea] Disponible en: http://sites.wiwiss.fu-berlin.de/suhl/bizer/pub/LinkedDataTutorial/
[7] SAUERMANN et al.: Cool URIs for the Semantic Web. [Consultado a 15 de abril de 2010] [En línea] Disponible en: http://www.dfki.uni-kl.de/%7Esauermann/2006/11/cooluris/
[8] Linking Open Data. Common Vocabularies. [Consultado a 15 de abril de 2010] [En línea] Disponible en: http://esw.w3.org/topic/TaskForces/CommunityProjects/LinkingOpenData/CommonVocabularies
[9] Linking Open Data. Deferenceable URIs Data Sets. [Consultado a 15 de abril de 2010] [En línea] Disponible en: http://esw.w3.org/topic/TaskForces/CommunityProjects/LinkingOpenData/DataSets
[10] BIZER, Christian et al.: Interlinking Open Data on the Web [Consultado a 15 de abril de 2010] [En línea] Disponible en: http://sites.wiwiss.fu-berlin.de/suhl/bizer/pub/LinkingOpenData.pdf
[11] HEATH, Tom. The Linking Open Data Project. Bootstrapping the Web of Data. [Consultado a 15 de abril de 2010] [En línea] Disponible en: http://www.linkeddata.org/slides/2008-02-amsterdam-catch.pdf
[12] About the Linking Open Data dataset cloud. [Consultado a 20 de abril de 2010] [En línea] Disponible en: http://www4.wiwiss.fu-berlin.de/bizer/pub/lod-datasets_2009-07-14.html
[13] HERMAN, Ivan. Semantic Web, Linked Data, and Semantic 3D Media. [Consultado a 20 de abril de 2010] [En línea] Disponible en: http://www.w3.org/2010/Talks/0211-Sophia-IH/
[14] HERMAN, Ivan. Semantic Web. What is being done today? [Consultado a 20 de abril de 2010] [En línea] Disponible en: http://www.w3.org/2009/Talks/1214-Darmstadt/
[15] Solving Real Problems Using Linked Data. [Consultado a 28 de abril de 2010] [En línea] Disponible en: http://virtuoso.openlinksw.com/presentations/Solving_Real_Problems_Using_Linked_Data/Solving_Real_Problems_Using_Linked_Data.ppt
[16] Data Lifecycle. [Consultado a 28 de abril de 2010] [En línea] Disponible en: http://webofdata.wordpress.com/2009/09/14/data-lifecycle/
[17] SEQUEDA Juan. Introduction to Linked Data: Consuming Linked Data Tutorial. International Semantic Web Conference 2009. [Consultado a 28 de abril de 2010] [En línea] Disponible en: http://www.slideshare.net/juansequeda/introduction-to-linked-data-2341398
[18] OpenLink Data Explorer. ODE. [Consultado a 28 de abril de 2010] [En línea] Disponible en: https://addons.mozilla.org/en-US/firefox/addon/8062
[19] Michael Hausenblas: Linked Data Tutorial. [Consultado a 28 de abril de 2010] [En línea] Disponible en: http://www.slideshare.net/mediasemanticweb/linked-data-michael-hausenblas-2009-03-05
[20] BIRBECK, Mark. Linked Data and RDFa in US and UK government web-sites. [Consultado a 28 de abril de 2010] [En línea] Disponible en: http://webbackplane.com/mark-birbeck/blog/2009/11/20/linked-data-and-rdfa-in-us-and-uk-government-web-sites
[21] RAIMOND, Yves. Linked Data on the BBC. [Consultado a 28 de abril de 2010] [En línea] Disponible en: http://www.slideshare.net/moustaki/linked-data-on-the-bbc-2638734
[22] RDFa Wiki. [Consultado a 28 de abril de 2010] [En línea] Disponible en: http://rdfa.info/wiki/RDFa_Wiki
[23] RDFa for HTML authors. [Consultado a 28 de abril de 2010] [En línea] Disponible en: http://www.w3.org/MarkUp/2009/rdfa-for-html-authors
[24] HAUSENBLAS, Michael. Introducing the Linked Data Research Centre. [Consultado a 28 de abril de 2010] [En línea] Disponible en: http://www.slideshare.net/mediasemanticweb/introducing-the-linked-data-research-centre?from=ss_embed
[25] HALB, Wolfgang et al: Building Linked Data For Both Humans and Machines. [Consultado a 28 de abril de 2010] [En línea] Disponible en: http://events.linkeddata.org/ldow2008/papers/06-halb-raimond-building-linked-data.pdf
[26] W3C: Structured Data and Search Engines. [Consultado a 28 de abril de 2010] [En línea] Disponible en: http://www.w3.org/QA/2009/05/structured_data_and_search_eng.html
[27] Vocabularies RDFa Wiki. [Consultado a 28 de abril de 2010] [En línea] Disponible en: http://rdfa.info/wiki/Learn#Vocabularies
[29] RDFa Tutorial DERI. [Consultado a 28 de abril de 2010] [En línea] Disponible en: http://linkeddata.deri.ie/services/tutorials/rdfa/
[28] Using RDFa to publish linked data. [Consultado a 28 de abril de 2010] [En línea] Disponible en: http://webofdata.wordpress.com/2010/01/26/using-rdfa-to-publish-linked-data/
[29] Microdata support for Rich Snippets. [Consultado a 12 de Mayo de 2010] [En línea] Disponible en: http://googlewebmastercentral.blogspot.com/2010/03/microdata-support-for-rich-snippets.html
[30] Events. Google Webmaster Central [Consultado a 12 de Mayo de 2010] [En línea] http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=164506
[31] Businesses and organizations. Google Webmaster Central [Consultado a 5 de Mayo de 2010] [En línea] http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=146861
[32] Supporting Facebook Share and RDFa for videos. Google Webmaster Central [Consultado a 12 de Diciembre de 2009] [En línea] http://googlewebmastercentral.blogspot.com/2009/09/supporting-facebook-share-and-rdfa-for.html
[33] People. Google Webmaster Central [Consultado a 5 de Mayo de 2010] [En línea] http://www.google.com/support/webmasters/bin/answer.py?answer=146646
[34] Recipes. Google Webmaster Central [Consultado a 5 de Mayo de 2010] [En línea] http://www.google.com/support/webmasters/bin/answer.py?&answer=173379
[35] Publishing RDFa with Dreamweaver[Consultado a 5 de Mayo de 2010] [En línea] http://www.sitepoint.com/blogs/2009/03/05/publish-rdfa-with-dreamweaver/
[36] RDFa extension for Dreamweaver. KNOL [Consultado a 5 de Mayo de 2010] [En línea] http://knol.google.com/k/richard-kemp/rdfa-extension-for-dreamweaver-seo/wv5mzhzcowiw/9#
[36] Loomp [Consultado a 5 de Mayo de 2010] [En línea] http://loomp.u0d.de
[37] RDFaAuthoring [Consultado a 25 de Mayo de 2010] [En línea] http://www.ebusiness-unibw.org/wiki/RDFaAuthoring
[37] Hepp, Martin; García, Roberto; Radinger, Andreas: RDF2RDFa: Turning RDF into Snippets for Copy-and-Paste [Consultado a 25 de Mayo de 2010] [En línea]Disponble en: http://www.heppnetz.de/files/RDF2RDFa.pdf
