Spanish version of paper

pull/287/head
emijrp 8 years ago
parent d3e9442a09
commit 7aff4f25df

@ -0,0 +1,112 @@
\documentclass[11pt,twocolumn]{article}
\setlength{\columnsep}{0.5cm}
\usepackage[utf8]{inputenc}
\usepackage[T1]{fontenc}
\usepackage[english]{babel}
\usepackage{hyperref}
\usepackage{graphicx}
\usepackage{natbib}
\title{\vspace{-15mm}
\fontsize{24pt}{10pt}\selectfont
\textbf{WikiTeam: preservación colaborativa de wikis}
}
\author{
\large
\textsc{Emilio J. Rodríguez-Posada} \\
\normalsize WikiTeam \\
\normalsize \href{mailto:emijrp@gmail.com}{emijrp@gmail.com}
\vspace{-5mm}
}
\date{}
\begin{document}
\twocolumn[
\begin{@twocolumnfalse}
\maketitle
\begin{abstract}
Los internautas tienen en la actualidad un papel fundamental en la generación de contenido. Existen iniciativas y soluciones para la preservación digital de la web, la más destacada Internet Archive, pero son ineficientes para archivar contenido generado por los usuarios en redes sociales y wikis. En este artículo exploramos los problemas que surgen al preservar wikis y la falta de herramientas para llevar a cabo dicha tarea, y presentamos y evaluamos WikiTeam, la solución que proponemos. A julio de 2016, hemos extraido los textos, historiales, imágenes y metadatos de más de 20.000 wikis, varias wikifarms y 34 TB de imágenes de Wikimedia Commons. El contenido preservado representa un enorme conjunto de datos de la wikiesfera, con un incalculable valor histórico y de investigación.
\\
\\
\textbf{Keywords:} preservación digital, wikis, archivos
\end{abstract}
\end{@twocolumnfalse}
]
\section{Introducción}
En 2016 se cumple el 20 aniversario de la fundación de Internet Archive, el proyecto más destacado de preservación digital de la web. Es posible que antes de 1996 se llevara a cabo algún esfuerzo en este sentido, pero la sistematización y compromiso de Internet Archive pronto le llevaron a liderar la lista de archivos web. Sus cifras son impresionantes: miles de millones (cuantas?) de páginas web archivadas, 3 millones de libros digitalizados, millones de ficheros de audio y vídeo, software, incluso objetos físicos como los propios libros que escanean, ordenadores antiguos y soportes de almacenamiento como VHS, Betacam, disquettes (3.5, 5.25, 8.), vinilos?, cassettes?, y algunas cosas más. Esta enorme colección de colecciones(Nota al pie: el contenido en IA se organiza en colecciones que a su vez pueden contener otras colecciones) de más de 20 petabytes(Nota al pie: 1 petabyte = 1000 terabytes = 1.000.000 gigabytes) crece cada día con las aportaciones de voluntarios de todo el mundo que suben contenido, de trabajadores del propio archivo y de software que escanean la web en busca de nuevos sitios para archivar.
Internet Archive ha logrado generar conciencia de la importancia de la preservación digital de la web. Cualquier persona que navegue durante un rato por la red de redes se topará antes o después con algún sitio temporalmente caído o que ya no está disponible. Son conocidos popularmente como enlaces rotos y técnicamente como errores 404. La generación de contenido web es cada vez mayor, multiplicada en los últimos años por el contenido generado por los usuarios o web social, pero a su vez la desaparición de contenido ha adquirido proporciones dantescas. Sitios web que almacenan millones de páginas e imágenes, como GeoCities, son eliminados de Internet periódicamente, bien porque la empresa que ofrecía el servicio ya no ve rendimiento económico en mantenerlo o bien porque los usuarios abandonaron el proyecto hace tiempo en busca de nuevos servicios.
La semilla que plantó Internet Archive hace dos décadas comenzó a dar frutos. Archivos nacionales que durante toda su historia se habían limitado a almacenar y preservar documentos físicos, comenzaron a sumarse a la tarea de conservar sitios web, generalmente los concernientes a su país o idioma.(Nota al pie: Los archivos nacionales, por ejemplo el de España, al igual que históricamente acumularon documentos concernientes al país, ahora también preservan las páginas web alojadas en dominios .es, .cat, .gl, .eu por ser idiomas hablados en su territorio.) Algunos archivos crearon su propio sistema de archivo digital web, otros emplearon el servicio Archive It! de Internet Archive.
Pero la cosa no se detuvo ahí y en 2011? un grupo de voluntarios liderados por Jason Scott fundó el proyecto Archive Team, con la finalidad de hacer una copia de aquellos sitios web en peligro de desaparecer, marcando un punto de inflexión la descarga de casi 1 TB de páginas web de GeoCities antes de que cerrara. Pronto se crearon subproyectos dentro de Archive Team, entre los más destacados URLTeam para guardar los acortadores de enlaces y WikiTeam para preservar wikis. Este último es el proyecto que presentamos en este documento.
Ideas (write yours):
\begin{itemize}
\item brief description and importance of digital preservation, Internet Archive and Wayback
\item user-generated content explosion, social networks, wikis, Archive Team, LoC archiving Twitter
\item Wikipedia 2001, people start to use MediaWiki for their wikis, wikifarms,
\item wikis not only are text and files, but interesting metadata, histories. IA preserves text/files (and not all/always), but it is inefficient saving histories and metadata
\item as most wikis are free-licensed, there are no issues preserving this content
\end{itemize}
\section{Digital preservation of wikis}
This is a section for specifically wikis (an area inside web archiving).
Ideas (write yours):
\begin{itemize}
\item lack of public dumps/mirrors
\item lost wikifarms (ScribbleWiki)
\item existing software: wikitravel scripts oxygenpump %http://wikitravel.org/en/Wikitravel_talk:Database_dump %http://code.google.com/p/oxygenpump/
\item proposals: Urobe
\item other: manually export with Special:Export, or ad-hoc scripts
\item indexes of wikis: wikiindex, wikiapiary, s23
\end{itemize}
\section{WikiTeam: digital preservation of the wikisphere}
Here we are.
Ideas (write yours):
\begin{itemize}
\item presentation of WikiTeam
\item achievements (statistics, wikifarms, commons)
\item single backups and backups in batches (launcher)
\item uploaded to IA (long-time preservation, bittorrent webseed)
\item how we generate lists of wikis and reuse others (Pavlo list)
\item WikiApiary partnership
\end{itemize}
\section{Conclusions and future work}
Ideas (write yours):
\begin{itemize}
\item sumarizing the best
\item current issues and possible solutions
\end{itemize}
\bibliographystyle{wink}
\bibliography{wikiteam-2014}
\section*{Acknowledgements}
\section*{License}
This work has a license \href{http://creativecommons.org/licenses/by-sa/3.0/}{Creative Commons Attribution-ShareAlike 3.0 Unported}.
\end{document}
Loading…
Cancel
Save