Límites de derechos de autor de "Web Scraping"
Para la investigación empírica, la información a menudo se "arranca" de los sitios web. Pero el "web scraping" no siempre está permitido. Una visión general.
Por Thilo Klawonn 07.01.2020
Imprimir artículo
El raspado web ahora se usa cada vez más en la investigación empírica. Este es un proceso utilizado para "raspar" datos de Internet. Los "raspadores" son pequeños programas que acceden a los sitios web deseados y leen la información de allí, como los precios de los hoteles, y la guardan en un archivo que los investigadores pueden usar para su investigación. Por ejemplo, agencias de viajes en línea como Booking.com recopilaron datos de precios de 30 000 hoteles para un proyecto de investigación con el fin de analizar las cláusulas de mejor precio.
Los investigadores empíricos a menudo no están seguros acerca del marco legal cuando usan web scraping. Este artículo muestra qué límites de derechos de autor deben observarse en la investigación.
Derecho del operador del sitio web
Los operadores del sitio web no tienen derechos de propiedad sobre los datos almacenados en su sitio. La recopilación de los datos, por otro lado, ciertamente puede ser objeto de protección. Porque en la UE existe el llamado derecho de fabricante de base de datos. Los sitios web como los portales de calificación, los intercambios en línea o las redes sociales suelen ser bases de datos en este sentido. Por lo tanto, se puede suponer que la mayoría de los sitios web relevantes para la investigación empírica representan una base de datos.
El fabricante de la base de datos tiene el derecho exclusivo de reproducir, distribuir y mostrar públicamente su base de datos. Estos son términos de derechos de autor: reproducción significa copia, distribución es la transmisión física del original o la copia, y una reproducción pública de la base de datos es cuando se pone a disposición de otros en una forma no física, por ejemplo, al publicarla en el Intranet o Internet. Cuando se trata de web scraping, inevitablemente tienes que duplicar algo. Cuando el raspador extrae la información, la copia en la memoria y luego en el disco. Esto significa que ya se está cometiendo un acto de duplicación, al que en principio sólo tiene derecho el fabricante de la base de datos.
Admisibilidad legal
Primero, las buenas noticias: el web scraping generalmente está permitido para la investigación empírica. Los términos de uso del operador del sitio web no pueden cambiar esto. Porque a menudo solo se utilizan partes insignificantes de la base de datos. Este fue el caso, por ejemplo, al extraer 30 000 datos de precios de agencias de viajes en línea, que pueden representar solo una fracción de la base de datos completa. Básicamente, cualquiera puede copiar y reutilizar partes insignificantes de la base de datos en un contexto científico. Sin embargo, no se deben eludir las medidas técnicas de protección efectivas durante el web scraping. Si el operador del sitio web impide la lectura automática de los datos, por ejemplo, en el llamado robots.txt, el investigador no debe ignorarlo.
Se aplican restricciones legales adicionales si se van a utilizar partes significativas de la base de datos. No se puede decir en abstracto si es una parte esencial de una base de datos. Sin embargo, el Tribunal Federal de Justicia dijo, por ejemplo, que cuando se hizo cargo del diez por ciento de una base de datos, eso no fue cuantitativamente significativo. En otro caso, llegó a la conclusión de que los costes anuales de personal de 200 000 EUR eran una inversión cualitativamente significativa. Por lo tanto, se debe tener cuidado al copiar grandes cantidades de datos o datos que son difíciles de obtener. Sin embargo, esto no está prohibido per se.
Por un lado, los investigadores que quieren estar seguros siempre tienen la opción de pedir permiso al operador del sitio web. Sin embargo, esto no siempre es posible o metodológicamente sensato. Pero incluso sin consentimiento, hay formas de utilizar partes significativas de las bases de datos para la investigación.
Barrera científica, minería de texto y datos
Bajo la barrera de los derechos de autor académicos, cualquiera puede reproducir hasta el 75 por ciento de los trabajos protegidos por derechos de autor para su propia investigación académica no comercial. Esto también se aplica a las bases de datos. Sin embargo, la transferencia de conjuntos de datos duplicados no está cubierta por esta disposición de permiso. Este ya es el caso cuando el conjunto de datos sale de su propio grupo de investigación, por ejemplo, cuando desea enviar los datos para el control de calidad.
De Investigación & Lección 1/20
Leer ahora
Además, el legislador alemán introdujo una barrera para la minería de texto y datos (TDM) en 2018. Permite reproducir un gran número de obras con fines científicos no comerciales para crear un corpus. Sin embargo, en el caso de las bases de datos, no está permitido pasar el corpus para el control de calidad. Tampoco está permitido duplicar la base de datos completa. Por lo tanto, nunca se permite una encuesta total de los datos almacenados en una base de datos sin el consentimiento del fabricante.
Una limitación importante de la barrera TDM se refiere al horizonte temporal. Las duplicaciones y el corpus solo se pueden realizar para un proyecto de investigación específico y deben eliminarse una vez que se haya completado. Solo las bibliotecas públicas, los archivos y las instituciones comparables pueden archivar permanentemente el corpus.
Por lo tanto, la principal diferencia entre los dos límites se puede reducir en la medida de la duplicación y el almacenamiento: de acuerdo con el límite de TDM, se puede copiar casi toda la base de datos, pero las copias deben eliminarse o pasarse a la biblioteca después de la final del proyecto de investigación. De acuerdo con la barrera de la ciencia, por otro lado, las copias también se pueden guardar después, pero solo se puede duplicar hasta el 75 por ciento de la base de datos. En ambos casos, se debe dar como fuente la base de datos y su fabricante.
Conclusión
Por regla general, el web scraping está legalmente permitido para la investigación empírica. Los términos de uso, que son de uso común, no cambian eso. La situación es diferente con las barreras técnicas que no se deben eludir.
Si quiere estar seguro, puede pedir permiso al fabricante de la base de datos y obtenerlo, preferiblemente en forma de texto (por ejemplo, por correo electrónico). En caso de duda, los departamentos jurídicos de las instituciones de investigación le asesorarán.
Imprimir artículo
Parte superior de la página