¿Qué es el scraping?

scraping, social media

Scraping – Social Media Imagen de Photl.com

¿Alguna vez te ha pasado que buscando información, encuentras el mismo artículo en diferentes sitios y literalmente copiados, con todas sus comas  y sus espacios?

Pues el acto de copiar literalmente un artículo o varios de una web a otra, se le denomina Scraping. Y debemos tener mucho cuidado tanto de no incurrir en el mismo error como de aquellos que “nos copien” o lo hacen deliberadamente para posicionarse y lucrar gracias a los contenidos de los demás. Normalmente los scrapers “absorben”  información de diferentes webs a través de un software que imitan la navegación de un usuario , del RSS o html de la web original, aunque también se  realizan copy-paste manual típico.

Por empezar debemos tomar consciencia de que elaborar contenidos para un blog o web  no solo  toma  tiempo y dedicación, sino también, una labor muy extenuante de nuestras neuronas para conseguir un acabado lo mas profesional posible, porque un resultado de calidad,  será recompensado por “San Google” en el posicionamiento. Y no nos gustaría, que después de horas y horas de escribir, borrar, corregir, agregar, cambiar orden, etc. para que tu artículo quede fantástico, sea copiado por otros que no se han molestado en cambiar ni una coma del mismo o ni hacer al menos, como una manera de reconocimiento, una referencia a tu blog o a tu persona.

Por otra parte,  tenemos otro problema y es que Google, cuando detecta artículos dobles, sanciona o penaliza a las webs o blogs  mandándolos a la SandBox de Googleo sea, allá a lo lejos y que pocos te encuentren.  Y lo peor, es que no escapas a que seas tú el penalizado ya que Google no detecta cual es el artículo original,  indexando primero a la web “ladrona” por su alto raking de posicionamiento en comparación de la tuya, y  es muy probable que no llegues a darte cuenta que has sido penalizado hasta que notas que tu posicionamiento y tráfico, ha bajado considerablemente.

¿Cómo protegernos del Scraping?

Esencialmente tenemos la herramienta que nos ofrece la licencia de publicación de contenidos CreativeCommons, aunque en estos casos poco caso le hacen.

* Si utilizas Worpdress, puedes descargarte los plugins disponibles para proteger tus contenidos como ser:

+ Anti Feed-Scraper Message: Este plugin inserta un mensaje o firma personalizado con un enlace a en el post a tu blog en tu feed RSS como el siguiente:

[Postname] apareció originalmente en [nombre del sitio] el [postdate].

+ WordPress Seo by Yoast: Un plugin muy completo que aparte de optimizar el contenido, complementa con  un añadido para evitar el scraping.

+Registrar o vincular nuestra web en nuestros perfiles de Google+.  O bien a través del  plugin  de WordPress Google Authorship puedes registrar  y mediante  un icono insignia de autoría, dejando constancia en los buscadores y así diferenciar el contenido original del copiado.

¿Que hacer en caso de scraping?

A simple vista, no nos daremos cuenta. Solo a través de algunas acciones que nos pueden servir para detectar si nos han copiado.

Una herramienta útil es Copyscape,  un sistema de búsqueda online  gratuito de detección de copias de tu sitio web.

Para ello, colocamos la URL de un artículo nuestro en el recuadro de texto y damos a pulsar. Copyscape buscará contenidos dobles, los enlaces que aparezca, indicará las veces que se ha plagiado el artículo. Si no fue plagiado, aparecerán enlaces que llevan  a la misma web original, y sino,  al hacer click sobre uno de los enlaces, aparecerá en color rosa los fragmentos copiados.

Otra forma es escribiendo un pequeño párrafo de un artículo nuestro entre comillas, en el buscador de google y ver  los enlaces que saltan si llevan a tu web o a otras.

En caso de detectar plagio, podemos actuar de la siguiente  manera:

a) Contactamos con el autor de la web que nos ha plagiado mediante un email y decirles que eliminen el contenido por haber publicado un artículo tuyo sin autorización.

b) Si esto no funciona, porque muchas webs que se dedican a comercializar haciendo scraping, no se preocuparán mucho de tu advertencia, ponerte en contacto con la empresa hosting que alberga esa web, e indicarles que se debe eliminar de tal sitio por violaciones de las políticas de uso.

c) Si aún así no tenemos constancia que hayan tomado cartas en el asunto, se debe enviar una notificación  a Google por email o fax, llamada DMCA Violation Removal Request to GoogleLamentablemente es un proceso largo y mucho mas difícil si no es dominio propio. 

Y en caso de llegar a las malas, y con fastidio por no solucionar,  puedes bloquear cualquier intento de copia de tu blog o web  haciendo Control+C   sobre el texto previamente seleccionado con el ratón , es una manera muy beligerante según la opinión de los expertos aunque no evita que los scrapers lo hagan a través de sus softwares especializados, ya que absorben la información a través del RSS.

Si conoces alguna otra opción, agradecería que puedes comentarla   y así ampliamos  información y estamos mas protegidos.

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s