no lo hacemos por medio de un servicio restful o descargando algo de la página sino escudriñando en la información publica que nos dan, "escarbando" el sitio web para obtener lo que alli se presenta.
scraping de una página web puede desacatar sus terminos de servicio. Por lo que es importante asegurarse de que ese no es el caso, por ejemplo Twitter prohibe completamente hacer scraping en su página. Los dueños de sitios web pueden usar un archivo /robots.txt para darle instrucciones a los bots acerca de su sitio web; este es llamado The Robots Exclusion Protocol.
de eso revisa el http://www.ejemplo.com/robots.txt, y encuentra algo como esto: El "User-agent: *" significa que esta sección aplica a todos los robots. El "Disallow: /" le indica al robot que no esta permitido obtener información de ningúna de las páginas de este sitio. User-agent: * Disallow: /
el /robots.txt especialmente si son robots de malware que buscan vulnerabilidades en la seguridad. A demás de ello hay que estar consientes de que el /robots.txt es público, por lo que cualquiera podría ver que es lo que no quieres mostrar. Por lo que el /robots.txt no sirve para ocultar información.
link: http://www.robotstxt.org/db.html En el /robots.txt podemos establecer que permisos le damos a estos robots, por nombre o bien bloquearlos. Sin embargo el robot podría ignorar esto.
través de un robot con usuarios en redes sociales. Por ejemplo: crear un bot en instagram que seleccione los links de cada foto y luego programar un comentario en cada entrada.
declaración de tipo. 2. El documento HTML esta contenido en <html> and </html>. 3. El meta y los scripts estan contenidos entre <head> y </head>. 4. La parte Visible esta contenida entre <body> y </body>. 5. Los titulos se definen con tags <h1> hasta <h6>. 6. Los parrafos tienen tag <p>. De ello obtendremos algo como lo siguiente: <div class="tituloPost"> <div class="autor">.
200 status_code = req.status_code if status_code == 200: # Pasamos el contenido HTML de la web a un #objeto BeautifulSoup() html = BeautifulSoup(req.text, "html.parser")
= html.find_all('div', {'class': 'col-md-4 col-xs-12'}) # Recorremos todas las entradas para extraer #el título, autor y fecha for item, entrada in enumerate(entradas):
titulo = entrada.find('span', {'class': 'tituloPost'}).getText() autor = entrada.find('span', {'class': 'autor'}) fecha = entrada.find('span', {'class': 'fecha'}).getText() # Imprimo el Título, Autor y Fecha de las entradas print "%d - %s | %s | %s" % (i + 1, titulo, autor, fecha) else: print "Status Code %d" % status_code