Materiale di preparazione al workshop sul web scraping per il festival di Unit "Connessioni caotiche" - https://wiki.unit.macaomilano.org/ConnessioniCaotiche2017
README.md |
web-scraping-caotico
Creazione di robot capaci di estrarre e inserire contuti sul web al posto degli umani che preferirebbero fare altro.
intro
- web vs web browser
- analisi di una richiesta HTTP
- dimostrazione con cUrl
- estrazione
- superficie: panoramica possibili utilizzi
- tecniche
- ostacoli e limitazioni
- tecnico-pratiche
- legali*
- inserimento
- superficie: panoramica possibili utilizzi
- tecniche e ostacoli come da estrazione
- motivazioni
- pratiche
- reperibilita' offline
- far sopravvivere la fruizione ai provider attuali dei contenuti
- costruzione di soluzioni utente-centriche
- politiche
- liberare le informazioni
- artistiche
- manipolare le informazioni per caricarle di altro significato
- pratiche
(*) need halp
pratica 1: cUrl
(?)pratica 1.5: greasemonkey
pratica 2: scrapy
pratica 3: PhantomJs/CasperJs
(???)pratica 4: selenium/watir
tbd:obiettivi scraping per workshop