You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
|
|
|
# web-scraping-caotico
|
|
|
|
|
|
|
|
Creazione di robot capaci di estrarre e inserire contuti sul web al posto degli umani che preferirebbero fare altro.
|
|
|
|
|
|
|
|
## intro
|
|
|
|
- web vs web browser
|
|
|
|
- analisi di una richiesta HTTP
|
|
|
|
- dimostrazione con cUrl
|
|
|
|
- estrazione
|
|
|
|
- superficie: panoramica possibili utilizzi
|
|
|
|
- tecniche
|
|
|
|
- ostacoli e limitazioni
|
|
|
|
- tecnico-pratiche
|
|
|
|
- legali*
|
|
|
|
- inserimento
|
|
|
|
- superficie: panoramica possibili utilizzi
|
|
|
|
- tecniche e ostacoli come da estrazione
|
|
|
|
- motivazioni
|
|
|
|
- pratiche
|
|
|
|
- reperibilita' offline
|
|
|
|
- far sopravvivere la fruizione ai provider attuali dei contenuti
|
|
|
|
- costruzione di soluzioni utente-centriche
|
|
|
|
- politiche
|
|
|
|
- liberare le informazioni
|
|
|
|
- artistiche
|
|
|
|
- manipolare le informazioni per caricarle di altro significato
|
|
|
|
|
|
|
|
(*) need halp
|
|
|
|
|
|
|
|
|
|
|
|
## pratica 1: cUrl
|
|
|
|
|
|
|
|
## (?)pratica 1.5: greasemonkey
|
|
|
|
|
|
|
|
## pratica 2: scrapy
|
|
|
|
|
|
|
|
## pratica 3: PhantomJs/CasperJs
|
|
|
|
|
|
|
|
## (???)pratica 4: selenium/watir
|
|
|
|
|
|
|
|
|
|
|
|
**tbd: obiettivi scraping per workshop**
|