2017-10-03 00:00:41 +02:00
|
|
|
# web-scraping-caotico
|
|
|
|
|
2017-10-03 00:56:56 +02:00
|
|
|
Creazione di robot capaci di estrarre e inserire contuti sul web al posto degli umani che preferirebbero fare altro.
|
|
|
|
|
|
|
|
## intro
|
|
|
|
- web vs web browser
|
|
|
|
- analisi di una richiesta HTTP
|
|
|
|
- dimostrazione con cUrl
|
|
|
|
- estrazione
|
|
|
|
- superficie:panoramica possibili utilizzi
|
|
|
|
- tecniche
|
|
|
|
- ostacoli e limitazioni
|
|
|
|
- tecnico-pratiche
|
|
|
|
- legali*
|
|
|
|
- inserimento
|
|
|
|
- superficie:panoramica possibili utilizzi
|
|
|
|
- tecniche e ostacoli come da estrazione
|
|
|
|
- motivazioni
|
|
|
|
- pratiche
|
|
|
|
- reperibilita' offline
|
|
|
|
- far sopravvivere la fruizione ai provider attuali dei contenuti
|
|
|
|
- costruzione di soluzioni utente-centriche
|
|
|
|
- politiche
|
|
|
|
- liberare le informazioni
|
|
|
|
- artistiche
|
|
|
|
- manipolare le informazioni per caricarle di altro significato
|
|
|
|
|
|
|
|
(*) need halp
|
|
|
|
|
|
|
|
## pratica 1: cUrl
|
|
|
|
|
|
|
|
## (?)pratica 1.5: greasemonkey
|
|
|
|
|
|
|
|
## pratica 2: scrapy
|
|
|
|
|
|
|
|
## pratica 3: PhantomJs/CasperJs
|
|
|
|
|
|
|
|
## (???)pratica 4: selenium/watir
|