Update 'README.md'
This commit is contained in:
parent
3926ac4c51
commit
f4ec4f2e31
37
README.md
37
README.md
|
@ -1,3 +1,38 @@
|
||||||
# web-scraping-caotico
|
# web-scraping-caotico
|
||||||
|
|
||||||
Materiale di preparazione al workshop sul web scraping per il festival di Unit "Connessioni caotiche" - https://wiki.unit.macaomilano.org/ConnessioniCaotiche2017
|
Creazione di robot capaci di estrarre e inserire contuti sul web al posto degli umani che preferirebbero fare altro.
|
||||||
|
|
||||||
|
## intro
|
||||||
|
- web vs web browser
|
||||||
|
- analisi di una richiesta HTTP
|
||||||
|
- dimostrazione con cUrl
|
||||||
|
- estrazione
|
||||||
|
- superficie:panoramica possibili utilizzi
|
||||||
|
- tecniche
|
||||||
|
- ostacoli e limitazioni
|
||||||
|
- tecnico-pratiche
|
||||||
|
- legali*
|
||||||
|
- inserimento
|
||||||
|
- superficie:panoramica possibili utilizzi
|
||||||
|
- tecniche e ostacoli come da estrazione
|
||||||
|
- motivazioni
|
||||||
|
- pratiche
|
||||||
|
- reperibilita' offline
|
||||||
|
- far sopravvivere la fruizione ai provider attuali dei contenuti
|
||||||
|
- costruzione di soluzioni utente-centriche
|
||||||
|
- politiche
|
||||||
|
- liberare le informazioni
|
||||||
|
- artistiche
|
||||||
|
- manipolare le informazioni per caricarle di altro significato
|
||||||
|
|
||||||
|
(*) need halp
|
||||||
|
|
||||||
|
## pratica 1: cUrl
|
||||||
|
|
||||||
|
## (?)pratica 1.5: greasemonkey
|
||||||
|
|
||||||
|
## pratica 2: scrapy
|
||||||
|
|
||||||
|
## pratica 3: PhantomJs/CasperJs
|
||||||
|
|
||||||
|
## (???)pratica 4: selenium/watir
|
Loading…
Reference in New Issue
Block a user