Update 'README.md'

2017-11-10 00:40:16 +01:00 · 2017-11-10 00:40:16 +01:00 · f550439684
commit f550439684
parent 47f68fab98
1 changed files with 58 additions and 55 deletions
--- a/README.md
+++ b/README.md
@ -1,52 +1,7 @@
 # Anche i robot navigano il web
 ~web scraping, estrarre informazioni da Internet~
-## intro
+##cosa c'e' sull'internet
 -  cosa c'e' sull'internet
 	- informazioni
 	- risorse
 	- servizi
 - web vs web browser
    - analisi di una richiesta HTTP
    - dimostrazione con cUrl
 - estrazione
    - superficie: panoramica possibili utilizzi
    - tecniche
    - ostacoli e limitazioni
        - tecnico-pratiche
        - legali*
 - inserimento
    - superficie: panoramica possibili utilizzi
    - tecniche e ostacoli come da estrazione
 - motivazioni
    - pratiche
        - reperibilita' offline
        - far sopravvivere la fruizione ai provider attuali dei contenuti
        - costruzione di soluzioni utente-centriche
    - politiche
        - liberare le informazioni
    - artistiche
        - manipolare le informazioni per caricarle di altro significato
 (*) need halp
 ## pratica 1: cUrl
 ## (?)pratica 1.5: greasemonkey
 ## pratica 2: scrapy
 ## pratica 3: PhantomJs/CasperJs
 ## (???)pratica 4: selenium/watir 
 **tbd: obiettivi scraping per workshop**
 ___
 #cosa c'e' sull'internet
 - informazioni
 - servizi
@ -98,27 +53,75 @@ Per fare questo è necessario individuare le risorse accessibili tramite la rete
 Di seguito vedremo alcune delle tecniche che possiamo utilizzare per crearne uno.
 ####Prerequisiti
 - python con i seguenti moduli installati
    - requests
    - beautiful soup (bs4)
 Il sito da cui andremo ad estrarre le informazioni e' il seguente:
 ```http://viaggiatreno.it/vt_pax_internet/mobile```
 Possiamo quindi iniziare a navigarlo tramite un browser (preferibilmente firefox o chromium/chrome) per farci un idea sul suo funzionamento. E' molto utile in questa fase usare gli strumenti inclusi nel browser come
 Il network monitor di firefox:
 https://developer.mozilla.org/it/docs/Tools/Network_Monitor
 Oppure l'equivalente per Chrome:
 https://developers.google.com/web/tools/chrome-devtools/network-performance/resource-loading
 ####Prerequisiti
 - python ~2.7 con i seguenti moduli installati *(durante il workshop vi aiuteremo durante l'installazione)*
    - ```requests``` che ci permette di gestire le chiamate HTTP[s] e di estrarne il codice HTML
    - ```beautifulsoup``` (bs4) che ci permette di operare selezioni all'interno del codice estratto
 ####Documentazione
 http://docs.python-requests.org/en/master/
 https://www.crummy.com/software/BeautifulSoup/bs4/doc/
 ####Esecuzione
 Il punto di partenza e' quindi creare un nuovo file che chiameremo `scraper.py` con il seguente contenuto:
-    #! /usr/bin/env python
+    # importiamo il modulo requests
    import requests
    # modifichiamo gli header in modo da simulare una richiesta proveniente da un browser web (in questo caso firefox) per evitare possibili ban
    headers = requests.utils.default_headers()
    headers.update({"User-Agent": "Mozilla/5.0"})
    # effettuiamo la richiesta
    r = requests.get('http://viaggiatreno.it/vt_pax_internet/mobile', headers=headers)
    # stampiamo il risultato
    print(r.text)
 salviamo il file ed eseguiamolo:
    $ python scraper.py
 in modo da vedere il codice html estratto dalla pagina.
 Una volta fatto questo torniamo sul sito ed effettuiamo una ricerca per stazione, tenendo aperto il network monitor del browser. Dopodiche', cerceremo di riprodurre la stessa ricerca utilizzando python:
    #! /usr/bin/env python
    import requests
    from bs4 import BeautifulSoup
    headers = requests.utils.default_headers()
    headers.update({"User-Agent": "Mozilla/5.0"})
-    r = requests.get('http://viaggiatreno.it/vt_pax_internet/mobile', headers=headers)
+    data = {
        'codiceStazione': 'S01700Milano+Centrale',
        'lang': 'IT',
    }
    r = requests.post('http://viaggiatreno.it/vt_pax_internet/mobile/stazione', headers=headers, data=data)
    print(r.text.encode('utf-8'))
    print(r.text)