On peut récupérer les vidéos des chaînes Youtube grâce à l'API Youtube

[today.git] / today_server.py
diff --git a/today_server.py b/today_server.py

index 209dd04b0e6bbc39f50c244ddf9feea62e1dcf91..1be4d3f4def164937eefb3daad7366e7c0c7da36 100755 (executable)
--- a/today_server.py
+++ b/today_server.py
@@ -11,11 +11,15 @@ et répondre à un check.
  """
  
  import time, datetime
  """
  
  import time, datetime
+import locale
  import re
  import re
+import BeautifulSoup
+from lxml import etree
  import os
  import sys
  import urllib
  import json
  import os
  import sys
  import urllib
  import json
+import traceback
  os.chdir('/home/vincent/scripts/today/')
  sys.path.append("/home/vincent/scripts/dtc/")
  import dtc
  os.chdir('/home/vincent/scripts/today/')
  sys.path.append("/home/vincent/scripts/dtc/")
  import dtc
@@ -32,19 +36,114 @@ def get_now():
      now = datetime.datetime(*time.localtime(timestamp)[:7])
      return now
  
      now = datetime.datetime(*time.localtime(timestamp)[:7])
      return now
  
+def parse_date(s, french=True):
+    """Essaye d'obtenir une date à partir du string fourni"""
+    s = s.lower()
+    if isinstance(s, unicode):
+        s = s.encode("utf-8")
+    if s.startswith("le "):
+        s = s[3:]
+    # Y U PARKINSON ?
+    s = re.sub(" +", " ", s)
+    # Pour avoir les noms de dates en Français
+    if french:
+        locale.setlocale(locale.LC_ALL, 'fr_FR.UTF-8')
+    for format in ["%d %B %Y"]:
+        try:
+            struct = time.strptime(s, format)
+            return datetime.datetime(*struct[:7])
+        except ValueError:
+            pass
+    raise ValueError("%r : Didn't manage to convert as date, sorry." % (s,))
+
  def last_dtc():
      """Vérifie si il y a des quotes DTC non lues"""
      return dtc.last_inserted()
  
  def last_xkcd():
  def last_dtc():
      """Vérifie si il y a des quotes DTC non lues"""
      return dtc.last_inserted()
  
  def last_xkcd():
-    try:
-        p = urllib.urlopen("http://xkcd.com")
-    except IOError:
-        return "Impossible de se connecter à xkcd"
+    p = urllib.urlopen("http://xkcd.com")
      t = p.read()
      current_id = int(re.findall("Permanent link to this comic: http://xkcd.com/(.*?)/", t)[0])
      return current_id
  
      t = p.read()
      current_id = int(re.findall("Permanent link to this comic: http://xkcd.com/(.*?)/", t)[0])
      return current_id
  
+def last_xantah():
+    p = urllib.urlopen("http://www.adoprixtoxis.com/lite/download/xantah_downloads.php")
+    t = p.read()
+    ids = re.findall("""<div class="top">Xantah (.*?)</div>""", t)
+    ids = [int(i) for i in ids]
+    return max(ids)
+
+def last_visiteur():
+    p = urllib.urlopen("http://www.levisiteurdufutur.com/episodes.html")
+    t = p.read()
+    # On parse
+    soup = BeautifulSoup.BeautifulSoup(t)
+    # On récupère les différentes saisons
+    saisons = soup.findAll("div", attrs={"id" : "episodes_list"})
+    nsaisons = len(saisons)
+    # La saison en cours est la première dans la liste
+    episodes = saisons[0].findAll("div", attrs={"class" : "thumbCaption"})
+    nepisodes = len(episodes)
+    return nsaisons * 100 + nepisodes
+
+def last_noob_warpzone():
+    p = urllib.urlopen("http://noob-tv.com/agenda01.html")
+    t = p.read()
+    # On parse
+    soup = BeautifulSoup.BeautifulSoup(t)
+    # On récupère tous les évènements
+    garbage = soup.findAll("strong")
+    events = []
+    for o in garbage:
+        l = o.findAll("span", attrs={"class":"Style31"})
+        if l:
+            events.append([o.text[:o.text.index(":")].strip(), l[0].string.lower().strip()]) # la date, l'event
+    # On garde que les "sorties"
+    events = [o for o in events if "sortie" in o[1]]
+    # Fucking HTML
+    events = [[o[0].replace(u"&ucirc;", u"û").replace(u"&eacute;", u"é"), o[1]] for o in events]
+    # Parsing des dates
+    eventss = []
+    for i in range(len(events)):
+        raw_date, event = events[i]
+        try:
+            eventss.append([parse_date(raw_date), event])
+        except ValueError:
+            pass
+    events = eventss
+    del eventss
+    noobs = [ev for ev in events if "noob" in ev[1]]
+    warpzones = [ev for ev in events if "warpzone" in ev[1]]
+    # On prend en considération le dernier évènement qui a eu lieu
+    now = get_now()
+    ######
+    ###### RHÂ, shit, y'a des fuckings trucs du genre "1er" dans les dates… :/
+    return noobs, warpzones
+
+def parse_youtube(username):
+    """Récupère les vidéos d'une chaîne Youtube"""
+    link = "https://gdata.youtube.com/feeds/api/users/%s/uploads?start-index=1&max-results=50" % (username,)
+    entries = []
+    while link:
+        p = urllib.urlopen(link)
+        t = p.read()
+        x = etree.fromstring(t)
+        # lxml ne supporte pas les namespaces vides dans les requêtes XPath
+        ns = x.nsmap
+        ns["default"] = ns[None]
+        ns.pop(None)
+        # Il y a potentiellement une suite
+        nextlinks = x.xpath("//default:link[@rel='next']", namespaces=ns)
+        if nextlinks:
+            link = nextlinks[0].attrib["href"]
+        else:
+            link = False
+        localentries = x.xpath("//default:entry", namespaces=ns)
+        entries.extend(localentries)
+    titles = [e.xpath(".//default:title", namespaces=ns)[0].text for e in entries]
+    return titles
+
+
  def get_file():
      """Récupère la liste des derniers ids de chaque truc, stockée dans le fichiers."""
      f = open(store_published_file)
  def get_file():
      """Récupère la liste des derniers ids de chaque truc, stockée dans le fichiers."""
      f = open(store_published_file)
@@ -61,12 +160,19 @@ def update_file(news):
  FETCHS = {
            "xkcd" : last_xkcd,
            "dtc" : last_dtc,
  FETCHS = {
            "xkcd" : last_xkcd,
            "dtc" : last_dtc,
+          "xantah" : last_xantah,
+          "visiteur" : last_visiteur,
           }
           }
+
  def fetch_all():
      """Va chercher sur les différents sites les nouveaux trucs."""
      news = {}
      for (k, f) in FETCHS.iteritems():
  def fetch_all():
      """Va chercher sur les différents sites les nouveaux trucs."""
      news = {}
      for (k, f) in FETCHS.iteritems():
-        news[k] = f()
+        try:
+            news[k] = f()
+        except Exception as e:
+            print "Erreur à la récupération de %s :" % k
+            traceback.print_exc()
      return news
  
  def sync():
      return news
  
  def sync():
@@ -90,7 +196,9 @@ def sync():
  if __name__ == "__main__":
      if sys.argv[1] == "check":
          news = fetch_all()
  if __name__ == "__main__":
      if sys.argv[1] == "check":
          news = fetch_all()
-        update_file(news)
+        olds = get_file()
+        olds.update(news)
+        update_file(olds)
      elif sys.argv[1] == "whatsup":
          news = get_file()
          print json.dumps(news)
      elif sys.argv[1] == "whatsup":
          news = get_file()
          print json.dumps(news)