]> gitweb.pimeys.fr Git - today.git/blobdiff - youtube.py
début de modularisation
[today.git] / youtube.py
diff --git a/youtube.py b/youtube.py
new file mode 100755 (executable)
index 0000000..1f30801
--- /dev/null
@@ -0,0 +1,60 @@
+#!/usr/bin/python
+# -*- encoding: utf-8 -*-
+
+""" Gestion des chaînes Youtube """
+
+import re
+from lxml import etree
+import urllib
+
+# Config serveur
+import serverconfig
+
+def parse_youtube(username, regexp=None, length=False):
+    """Récupère les vidéos d'une chaîne Youtube"""
+    link = "https://gdata.youtube.com/feeds/api/users/%s/uploads?start-index=1&max-results=50" % (username,)
+    entries = []
+    while link:
+        p = urllib.urlopen(link)
+        t = p.read()
+        x = etree.fromstring(t)
+        # lxml ne supporte pas les namespaces vides dans les requêtes XPath
+        ns = x.nsmap
+        ns["default"] = ns[None]
+        ns.pop(None)
+        # Il y a potentiellement une suite
+        nextlinks = x.xpath("//default:link[@rel='next']", namespaces=ns)
+        if nextlinks:
+            link = nextlinks[0].attrib["href"]
+        else:
+            link = False
+        localentries = x.xpath("//default:entry", namespaces=ns)
+        entries.extend(localentries)
+    titles = [e.xpath(".//default:title", namespaces=ns)[0].text for e in entries]
+    if not regexp is None: # On ne garde que les titres qui matchent la regexp
+        titles = [t for t in titles if re.match(regexp, t)]
+    if length: # On n'est intéressés que par le nombre
+        titles = len(titles)
+    return titles
+
+def load_channels():
+    """Récupère les chaînes à surveiller à partir du fichier de conf."""
+    with open(serverconfig.youtube_channels_file) as f:
+        channels = [l.strip("\n") for l in f.readlines()]
+        channels = [l for l in channels if not (l.startswith("#") or l.strip() == "")]
+        channels = [l.split("\t") for l in channels]
+        # Il peut y avoir plusieurs tabulations de suite, donc on enlève les chaînes vides
+        channels = [[i for i in l if not i == ''] for l in channels]
+        # [id, username, regexp]
+        # channels = [{"id" : l[0], "username" : l[1], "regexp" : l[2]} for l in channels]
+    return channels
+
+
+def get_parser(username, regexp=None):
+    """ Renvoie un parseur de chaîne youtube prêt à être appelé """
+    def local_parser():
+        return parse_youtube(username, regexp, length=True)
+    return local_parser
+
+channels = load_channels()
+functions = {id : get_parser(username, regexp) for (id, username, regexp) in channels}