Frage: Wie geht’s eigentlich dem Usenet?
von Gregor Aisch und Marian Steinbach.
Als große Fans des Usenets haben wir uns kürzlich gefragt, wie es eigentlich um die Mutter aller Foren (wenn man mal von Bulletin Board Systems/BBS absieht) bestellt ist. Denn die schlechten Nachrichten haben sich in der jüngeren Vergangenheit gehäuft. Im Mai 2010 hat die Duke University, Betreiber eines der zwei ersten News-(bzw. NNTP-)Servern, vermeldet, dass Sie den Betrieb ihres Servers einstellen werden. Viele Internet-Provider haben das gleiche getan, unter anderem am 1. April 2011 die Deutsche Telekom.
Dabei bietet das Usenet Vorteile, die kein Nachfolge-System in dieser Form verbindet. So muss man beispielsweise als Nutzer nicht erst nach passenden Webforen suchen und sich dann dort einen Account einrichten, um mitreden zu können. Im Unterschied zu Webforen beruht das Usenet auf einem standardisierten Protokoll (NNTP), sozusagen ein “API first” Ansatz. Nutzer haben die Wahl, mit welchen Clients sie auf Newsgroups zugreifen, oder ob sie selbst sich hilfreiche Tools schreiben möchten, die Ihnen helfen, Informationen zu filtern. Von der dezentralen Struktur und der geringen Anfälligkeit für Zensur mal ganz zu schweigen.
Wie geht es dem Usenet nun, da einige Provider ihren NNTP-Dienst quittiert haben?
Da das Usenet nicht an einer zentralen Stelle “verwaltet” wird, ist es nicht ganz einfach, aussagekräftige Daten hierzu zu sammeln. Beispielsweise dürfte es sehr schwierig sein, festzustellen, wie viele NNTP-Server weltweit oder auch nur landesweit im Einsatz sind. Die Entwicklung einer solchen Zahl im Vergleich zu vergangenen Zeiträumen nachzuzeichnen, dürfte noch deutlich schwieriger sein.
Ebenfalls schwierig wird es sein, die lesende Nutzung (Anzahl der Zugriffe, Anzahl der lesenden Nutzer etc.) von Newsgroups in Erfahrung zu bringen bzw. deren Entwicklung nachzuzeichnen. Die Daten hierfür liegen, wenn überhaupt, in den Logs zahlreicher Internet-Provider versteckt.
Ein möglicher Ansatz ergibt sich über Google Groups. Google hat im Jahr 2001 das Usenet-Archiv von DejaNews übernommen und archiviert Newsgroups zurück bis 1981. Jede Newsgroup hat eine Info-Seite, auf der auch die Zahl der (im Archiv vorhandenen) monatlichen Beiträge seit Bestehen der Gruppe angezeigt wird.
Für die Gruppe de.alt.rec.digitalfotografie sehen die Zahlen, simpel visualisiert, so aus:
Man kann deutlich erkennen, dass die Post-Frequenz in dieser Gruppe etwa zwischen 2003 und 2005 auf dem Höhepunkt war und seitdem stark gesunken ist. Die Geschwindigkeit der Abnahme scheint dabei rückläufig zu sein – die Kurve flacht nach hinten ab.
Und das, obwohl sich die Digitalfotografie in Deutschland kaum einer abnehmenden Beliebtheit erfreuen dürfte. Eher im Gegenteil.
Zu den Zahlen von Google Groups ist anzumerken, dass Google Groups nicht alle Beiträge speichert. Nutzer können, wenn Sie über einen geeigneten News-Client und das nötige Know-How verfügen, in ihren Beiträgen einen Header setzen, der die Beiträge von der Archivierung ausschließt. Es ist jedoch nicht davon auszugehen, dass der Rückgang der Beitragszahlen dadurch auch nur annährend zu erklären ist.
Wie sieht der Trend in anderen Newsgroups aus?
Wir können die Betrachtung leicht ausdehnen, aber es gibt nirgends eine verbindliche Liste aller existierenden Newsgroups. Denn jeder Server-Betreiber kann auf seinem Server beliebige Newsgroups einrichten. Andere Serverbetreiber können, sofern die Newsgroups öffentlich sind, entscheiden, ob sie diese ebenfalls übernehmen (spiegeln) wollen oder nicht. So wie es also nahezu unmöglich ist, eine komplette Liste aller News-Server auszustellen, wird man auch nicht ermitteln können, welche Newsgroups es gibt.
Aber: für bestimmte Hierarchien des Usenet gibt es Bekanntmachungen, welche “offiziell” anerkannten Newsgroups es gibt. Für die de.*-Hirarchie, also den deutschsprachigen Bereich des Usenet, wird diese Liste regelmäßig in der Gruppe de.admin.news.announce veröffentlicht. Sie umfasste zuletzt 426 Gruppen. Eine solche Liste gibt es auch in news.announce.newsgroups für die sogenannten “Big 8″, die acht Usenet Bereiche comp, humanities, news, rec, sci, soc und talk (Beispiel vom 15.12.2011). Dort sind 1994 Gruppen vertreten.
Wie kommen wir nun über Google an die Beitragszahlen zu so vielen Newsgroups? Sicher nicht von Hand. Python ist hier eine große Hilfe. Wir fangen mal mit den 426 deutschen Gruppen an. Nach etwa 30 Minuten liegen uns die Ergebnisse vor. Sparen wir uns das Scrapen der Zahlen für die gesamten Big-8-Hierarchien für einen späteren Zeitpunkt auf…
Der Plot zeigt die summierte Anzahl der monatlichen Beiträge aller de-Newsgroups. Es ergibt sich ein ähnliches Bild, wie es sich bereits bei Betrachtung einer einzigen Newsgroup angedeutet hat. Nur gibt es nun Zahlen, die noch weiter in die Vergangenheit reichen. Und bei Betrachtung der Summe sieht es noch eher so aus, als hätte das deutsche Usenet nicht etwa eine mehrere Jahre andauernde Hochphase gehabt, sondern einen sehr kurzen Höhepunkt (Ende 2001), von dem an es bergab ging. Wie ist das zu erklären? Nach einer natürlichen, organischen Entwicklung sieht das jedenfalls nicht aus. Ist es möglich, dass Google Groups nach genau 10 Jahren viele, aber nicht alle, Beiträge aus dem Archiv entfernt? Das kann man möglicherweise in ein bis zwei Monaten mit einer erneuten Erhebung feststellen, wenn sich die Zahlen Januar 2002, Februar 2002 etc. drastisch verringern sollten. Aber das ist nicht unser eigentliches Interesse.
Deutlich wird, dass die Beitragszahlen für das gesamte Deutsche Usenet deutlich zurück gehen. Das gesamte Beitragsaufkommen liegt nun etwa beim Niveau von 1997 (falls man den Zahlen von Google Groups für diesen lange zurück liegenden Zeitraum vertrauen kann).
Wer findet Antworten?
Heißt das nun, dass das Usenet im Sterben liegt? Oder gilt das nur für das deutsche Usenet? Und gibt es selbst dort Unterschiede? Welche Themen funktionieren noch im Usenet und welche nicht? Welche Methoden gäbe es, sich diesen Fragen zu nähern und Antworten zu finden?
Das dürft Ihr selbst erforschen. Betrachtet es als Herausforderung (englischsprachige Blogs würden nun das Wort “Challenge” benutzen und fast so etwas wie einen Wettbewerb daraus machen). Wir wollen einfach nur ein Gespräch mit Euch führen. Wir wollen wissen, welche Ansätze Ihr wählt, und auf welche Antworten Ihr kommt. Es gibt weder einen Einsendeschluss, noch einen Gewinn.
Quellcode und Daten zum Download
Wir haben unser Scraper-Python-Script und die Liste der deutschen Newsgroups und der Big-8-Gruppen in einem Github gist abgelegt:
https://gist.github.com/1564623
Das Script liest die deutsche Gruppenliste (grouplist_de.txt) aus und erhebt dazu die Beitragszahlen in einer Datei postcounts_de.csv. Es sollte Euch leicht fallen, es so anzupassen, dass Ihr es mit einer anderen Liste füttert.
Das Ergebnis der Datensammlung, also die monatlichen Beiträge aller offiziellen de.* Newsgroups, gibt es hier als Download (CSV-Daten, gezippt).
Ein Hinweis zum Scrapen: Es verstößt vermutlich gegen irgendwelche Nutzungsbedingungen von Google Groups und führt, wenn man es zu exzessiv durchführt, auch mit großer Wahrscheinlichkeit zu Fehlermeldungen und Sperren seitens Google Groups. Jeder einzelne handelt hier eigenverantwortlich und ist angehalten, die Nutzungsbedingungen von Google Groups zu beachten.