Archiwum polskiego forum Opery w serwisie My Opera

Archiwum polskiego forum jest już dostępne w wersji ostatecznej. Nie mam jednak pomysłu gdzie je wrzucić, zatem osoby zainteresowane jego posiadaniem proszę o sugestie lub maila na mój adres na Vivaldi.net Wrzuciłem je na konto na Dropboksie: https://www.dropbox.com/sh/ge0bw02yfzt5bug/EGLOVY_m63.

Na moim blogu na Dobrychprogramach znajduje się wpis z rozmaitymi statystykami: Statystyki polskiego forum przeglądarki Opera w serwisie My Opera.

Przypominam też, że Chocimir stworzył wersję online dostępną pod adresem: http://forumopery.pythonanywhere.com/.

Poniżej treść pliku README archiwum:

--------------------------------------------------------------------------------
Polskie forum My Opera
--------------------------------------------------------------------------------

Archiwum polskiego forum przeglądarki Opera w serwisie My Opera.

Adres źródłowy: http://my.opera.com/polski/forums/
Liczba wątków: 19962
Zaktualizowane: 2 marca 2014 (wersja ostateczna)
Autor: Saskatchewan
http://www.dobreprogramy.pl/Saskatchewan
https://vivaldi.net/community/profile/saskatchewan

-----------------------------Informacje o archiwum------------------------------

Archiwum to zostało stworzone z wykorzystaniem skryptów Pythona i biblioteki
Beautiful Soup. Dane zawarte są w plikach tekstowych w formacie JSON. Wszystkie
pliki kodowane są w UTF-8.

Plik '_forums' zawiera listę forów: grupy, id, nazwy, opisy i liczbę wątków.
Format tego pliku wygląda jak poniżej:

[
{
id: id-grupy-forów,
name: nazwa-grupy,
forums: [
{
id: id-forum,
name: nazwa-forum,
description: opis-forum,
num_topics: liczba-tematów
},
...
]
},
...
]

'num_topics' obejmuje wszystkie wątki na danym forum, również te usunięte.

Plik '_users' zawiera słownik o kluczach będących 'id' użytkownika
i wartościach będących nazwą użytkownika.
W pliku '_usersdata' znajdują się szczegółowe informacje na temat użytkowników:

[
{
id: id-użytkownika,
name: nazwa-użytkownika,
join_date: data-założenia-konta,
sex: płeć,
country: kraj,
num_posts: liczba-postów,
banned: czy-zbanowany
},
...
]

Uwagi:
- W przypadku użytkowników zbanowanych dostępne są tylko id i nazwa. Podobnie
w przypadku użytkowników 'Górnik' oraz '/incente' dla których serwer zwracał
błąd 404. Dla użytkownika 'czech_2' brak daty dołączenia.
– Data dołączenia jest w formacie 'RRRR-MM'.
– Liczba postów obejmuje wszystkie posty na My Opera, nie tylko te z polskiego
forum.
– Płeć to "M" – mężczyzna, "F" – kobieta lub Null – nie podano.
– Nazwa kraju jest po angielsku jeśli ją podano lub wynosi Null.

Część użytkowników podała więcej informacji, ale podanie tego wszystkiego
łącznie z np. wiekiem i loginem Skype'a zakrawa prawie o dane osobowe, których
nikt mi osobiście nie udostępnił, a dodatkowo nie ma już możliwości ich edycji,
dlatego ograniczam się do udostępnienia tylko podstawowych danych.

W pliku '_announcements' znajdują się ogłoszenia wyświetlane na górze forów,
ponad listą wątków.

Wątki znajdują się w katalogu 'data'. Każdy wątek zawarty jest w oddzielnym
pliku tekstowym, którego nazwą jest 'id' wątku.

Format tych plików jest następujący:

{
id: id-tematu,
forum_id: id-forum,
title: tytuł-z-pierwszego-posta,
num_views: liczba-wyświetleń,
is_closed: czy-zamknięty,
close_reason: przyczyna zamknięcia,
posts: [
{
id: id-posta,
date: data-dodania,
user_id: id-autora,
content: treść-odpowiedzi,
edited: czy-edytowany
},
...
]
}

Data dodania i autor wątku widnieją w pierwszym poście.

Stan wyświetleń wątków na dzień 1 marca 2014 ok. godz. 11:20 czasu polskiego.

Pole 'edited' posiada wartość Prawda lub Fałsz dla postów z forów:
– Opera,
– Strony WWW w Operze,
– Po godzinach,
– Test.
Dla postów z pozostałych forów wartość wynosi zawsze Null (brak danych, czy
dany post był edytowany).

Data dodania wiadomości podana jest w formacie 'RRRR-MM-DD gg:mm:ss', czas UTC.

Pole 'content' zawiera treść posta w postaci niezmodyfikowanego kodu HTML
– m.in. ikonki uśmieszków są wstawione jako obraz z serwera My Opera, np.:
<img src="http://static.myopera.com/community/graphics/smiley.gif"
class="smiley s-smile" alt="smile"/>

Wątki numer '293667' i '298532' sprawiały problemy z domyślnym parserem
"html5lib" i zostały wyłuskane za pomocą "html.parser". Nie sprawdzałem, czy
nie posiadają błędów.

W podkatalogu 'static/avatars' znajdują się avatary użytkowników. Są one
zapisane z oryginalnym rozszerzeniem: 'png', 'gif', 'jpg' lub 'bmp'. Nazwą
pliku jest 'id' użytkownika. Tylko trzy avatary są w formacie BMP.
Brak pliku oznacza, że avatar był domyślny (dostępny jako '_default.gif').

Dla poniższych avatarów serwer zwraca ciąg "400 URL must be absolute" pomimo
Content-Type jak dla obrazu:
30333 - image/gif, 31562 – image/jpg, 103608 – image/gif, 113835 – image/jpg,
128045 – image/png, 132291 – image/gif, 141750 – image/jpg, 148324 – image/jpg,
150622 – image/jpg, 151630 – image/jpg, 159574 – image/jpg, 172561 – image/gif.

Dwa wątki mają pusty tytuł:
– 101246 (forum: Po godzinach) – pusty tytuł i treść pierwszego posta.
– 1445612 (forum: Test) – oryginalny tytuł brzmiał "<br/>", co można było
zobaczyć w subskrypcjach: http://my.opera.com/community/forums/subscriptions.dml
Było też zresztą kilka innych wątków z kodem HTML w tytule.
Wątek 1659162 (forum: Test) posiada tytuł będący spacją.

Archiwum nie obejmuje dwóch wątków ze spamem, które nie zostały usunięte przed
zamknięciem forum.