Twitter Data Template(Scala)

Laden der Daten (einmalig ausführen)


Der folgende Block unten erstellt 2 neue Tabellen in eurem Databricks-Account:

  • twitter_followers
  • twitter_timelines

Ihr müsst diesen Block nur einmal ausführen, die Tabellen bleiben permanent in eurem Account gespeichert. Auch nachdem ihr euch ausloggt oder ein neues Cluster erstellt. Ihr könnt den Block mit dem kleinen Play-Symbol oben rechts ausführen. Alternativ könnt ihr Strg + Enter drücken, wenn ihr euch mit dem Cursor innerhalb des Blocks befindet.

Die beiden Tabellen enthalten die Follower sowie die Tweets zu den von eurer Gruppe identifizierten Twitter-Accounts. Es ist daher wichtig, dass ihr oben im Textfeld "Gruppencode" den Code eurer Gruppe eingegeben habt, bevor ihr den Codeblock zum Importieren der Daten ausführt.


HINWEIS: Je nach Menge der Daten kann die Ausführung ein paar Minuten dauern.

dbutils.widgets.text("group_code", "", "Gruppencode")

Überprüfen der Tabellen


Die folgenden SQL-Abfragen geben euch die Rückmeldung, ob alles geklappt hat. Für jede Tabelle wird die Anzahl Datensätze in der Spalte Num Records ausgegeben.

%sql
select count(1) as `Num Records`, 'followers' as `Table` from twitter_followers
union
select count(1) as `Num Records`, 'tweets' as `Table` from twitter_timelines

Die Abfrage unten gibt euch die Anzahl Tweets pro User zurück.

%sql
select user, count(1) as `Number Tweets`
from twitter_timelines
group by user

Die Abfrage unten liefert die Follower für jeden User.

%sql
select follower_of, count(1) as `Number Followers`
from twitter_followers
group by follower_of

Jetzt seid ihr an der Reihe ...


Ihr könnt nun direkt unter diesem Block loslegen und die Tabellen und darin enthaltenen Daten abfragen. Viel Erfolg!