Pig kennenlernen

pig -x local
A = LOAD '/home/admin/150214.CSV' USING PigStorage(';') AS (tag:int,zeit:chararray,username:chararray);
DESCRIBE A;
ILLUSTRATE A;
B = GROUP A BY username;
C = FOREACH B GENERATE group, COUNT(A.tag) as tag_count;
D = ORDER C BY tag_count;
STORE D INTO '/home/admin/user_count_sorted.txt' USING PigStorage();

Pig installieren

Mit vim ~/.bashrc folgende Einträge ergänzen.

[code lang=“bash“]export JAVA_HOME=“/usr/java“
export PIG_HOME=“/usr/pig“
export PIG_CONF_DIR=“$PIG_HOME/conf“
export PIG_CLASSPATH=“$PIG_CONF_DIR“
export PATH=“$PIG_HOME/bin:$PATH“[/code]

Mit vim /usr/pig/conf/log4j.properties den Einträge log4j.logger.org.apache.pig=info, A ändern (Wert „info“ durch „warn“ ersetzen).

Hadoop Projekt konfigurieren

SSH-Login ohne Kennwort

Als „admin“ am CentOS 7 anmelden.

  • Anwendungen/Hilfsprogramme/Terminal
  • ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
  • cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
  • chmod 700 ~/.ssh
  • chmod 600 ~/.ssh/authorized_keys
  • weitere Details: SecuringSSH

Hadoop starten

  • cd /usr/hadoop
  • ./sbin/start-dfs.sh (später mit ./sbin/stop-dfs.sh beenden)
  • einmal ./bin/hdfs namenode -format ausführen
  • ./bin/hdfs dfs -mkdir /user
  • ./bin/hdfs dfs -mkdir /user/majo
  • mit ./bin/hdfs dfs -ls / die Verzeichnisanlage kontrollieren

Eclipse vorbereiten

  • unter /usr/hadoop folgende Dateien suchen und in gemeinsamen Ordner kopieren: hadoop-common-2.6.0.jar, hadoop-common-2.6.0-sources.jar, hadoop-mapreduce-client-core-2.6.0.jar, hadoop-mapreduce-client-core-2.6.0-sources.jar
  • im Eclipse: Window/Preferences/Java/Build Path/User Libraries/New…
  • User library name: Hadoop
  • Add External JARs…
  • hadoop-common + hadoop-mapreduce-client-core hinzufügen (ohne „sources“)
  • neue Einträge öffnen + „Source attachment“ wählen + Edit…
  • External location + External File…

Projekt anlegen

  • Window/Open Perspective/Other…
  • Git Repository Exploring + OK
  • majo in Git Repositories wählen + Import Projects… (über Kontextmenü)
  • Import existing Projects + Next
  • MajoMapReduce auswählen + Finish

Hadoop Plattform installieren

CentOS 7

  • VirtualBox 4.3.22/Neu
  • (Aktualisierung VirtualBox 4.3.22 nötig für Gasterweiterungen vom CentOS 7)
  • Name: CentOS 7 + Typ: Linux + Version: Red Hat (64-Bit) + Weiter
  • 4096 MB + Weiter
  • Festplatte erzeugen + Erzeugen
  • VDI + Weiter
  • feste Größe + Weiter
  • D:\VirtualBox VMs\CentOS 7\CentOS_HDD.vdi + 8 GB + Erzeugen

Festplatte wird erzeugt. Installationsmedium (DVD) einlegen. Virtuelle Maschine über VirtualBox-Oberfläche starten und optisches Laufwerk über erscheinenden Dialog zuordnen. Installation mit I auswählen und bestätigen. Installtion startet.

  • Deutsch German + Weiter
  • Installationsziel + Fertig
  • Software-Auswahl + Server mit GUI + Fertig
  • Netzwerk & Hostname + Hostname: vboxmini01 + Fertig
  • Installation starten
  • Root-Passwort + (2x Kennwort eingeben) + Fertig
  • Benutzer erstellen + admin + (2x Kennwort eingeben) + Fertig
  • Konfiguration fertigstellen
  • Neustart (DVD wird aufgeworfen)
  • Lizenz Information + Lesen + Ich akzeptiere… + Fertig
  • Konfiguration fertigstellen

Anmeldung als „admin“ und Assistent zur Desktop-Einrichtung durchlaufen. Netzerk über Desktop (oben rechts) aktivieren.

  • Anwendungen/Hilfsprogramme/Terminal
  • su - + vim /etc/sodoers.d/admin
  • admin ALL=(ALL) ALL
  • yum install gcc kernel-devel
  • yum update

Nach Aktualisierung Neustart durchführen. Über VirtualBox-Oberfläche die Installation der Gasterweiterung anstoßen/durchführen (siehe [hier](https://www.virtualbox.org/manual/ch04.html#idp54932560)).

Java 7

  • Download JDK
  • tar -xzvf jdk-7u75-linux-x64.tar.gz
  • sudo mv /home/admin/jdk1.7.0_75 /usr/java
  • sudo ln -s /usr/jdk1.7.0_75 /usr/java

Hadoop 2.6

  • Download HADOOP
  • tar -xzvf hadoop-2.6.0.tar.gz
  • sudo mv /home/admin/hadoop-2.6.0 /usr/java
  • sudo ln -s /usr/hadoop-2.6.0 /usr/hadoop

Plattform klonen

VBoxMini01 (siehe oben) kann vervielfacht werden. Schritt 1 ist der Export.

  • VirtualBox 4.3.22/virtuelle Machine/Kontext/Klonen
  • "Zuweisen neuer MacAdresse" + umbennen VBoxMini "X" + weiter
  • vollständiger Klon + weiter
  • alles + klonen

Exportierte Maschine kann importiert werden. Auf korrekte/unterschiedliche Einstellungen achten (z.B. MAC-Adresse).

  • VirtualBox 4.3.22/Maschine/Hinzufügen...
  • Pfad zur VBOX-Datei angeben + OK
  • Netzwerkadapter ändern + OK