Nutch und UTF-8

Innerhalb der Nutch-Oberfläche wird die GET Methode benutzt, um die Suchanfrage an den Server zu übermitteln. Der Tomcat interpretiert die URL per Standard als ISO 8859-1. Dadurch gehen unter anderem deutsche Umlaute verloren.

Führt man Nutch in einer UTF-8 Umgebung aus, muss der Connector-Eintrag in der Datei $TOMCAT/conf/server.xml wie folgt angepasst werden.

<Connector
   port="8080"
   redirectPort="8443"
   minSpareThreads="25"
   connectionTimeout="20000"
   maxSpareThreads="75"
   maxThreads="150"
   URIEncoding="UTF-8">
</Connector>

Weitere Infos im Nutch- und Tomcat-Wiki.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

This site uses Akismet to reduce spam. Learn how your comment data is processed.