Nutch und UTF-8

Innerhalb der Nutch-Oberfläche wird die GET Methode benutzt, um die Suchanfrage an den Server zu übermitteln. Der Tomcat interpretiert die URL per Standard als ISO 8859-1. Dadurch gehen unter anderem deutsche Umlaute verloren.

Führt man Nutch in einer UTF-8 Umgebung aus, muss der Connector-Eintrag in der Datei $TOMCAT/conf/server.xml wie folgt angepasst werden.

<Connector
   port="8080"
   redirectPort="8443"
   minSpareThreads="25"
   connectionTimeout="20000"
   maxSpareThreads="75"
   maxThreads="150"
   URIEncoding="UTF-8">
</Connector>

Weitere Infos im Nutch- und Tomcat-Wiki.

This entry was posted in Sonstiges and tagged , . Bookmark the permalink.

Hinterlasse eine Antwort

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

*

Du kannst folgende HTML-Tags benutzen: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>