Index Url Category プラグイン
このプラグインは、正規表現にマッチした URL のページに対して指定されたカテゴリを付与するプラグインです。
このプラグインは Nutch 0.9 には同梱されておらず、使用するには NUTCH-386 からファイルをダウンロードしてインストールする必要があります。
インストール方法
以下 Nutch をインストールしたディレクトリを NUTCH と表記します。
1. ダウンロード
NUTCH-386 から index-url-category-0.1.zip と index-url-category.jar をダウンロードします。
NUTCH/plugins/ 以下に "index-url-category" というディレクトリを作成します。
ダウンロードした index-url-category.jar と、index-url-category-0.1.zip の中の plugin.xml と rules.properties をこのディレクトリにコピーします(zip の中にある index-url-category.jar は Nutch 0.9 では問題があります)。そして以下のようになります。
NUTCH/plugins/index-url-category/index-url-category.jar NUTCH/plugins/index-url-category/plugin.xml NUTCH/plugins/index-url-category/rules.properties
2. NUTCH/conf/nutch-default.xml を編集
<name>plugin.includes</name> を探し、<value> タグの中に、index-url-category という値を他の値と | で区切って追加します。
例:
<property> <name>plugin.includes</name> <value>protocol-http|urlfilter-regex|parse-(text|html|js)|index-basic|query-(basic|site|url)|summary-basic|scoring-opic|index-url-category</value> </property>
3. ルールを設定する
rule.properties を編集し、以下のペアでルールを記述します。
- Java 正規表現 (クロールした URL とマッチします)
- カテゴリの値
例:
http.//([a-z0-9]*\.)cnn\.com/.*=news
この場合、http://cnn.com/ で始まるすべてのURL は 'news' カテゴリにインデックスされます。
注意: ルールに ':' 文字を使用しないでください。これは = のようなプロパティの区切り文字として読み取られてしまいます。
たとえば、
http://([a-z0-9]*\.)cnn\.com/.*=news
という書き方は、ルールが (http) で、カテゴリが (//([a-z0-9]*\.)cnn\.com/.*=news) として解釈されてしまいます。
たぶんこれを解決する最善の方法は、ルールファイルを xml にすることでしょう。
4. インデックスを行う
URLカテゴリプラグインは、システムの出力に URL とそれにマッチしたカテゴリもしくはマッチしなかった場合は警告を出力します。




