Subcollection プラグインについて
NUTCH-201 によれば、
サブコレクションはインデックスのサブセットです。サブコレクションは ホワイト/ブラックリスト形式の URLパターンによって定義されます。ページを サブコレクションに入るようにするには、ホワイトリストにマッチし、かつブラックリストにマッチしてはいけません。
Subcollection の定義はsubcollections.xml から読み込まれ、フォーマットは次のようになります。ここで、apache.org からのすべてのバーチャルホストをクロールし、"http://lucene.apache.org/" という URL パターンのページを lucene subcollection の一部にするためにタグを付ける場合を仮定しています。
<?xml version="1.0" encoding="UTF-8"?> <subcollections> <subcollection> <name>lucene</name> <id>lucene</id> <whitelist>http://lucene.apache.org/</whitelist> <blacklist /> </subcollection> </subcollections>プラグインには、インデックスフィルタ、クエリフィルタと支援クラスが含まれています。
というプラグインです。上記の例では http://lucene.apache.org/ という url パターンにマッチするページの集合で id が lucene というサブコレクションを作っています。
http://wiki.apache.org/nutch/IndexStructure に、subcollection というフィールドがありますが、インデックスフィルタによって、そのページにマッチしたサブコレクションの名前が入ります。複数にマッチした場合は複数のサブコレクションの名前が入ります(SubcollectionIndexingFilter.java)。ただし、URLパターンのマッチする条件は、URLパターンがページの URL の一部に含まれているか場合ですので、正規表現など複雑な指定は現状できないようです。
そして、クエリフィルタによって、"subcollection:lucene" といったクエリが可能になります。




