クロール技術(クローラー)の主な特徴
HTMLだけでなく、Flash、Javascript 等にも対応したスクレイピング(Scraping)技術
通常のクローラーではスクレイピング対象はHTMLだけですが、弊社のクローラーは、Flash内のリンクやJavascript コードからのリンクも抽出して辿ることができます。また、Flashからの画像抽出にも対応しています。
間違った構文のHTMLへの対応
クロール対象を中小企業や個人サイトに広げると間違った構文のHTMLページが散見されます。過去の経験に基づき、これら構文エラーを修復し解析いたします。
差分情報の検出
テキストだけでなく、画像や動画に至るまでクロールにより取得した情報は過去に取得した情報と比較し差分を検出することが出来ます。
会員ページのクロール
ログインが必要がサイトでは自動ログイン行い、会員専用ページ内をクロールすることもできます。表示される画像の内容を入力させることで自動ログインを防止する機能があるサイトについても対応した実績がございます。
現在・過去の対象ページを再現
過去に クローラーが取得したページはすべてキャッシュとして保存されますので、特定のサイトの過去のある時点での状態を再現することが出来ます。ページ内のリンクはもちろん、Flash 内のリンクも書き換えて表示するため再現性が高くなります。
弊社ではサイトのページ追加・変更・削除を定期的に監視し通知するシステムを多くのお客様に提供しております。




