2011年7月7日木曜日

クロール方法

Bjin.Meでのクロール方法

実際に全てのサイトをクロールさせるのは、物理的に、零細の当方では無理なんで、サーチエンジンでキーワード検索でそれらしいURLのリストを大量に作成します。

次に、そのURL内をクロールさせて対象キーワードがあるかページを調べます。ある場合に画像があるかを調べそのALTタグの他に、画像自体をダウンロードして画像認識プログラムで人物であるかを検証します。そして、認識出来た場合に登録される仕組みとなっています。

ここで、登録されたら直ぐにサービスにアップされるのかということですが、実際には、私がチェックをしたものを公開するステップをいれています。

どうしてか?それは、アダルトや違法なコンテンツを提供しない為におこなっていますが、一回の表示で100枚を数秒でチェックするだけですから、中には問題のある画像もあるかもしれません。

問題あるんでないの?ってときはTwitやメール下さい。対処します。

0 件のコメント:

コメントを投稿