ホームページのクローラビリティ

  • 投稿者:  カテゴリ:話題
  • 表示回数 2,447
超、お久しぶりの投稿です。
いま、大阪府周辺で活動されている企業のホームページ内を検索するアプリケーションを作成していますが、
クローラーを作成していくなかで,以下のような問題点がありましたので報告します。
○HTMLに準拠して作成されていないホームページが少なからず存在する。

HTMLタグで囲われていなかったり、そのもどHTMLタグがないものもあります。
同様にBLOCKもそうです。
当然ながらタグの不一致も。。

ブラウザは、優秀なのでそのあたりうまく処理して表示してくれますが、
”少なからず”存在するので(あるいはブラウザでは表示されるので)、
こういったページも収集したいと考えて、イレギュラーな処理の手順をコーディングしていかなければなりません。

○トップページ以外のコンテンツが、別のドメインのサイトに存在する。

クロールは同一ドメインのリンクのみたどるようにしているので、外部サイトと判断してしまって収集できません。

○フラッシュの使用

トップページがフラッシュで構成されていて,コンテンツへのリンクが読み取れない。
これは、今のところお手上げです。
デザイン性には優れているかもしれませんが、クローラー泣かせで、企業にも不利益になっています。
こういった配慮を「クローラビリティ」というそうですが、
今はホームページにアクセするほとんどが検索エンジンからとなっている状況なので是非とも対処されたいと思います。


http://knblogkoga.yoka-yoka.jp/e288469.html


○エンコードの指定が誤っている

多いのは、<meta http-equiv="Content-Type" content="text/html; charset=Shift_JIS">

のShift_JISのところがShit_JISになってたりします(fが抜けている)。
shift-sjis

クローラがエンコードできず、日本語で解析できないです。。。。
(。。。助けようとすればなんとかなるかもですが・・・)


○そもそも会社案内などのコンテンツが画像になっている。

なにをかいわんや。。。お手上げ

○リンクにセッションIDが含まれている。

何でそうなっているのでしょう?_


ま、多くのホームページを処理していくといろいろありますね。。。

ホームページを作成するときは、クローラビリティも考慮した作り込みをさせることをお願いします。
また報告します。