How To Crawl Behind A Login (Authentication) - Screaming Frog SEO Spider

Screaming Frog
24 Jan 202004:14

Summary

TLDRこのクイックファイアガイドでは、ステージングや開発中のウェブサイト、または内部ポータルにアクセスするためのログインが必要なウェブサイトをクロールするための認証方法について説明します。基本認証とダイジェスト認証、およびウェブフォーム認証の2種類の認証方法があります。SEOスパイダーを使用してこれらの認証を設定し、robots.txtを無視する方法、JavaScriptレンダリングを有効にする方法、および管理権限でのクロールを避けるためのヒントが提供されています。このガイドは、ウェブサイトの開発者やSEO専門家にとって非常に役立つ情報を提供します。

Takeaways

  • 🕷️ ウェブサイトをクローリングする際、認証が必要な場合があること。
  • 🔐 認証には基本認証とダイジェスト認証の2種類があり、ブラウザがユーザー名とパスワードをポップアップで要求することがある。
  • 👩‍💻 基本認証やダイジェスト認証では、SEOスパイダー内でURLを入力し、出現するポップアップに認証情報を入力することでクローリングを開始できる。
  • 🚫 ステージングや開発中のウェブサイトはしばしばrobots.txtによってクロールがブロックされているが、これを無視してクロールする設定が可能。
  • 🌐 Webフォーム認証は、ログイン画面がページ自体に含まれ、ページに認証情報を入力してクッキーを受け取る必要がある場合に使用される。
  • 💻 Webフォーム認証では、内蔵ChromeブラウザにURLと認証情報を入力し、ログインすることでクローリングを実行する。
  • 🔍 JavaScriptレンダリングを有効にすることで、DOM内のリンクやコンテンツをクロールできるようになる。
  • ⚠️ SEOスパイダーはページ上のすべてのリンクをクリックするため、ログアウトリンクや管理者権限での操作を含むリンクをクリックしてしまう可能性がある。
  • 🛑 管理者権限でのクロールは避け、クロールから除外したいURLを設定することでリスクを軽減できる。
  • 📝 ウェブサイトの認証を越えてクローリングする際は、責任を持って行う必要がある。

Q & A

  • 認証とウェブサイトクローリングに関するクイックガイドは何に焦点を当てていますか?

    -このクイックガイドは、ステージングや開発中のウェブサイト、または内部ポータルなど、ログインを要するウェブサイトのクローリングに焦点を当てています。

  • 基本認証とダイジェスト認証の特徴は何ですか?

    -ブラウザがユーザー名とパスワードの入力を求めるポップアップを表示する場合、それは基本認証またはダイジェスト認証です。設定は不要で、URLを入力してクローリングを開始するだけです。

  • robots.txtによってブロックされたサイトをクローリングする方法は?

    -robots.txtによってブロックされているサイトをクローリングするには、「robots.txtの設定」にある「robots.txtを無視する」オプションを有効にする必要があります。

  • ウェブフォーム認証のプロセスはどのように機能しますか?

    -ウェブフォーム認証では、ログインページに直接クレデンシャルを入力し、その情報を使用してクッキーを取得します。SEOスパイダー内でこの動作を模倣する必要があります。

  • ログインした状態でのクローリングにJavaScriptレンダリングが必要な理由は何ですか?

    -ログイン後のリンクやコンテンツをクローリングするためには、DOM内の要素を正確に捉えるためにJavaScriptレンダリングが必要になることがあります。

  • 管理者権限でクローリングする際のリスクは何ですか?

    -管理者権限でクローリングすると、投稿の作成、プラグインのインストール、データの削除など、意図しないアクションを引き起こす可能性があります。

  • クローリングから特定のURLを除外する方法は?

    -「設定」メニューの「除外」オプションを使用して、クローリングから除外したいURLのリストを入力することで、特定のURLを除外できます。

  • 開発中またはステージングのウェブサイトが検索エンジンによってクロールされないようにする一般的な方法は何ですか?

    -開発中またはステージングのウェブサイトは通常、robots.txtを使用して検索エンジンによるクローリングを防ぎます。

  • SEOスパイダーがページ上のすべてのリンクをクリックすることの意味は何ですか?

    -SEOスパイダーがページ上のすべてのリンクをクリックすると、ログアウトリンクやデータを削除するリンクなど、望ましくないアクションを引き起こす可能性があります。

  • クローリングプロセスを責任を持って使用するための提案は何ですか?

    -管理者権限でのクローリングを避け、除外機能を使用してログアウトURLや敏感なURLをクローリングから除外することが推奨されます。

Outlines

plate

このセクションは有料ユーザー限定です。 アクセスするには、アップグレードをお願いします。

今すぐアップグレード

Mindmap

plate

このセクションは有料ユーザー限定です。 アクセスするには、アップグレードをお願いします。

今すぐアップグレード

Keywords

plate

このセクションは有料ユーザー限定です。 アクセスするには、アップグレードをお願いします。

今すぐアップグレード

Highlights

plate

このセクションは有料ユーザー限定です。 アクセスするには、アップグレードをお願いします。

今すぐアップグレード

Transcripts

plate

このセクションは有料ユーザー限定です。 アクセスするには、アップグレードをお願いします。

今すぐアップグレード