サーチコンソールが新しくなり、現在のサーチコンソールは、本記事の画面とは若干異なります。
以前からもありましたが、最近コピーサイトや粗悪なサイトからのリンクが増えているようです。
今回は初心者向けにサーチコンソールの被リンクのチェック方法とリンクを無効にするバックリンクの否認の手順を紹介したいと思います。
被リンクとは
被リンクとは文字通り「被」リンク、他のサイトやページからリンクを貼られている状態のことです。
被リンクは、Googleがサイトの評価をする要素の1つと言われており、SEO対策の重要な要因と言われてきました。(*1)
最近の結果は違いますが、「18歳未満」と検索するとYahooやGoogleが上位表示されている時期がありました。(かなり古い話ですが・・・)
その理由は、大量のアダルトサイトから「18歳未満はこちら」というリンクをYahooへのリンクにしていたため、18歳未満=Yahooと、検索エンジン側で認識してしまったからです。この事例からは被リンクの影響度が強いことが伺えます。
2017年1月現在でも「18歳未満」で検索すると2ページ目にGoogleが出てくるようです。
※1 以前ほど重要度は高くなくなっているとも言われているが、無には間違いなくなっていないはず。
低品質なリンクやコピーサイトが増えている
Google では、第三者のサイトでの操作がウェブサイトに悪影響を及ぼさないようにすることに注意を払って取り組んでいます。場合によっては、ページやサイトについての Google の評価に参照リンクが影響を与えることがあります。
引用:バックリンクを否認する - Search Console ヘルプ
上記説明にもある通り、低品質なリンクが悪い影響を与えることがあります。
最近はキュレーションサイトや自動生成コンテンツ、AIが作成した記事など、オリジナルコンテンツはまったく無く、情報のみ取得(スクレイピング)しているサイトが増えています。
自動生成のみならず、何食わぬ顔でコピペ記事を書いている人もいるので、こちらもいたちごっこですよね・・・。
同じ内容のページ(サイト)があると、ユーザーの利便性が損なわれ、重複コンテンツとして評価が下がる可能性もあります。発見した場合はなるべく早い対応が望ましいでしょう。
サーチコンソールでのチェック方法
どのようなサイトからの被リンクがあるかは、Google Search Consoleで確認することができます。
https://www.google.com/webmasters/tools/home?hl=ja
【検索トラフィック】の【サイトへのリンク】でサイトへのリンクのサマリーが表示されます。
リンク数の最も多いリンク先の詳細をクリック。
リンクを貼っているサイト(被リンク元サイト)がドメイン別に一覧が表示されます。
左からリンクを貼っているサイトのドメイン、リンクの数、リンク先のページ数です。
ドメインをクリックすると、リンク先の一覧が表示されます。被リンク数33,851とかアホですよね・・・。
リンク先のURLをクリックすると、ここでやっとリンクをしているURLが出てきます。
リンク先に飛んでみると、わたしのブログの上から謎の商品名、パンくず、画像が埋め込まれています。
ソースを見たところ、タイトルタグ、hタグ(h1〜h5)、meta keywords、画像のaltなどに商品名(ターゲットキーワード?)を入れている(差し替えている)ようでした。
この雑さは間違いなく自動生成だとは思いますが、なんとも悪質ですね。。
リンク先の状況をツールでチェック
先ほどのサイトはチェックするまでもなく否認決定なんですが、どれくらいリンクされているかHTMLソースを見てもわかりづらいのでリンク切れチェックツールで調べてみました。
使い方はURLを入力して「チェック」をクリックするだけ。暫く待つと結果が出てきました。
やはり自動で生成しているのか、「エラーのリンク」は元ページのリンクが混合したようなリンクでした。
転送されているリンクは、はてなブックマークなど外部リンク。
正常なリンクが一番問題で、ほとんどがこのスパムサイトの内部リンクですが一部こちらのリンクがあります。(だからSearch Consoleに出たのですが)
リンクの精査方法
件数が多いと全部見るわけにはいかないですが、自動でチェックは難しいと思いますのでドメイン単位でざっくり見ていくしかないと思います。
ドメインが大量にあってもリンク数が1〜2件などであれば実際に記事へのリンクをしていただいている可能性もありますし、スパムだったとしても影響は小さいと思われます。
そのため数が少ないドメインは時間があるときに見れば良いかなというスタンスでチェックしています。
- 被リンク数の多い順にチェック(3桁以上)
- .cf .gaドメインはスパムの可能性高い
- NotFoundは無視
被リンク数の多い順にチェック(3桁以上)
上から見ていくとhatena関係(はてな、はてなブログ、家電会議、はてなAPIを利用したはてぶリンクを抽出しているサービスなど)のドメインが多いですが、見覚えの無いドメインも多々あります。
よくわからないドメインは片っ端からチェック。
被リンク元の中にはフィッシングサイトやスクリプトが埋め込まれたサイトもある可能性があるので、VirusTotalなどでURLスキャン後のチェックをお勧めします。
VirusTotal - ウイルス、マルウェア、URL の無料オンライン スキャナー
.cf .gaドメインはスパムの可能性が高い
.TK / .ML / .GA / .CF / .GQドメインは無料で取得することが可能なため悪用されている可能性が高いです。
http://www.freenom.com/ja/freeandpaiddomains.html
実際、サイトのコピー後に商品画像などに差し替えているサイトは.cfドメインが多いです。
Not Foundは無視
既に通報されて閉鎖済みなのか、チェックをしているとNot Found(ページが存在しない)も多く見られます。
Not Foundの場合、そのうちインデックス削除されると思われるので無視しています。
(※あとから復活する可能性も0では無いので否認候補に入れたほうが間違いはないでしょう)
否認リストの作成
チェックした被リンクリストから否認したいURLをテキストに貼り付けます。
ドメイン単位で除外する場合は「domain:hogehoge.com」と記載、否認するリンク以外の情報を記入する行の先頭に「#」文字を追加するとコメントをいれることができます。
# example.com のほとんどのリンクは削除されたが、以下のファイルは削除されなかった
http://spam.example.com/stuff/comments.html
http://spam.example.com/stuff/paid-links.html
# shadyseo.com の所有者に 2012 年 7 月 1 日に連絡し
# リンクの削除を依頼したが回答なし
domain:shadyseo.com
引用:バックリンクを否認する - Search Console ヘルプ
Googleに無効にしてもらうリンクのリストのため、問題の無いリンクは入れないように注意してください。
バックリンクの否認方法
バックリンクの否認は否認ツールのページから否認のリストをアップロードします。
https://www.google.com/webmasters/tools/disavow-links-main
これは高度な機能なので、慎重に使用する必要があります。使い方を間違えると、Google 検索結果でのサイトのパフォーマンスに悪影響が及ぶ可能性があります。ご自分のサイトに対して、スパム行為のあるリンク、人為的リンク、品質が低いリンクが数多くあり、それが問題を引き起こしていると確信した場合にのみ、サイトへのリンクを否認することをおすすめします。
注意事項を読んで、否認するリンクのみが含むテキストを選択して「完了」
送信結果がアップロードしたファイルと相違がなければ「完了」です。
申請が完了するとメールが届きます。
処理が反映されるまでには数週間かかることがありますので、余裕を持ってチェック〜否認をしたほうが良いでしょう。
アップロードした情報の処理には時間がかかる場合があります。特にこの情報は、ウェブを再クロールし、ページを再処理する際に Google のインデックスに組み込むため、処理の完了までに数週間かかることがあります。
引用:バックリンクを否認する - Search Console ヘルプ
最後に
以上、今回はサーチコンソールの被リンクのチェック方法とリンクを無効にするバックリンクの否認の手順を紹介しました。
最近コピーサイトや怪しいリンクが増えています。ランキングに悪影響が出る前に、サーチコンソールをチェック、対策するようにしましょう。