sobota, 22. januára 2011

Ako som sa vysporiadal s HTTPS výsledkami Google vyhľadávania

Vyhľadával som určitú frázu na slovenskom Googli a vo výsledkoch sa zobrazil odkaz na článok na mojich stránkach. Keď som na neho klikol, zobrazila sa odporná výstražná stránka Firefoxu s upozornením o nebezpečenstve návštevy mojej stránky. Niečo o tom, že nebol nájdený žiaden certifikát pri pripájaní sa na server cez HTTPS. O čom to je toto? Moja osobná stránka je založená na CMS systéme Joomla! a neposkytujem žiadnu užívateľskú sekciu, ani nemám žiadnu zabezpečenú zónu, v ktorej by užívatelia komunikovali cez protokol HTTPS.
Zázračne, Google v niekoľkých prípadoch uvádza vo svojich výsledkoch hľadania odkazy na správne stránky pod nesprávnym protokolom.
Upozorňujem, že tento článok sa týka len tých, čo majú stránky podávané Apache Web Server-om.
Keďže pochybujem, že by náhodný návštevník chcel pridávať bezpečnostnú výnimku do svojho prehliadača pre moju stránku, prv než ju navštívi, som presvedčený o tom, že ma takéto výsledky vyhľadávania penalizujú na návštevnosti mojej stránky. Bolo treba s tým niečo robiť. Príčinu som síce nezistil, ale so symptómami som si poradil. A to nasledovne:
Aby sa mi Google, či iné roboty, nešplhali po stránkach cez https, pridal som na svoje stránky sekundárny súbor robots.txt, s názvom robots_ssl.txt.
Obsah tohto súboru je jednoduchý:
User-agent: *
Disallow: /
Zakážeme všetkým robotom prístup k celej stránke. Zadaním lomítka by mala byť nedostupná celá stránka, jej hlavný adresár, aj všetky podadresáre.
Ako však povedať robotom prichádzajúcim cez HTTPS na súbor robots.txt, aby si pozreli moju alternatívnu verziu robots_ssl.txt? Zavŕtame sa do .htaccess súboru a pozrieme, či je zapnutý RewriteEngine, ak nie, potrebujeme pridať tieto riadky:
RewriteEngine On
RewriteBase /
Pridáme RewriteRule pre Apache, pomocou ktorého roboty prichádzajúce cez port využívaný pri komunikácii HTTPS protokolom budú presmerované na správny robots.txt súbor, teda v mojom prípade robots_ssl.txt vyhradený práve pre tieto roboty:
RewriteCond %{SERVER_PORT} ^443$
RewriteRule ^robots.txt$ robots_ssl.txt
Toto pravidlo ich nasmeruje na správne miesto, odkiaľ by už nemali pokračovať v prehľadávaní mojich stránok, pretože som nastavil Disallow: / Takto nastavené robots.txt súbory by v budúcnosti mali zabrániť tomu, aby sa vo výsledkoch hľadania zobrazovali linky na stránky s HTTPS protokolom. No čo s tými, čo Google už má vo svojom indexe a stále zobrazuje ľuďom pri hľadaní?
V mojom prípade to bolo celkom jednoduché, keďže na stránkach naozaj nemám žiadnu zabezpečenú sekciu, do ktorej by hostia pristupovali cez HTTPS. Stačí len pridať ešte jeden RewriteRule do .htaccess súboru:
RewriteCond %{SERVER_PORT} ^443$
RewriteRule .* http://%{HTTP_HOST}%{REQUEST_URI} [R=301,L]
Toto pravidlo v podstate presmeruje každý prístup na moju stránku cez port 443 na tú istú požadovanú stránku, ale cez HTTP protokol (port 80). V hranatej zátvorke za pravidlom uvedieme ešte R=301 (pošlime nazad response code 301 - "moved permanently" trvalo premiestnené) a písmeno L, ktorým označíme toto presmerovacie pravidlo ako posledné (Last), aby Apache nemusel testovať, či daný request spĺňa podmienky iných pravidiel.
Časom by sa hádam aj Google mal polepšiť a všimnúť si, že všetko https://... je permanentne presunuté na http://
Každopádne, teraz keď kliknem na HTTPS odkaz z výsledkov Google hľadania, som automaticky presmerovaný na správnu stránku cez HTTP protokol.
Ak by ste mali problém s vašim .htaccess súborom (napríklad ja, akonáhle som použil súbor .htaccess, celá moja stránka prestala fungovať) budete musieť trochu pogoogliť, v čom to môže byť. Možno váš web host nepovoľuje používanie týchto súborov, možno to však bude spôsobené, ako v mojom prípade, riadkom, ktorý zvyčajne nájdete v šablónach .htaccess súborov:
Options +FollowSymLinks
Tento riadok môže spôsobovať problém pri niektorých serverových konfiguráciách. Tento riadok je nutný pre modul mod_rewrite, ale môže byť už predošle nastavený vašim serverovým administrátorom tak, že sa nedá nastaviť (zmeniť) vo vašom .htaccess súbore.

Žiadne komentáre:

Zverejnenie komentára