In letzter Zeit habe ich versucht, meinen Blog für Suchmaschinen zu optimieren. Dabei habe ich viele Erfahrungen gesammelt und denke mir, dass diese vor allem für Webmaster insteressant sein könnten. Deswegen folgen jetzt einige Punkte, die man bei der Optimierung beachten sollte:
1. XML Sitemap
Eine Sitemap ist eine XML Datei, die die Struktur einer Internetseite zusammenfasst. Auf diese Wiese finden die Crawler der Suchmaschinen auch Seiten, die etwas tiefer in der Struktur versteckt sind und sonst nicht gefunden werden könnten. Die XML Sitemap kann man sich entweder per Hand erstellen oder einen der zahlreichen verfügbaren Dienste nutzen. Ich habe mich für das Textpattern-Plugin rah_sitemap entschieden. Die Sitemap sollte unter dem Pfad /sitemap.xml oder /sitemap.txt zu finden sein, ich musste also einen entsprechenden Eintrag in die .htaccess vornehmen:
RewriteEngine On
RewriteRule ^sitemap.xml?$ ?rah_sitemap=sitemap
RewriteRule ^sitemap.txt?$ ?rah_sitemap=sitemap
Wer mehr darüber wissen möchte, was Sitemaps können, der sollte sich die Meinung von Google zu Sitemaps durchlesen.
2. Richtige Seitenstruktur
Sehr wichtig ist es sowohl für die Besucher, als auch für die Crawler, dass die Seitenstruktur stimmt. Vor allem die Tags für Überschriften (<h1> … <h6>) sollten in ihrem Sinne genutzt werden, statt damit Wörter hervorzuheben oder ähnliches. Auch sollten Überschriften nicht nur durch Textauszeichnungstags wie <strong> oder <em> gekennzeichnet werden, sondern auch mit den <h#> Tags. Die Seitenstruktur kann entweder mithilfe des Semantic Data Extractor von w3.org oder über den Markup Validation Service von w3.org überprüft werden (bei Letzterem muss “Show Outline” aktiviert werden).
3. Duplicate content
Das mehrfache Vorkommen von Inhalten ist nicht unbedingt schlecht, kann aber schlechte Auswirkungen haben, so schreibt Google:
In the rare cases in which Google perceives that duplicate content may be shown with intent to manipulate our rankings and deceive our users, we’ll also make appropriate adjustments in the indexing and ranking of the sites involved. As a result, the ranking of the site may suffer, or the site might be removed entirely from the Google index, in which case it will no longer appear in search results.1
Es gilt also, duplicate content zu vermeiden. Dazu muss aber zuerst die Ursache gefunden werden, denn verschiedene Ursachen benötigen verschiedene Lösungen:
3.1 Subdomains
Oft verweisen Subdomains auf den selben Inhalt wie die Hauptdomain. Ist eine Seite unter “http://example.tld” erreichbar, so ist sie meist auch unter “http://www.example.com” erreichbar. Dies führt dazu, dass unter verschiedenen Domains der gleiche Inhalt geboten wird. Als Lösung eignet sich hier besonders die .htaccess Datei mit entsprechendem Eintrag:
RewriteEngine On
RewriteCond %{HTTP_HOST} ^([^.]+)\.example\.tld$ [NC]
RewriteRule ^(.*)$ http://example.tld/$1 [R=301,L]
Damit werden alle Subdomains mit einer 301 Weiterleitung weitergeleitet.
3.2 Archiv-/Kategorieseiten
Viele Seiten bieten Archive oder Kategorieseiten, in denen durch die Artikel gestöbert werden kann. Vor allem Blogs haben das Problem, dass auf der Indexseite meist die neusten Artikel gelistet werden. Selbst wenn es sich bei diesen Seiten nur um einen Ausschnitt handelt, wird dies als duplicate content erkannt. Eine Möglichkeit, zu verhindern, dass Archivseiten oder ähnliches von Robots ausgelesen wird, ist eine robots.txt zu nutzen um die Crawler von diesen Seiten fernzuhalten. Dabei sollte man beachten, dass es durchaus sinnvoll ist, ebenfalls Feeds und Suchergebnisse auszusperren, sowie Seiten, die für Suchmaschinen uninteressant sind:
User-agent: *
Disallow:/archive/
Disallow:/rss/
Disallow:/atom/
Disallow:/impressum
Disallow:/?q=
Dabei gibt es allerdings das Problem, dass nun die Suchmaschinen beim crawlen die auf den Archivseiten verlinkten Artikel, die sie ja finden sollen, nicht finden können. Deswegen ist es sinnvoller, bei solchen Seiten Robots via Metatags zu kontrollieren.
<meta name="robots" content="noindex,follow" />
Hierdurch wird bewirkt, dass die momentane Seite nicht ins Index aufgenommen wird, allerdings den Links gefolgt wird. Man sollte vor allem nicht vergessen in dem Artikel entsprechend die Zeile
<meta name="robots" content="index,follow" />
zu verwenden, damit dieser wiederrum Indexiert wird.
3.3 Linkstruktur
Oft sind die gleichen Seiten über verschiedene Links erreichbar, wie “example.tld/seo”, “example.tld/seo.php”, “example.tld/archive/1970/01/01/seo” und “example.tld/category/internet/seo”. Dies sollte vermieden werden. Besser ist es, sich auf eine Struktur festzulegen, um so den vermeindlichen duplicate content zu verhindern. Man sollte außerdem beachten, dass Seiten wie “example.tld/seo.php” und “example.tld/seo.php?h=foo” ebenfalls als verschiedene Seiten gewertet werden. Man muss also entweder von GET auf POST umsteigen (wenn möglich), oder diese Seiten via robots.txt sperren:
User-agent: *
Disallow:/?q=
4. Valides XHTML / CSS
Zugegebenermaßen nicht ganz so wichtig für die SEO ist valides XHTML und CSS, jedoch für den User um so mehr. Seit ich Textpattern nutze, habe ich sehr viel am Code gearbeitet und damit das valide XHTML zerstört. Das CSS ist zum Glück valid geblieben. Bei der Behebung der einzelnen Fehler im XHTML habe ich die Chance gleich genutzt und bin von XHTML 1.0 auf XHTML 1.1 umgestiegen, das zwar etwas strenger ist, aber auch mehr Möglichkeiten eröffnet. w3.org bietet unter anderem CSS und XHTML Validatoren an, die dem Webmaster bei der Behebung der Fehler behilflich sein können.
5. Meta Beschreibung/Titel
Hoch geschätzt werden von Suchmaschinen vor allem die Meta Tags, weswegen man sie nicht vernachlässigen sollte. Wichtig ist sowohl beim Meta-Titel, bei der Beschreibung als auch bei dem richtigem Titel, dass sie Individuell sind. Als Metatitel eignet es sich, den Titel der Seite zu nehmen, also in diesem Fall “dumbMonkey: SEO”. Damit ist er individuell, stellt aber auch gleichzeitig einen Bezug zu der gesamten Webpresentz her.
Die Beschreibung sollte nach Möglichkeit etwa 160 Zeichen umfassen und ebenfalls individuell sein. Sie bestimmt was Suchmaschinen wie Google auf der Übersichtsseite darstellen. Entweder schreibt man für jede Seite manuell eine Beschreibung, oder man macht es sich einfach und nimmt den Anfang des Artikels auf der Seite als Beschreibung. Ich habe mich für letzteres entschieden und nutze das Textpattern Plugin rss_auto_excerpt, welches automatisch eine Excerpt des Artikels erstellt.
6. “nofollow”
Das nofollow Attribut ist wohl eines der umstrittesten in der Geschichte der SEO. Wie in 3.2 beschrieben kann es genutzt werden um duplicate content zu vermeiden oder private / uninteressante Berreiche aus den Suchmaschinen auszuschließen. Ursprünglich wurde es in Kommentaren verwendet, um zu vermeiden, dass Spambots sich am eigenem Pagerank mäßten.
If your site has a blog with public commenting turned on, links within those comments could pass your reputation to pages that you may not be comfortable vouching for. Blog comment areas on pages are highly susceptible to comment spam. Nofollowing these user- added links ensures that you’re not giving your page’s hard-earned reputation to a spammy site. […] however, linking to sites that Google considers spammy can affect the reputation of your own site.2
Allerdings wurde es missbraucht, um den eigenen Pagerank in die Höhe zu treiben. Denn anstatt einen PR-Wert von 100 gleichmäßig auf 5 Links zu je 20 zu verteilen, wurde nun der PR nur auf die 4 Links denen der Crawler folgen durfte verteilt, also 25 pro Stück. Inzwischen ist diese Arbeitsweise aber überarbeitet, und es wird der PR-Wert durch die Anzahl der Links geteilt, allerdings nur noch an die erlaubten Links verteilt, es bekommen also 4 Links eine PR-Wert von je 20.
Nofollow kann sowohl im robots Berreicht der Meta Tags verwendet werden (Dies gillt dann für alle Links auf der Seite), als auch für jeden Link individuell (rel=“nofollow”). Google bietet alternativ an, dass man Nofollow in der robots.txt verwenden kann, wie der Crawler aber reagiert, wenn er wiedersprüchliche Anweisungen im Head und in der robots.txt erhält, scheint niemand zu wissen. Außerdem weis ich nicht, ob andere Crawler diese Version in der robots.txt ebenfalls unterstützen, da es sich dort nicht um einen Standart handelt.
Wie, und ob man überhaupt nofollow verwendet, muss jeder für sich selbst entscheiden.
7. Strukturierte URL’s
Wie schon in 3.3 angesprochen, empfiehlt es sich, eine einheitliche Linkstruktur zu verwenden. Weiterhin wichtig ist aber auch, dass diese Struktur gut ist. Links wie “/?site=43345” werden sowohl von Besuchern als auch von Crawlern nicht gerne gesehen. Viel schöner ist es, Links wie “/seo” zu verwenden.
Natürlich gibt es noch mehr Dinge, die bei der SEO beachtet werden sollten. Wer will, kann seine Seite auf seitenreport.de auf verschiedene Kriterien überprüfen lassen, allerdings wird auch hier nicht alles beachtet und eventuell unwichtige Dinge zu stark, andere wiederrum zu schwach bewertet.
Anonymous und Piratebay haben ihre Kräft vereinigt um gegen das Böse in der Welt zu kämpfen. Die Aktionen fanden gestern (dem 13.) statt und sollen ebenfalls am 20. stattfinden. Diese Aktion trägt den Namen “Sea Arrrgh II”, nähere Informationen finden sich auf der entsprechenden Internetseite. Hilfe bietet das Flaggschiff “SS Longcat”:
Den gemeinsamen Kräften von Anonymous, Longcat, Tacgnol und der Piratebay dürfte wohl nichts Wiederstand leisten können.The SS Longcat is the flagship of the Sea Arrrgh fleet on the high seas. Her design is based on the Battlestar Longcat, which is en route to Earth to give Anonymous major /b/lackup. She was built last Thursday, by a crafty Anon on IRC. Her mission is to deliver massive IRL b&hammers on the Church of Scientology and safely ferry epic win and lulz back to home port. The SS Longcat is >9000 feet long and can reach a speed of zOMG, FAST knots. Reports of allergenic dander aboard the SS Longcat are unfounded, as shown by its recent inspections that clearly stated that Longcat is nothing but pure epic win which is free of cancer & AIDS.
Ich habe eben einen schönen englischsprachigen Artikel gefunden, der Eltern erklärt, wie sie herausfinden können, ob ihre Kinder Hacker sind. Der Autor hatte selbst das Problem, dass sein Sohn ein Hacker war. Deshalb will er jetzt andere Eltern mit gut gemeinten Ratschlägen schützen. Hier einige Zitate:
Popular hacker software includes “Comet Cursor”, “Bonzi Buddy” and “Flash”.
If your son has requested a new “processor” from a company called “AMD”, this is genuine cause for alarm. AMD is a third-world based company who make inferior, “knock-off” copies of American processor chips. They use child labor extensively in their third world sweatshops, and they deliberately disable the security features that American processor makers, such as Intel, use to prevent hacking.
There are, unfortunately, many hacking manuals available in bookshops today. A few titles to be on the lookout for are: “Snow Crash” and “Cryptonomicon” by Neal Stephenson; “Neuromancer” by William Gibson; […]
If your son spends more than thirty minutes each day on the computer, he may be using it to DOS other peoples sites.
Quake is an online virtual reality used by hackers. It is a popular meeting place and training ground, where they discuss hacking and train in the use of various firearms.
BSD, Lunix, Debian and Mandrake are all versions of an illegal hacker operation system, invented by a Soviet computer hacker named Linyos Torovoltos, before the Russians lost the Cold War. It is based on a program called “xenix”, which was written by Microsoft for the US government. […] They may also be used to break into people’s stereos to steal their music, using the “mp3” program. Torovoltos is a notorious hacker, responsible for writing many hacker programs, such as “telnet”, which is used by hackers to connect to machines on the internet without using a telephone.
Ich hab selten so gelacht, und ich bin mir zugegebenermasen nicht einmal sicher, ob der Artikel überhaupt ernst gemeint ist. Im amerikanischen TV wurde der Artikel auch betrachtet.
In den letzten paar Tagen habe ich ein paar recht interessante Links zu politischen Themen gefunden, die ich euch natürlich nicht vorenthalten will.
In Deutschland steigt der Überwachungswahn immer weiter. Wie sich das auswirkt, kann man auf duibistterrorist.de in einem Video sehen.
Der Polizei ist langweilig und Filesharer sind Terroristen. Deswegen sind selbst die ersten 20 Artikel des GG1 nicht mehr so wichtig wie sie einmal waren und es werden öfters mal Wohnungen durchsucht. Den Artikel gibt es auf gulli.com.
92% aller Deutschen sind für Sperren gegen Kinderpornos, 95%2 allerdings sind dagegen. Zumindest sagen das die neusten Umfragen.
Hintergrundinformationen über die Internetzensur sind wichtig, wie sie funktioniert und wie effektiv sie ist, erleutert ein handliches PDF.
Zum gleichem Thema hat das NDR in der Sendung ZAPP auch etwas zu sagen, Informationen wurden hier unter anderem von MOGIS bereitgestellt. Den Ausschnitt der Sendung gibt es auf Youtube.
Das Zensursula Fakten verdrehen kann, hat zeit.de bewiesen.
Die Petitioen gegen die Internetzensur habe ich bereits an anderer Stelle erwähnt.
Die eigene Meinungsbildung ist natürlich jedem selbst überlassen.
1 Artikel 13 des GG: “(1) Die Wohnung ist unverletzlich. […]”
2 Komplette Umfrage als PDF.
Seit heute Morgen um 2 Uhr, bzw. 0 Uhr UTC kann der Dienst von Wolram|Alpha genutzt werden. Wolfram|Alpha hat zum Ziel, eine universelle Wissensdatenbank zu werden. Es können mathematische Aufgaben, technische Informationen oder ähnliches gefragt werden. Auch unabhängige Informationen können miteinander verglichen werden, wie etwa die Höhe des Mount Everests mit der Länge der längsten Brücke der Welt. Verschiedene Beispiele zeigt ein Video. Leider sind seit dem Start die Server ziemlich überlastet, da jeder die Funktionen testen will. Ein etwa einenhalb stündiges Video vom Start gibt es hier. Wolfram|Alpha wird sicher einen großen Erfolg verbuchen, vorrausgesetzt, es funktioniert wie in dem Video beschrieben. Suchmaschienen wie z.B. Google werden davon wohl eher nicht negativ beeinflusst werden, denn Internetseiten kann man mit Wolfram|Alpha (noch ?) nicht finden. Ich bin gespannt wie groß der Einfluss von Wolfram|Alpha auf Wikipedia sein wird, da vor allem im wissenschaftlichem Bereich die Seiten zu starken Konkurenten werden dürften.
Conky ist ein System-Monitor für X, der wichtige Informationen wie die Uhrzeit, die CPU-Auslastung oder die Anzahl der neuen Mails anzeigt. Jeder User kann seine eigene Config schreiben, diese muss dann als ~/.conkyrc gespeichert werden. Mein Conky sieht so aus, aber auch auf der Internetseite von Conky können Screenshots mit den entsprechenden .conkyrc’s betrachtet werden.
Der Syntax ist recht einfach und die Befehle können per man conky nachgeschaut werden. Befehle ohne Parameter haben den Syntax $<Befehl>, Befehle mit Parameter haben den Syntax ${<Befehl> <Param1> <Param2> <…>}. Ist ein Befehl nicht vorhanden, wie z.B. das Auslesen der IP, so kann man per $exec einen userdefinierten Befehl verwenden.
Meine .conkyrc gibt es hier oder auf dotfiles.org, allerdings muss diese euren Bedürfnissen angepasst werden, denn nicht jeder hat eine /dev/sdc oder die gleiche E-Mail Adresse wie ich. Leider konnte ich keine schöne Monospace-Schriftart finden, deswegen sind vor allem die Tabellen für die CPU- und RAM-Nutzung etwas verschoben. $tcp_portmon, der Befehl der die Anzahl der offenen Verbindungen anzeigt, scheint Probleme zu haben, denn wenn es weniger als 10 Verbindungen sind, wird garnichts angezeigt.
Ansonsten funktioniert alles Einwandfrei und fügt sich schön in den Desktop ein.
Vorherige (Seite 1 von 8)