İçeriğe atla

Arama Motorları

Google Adsense’ten bloklandı, mahkeme açtı, kazandı ve parasını geri aldı!

Hepimizin göz bebeği sevgili Google, iyi yaptığı şeylerin yanında gıcıklıklarıyla da düşman arattırmıyor. Sitesi olan ve Google Adsense’e başvurup sonra bloklanan arkadaşların Google ile ilgili söyleyeceği birçok şey vardır. Bunlardan bir tanesi de Aaron Greenspan isimli bir blog yazarı. Kendisi birkaç reklam firmasının reklam programlarını denedikten sonra Google Adsense kullanmaya karar verir. Bu ilişki 2008 9 Aralık’a kadar devam ederi. 9 Aralık 2008’de hepimizin bildiği “Google sizi artık eskisi kadar sevmiyor” kıvamında, hiçbirşey ifade etmeyen, kanıt sebep v.s. gibi hiçbirşey ortaya koymadan hesabınızı iptal edip, o zamana kadar kazandığınız paraların üstüne yatıyorlar. Bu sitede 2005 senesinde başıma gelen bu olayda, gelirler 100 doları geçti yaşasın diye parande atarken, Google hesabınızı inceledik ve sizi programdan atıyoruz şeklinde bir email attı. Kendilerine email atmak, mesaj yazmak hiçbir cevap değil. Aaron Greenspan de bunları ayrıntılı bir şekilde yazıyor. Google’a email atıyor, telefon açıyor, adsense forumlarına mesaj bırakıyor, olmuyor avukatlarını kullanarak legal@google.com’a kanıtlar gönderiyor, tık yok. En son 40 dolar mahkeme masraflarını verip, 15 Ocakda Google’ı dava ediyor. Bu davada Google’ın üstüne yattığı 721 dolarını ve avukat masraflarının karşılanmasını talep ediyor. Dava görülürken Google’ın avukatlarını yırtınsa da, algoritmalarının nasılni hakime açıklayamayacakları için en son kararda Google’ın 721 dolar ve avukat masraflarını ödeme kararı çıkıyor. Burada küçük bir ayrıntı, bu tür küçük davalara Google’ın Legal departmanı bakmıyor. Dava nereden açıldıysa, oradan küçük bir firmayla anlaşılıp, onların aracılığıyla dava savunuluyor. Bu durumda da Google’ın avukatları değil, Santa Claus bölgesindeki bir avukat davayı alıyor. Kendisi de Aaron Greenspan’in sitesinin Google Adsense’den atıldığını bilmediği için hakim, “Siz bu genç adama 721 dolar borçlusunuz. Eminim Google’ın zengin hazinesinde bu kadarcık bir para bulunur” diye konuyu Google aleyhinde sonuçlandırıyor.

İnşallah bu olay Google aleyhinde açılacak davalara bir örnek temsil eder ve Google’ın bu kafasına göre önüne geleni adsense’ten kovup, parasının üstüne yatması olayından vazgeçmesine sebep olur.

Ms. Milani reiterated her previous arguments, but the judge didn’t buy them. “I don’t think I have the power here in Palo Alto small claims court to make you reinstate his account, but I think you owe this young man $721,” he said finally. “I think there might be money in Google’s treasury for that.”

Google’dan bir seferde 150 dolar kazanma fırsatı

Google, Amerikada çok popüler olan Craigslist ilan sitesine bir iş ilanı göndermiş. Google’ın iş ilanı California ve San Francisco körfez bölgesine hitap etse de, bir ihtimal Türkiye’den de kazanma imkanı olanlar olabilir diye burada duyurmak istedim. Belki Amerikada ve San Francisco’da yaşayanlar da görebilir. Bu pozisyon kullanıcı deneyimini ölçmek için google’ın yaptığı 2 haftalık bir çalışma. Bilgisayarınıza basit bir yazılım yükleyip, 2 hafta sürecinde yapacağınız internet trafiğini ve aramaları araştırma amaçlı izlemek istiyorlar. Yapılacak bu çalışmanın sonunda 150 dolar vermeyi taahhüt ediyorlar.

Google Formlara ve İnternetteki Veritabanlarına Dalmayı Hedefliyor

Google o kadar büyüdüki, artık onu takip eden ve sadece Google’ın ve diğer arama motorlarının yaptığı gelişmeleri duyurmaya çalışan siteleri doğurdu. Bu sitelerde son birkaç aydır devamlı bir konudan bahsediliyor. “Deep Web” ,webin derinlikleri. Şu ana kadar arama motorları teknolojisi tamamen linklere dayalı bir yol izlediler. Bi site kendilerine submit edildiyse veya başka sitelerden linklendiyse, gidip indekslediler. Şimdi ise teknolojiyi daha da derinleştirmeye ve arama yapılacak alanları genişletmeye çalışıyorlar.

Google indeks olarak trilyonuncu web adresini indekslemeyi çoktan geçti. Şu anda indeksinde arama yapabileceğimiz trilyondan fazla sayfa olan, 10’larca datacentera dağılmış, 10 binlerce serverın üzerinde çalışan devasa bir yazılım var karşımızda. Ama artık konuşulan webin yüzeyinde gözüken web sayfaları değil, webin derinliklerinde bulunan formlar ve databaseler. Bu databaselere dalarken amaçladıkları şeyde bir o kadar büyük. Artık Google yapay zekayı parmak uçlarınıza getirmeyi hedefliyor. Örneğin, “İstanbuldan Ankaraya cuma günü en ucuz kaça giderim” diye aratabileceğiniz ve buna cevap verebilecek birşey yapmaya çalışıyorlar. Semantics denilen, anlambilimini kullanmak, önce internette gördüğü veritabanlarını tanımak ve anlamlandırmakla başlanacak süreç, sonrasında sizin verdiklerinizi anlamlandırmakla devam edecek ve en sonunda bu ikisi arasında eşlik kurmaya çalışılacak.

Bu tür akıllı denilebilecek ama gelecekte belki aptalca ve çok basit bulunabilecek sorguları Google şu anda zaten sunuyor. Örneğin Google’dan girdiniz:
500000 + 1231923842131 dediğiniz zaman bunu toplama işlemi olarak tanımlayıp toplama sonucunu veriyor. Bu neredeyse birçok matematiksel işlem için geçerli. Dolayısıyla siz o anda sorunuzun cevabını bulmuş oluyorsunuz, daha fazla arayıp taramanıza gerek kalmıyor. Google işte bunun peşinde.

Bu tür örnek aramalar neler olabilir diye merak ediyorsanız benim kullandığım basit bir listeyi burada yazıyım:
– a+b a*b a-b a%b basit işlemler. Bunu isterseniz ingilizce tabirlere aşina iseniz (sqrt = kare kök, ^ = üssü işlemi) şeklinde genişletebilirsiniz.
– 15 cm to inch (santim inç dönüşümü için)
– 15 kg to pound (kilo pound dönüşümü için) aynı şekilde 15 kg to lbs
– istanbul weather (istanbulun 4 günlük hava tahmini)
– istanbul time (istanbulda şu anki yerel zaman)

Bu örneklerle ilgili aklıma gelenler bu şekilde. Başladığımız konuya devam edelim. Google formları ve arkalarında yatan belki milyonlarca kayıtlık veritabanlarını indekslemek, öğrenmek ve bunları sorgulanabilir hale getirmek istiyor. Bunu yapabilmek için de öncelikle veritabanlarını tanıması gerekiyor. Örneğin sanatla ilgili, teknoloji ile ilgili, sporla ilgili sitelere geldiği zaman; tutup sanat sitesine futbol kuralı diye bir arama göndermemesi gerekiyor. Bunları ayırt etmek, çıkan sonuçları ayrıştırmak ve öğrenmek, şu anda geleceğe atılan bir taş gibi gözüküyor ama Google’ın bunun peşini bırakma niyeti yok gibi gözüküyor.

Buna benzer bir projeyi Utah Üniversitesinden Prof. Juliana Freire DeepPeep (www.deeppeep.org) sitesinde yapmaya çalışıyor. Şu anda çok küçük bir örnek üzerinde çalışan bu siteden mantıklı bir sonuç almak çok uzak gözüküyor ama en azından neye benzeyeceğini merak ediyorsanız bakabilirsiniz.

Google Ofisleri

Sitenin kontrol panelinde temizlik yaparken bu yazıyı tasarı olarak kaydedilmiş buldum, yayınladığımı düşünüyordum ama yayınlamamışım. Eski bir haber ama yine de ilginç olması nedeniyle yayınlıyorum.

Dünya devlerinden Google’ın çalışanları için hem rahat hem de komforlu bir çalışma ortamı hazırladığı söylenir. Ben de nette dolaşırken google ofislerinden çekilmiş resimlerin olduğu bir siteye rastgeldim ve buraya eklemeye karar verdim.

Google New York

Google China

Googleplex

Google Okyanuslara Açılıyor

Google’ın dünyaya meydan okuması ve global olarak en büyük şirket olma çabaları devam ediyor. Adeta arı kovanı gibi California’da bulunan merkezlerinden devamlı projeler üretmeye ve devamlı bişeyler ortaya atmaya devam ediyorlar. Neler var bunların arasında?

-Google Android ile cep telefonu piyasasında öncü olma
-Chrone ile internet browser (tarayıcı) piyasasında öncü olma
-Uydu firmalarıyla çalışmalar düzenleyip, dünyanın her yerinin yüzey resimlerinin çekilip internete aktarılması
-Google News ile internet haberciliğini tek bir merkeze bağlama
-Google Books ile yayınlanan bütün kitapların sanal kopyasını çıkartıp, internetten okunabilir hale getirme

bunlar sadece benim yakın zamanda duyduklarım. Bunlara şu anda yeni bir proje ekliyorlar. O da, Ron Schenone at Lockergnome‘ın yazısına göre (Google Wants to Control the Ocean) okyanusun 5-10 km. açığında 50-70 metre derinlikte sularda büyük bir datacenter inşa etmek. Bu yazıya kaynak olarak gösterilen ve Google tarafından Şubat 2007’de başvurusu yapılan patent talebin içeriğin ingilizcesini altta çevirdim ve yazıya ekledim.

Google’ın amacı okyanusun 5-10 km. açığında data center açmak olarak nitelendiriliyor ama esas amacı bu değil. Esas amacı bu data centerda; içinde bulunduğumuz medeniyet tarihinde yazılmış bütün yazılı gazete ve medya çıktılarını bu data center aracılığıyla sanal ortama taşımak. Tabi tek amaç okyanusun ortasında data center açıp bu projeyi hayata geçirmek değil. Okyanusta data center açma teknolojisini deneyip başarılı olurlarsa bundan sonra o yönde genişlemeye devam etmeyi planlıyorlar.

Türkçesi:
Google Dizayn, okyanus yüzeyinde oluşan dalgaların hareketinden elektrik üretimini sağlayan Pelamis Dalga Enerji Dönüştürücü ünitelerini bünyesine dahil etmektedir. (satın almışlar) Şu ana kadar gerçekleştirilen en büyük proje 7 tane Pelamis ünitesi kullanarak 5 Megawatt enerji üretebilmektedir. Google patent başvurusuna dahil edilen diyagramlar Google’ın 40 veya daha fazla Pelamis ünitesi kullanarak 40 megawatt enerji kullanımını izah etmektedir.

Patent dökümanı denizden beslenen enerjiyle ve deniz suyunun serinletici etkisiyle sistemleri soğutmanın detaylarını da açıklamaktadır.

İngilizcesi:
The Google design incoporates the Pelamis Wave Energy Converter units, which use the motion of ocean surface waves to create electricity and can be combined to form “wave farms.” The largest existing project uses seven Pelamis Units to generate about 5 megawatts of power. Diagrams included with Google’s patent application indicate the company plans to combine 40 or more Pelamis units to produce 40 megawatts of power.

The patent documents describe a cooling system based on sea-powered pumps and seawater-to-freshwater heat exchangers.

Google’a bir şeyhler oluyor

Türkiyedeki webmasterlerin birçoğu şu aralar google’ın gelmişi ve geçmişi (10 yıllık) ile ilgili pek hoş olmayan laflar sarfetmek durumunda kalıyor. Bunun yanında bi de çok sevinçli sitesine google kuşu konan site sahipleri var onlar da bunun keyfini çıkarıyorlar. Ne mi oldu? Google ilk 10’da çıkan birçok siteyi al aşağı edip onları başkalarıyla değiştirdi. Günlük 5-6 bin ziyaretçi alan site sahipleri 26-27 mayısta gözlerini bir açtılarki günlük ziyaretçi sayısı 1-2 binlere gerilemiş. Herkes birbirine ‘biz ne yaptık da google bize bunu yaptı’ sorusunu soruyor. Bunlardan sonofnights.com’da nasibini aldı. Google bilhassa önemli anahtar kelimelerde büyük kesintiler yaptı. Bu durumu ilk tespit ettiğim zaman Google tarafından yasaklanmış olabileceğimi düşünerek kendilerine başvuru da bulundum ama sonradan başka arkadaşlarla konuşunca bu durumdan etkilenen çok kişi olduğunu, bilhassa google.com.tr bazlı aramalarda büyük depremler olduğunu öğrenmiş oldum.

Aslında Google’ın bunu yapacağını tahmin etmek çok uzak değildi. Şubat ayından itibaren bir manada İnternet Kanunları gibi sundukları, Webmaster Guidelines’larını baştan aşağıya değiştirip Mayıs 25’e kadar Google Adsenseten para kazanmak isteyen site sahiplerine zaman verdiklerini ve bunu dikte edeceklerini duyurdular. Tabi burada demokrasiye bir zarar gelmiyor, bizimle çalışmak istiyorsanız bizim kurallarımız bu şekilde diyorlar. Sundukları bu listede ana maddeler benim okuduğum kadarıyla şunlardı:

  • başka siteleriyle link değişimi
  • link satışı, para karşılığında başkaları için yazılar yazmak
  • gizli link yayınlamak yoluyla arama motorlarını kandırmaya çalışmak

şeklinde daha uzayıp giden, SEO dediğimiz arama motoru optimizasyoncularının çoğunlukla başvurdukları bütün kaynakları kurutmaya yönelik bir çalışma başlattılar. Geçtiğimiz haftalarda Las Vegasta arama motorlarıyla ilgili seminerler düzenlendi ve bunlardan bir tanesine Matt Cutts efendi de katıldı ve kendi sitesinde de bahsettiği bir röportaj verdi. Bu röportajda kendisine Google’da yenilik olarak sizi heyecanlandıracak neler var bize söyleyebileceğiniz diye sorulduğunda:

  • Google’ın uluslararası aramalarla ilgili yapacağı güncellemeler ve spam filterelemeleri
  • link satan, link değişimi yapan sitelere yasaklamalar ve kısıtlamalar getirecekleri

bilhassa Google’ın yasaklı listesine aldıkları:

  • Links intended to manipulate PageRank (PageRank arttırmaya yönelik linkler)
  • Links to web spammers or bad neighborhoods on the web (Diğer siteleri ve spamcilere yönelik linkler)
  • Excessive reciprocal links or excessive link exchanging (“Link to me and I’ll link to you.”) (Aşırı miktarda link değişimi yapmak, bana link ver ben de sana link veriyim)

Tabi Google bu kararı almadan önce afedersiniz baya tırmaladı. Biz arama motoru marketini nasıl yönlendirebiliriz? Nasıl büyük değişiklikler yapmadan kendi elimizle yarattığımız bu deve ayak uydurabiliriz? Baktılar Pagerank algoritması yerine yeni bir fikir ortaya koyamıyorlar ve Pagerank algoritması da sitelerin birbirine link vermesi tabanına dayanıyor. Uzun bir müddet bekledikten sonra, kendi elleriyle oluşturdukları link değişimi ve link satışı marketlerini kurutmak için harekete geçtiler. Şu anda blogunda firmalar için yazı yayınlıyanlar, link satışı yapanlar, link değişimi yapanlara büyük bir darbe indirdiler. Bunu henüz ingilizce siteler için yapmadılar şu anda görebildiğim kadarıyla yaptıkları bu değişiklik bilhassa Google Türkiye ile birebir ilgili.

Çözüm ne olabilir derseniz. Şu aşamada çözüm çözümsüzlük olarak gözüküyor çünkü ortaya koydukları ve açıkladıkları resmi birşeyler yok. Google zaten şu ana kadar adam gibi çıkıp ben buyum şuyum demedi, hep Matt Cutts gibi ortaya koydukları birkaç figüranları aracılığıyla dünyaya mesajlar göndermeye çalıştı ve aynı şekilde devam ediyor. Matt Cutts’a röportajda bu konuyla ilgili sorulan soruya verdiği cevap şu şekilde:

  • kaliteli ve size özgü içerikler
  • birilerine gerçekten çok link vermek istiyorsanız nofollow kullanın
  • link alışverişi, link değişimi yaparken Google’ın koyduğu kanunları ve sonuçlarını göz önünde bulundurarak hareket edin

Bakalım ileriki günlerde Google’ın gelişen piyasaya reaksiyonu nasıl olacak.

Link Değişimi Yaptığım Siteler

Link değişimi konusu arama motorlarında üst sıralara gelmek için gerçekten çok önemli bir nokta. Link değişimi yazısını yazdıktan sonra birçok site sahibiyle msn üzerinden tanıştık, bir kısmıyla arkadaş olduk halen muhabbet ediyoruz. Hem benim açımdan da hem de kendileri için çok faydalı tanışmalar ve görüşmeler yaptığımıza inanıyorum.

Kendileriyle yaptığım

Google ve Cookie (Çerezler)

Çerezler namı diğer cookieler, temel olarak bir sayfayı ziyaret eden kişinin ikinci kez geldiğinde tanınmasını sağlayan internet eklentileridir. Nasıl çalışır? Örneğin hurriyet.com.tr sitesini açtığınız zaman internet tarayıcınıza (internet explorer, firefox, opera) hurriyet.com.tr sunucuları tarafından bir çerez gönderilir. Bu çerez sizin bilgisayarınıza gönderildikten sonra artık size sanal bir kimlik verilmiştir. Kimlik kelimesi bu kavramı açıklamak için biraz ağır kaçabilir. Bilgisayarınıza çerez gönderildikten sonra size kimlik mi yoksa başka birşey mi verilmiş derecelendirmesi kelimelere kalır ama ekledikleri kodlar sayesinde arkanızda iz bırakmanızı sağlayabilecek bişey olduğunu söyleyebilirim. Nasıl bir iz? Bu iz tabiki temel olarak sizin hangi sayfaları dolaştığınız ile ilgilidir. Böylelikle ayrıntılı ziyaretçi profili ve istatistikleri çıkartılabilir. Örneğin, hürriyet gazetesini ziyaret eden ziyaretçilerin %40’ı (varsayım) ana sayfayı açtıktan sonra, ilk manşetteki habere tıklamaktadır. Hmmm, o zaman Hürriyet olarak ben ne yapmalıyım? İlk manşette gündemi sarsıcı, benim vermek istediğim mesajı içerecek türde haberleri yayınlamalıyım. Bu kararı varsayımla da yapabilirsiniz, ama en sağlıklısı istatistiki değerlere göre hareket etmektir. Şöyle bir benzetme daha yapayım. Bilgisayarınıza kopyalanan veriyi sizin hakkınızda tutulan bir dosya gibi düşünebilirsiniz. İçine siz bilgi koydukça daha değerleniyor ve anlam kazanıyor. Hürriyet gazetesi örneğinden devam edelim. Sitelerini ziyaret ettiniz, sağa sola tıkladınız haberleri okudunuz. Bu haberleri okurken belli bir çizgi izlemiş olabilirsiniz, olmayabilirsiniz. Yazıları okudunuz bir tanesine takıldınız ve yorum yapmaya karar verdiniz ve yorumcu profili oluşturdunuz. Bilgilerinizi verdiğiniz anda odada ışıklar yanmaya başlar. Artık bundan önce ziyaret ettiğiniz sayfalar ve oluşturduğunuz profil Hürriyet için nasıl birisiyle muhatap olduklarını ifade etmek için yeterlidir.

Hürriyetin benim için tuttuğu verilere buradan bakabilirsiniz (özel kısımları xxx olarak kapattım):

Hürriyet cookie

Hürriyet gazetesinin yakasını bırak be adam dediğiniz duyar gibiyim 🙂 Bıraktım bıraktım, gelelim Google’a. Yukarıdaki örnek Google’ın yaptıklarına kıyasla solda sıfır kalır. Neden? Google’da yaptığınız her arama, google için para manasına geliyor. Birileri sizin aramalarınıza para ödemek istiyor. Dolayısıyla siz kimsiniz? nerdensiniz? ne iş yaparsınız? ne ararsınız? ne kadar sıklıkta arama yaparsınız? hangi siteleri ararsınız? hangi kelimeleri kullanırsınız? hangi siteleri ziyaret edersiniz? bunların hepsi Google için milyarlarca dolarlık bir marketi ifade etmektedir.

Google’ın çerezleri kullanıp kullanmadığıyla ilgili bir örnek veriyim. Google Adsense (google’ın reklam programı) konusuyla ilgili geçenlerde bir arkadaşım kendi sitesindeki reklamlara fazla tıkladığından dolayı bloklandığını, sonra başka birisi üzerinden hesap açtığını ve Google’ın bunu kesinlikle tespit edemeyeceği metodlar uyguladığını anlattı. Anlattığı metodları biliyorum ve geçerliliğin doğruluğu adına ben de altına imzamı atarım. Ama ne oldu? Google 3.kişi üzerinden açtığı hesabın izini arkadaşıma kadar sürüp yeni hesabını da birkaç ay içinde kapattı. Peki nasıl yaptı bunu? Çerezler 🙂

Google çereze örnek:

PREF=ID=28face613556316e
TM=1184620070
LM=1184620070
S=DkEaab7_F7PtM3ZX

Ama nasıl? Google; gmail, adsense, adwords ve daha birçok hizmetini bir noktaya bağladı ama saniyede milyonlarla ifade edilen miktarda gelen veriyi nasıl işleyebilecek? Siz ali veli deyip google’da arattığınız bilmem şu kadar milyon sonucu saniyeden kısa sürede nasıl listeleyecek? Bu aramalara cevap verirken, reklam hizmetlerini, email hizmetlerini nasıl yürütebilecek? Açıklayalım 🙂

Google sunucu dünyasının en güçlü bilgisayarlarını üreten Sun ile 2005 yılında ortaklık anlaşması imzaladı. Anlaşmaya göre Google bütün sunucu ihtiyacını Sun ile hallediyor buna karşılık Sun Google’ın Toolbarını Java ve diğer yazılımlarına ek olarak kullanıcıları yükletmek suretiyle destekliyor. Neden Google Toolbar? Google’ın adsense reklam programında, Google Toolbar’lı Firefox yüklenmesine vesile olan webmasterlara neden 1$ ödüyor? Söyleyelim. Google Toolbar’ın cookie (çerez) den neredeyse hiç farkı yoktur. Google Toolbar ilk yüklendiğinde sadece arama yapmada kullanıldığı zaman birşey ifade etmiyor. Ama örneğin Pagerank seçeneğini aktif hale getirirseniz, ziyaret ettiğiniz bütün siteler Google’a sadece size atanmış bir kimlik bilgisi (ID) ile gönderiliyor. Bookmark, History gibi servisleri aktif ettiğiniz zaman Google size sorar: Bilgilerinizin bir kısmı araştırmalar için kullanılabilir. Tabi bu araştırmalar nedir bilmiyoruz. Bu araştırmaların amacı nedir bilmiyoruz çünkü bu kısım iş sırrı oluyor.

Velhasıl gelelim. Google’da yaptığınız her bir arama, arama sonucunda tıkladığınız her bir sayfa Google tarafından takip edilmekte. Bu verileri takip etmek için de Google’ın bilgisayarınıza gönderdiği çerezin içine yerleştirdiği ve sadece size atanmış kimlik bilgisi (ID) kullanılmakta. Yaptığınız aramalar bulunduğunuz coğrafyayla, gündemle birçok konuyla eşleştiriliyor. Google’da oluşturduğunuz profile göre Google News (google haber) sayfasında size uygun gündemler seçiliyor. Bundan önce tıkladığınız sonuçlara göre, Google’ın sizin tıklayacağınızı düşündüğü sayfalar üst sıralarda gösteriliyor. Bu profil oluşumu devam edip dururken, Gmail yada benzeri bir Google hizmetinde hesap açarsanız artık resmen sizin siz olduğunuz Google tarafından öğrenilmiş oluyor.

Bundan niye rahatsız olayım diye düşünebilirsiniz ama burda da birçok nokta var. Sizin hakkınızda öğrenilen verilerin ne amaçla tutulduğunu bilmiyoruz. Bu verilerin ne için kullanıldığını arama yaptığınız zaman farklı sonuçlar görerek, Google’ın bazı hizmetlerini kullandığınız zaman size göre sonuçlar üretilmesiyle görebiliyoruz. Ama hepsi bu kadar! Bunun yanında Google’ın Amerika devletine ve CIA’ye karşı sorumlukları var. Bundan önce Google, çocuklarla ilgili ahlaksız arayışlar içinde bulunanları polise vermek suretiyle yargıya yardımcı oldu. Bu yardımların sadece bununla sınırlı olup olmadığı, arama yapan kişileri kimin menfaatine göre suçlu bulup bulmadıklarını bilmiyoruz.

Google geçtiğimiz günlerde, bu konuda oluşan spekülasyonlardan dolayı bundan önce 2038 yılına kadar ziyaretçilerin bilgisayarında tuttuğu cookie (çerez) bilgisini, 2 yıl ile sınırlandırma kararı aldı. Eğer 2 yıl süresince Google’da arama yapmayıp, 2 yılın sonunda arama yaparsanız o gün Google sizi ilk defa tanımış gibi hareket ediyor. Neye yarıyacaksa 🙂

Google’ın bizi ve özel hayatımıza müdahele olabilecek etkilerini nasıl durdurabiliriz? Bunun için Google’dan sizin kim olduğunuzu saklayabilecek ve Firefox üzerine eklenti olarak eklenebilecek CustomizeGoogle kullanabilirsiniz. Ben de bu yazıyı yazmaya başladığım zaman bu eklentiyi bulduğum için ne kadar iş görür bilemiyorum. Yazıyı çözümsüzlük ve alternatifsizlikle bitirmek yerine böyle bir araçtan bahsetmek istedim.

Google ve İngilizce İçerik

Arama motorları ile ilgili yazdığım yazılara “sitelerinin indexlenmediği, bazı kelimelerde üst sıralarda çıkmadığı” şeklinde yorumlar geliyor. Aynı sıkıntıyı ben de yaşıyordum. Siteye yeni içerik eklediğim halde 2 haftadır Google yeni crawl yapmıyordu. Crawl kelimesinin bu manadaki türkçe karşılığını bulamadım fakat arama motorları yönündeki manası, “crawl” bir web sitesinin arama motorları tarafından ziyaret edilmesi ve bir kopyasının onlarda kaydedilmesi şeklinde yorumlayabiliriz. Bu kayıt sonucunda, arama motorları sizin sayfalarınızı tabiri caizse öğreniyor ve arama sonuçlarında size de yer vermeye başlıyor.

Crawl’ın manasını ifade ettikten sonra kaldığım yerden devam ediyorum. Dediğim gibi bir müddettir, yeni yazılar eklememe rağmen Google’da indeksleme olmuyordu. Geçtiğimiz günlerde 9 / 11 ile ilgili ingilizce yazıyı eklediğim gün, sitenin indekslendiğini gördüm. Belki planlanmış birşeydi, buna denk geldi bilemiyorum fakat aynı gün indekslenmesi garibime gitti. İleriki günlerde bunu tekrar deneyip, buradan tekrar duyuracağım.

Google Spam ve Arama Motorlarında Üst Sıra Yarışı

Arama motorları artık internetin olmazsa olmazı oldu. Eğer siteniz google, yahoo veya msn tarafından indexlenmediyse, sitenize ziyaretçi çekme işi sizen ellerinize kalıyor. Tabi iş böyle olunca arama motorlarında ilk 10 bilhassa e-ticaret (e-business) yapan herkesin rüyalarını süslüyor. Türkçe dünya dilleri arasında maalesef şu an için çok ayrıcalıklı bir yere sahip değil, dolayısıyla arama motorları tarafından İngilizce, İspanyolca gibi popüler dillerin gördüğü ilgi ve alakayı görmüyor. Bu yönüyle biraz şanslı sayılabiliriz aslında, çünkü Türkiye’de web yayıncılığı yurt dışında ulaştığı doyuma ulaşmış durumda değil ,dolayısıyla ilk 10’e erişmek zor olsa da imkansız değil. Bunu ingilizce içerik yayınlayıp, ingilizce web siteleri ile yarışa girdiğiniz zaman daha iyi anlıyorsunuz.

İlk 10’da veya ilk 20’de olmanın neden önemli olduğuna gelince, araştırmaların ortaya koyduğu sonuçlara göre, arama sonuçlarından en çok klik’i 1. sırada çıkan, daha sonra 2.sırada olan şeklinde ilerliyor. Türkiye’de birçok kişinin Google ayarlarını değiştirmediğini ve arama sonucu olarak sayfa başına 10 tane gösterildiğini düşünürseniz ne kadar çok insanın sitenizi gözden kaçırdığını düşünebilirsiniz. Eğer site sahibi iseniz bunu Sitemaps üyeliğinizde sol tarafta kolon ile sağ tarafta çıkan kolon arasındaki farklılıktan dolayı rahatlıkla görebilirsiniz. Sol taraftaki kolonda sitenizin çıkan sonuçlarda genel olarak kaçıncı sırada çıktığı, sağ taraftaki kolonda bu sonuçlardan kaçının tıklandığı ortaya konuyor. Eğer ilgili anahtar kelimede ilk 10’da değilseniz, tıklanma oranı çok düşüyor.

İş bu hal olunca, arama motorlarında üst sıraları kapabilmek için birçok firma türedi. Danışmanlık firmaları (SEO) şeklinde ortaya çıkan firmalar, hedef olarak belirlenen siteleri ‘bilmem şu kadar anahtar kelimede’, ‘şu kadar süre içinde’, ‘şu sıraya getireceğiz’ şeklinde vaadler vererek hizmet vermeye başladı. Bu kadar firmanın ortaya çıkması, piyasa oluşması hatta geçtiğimiz aylarda seminer ve konferanslar düzenlemesi bu işin ne kadar ciddiye alındığının bir göstergesi. Bu firmalar birbiriyle kim daha üste çıkarak diye yarışırlarken, yeni bir kavramda ortaya çıkmış oldu. “google spamming” Bu kavram aslında birkaç hilenin biraraya getirilmesi ve Google’da hile yapılan sayfanın en üstlere doğru çıkmasını sağlamayı hedefliyor. Tabi bunu yaparken arama motorlarının hedef olarak edindiği ‘kaliteli ve ziyaretçiye doğru arama sonucu’ verme konsepti tehlikeye girdi. Bazı kişilerin bu noktada arama motorlarını suçlayan yazılarını okudum ama arama motorlarının bu konuda bir günahı olmadığını düşünüyorum. Sonuç olarak arama motoru botları (ajanları) siteleri ziyaret edip, site içeriğini hafızalarına aldıkları zaman sayfalarda işlenen ana temayı tespit etmek, ilgili sitenin diğer sitelere göre ziyaretçilere daha faydalı içerik sunacağını tespit etmek gibi sorumlulukları var. Bunu yerine getirmek için de araştırmalar sonucu elde edilmiş algoritmalar kullanmak zorundalar. Bu kişiler ilgili kısımları tek bir amaca göre doldurdukları zaman, arama motorlarının da o sitenin gerçekten o konuya adandığına inanmaktan başka çıkış noktası gözükmüyor. Bu algoritmalar Google’ın kendine ait laboratuarlarında ve anlaşmalı olduğu üniversitelerde yapılan araştırmalarda elde ediliyor ve devamlı bir gelişim ve devinim halinde. Kısaca Google’ın bir sayfayı ele aldığı zaman nelere dikkat ettiğini özetlemek gerekirse:

  1. Sayfanın pencere başlığı (title) (örn: Arama Motorları, Arama Motorlarının Bugünü ve Yarını, Arama Motorlarında Üst Sıralar v.s.)
  2. Sayfanın html başlık kısmında tekrarlanan kelimeler (head içindeki meta tag ler) (örn: Google’da üst sıra, Arama Motorları Nasıl Çalışır? Arama Motorları, Arama Motorları nedir? v.s.)
  3. Sayfanın ziyaretçiye gösterilen gerçek içerik kısmında tekrarlanan kelimeler(body) (örn: arama, arama motoru, arama motorları, arama motoru nasıl, arama motorları v.s.)

Google üstte verdiğim örnekteki gibi içeriğe sahip bir sayfayı ele aldığı zaman doğal olarak bu sayfanın ‘arama motorları‘ na yönelik bir site olduğuna kanaat getirecek. Bu taktiği en çok kullanan siteler; mp3, warez ve porno siteleri. Bazı ticari sitelerde bunu yapmaya çalışıyorlar ama çok yaygın değil. İnternet trafiğinin büyük çoğunluğunu oluşturen ; mp3, warez ve porno siteleri arasında büyük bir çekişme var, hepsi daha fazla hit almak, reklam göstermek ve gelir elde etmek istiyorlar. ‘Google spamming’ metodları arasında son sırada bahsettiğim içeriği anahtar kelimelerle doldurmak taktiği çok yaygın kullanıyor. Türkçe mp3 sitelerinde eminim rastgelmişsinizdir, en aşağıda bazen 1 px punto ile bazen de arka görüntüyle aynı rengi kullanarak anahtar kelimeler dolduruluyor, google birşekilde bu sitenin içeriğinin bunlardan oluştuğuna kanaat getiriyor.

Bu şekilde üste çıkma çalışması yaygınlaştıkça google’da algoritmalarındaki hassaslığı artırmaya ve site içeriğini tespit etmek için farklı metodlar kullanmaya başladı. Bu sefer bazı site sahipleri, Google botu siteyi ziyaret ederken farklı içerik göstermeye normal ziyaretçi siteye geldiği zaman farklı içerik göstermeye başladı. Sonuçta php, asp, jsp gibi sunucu tarafında çalışan dillerle site içeriği sağlandığı için, bunu kontrol etmek çok kolay. Bütün bu metodlar kullanılarak bir manada arama motorlarının ve arama yapanların yanıltılması sağlanmaya başlandığı ve ‘google spamming’ yaygınlaşmaya başladığı için Google, bu tür metodları kullanan kişileri ihbar etmek için bir sayfa açtı. Bu sayfadan sizi yanıltan sonuç veren aramalar için ihbar yapma imkanı tanınmış oldu. Burada sizden istenilen,

  1. sorunlu sonuç veren arama için kullandığınız anahtar kelimeler (örn: arama motorlari),
  2. Google’da çıkan adres (http://www.google.com/search?sourceid=navclient&ie=UTF-8&rls=TSHA, TSHA:2005-32,TSHA:en&q=arama+motorlari)
  3. yanıltan site adresi

Yanıltan siteyi ve bu siteye Google tarafında nasıl ulaştığınızı belirttikten sonra, bu sitede olan hatayı ihbar etmeniz gerekiyor. Burada verilen listeyi kabaca açıklamak gerekirse:

  • Hidden text or links: ziyaretçiden gizlenen yazı veya link kullanıldıysa
  • Misleading or repeated words: yanlış veya aynı kelimeler tekrar tekrar kullanıldıysa
  • Page does not match Google’s description: Google’da beliren tanım ile sitenin içeriği tutmuyorsa
  • Cloaked page : Google botları siteyi ziyaret ettiği zaman başka içerik gösterip, normal ziyaretçiye başka içerik gösteriyorsa
  • Deceptive redirects : başka bir siteye yönlendiriyorsa
  • Doorway pages : amaç olarak arama motorlarını cezbetmek için hazırlanmış, ziyaretçiye birşey ifade etmeyen, bir sürü karışık yazılardan oluşan içerik sunuyorsa
  • Duplicate site or pages : aynı sayfayı farklı linklerde veriyorsa

Bu formlar Google tarafında gözden geçirilip, ihbarların gerçekliği tespit ediliyor, bazı durumlarda bu sitelerin bütün indexi google’dan siliniyor. Bununla ilgili birçok forumda konu açılıyor ama Google bu sitelerin index’ini 6 ay yasaklıyor.

Google Sitemaps – Sitemap Nasıl Hazırlanır?

Google SitemapsGoogle’ın sitelerde gerçekleşen güncellemeleri daha yakından takip etmek ve daha kaliteli arama sonuçları sunabilmek için başlattığı Google Sitemaps projesini, yeni güncellemeler ve eklemelerle daha ileriye taşıdı. ‘Google Sitemaps’ ilk bakışta, siteye yeni bir yazı, haber, içerik eklendiği zaman bunu site haritası manasına gelen bir xml dosyasına kaydetmesi ve bu dosyanın Google Botları tarafından download edilerek incelenmesine dayanıyordu. Google sitenin tamamını dolaşmak yerine, böyle bir haritaya bakıyor ve elinde bulunan haritayla karşılaştırıyor. Eğer yeni bir ekleme varsa, bir sonraki ziyaretinde o kısımları indeksine alıyor. Sitemaps projesi buradan ortaya çıktı, site yöneticilerinden çok ilgi görmesinden ötürü bu projeye eklentiler yapılmaya başlandı. Örneğin, Google’ın siteleri ziyareti ve indekslemesi esnasında karşılaştığı hatalara yer verilmeye başlandı, yeni arayüz ile ziyaretçilerin ilgili siteleri hangi kelimelerle bulduğu bilgisi verilmeye başlandı, ayrıca hangi kelimelerle ilgili sitenin ziyaretçiye sonuç olarak gösterildiği (örn: benim sitem google’dan “hayalet sevgilim” diye aratıldığı zaman 22. sırada çıkıyormuş) gibi bilgiler verilmeye başlandı.
Madde madde Google Sitemaps projesinin site yöneticilerine verdiği hizmetleri özetlemek gerekirse:

  • Sitenize ulaşanlar hangi keywordlerle ulaştı ve bu keywordlerde siteniz kaçıncı sırada
  • Siteniz hangi kelimelerde Google tarafından gösteriliyor (örneğin benim sitemde hayalet sevgilim – 29 ile 1.sırada gösteriliyor, torrentturk 2. sırada gösteriliyor. Bunun manası, hayalet sevgilim google da 1000 kez aranmış, torrenttürk 600 defa aranmış, ama “hayalet sevgilim” de siz ortalama olarak 29. sırada gösterilmişsiniz, “torrenttürk” de ise 4.sırada gösterilmişsiniz)
  • Sitenizin altında bulunan sayfaların page analysis skoru. Bir manada page rank’i
  • Google’ın sitenizi indekslemesi esnasında karşılaştığı hatalar
  • Sitenizde önceden ulaşıpda şu anda ulaşamadığı sayfalar (HTTP 404 hataları, HTTP 200 uyarıları)
  • Arama motorlarınca en çok başvurulan kaynak olan robots.txt dosyası ve sitenizde varsa bununla ilgili Google’ın karşılaştığı durumlar
  • Google Sitemaps’i sitenize nasıl ekleyebileceğiniz ile ilgili kısaca özet vermek gerekirse:

    1. Gmail’de hesap açmanız ve hesabınız olması gerekiyor
    2. Sitenizin içeriğini Google’ın istediği Sitemap formatında yayınlamanız ve bunu sitenizde bir dosyaya kaydetmeniz gerekiyor. Benim sitemle ilgili sitemap’e bakmak isterseniz buraya tıklayabilirsiniz. Tıkladığınızda görceğiniz gibi çok da çetrefilli bir iş yapmıyorsunuz, sitenizin içeriğindeki makale yada google tarafından indekslenmesi gerektiğini düşündüğünüz herhangi bir linki; url, son eklenme tarihi, ne kadar sürede güncellendiği ve önceliği şeklinde ifade etmeniz gerekiyor.

      Google’ın changefreq kısmında, monthly, weekly,daily ve hourly opsiyonlarına yer veriliyor. Bu seçeneklerden kasıt, yazının ve ne kadar taze olduğunun anlaşılmasını sağlamak. Sitemap dosyası güncellendiği zaman yeni bir yazı eklendiyse onun changefreq tag’i hourly yada daily olarak değiştirilmesi gerekiyor. Bu değişikliğe göre geçen hafta eklenmiş bir yazının güncellenme sıklığı weekly, 1 ay evvel yayınlanmış bir yazının güncellenme sıklığının monthly olarak değiştirilmesi gerekiyor. Priority için 0.2, 0.5,0.8,1 şeklinde sayılar bulunuyor. Burada priority’den kasıt, yazının site içindeki önemi ve güncellenme sıklığı. Örneğin bir yazıyı siteye yeni eklediniz Google’ın buna dikkatini çekmek istiyorsunuz, burada changefreq kısmını hourly, priority kısmını yaptıktan sonra priority’sini (öncelik) 1 yapabilirsiniz. Burada kurnaz arkadaşların hemen aklına gelebilecek bir konu, bütün linkleri hourly yapmak ve priority lerini de 1 yapmak fikri tam olarak doğru değil. Google tarafı ile ilgili gelişmeleri yakından takip etmeme rağmen son aylarda blog’da yazı ekleyemedim ama Google ‘search engine spammer’ (arama motorları spammerları) ile ilgili ciddi mücadele etmeye başladı. Bu çerçevede algoritmalar ve bu tür websiteleri ve web adminlerini tespit eden çalışmalar yaptı. Bu algoritmalara göre sitenizde yapacağınız böyle bir çalışma Google tarafından spam veya aldatma olarak algılanabilir ve sitenizin Google’daki yerinde hoş olmayan sonuçlar doğurabilir. SEO forumlarını takip ederseniz birçok Website admini bu dertten yakınıyorlar. ‘Sitem şu şu anahtar kelimelerinde ilk 10’da çıkarken bir değişiklikle ilk 100 de hatta 200 de bile yer bulamıyor, ne yapmalıyım?’ şeklinde.

      Eğer sitenizin yapısını xml olarak vermek için uğraşmak istemiyorsanız yada nasıl yapmanız gerektiğini bilmiyorsanız Google tarafından yeni duyurulan Google Sitemap Generator ı kullanabilirsiniz. Yalnız Google Sitemap Generator ile ilgili engel gibi görünen bir durum söz konusu, uygulama Phyton kullanılarak yazılmış. Phyton destekleyen sunucu bulmak kolay mıdır zor mudur çok bilmiyorum ama Php, Asp gibi script dilleriyle yazılmış olması sanırım kullanım kolaylığı açısından çok daha kolay olurdu. Google’ın Sitemap Generator’unun haricinde hazır uygulamalar için geliştirilmiş plug-in ler mevcut. Eğer siz de WordPress, Drupal v.s. gibi hazır içerik yönetim sistemlerini (content management system) kullanıyorsanız kullandığınız versiyon ile ilgili scripti rahatça bulabilirsiniz. Benim sitemde kullandığım sitemaps‘de WordPress için hazırlanmış Google Sitemap Generator for Word Press plugin’i sayesinde gerçekleştiriliyor. Siz de WordPress kullanıyorsanız bu plug-in’i indirip wp-content/plugins dizinin altına açmanız ve Options – Plugins bölümünden aktif etmeniz yeterli. Bundan sonra yeni bir yazı eklediğiniz zaman otomatik olarak bu plug-in devreye girip, site kökünde bulunan sitemap.xml dosyasını güncelliyor. Burada bir güzel haber de, Google’ın RSS ve diğer syndication formatlarını da desteklemesi. Eğer hazır bir sistem kullanıyorsanız veya en azından RSS desteğiniz varsa direk olarak feed’inizi bir sonraki adımda bahsettiğim gibi ekleyebilirsiniz.

    3. Sitemap hazırlığını yaptıktan sonra eklemek istediğiniz sitenin size ait olup olmadığını anlamak için Google, rastgele bir dosya isminde (google134154315231.html) içi boş olan bir dosyanın ilgili sitenin kök dizininde (sonofnights.com/google134154315231.html) oluşturulmasını şart koşuyor. Verify dediğiniz anda dosyanın varlığını kontrol ediyor, eğer o dosya mevcutsa siz bu hesabı kullanarak o sitenin istatistiklerini takip edebilir hale geliyorsunuz. Burada akla gelen bir konu, bir site birden fazla kişi tarafından takip edilebilir mi şeklinde. Sorunun cevabı ‘evet’. Bir sitenin birden fazla admin’i olabileceği varsayılarak buna izin verilmiş durumda.
    4. Sitenizde Google Sitemaps’in desteklediği protokollerden herhangi birisi bulunduğunu ve sitenizi Google’a eklediğinizi varsayıyorum. Bu aşamada Add Sitemaps diyerek, sitenizdeki RSS feedini veya sitemaps dosyasını submit ediyorsunuz. Bundan sonra sitenizle ilgili Google tarafında neler olduğunu takip edebilir hale geliyorsunuz.

    Google’ın RSS ve yaygın kullanılan feed’leri desteklemesinin yanında sağladığı diğer kolaylık ise sitemaps dosyasının sıkıştırılmasını destekliyor olmaları. Örneğin sitenizde yüzlerce link var ve bunların hepsininin google tarafından dikkate alınmasını istiyorsunuz, çıkarttığınız xml dosyası da farzı muhal 1 mb. veya daha fazla bir boyutta oldu. Google gün aşırı bu dosyayı download edeceği için bandwidth sıkıntısı yaşamamak için, gzip ile sitemap dosyasınızı sıkıştırabilirsiniz. Google’ın sitemap dosyasınızı download etme sıklığı sitenizin google tarafındaki page rankine ve diğer sitelerden aldığı linklere bağlı birazda. Örneğin sitenizde bulunan bir yazı ilginç bulunup diğer sitelerde link verilerek bahsedildiyse, Google bu sayfaları crawl ederken devamlı sizin sitenizin linkini görmeye başlayınca sizin sitenizde neler döndüğünü merak ediyor ve sitemaps dosyanızı download ediyor. Ben bazı günler gün içinde 2-3 defa google’ın sitemdeki sitemaps dosyasını download ettiğine şahit oldum. Eminim yüksek hit alan siteler ve örneğin gazete siteleri bundan çok daha fazla nasibini alıyorlardır. Bu durum gzip kullanılmasını daha da önemli kılıyor. Sade halinde bir dosya 1 mb. tutarken, gzip ile sıkıştırdığınızda en az %80 gibi bir kazanç söz konusu oluyor.

    Google Sitemap’te subdomain’lerle ilgili sitemap oluşturma izni veriliyor. Örneğin blog.sonofnights.com şeklinde bir subdomain tanımlamış olsaydım ve bunun yönetimi de başkaları tarafından yapılıyor olsaydı bu kısmın takip edilmesi mümkün oluyordu ancak sonofnights.com/baskadunyalar/ seklinde ana domainin alt dizinine map edilmiş bir siteyi eklemeniz mümkün olmuyor. Bu şekilde bir sitenin web adminliğini yaptığım zaman denediğimde domainin kök dizinine dosya yazmam gerektiğine işaret edildiği için Sitemap kullanmam mümkün olmadı. Sanırım Google Sitemap’te eksik bir nokta söz konusu. Örneğin web sunucusu sahipleri, sunucularında bulunan bütün siteleri takip edebilirler. Sunucu sahiplerinin yanında sitenin eski adminleri de siteyi takip edebilir durumdalar,çünkü bütün sitemap leri kişilerin hesaplarının altında. Dolayısıyla site ile ilgili özel bilgilerin gizli tutulması söz konusu olmuyor. Bu durumla Google’ın çok ilgileneceğini sanmıyorum, site sahiplerinin sitenin ana dizinine kimlerin dosya yazabileceği konusunu dikkate almaları gerekiyor.

Sunucu problemleri ve Tedbirsizlik

Geçtiğimiz günlerde sitemin bulunduğu sunucudan kaynaklanan problemlerden ötürü bütün dosyalarım(kod,resim herşey), veritabanı v.s. gibi şeyleri kaybettiğim için ve maalesef bir kenarda backup tutmadığım için bütün yazıları blog’a yeniden kopyala yapıştır yoluyla eklemek zorunda kaldım. Tedbirli olmak, bir cron job (zamanlanmış görev) çalıştırmak yada en azından birkaç haftada bir yedek almak tabi çok iyi olurdu:(. Aylar evvelinden aldığım backup’ın üstüne saatler harcamak zorunda kaldım. Bu yazıyı okuyorsanız ve yedek almanız gereken bir kodunuz-veritabanınız varsa hemen alın, neyin ne zaman olacağı, verilerinizi nasıl kaybedeceğinizi kestirmek inanın imkansız.

Elimde yedeklerin olmamasının yanında, bloga yazdıklarımı kenarda köşede yazılı halde tutmadığım için en son çare olan google’ın cache’ini kullanmak durumunda kaldım. Bazı kişiler sitelerin özerkliğini bozduğunu düşünse de,google cache’i benim gibi backup tutmayanlardan tutun, dizayn değişikliği yapıp bir önceki haliyla karşılaştırmak isteyenlere, sitenizin google tarafından en son ne zaman ziyaret edildiğine v.s. birçok konu için çok faydalı oluyor.

Ajax ile ilgili örnek olarak yazdığım ‘plaka.htm’ örneği google tarafından cache’lenmiş fakat php tarafı elimde olmadığı için onu yayına alamadım. Onun haricinde yazılarla birlikte yayınlanan resimleri de capture etmem gerekiyor, daha yol bitmedi 🙂

Arama Motorları ve Üst Sıralar

Birgün siteniz arama motorları tarafından indekslenmemiş, kendi başınıza sayfadan sayfaya dolaşıp koyduğunuz içeriği okuyorsunuz, diğer gün arama motorları size lütufta bulunmuş ve ilk 10 içinde yer alma şerefini vermiş. Sitenizin istatistikleri bir garipleşiyor, hele güncel konulardan bahsediyorsanız, bir gün içinde arama motorlarından 100 lerce belki 1000 lerce ziyaretçi paslandığına şahit oluyorsunuz.

Bu konudan neden bahsetmek istediğimi açmak istiyorum. Yönetimini yaptığım bir sitenin içeriğini, site yapısını ve neredeyse baştan aşağı tamamını arama motorlarının padişahı olan Google‘ın istediğine göre değiştirdim. Google’ın botlarının bir sonraki ziyaretlerinde içeriği yalayıp yuttuğunu, sitenin birçok yerini indexlediğine şahit oldum. Sitenin günlük ziyaretçisi 200-300 lerde dolaşırken, şu anda günlük bazen 1000 bazen 1200 hit alıyor.

Hele hele sanal dünyadan ticari beklentiniz varsa arama motorları korkulu rüyanız haline geliyor. Sizin sattığınız ürünü arayan birkişinin arama motorunda sizden bir önceki sayfada listelenen siteye girip alışverişi oradan yapması işten değil. Bilgisayar kullanıcılarının %80’ininden fazlasının ilk 10 sonucu seçtiğiyle ilgili araştırma vardı. Bu da arama motorlarının ilk 10 sırası için olan kavgayı alevlendiriyor. Yurtdışında SEO’luk diye bir dal oluşmasına sebep olan bu konu üzerinde Goggle’ın açıklamasına buradan ulaşabilirsiniz. Kısacası SEO’ların palavralarına inanmayın diyor. Hatta kendi sayfalarında bu tür işleri yaptığını söyleri ihbar etmek için hazırladıkları formda bulunuyor.

Ama SEO’ların da başarılı örnekleri var ve ilgilendikleri siteleri üst sıralara taşıdıkları iddiası var. Benim kişisel deneyimimde bu yönde, arama motorları ile ilgili 3 site için uğraştım ve yaklaşık 2-3 ay gibi bir süre içerisinde yeni açılan bir site için top keyword olarak hedef belirlenen terimlerde ya ilk sıra yada 2-3 sırayı yakaladım. Tabi Google devamlı bir hareket halinde, birgün siteniz ilk 10 da iken ikinci gün ikinci 10’a düşebiliyor, Googlebot’ları devamlı güncelleniyor daha akıllı hale getiriliyor. Bu da site yapılarının buna uyma zorunluluğunu, arama motorları tarafından yeni istenen yapılara ayak uydurması zorunluluğunu getiriyor.

robots.txt ve güvenlik

Word Press admin giriş sayfasının gösterimi ile ilgili yazdığım yazı ile ilgili Erçin Eker hocamın yorumunu okuyunca aklıma robots.txt dosyası ile ilgili başka bir konu geldi.

robots.txt dosyalarının çıkış noktası ve kullanımı aslında ihtiyacı karşılar nitelikte fakat akla gelmeyen başka bir konu var. robots.txt dosyaları web sunucusu üzerinde “public read” hakkı ile tutulmak zorunda böylelikle arama motorları bu dosyalara erişip, ilgili dizinlerin site yöneticisi indexletmek istemediğini anlayabiliyor.

Örnek bir robots.txt dosyası
User-agent: *
Disallow: /admin/
Disallow: /management/

şeklinde kayıtlarla sitenin root dizininde bulunuyor.

Güvenlik yönünden sıkıntı ise, bu dosyaya herkesin erişebilir durumda olması. Site ve sunucularımıza yapılan ataklardan dolayı “web hacking” in ne olduğunu ve nelere malolabileceği hakkında herkesin az çok fikri var. Web hacking konusunda en can alıcı nokta, hedef sunucunun hangi dizinlerinde ne gibi hassas uygulamalar çalıştığını tespit etmektir. Bu amaçla son zamanlarda çok moda olan arama motorlarının sağladığı apileri kullanarak, hedef site ile indexteki bilginin kullanılması, onun yetersiz kaldığı durumlarda özel yazılımlarla siteyi taramak, default dizinler duruyor mu, genel olarak kullanılan dizin isimlerini kullanarak o dizinler var mı yok mu şeklinde tarama yapılıyor. Bunların hepsi sunucu üzerinde hangi dizinler varın cevabını bulmak için. “robots.txt” dosyasına gelirsek, site yöneticisi kendi eliyle hangi dizinde hangi uygulamaların olduğunu yazıyor ve bunu herkesce okunabilir şekilde yerleştiriyor.

Hoş bir örnek olabilir diye düşündüğüm mozilla.org’un robots.txt dosyasını kopyalıyorum:
User-agent: *
Disallow: /webtools
Disallow: /webalizer

Burada “webalizer” dizinini arama motorlarından sakladıklarını görüyoruz ama siz browserdan http://www.mozilla.org/webalizer dediğiniz vakit mozilla.org sitesinin günlük istatistiği ne kadarmış görebiliyorsunuz.

robots.txt dosyasın içinde bulunan satırlar sitenize saldırmak isteyenler için güzel bir başlangıç olabilir.

Çözüm olarak robots.txt dosyası kullanmak yerine sitenizin root dizinine “.htaccess” dosyasını yerleştirmek
ve bunun içinde hangi dizinlere erişim verceğinizi belirtip, kalanını tamamen kapatmak daha sağlıklı bir yaklaşım olur.

örnek birkaç robots.txt dosyası:
http://www.microsoft.com/robots.txt
http://www.ibm.com/robots.txt
http://www.apache.org/robots.txt
http://www.redhat.com/robots.txt
http://www.linux.org.tr/robots.txt

Google vs Yahoo – 2.bölüm

Yahoo’nun indexini google’ın 2.5 katına çıkarttığını söylemesi üzerine gerilen ortamda son noktayı google koymuş gözüküyor. Evvelsi gün,google’ın sayfasında dikkat ettiyseniz google logosunun kenarlarında pastalar vardı, google kuruluşunun 7. yılını kutluyordu. O gün google’dan arama motoru indexleri ile ilgili açıklama geldi. “Index olarak ortalıkta adı geçen bütün arama motorlarından tekrarlı olmayan sayfa bazında en az 3 kat daha fazla indexe fazla sahip olduklarını duyurdular.

Bunun ile birlikte market çalışmalarında farklı bir yöne yöneldiklerini de ifade ediyorlar. Yeni yaklaşımlarında artık arama motorlarının ne kadar sayfa indexlediği değil, kullanıcılar arama yaptığı zaman çıkan sonuçların ne kadar tatmin edici olduğunun önemli olduğunu savunuyorlar. Bunun manası ne oluyor? Arama motorlarının aptal birer veritabanı olmayacağını, yapay zekası olan, kullanıcıların istediklerine yakın sonuçlar çıkartmaya çalışan uygulamalar olacağını ifade ediyorlar. Zaten google’ın devamlı “data mining üzerine çalışan akademisyenler alması, bu alanda üniversitelerle ortak çalışması bu konuya daha fazla önem verdiklerinin bir kanıtı.

Bu yaklaşım bana göre de daha doğru. Yahoo’da arama yaptığım zaman sonuçlar google’dan neredeyse 2 kat daha fazla oluyor, peki tatmin edici mi? Hayır! Zaten google’da bu sonuca dayanarak meydan okuyabiliyor. Geçen sefer yahoo, indexini 2.5 katına çıkardığını duyurduğu zaman google tarafından ilk gelen cevap “peki arama sonuçları sizi tatmin ediyor mu? şeklinde olmuştu. Yaptıkları açıklamanın devamında google, yahoo, msn ve ask jeeves ‘i içeren bir deneme yapmışlar. Rastgele belirlenen “Joe Schmoe ve “pickles kelimeleri ile yaptıkları aramada google 451, yahoo 62, msn 60 ve ask jeeves 54 sonuç dönüyor.

Google Kirliliği ve Google Yazılımları

Son zamanlarda birkaç blogta da okuduğum Google’ın webi kirlettiği fikri beni de sarmaya başladı. Artık google’un adsense kampanyasına katılmayan web sayfası neredeyse kalmadı gibi bişey. Hazırladığı içeriği sitesinde yayınlarken, google’un sunmuş olduğu reklam kampanyası ile küçük ölçekli bir gelir elde etmek çok zevkli olsa gerek. Ama benim yaptığım gibi, adsense olsun, adword olsun; google’a para kazandıracak hiçbir linke tıklamayan kişiler için her sayfada google’ın reklamları görmek çekilmez oluyor. Her sayfada “Google’ tarafından eklenmiştir” şeklinde çok biçimsiz, çok sevimsiz reklam parçacıkları… Estetikten çok uzak olmasının yanında, reklamın yayınlandığı site ile yayınlanan reklamların alakasız olması cabası…

Geçtiğimiz haftalarda herkesin bildiği Google, IM yazılımını çıkarttı. Ne keramati varsa ortama bomba gibi düştü, herkeste bir “Ulu google IM çıkartmış,hadi hepimiz onu kullanalım” hali. Bence tam bir dağ fare doğurdu hikayesi. Açıpta kullananlar beklediklerini bulamıyor ama “Ulu google” a kim nasıl kötü bir söz söyleyebilir, hemen “ben google un sadeliğine hastayım abi” moduna geçiyor. Google yaparsa iyi yapar diye birşey kesinlikle olamaz bakınız “Google Desktop”. Ben de aynı havada, “aaa google bir yazılım daha çıkartmış hemen alıp kullanıyım” şeklinde makinama kurdum. Gel gör ki, outlook ve outlook expressteki maillerden, internet explorerdan ıvırdan zıvırdan 1 gb index çıkardı. Bu ne? Index. Harddiskin boyutu zaten 40 gb. 1 gb. indexi ben ne yapıyım diyerek hemen kaldırdım.

Bir diğer örnek “Google earth”. İyidir hoştur dünyayı elimizin altına verir ama her kullanımdan sonra diskte bıraktığı 256 Mb. lık bazı zaman 512 Mb. cache dosyası hangi akla hizmet ediyor? Cache boyutunu değiştirebiliyorsunuz ama bunu kontrol etmeyen (benim gibi diskinde 1 gb. boşu olan yoktur sanırım) kimselerin makinasında gereksiz bir disk kaybı oluşturuyor.

Bunun yanında, google büyümesin sadece arama motoru olarak kalsın dememiz, ABD şartlarında doğru olmayacaktır. ABD’nin “so called” devinimli borsasında yeni birşeyler ortaya koyup halkın sevgisini, saygısını ve ilgisini devam ettirmezseniz bitişin manifestosunu imzalamış olursunuz. Ama ben şahsen google’un arama motoru olarak kalmasından yanayım, her yana elini uzatanların hali pek iyi olmuyor. Bkz. microsoft
Yahoo’nun index olarak Google’dan 2.5 kat daha fazla index yaptığını söylemesi, Microsoft’un MSN ve birçok yazılımı için API yayınlayacağını belirtmesi ortamı biraz kızıştırdı gibi. Yahoo ve Microsoft’un şu anki halini “maymun gözünü açtı” atasözü iyi ifade ediyor. Baktılar google deveyi hamudu ile götürüyor, biz de bu pazardan nasiplenmeliyiz diye çöreklendiler. Google IM çıkarttı derken Yahoo! mevcut IM versiyonuna ses, görüntü ekleyip, mevcut özellikleri güncelleyip yeni versiyon olarak yayınladı. Google’ın işi zor gözüküyor.
Kapanış olarak Google’ı eleştirmekden çok yerden yere vurmayı hedefleyen bu siteye bakmanızı öneririm.

Gmail Filesystem

Google Hackleri ile ilgili yeni çıkan neler var diye bakınırken, Gmail Filesystem diye bir projeye denk geldim. Hem fikir hem de yapılan çalışma çok iyi. Gmail hesabınızı GmailFS ile Linux dosya sistemine mount ediyorsunuz ve Gmail hesabınızı yerel disk gibi kullanabiliyorsunuz.
Bu arayüz sayesinde gmail hesabınızda dosyalarınız üzerinde linuxta dosya işlemleri için kullanılan birçok komut kullanılabilir hale geliyor. Gmail hesaplarını sadece dosya aktarım amacı ile kullananlar için vazgeçilmez bir araç.

GmailFS Phyton kullanılarak yapılmış, phyton için bir google apisi de var. Bu arayüz kullanılarak yazılmış diğer bir araçta GoogleSweep Google’ı kullanarak tarama yapılacak hedef network hakkında IP adreslerini kullaranak fikir edinmeye çalışıyor.

Yet Another Google Bombasi

Son yillarda hackerlar için trend “uygulama katmani”. Internet üzerinde web, ftp, mail servisleri en çok kullanilan servisler oldugu için de en çok nasibi bunlar aldi, almaya da devam ediyor. Tabi bunlardan en gözde olani web uygulamalari. Bunun kisaca nedenlerini siralamak gerekirse:

  • Neredeyse herkesin web sitesi var
  • Web sunucularinda daha sik açik bulunuyor (script kiddielerin hedefi oluyorsunuz)
  • Web sunuculari üzerinde çalisan uygulamalar sayesinde sirketler özel bilgilerini B2B ile paylasiyorlar
  • e-commerce, banka trafigi, para olaylari

Web uygulamalarini hacklemek için webserver’in kendisini hedef almanin yaninda, üstünde çalisan uygulamalarda da çikan açiklar (sql injection, xss vs.) hackerlar ve bilhassa onlarin çaylaklari script kiddieleri için göz bebegi oldu. Web sunucusunun üzerinde çalisan uygulamalardaki eksikleri tespit etmek için arama motorlari kullanilmaya da baslayinca is iyice çorbaya döndü. Bu noktada johnny i hack stuff basligi altinda sitesini açan johnny’nin (sari saçli) sitesi en ugrak yer oldu. Sonradan sonraya burasi artik google üzerinden sitelerde açik bulmayi hedefleyen kisiler için vazgeçilmez kaynak oldu.

Sadede gelmek gerekirse, google’da bu veritabanini kullanarak saldiri yapanlara karsi GHH baslikli “Google Hack” Honeypotu duyurdu. Aslinda ilk sürüm subat tarihli ama biraz daha stabil hali ile yeni sürümü 1 agustosta çikardilar.

Arama motorlarinin dünya savasi ve amazonun a9 u

Google’un arama motoru dünyasina yepyeni bir ürün getirmesi ve diğer firmalarla aralarındaki yarışa yeni bir boyut kazandirmasi, microsoft’un ve yahoo’nun paçalarının tutuşmasına neden oldu. slashdot’taki haberleri okurken bu sayfada microsoftun bu pazartesi duyurduğu yeni ürünün adını bile google’dan çalmakta çekinmediği apaçık ortada. “Virtual Earth
Bu ürününde google’ın “google earth” tarzında uydudan, uçaklardan çekilmiş fotoğraflarla bütün dünyayı ekranınıza seriyor. Google bu ürünü geçen ay duyurdu, microsoft şu anda yarışa 1 ay geç başlamış gözüküyor. Sanırım microsoft bu yarışta daha da geri kalmamak için çok daha fazla düşünmeden bu ürününü duyurdu ve takipçilerine bende varım mesajı verdi zira google haberlerde de yer aldığı gibi, dünyayı bitirdik havasıyla ay ve güneş sistemine uğraşmaya başlamış.
Aslında arama motorlarının bu alana yönelmeleri, artık üç boyutlu arama imkanı vermeleri bence bizler için çok güzel. Bunun için rekabet etmeleri de bence sevindirici. Bu teknolojinin yıllardır askeri alanda kullanıldığı biliniyor ama sivile geçişinin bu kadar ani ve hızlı olması, bu kadar yeni olmasına rağmen çoğu kişi için faydalı olacağı kanısını uyandırdı bende. Ben de meraklılar kervana katıldım ve beyaz sarayından, rusyadaki kızıl elmaya,paristeki eyfel kulesinden, çin seddine kadar ilginç bir seriye göz atma imkanı buldum.
Google ve microsoftun yanında o makalede okuduğum ve ilk defa gördüğüm amazon’un arama motorunu görmüş oldum. a9.com üzerinden de yerel aramalar ve google’ınkine benzer gerçek görüntülere ulaşma imkanı sağlanıyor.

css.php