Merhaba,
Drupal ile hazırladığım site hemen hemen her şekilde sorunsuz gitmesine rağmen, Google'da dizinlenme konusunda sorun yaşıyorum.
Robot.txt şu anki haliyle orjinal ancak Google'da bir sayfam dizinlenmiş. [bknz.] Robot.txt'ten neyi kaldırıp kaldırmayacağımı bilmediğim gibi, çift sayfa şekilde dizinlenmek ve başka bir sorun yaşamamak için dokunamıyorum. (Sayfalara URL Alias ile yeniden URL atıyorum.)
Diğer bir konu da arama motoru botlarının onları aktif etmemden sonra siteyi ne kadar zorlayıp zorlamayacağı. Bu site okul tarafından sağlanıyor ve sanırım -bandwidth mi denir?- yeterli olmayabilir. Bu yüzden, öğrendiğim kadarıyla, botların siteye giriş çıkış sürelerinini de nasıl ayarlayabileceğim konusunda yardım istiyorum.
Şimdiden teşekkürler, herkese iyi çalışmalar.
Comments
İlginç
ODTÜ sunucuları güçlüdür ve bandwidth sorunu olacağını sanmıyorum. robots.txt dosyasının başındaki 'Crawl-delay : ... ' satırı robotlara sayfa indekslemeleri arasında kaç saniye beklemeleri gerektiğini söyler. Bunu kaldırabilir veya şu andaki 10 değerini 1'e düşürebilirsin. ODTÜ ana sitesinin robots.txt dosyasında bile böyle bir sınırlama yokken seninki gibi düşük trafik bir sitede gerek yok bence (kraldan çok kralcı olmak gibi oluyor), kaldır gitsin bu satırı. Bu indeksleme arası bekleme her saniye yüksek trafik alan ve indekslenecek sayfaları her gün yenilenen, artan eksisozluk tipi sitelerde faydalı olacak birşey daha çok. Bunun dışında robots.txt dosyan temiz gözüküyor, hiç elleme.
Aşağıdaki satırı sen mi ekledin theme dosyana bu arada:
<meta name="google-site-verification" content="YFuP...." />Sen eklemediysen veya bu verification id'sini doğru aldığına emin değilsen kaldırmalısın bu satırı. Tek bir sayfanın indekslenip de diğerlerinin indekslenmemesi hakkaten ilginç. Problem google'a da özel değil sanki. Yahoo mesela siteye bağlantıları başka sayfalarda bulmuş olmasına rağmen siteyi indekslememiş gözüküyor.
Dışarıdan bir sorun gözükmüyor sitende özetle. "Crawl-delay:10" satırının da normalde sorun yaratmaması lazım ama odtü sunucularının, router'larının kimi ayarlarıyla birleşince bu sonucu doğuruyor olabilir. Bunu kaldırıp bir süre dene bakalım (kaldırdıktan sonra sayfana basit bir ekleme veya bir yazıda değişiklik yapmak iyi olabilir). Kaldırmak işe yaramazsa ben yerinde olsam bilgiişleme veyahut alt alan adını sana kim verdiyse oraya gidip onlara sorardım bu problemi. Loglara bakıp (msl botlar sitenden istekte bulunuyorlar mı), kendi filtreleme kurallarına bakıp (sitene gelen bot taleplerini sitene yönlendirmiyor olabilirler bir sebepten) sana daha net bilgi verebilirler. Sorun senin sitenden değil de ODTÜ'nün iç trafik yönlendirmesinden kaynaklanıyorsa şaşırmam.
Site istatistik takibi
Sorunu anlamak için bir başka yol da statcounter.com gibi bir yerden geçici bir site takip kodu alıp, sitene ekleyip, kim geliyor gidiyor bir süre takip etmek olabilir. Üşenmezsen ben henüz kullanamadım ama Piwik'in Drupal entegrasyon eklentisi çıkmış, onu kurup bu tip bilgileri statcounter gibi sitelerin sınırlamaları olmadan da takip edebilirsin .
Teşekkürler
Haklısın, Bilgi İşlem'e sormak gerekiyor bu tuhaf durumu. Verdiğin meta etiketini ise carpuntoken'in de bahsettiği Google Web Araçları'nda siteyi doğrulatmak için ekledim. Hatta Google Analytics de kullanıyorum ancak o gövdede. Analytics ile kim, nerden, nasıl giriyor gibi soruların cevabını alıyorum, eğer statcounter da bunu sağlıyorsa bahsedebilirim: Google üzerinden sadece bahsettiğim sayfa üzerinden ziyaretçi geliyor, bunun yanında Yahoo mail grubumuz ve Facebook grubumuzdan gelenler var; bir de doğrudan girişler tabii ki.
Aslında ben öğrenmek istediğim bir şey de robot.txt dosyasını kullanmak. Örneğin bende başlığı bağlantısı şeklinde olan sayfalar var (http://biyogen.metu.edu.tr/etkinlik/darwins-gift-to-science-and-religion...). Robot.txt'de ise sadece "node"u "agree" edebiliyorum. (Diğerleri zaten gerekmiyor -sanırım?-) Ancak bildiğin gibi "node/" şeklinde de bu sayfalara girilebildiğinden, sayfalar "node/" şeklinde dizinlenecek ve Drupal'ı en cazip kılan özelliklerinden biri URL değişimi işe yaramamış olacak. Değiştirilmiş bağlantılar ise nasıl robot.txt'e eklenecek ve bu sayede Google sadece onları görecek konusunu da bilmediğimi söylemeliyim. Bu yüzden sorun ne ODTÜ ne de Google kaynaklı olabilir, sorun bende olabilir.
Robot.txt hakkında yazılar okudum ama hiçbirinden istediğim şeyi öğrenemedim. Aslında daha çok bu konuda yardım istiyorum.
merhaba robots.txt de agree
merhaba
robots.txt de agree gibi bir işlem yok. Google botu siteyi takip ederken, robots.txt de "disallow" yazılmayan, ve "rel=nofollow" olmayan bütün bağlantıları takip eder. Buna göre örnekte verdiğin sayfaya ulaşılan bağlantı neyse google onu bilir.
Eğer bağlantılarını "node/4" gibi veriyorsan global redirect eklentisini kullanmanı tavsiye ederim. Bu eklenti sayesinde sistem, google ı senin verdiğin isme yönlendirir. Böylece o sayfanın url si senin verdiğinmiş gibi indexlenir.
Örnek:
Eğer sayfayı açmak için kullanılan bağlantı node/4 olsaydı (ki sende böyle bir durum da yok) global redirect eklentisi 301 (kalıcı olarak taşındı) http koduyla "/etkinlik/darwins-gift-to-science-and-religion-konferansi" adresine yönlendirecekti.
Ayrıca info:biyogen.metu.edu.tr aramasıyla siten görünmüyorsa (senin görünmüyor) google yi kızdıracak bişiler yapmışsın ya da google seni yanlış anlamış. Bu da yaklaşık 1-2 ayda kendiliğinden düzelir.
Teşekkürler
Affedersin, allow yazmak istemiştim, aklımdaki Türkçe karşılığına İngilizce bir kelime bulup saçmalamışım.
Anladığım kadarıyla Google'ın sayfaları dizinlemesi için sadece node ile ilgili kısmı sileceğim (disallow'u allow yapmak yok). Sonra, node/4 şeklinde görünmekten kurtulmak için de global redirect eklentisini kullanacağım. Ancak, ben bu işlemi Drupal ile hazır gelen Path eklentisi ile yaptım. Diğer eklentiyi kullandığımda direkt bunun yerine geçecek, bu yüzden bir sorun yaşar mıyım?
Aslında bu adresin geçmişi hakkında pek bilgi sahibi değilim. Benden önceki arkadaşlar talepte bulunmuşlar, almışlar ancak bir şeyler yapmışlar mı bilmiyorum. Bu yüzden bahsettiğin şekilde bir problem yaşıyor olabilirim. Gerçi siteyi aldığımda direkt olarak Drupal kurdum. Umarım söylediğin gibi kısa zamanda geçer.
Diğer arama motorları ne kadar kullanılıyor bilmiyorum ama Google'a biyogen yazıp bizi arayan insanları birtanecik(!) sayfamızdan anlayabiliyorum. Bu çok önemli bir nokta topluluğa ulaşım açısından. Sana da diğer arkadaşlarıma da destekleriniz için teşekkür ederim. Kolay gelsin.
o eklentiler aynı işi
o eklentiler aynı işi yapmıyor. Senin kullandığın ile "path" oluşturuyorsun. Global redirect ile oluşturduğun "path" i o sayfanın tek url si haline getiriyorsun. O sayfaya giden bütün linkler oluşturduğun "path" e yönleniyor.
yani
şu aşamada "global redirect" eklentisini kurmana gerek yok. google zaten bağlantı url'lerini node/4 şeklinde değil senin benim gördüğüm gibi görüyor. aynı sayfaya şu anda hem node/4 diye hem de .../etkinlik/darwin... şeklinde ulaşılabiliyor. global redirect'in yaptığı node/4 yazıldığında da adres satırında 2. url'yi göstermek sadece.
Robot.txt ile de çözülür mü?
Açıkçası ekstra bir eklenti yerine, path ve robot.txt dosyasını kullanarak ayne sonuç alınabilir. Şu an olduğu gibi hiçbir arama motoru "node/*" gibi herhangi bir bağlantıyı göstermeyecek. Ancak isimlendirdiklerimi ise herhangi bir engelleme olmadığı için dizinleyebilecek. Aslında böyle midir? Eğer böyleyse Google'ın dizinlememesi tamamiyle ODTÜ taraflı bir problem olduğunu gösterir.
Yararlı görünüyor
Eklentinin bu işlevi sayesinde arama motorları tarafından aynı sayfanın iki kere dizinlenmesini engellenecek. Açıkçası bu da istenen bir şey. ODTÜ'den geri bildirim aldığımda, çözüm olarak kullanabilirim.
Sadece google değil sorun
bilvanisli'nin dediği gibi robots.txt'de agree demene gerek yok. HTML sayfası başında (head etiketi içinde) özel bir meta robots etiketi yoksa (ki sende yok) zaten tüm sayfalar robotlara açık varsayılır (kötü huylu robotlar bunu bile kaale almazlar). İyi huylu robotlar ekstradan bu robots.txt dosyasına bakarak "bu sitede bu tip url'leri indekslememize izin yokmuş, gerek yokmuş" derler. Özetle robots.txt dosyasına çok kafayı takma. Crawl delay'i kaldır veya 1'e düşür sadece.
Google Analytics kullanmadım, bilmiyorum ama siteye gelen bot, crawler taleplerini gösterdiğini sanmıyorum. Statcounter'da vardı diye aklımda kalmış.
Siteni yahoo ve bing de indekslememiş. O yüzden Bilgi İşlem'e gidip sormak iyi olabilir gibime geliyor. Önce bu taleplerin sitene geldiğine, ODTÜ'nün bunların engellemediğine emin ol. Şayet burada sorun yoksa diğer varsayımlarla uğraşmaya başla.
ODTÜ mü engel
Sayende oldukça önemli bir şeye uyandım. :) Eğer ODTÜ bir engelleme yapmışsa, robot.txt, drupal veya google bu konuda hiçbir görev alamaz. Ancak, bir yandan ODTÜ'nün böyle bir engelleme yapmaması gerekiyor; bir yandan da bu adresin geçmişi ile ilgili olaylar nedeniyle bir şey yapılmış olabilir. Bunu kesinlikle konuşmalıyım.
Robot.txt'in anladığım mantığına göre bot her türlü siteye girer, ancak eğer ben şuraya girme dediysem o oraya bakmaz. Bu durumda, işin yönü yine ODTÜ'ye dönüyor.
Bilgi İşlem'e uğrayıp bu olayı aydınlığa kavuşturacağım. Teşekkürler.
aynen öyle
Güzel özetlemişsin demeye çalıştığımı. ODTÜ şayet bir engelleme yapıyorsa senin siteni hedef almış olması da gerekmiyor. Birşeyleri engellemek için bir kural eklemişlerdir kurunun yanında yaş da yanmış ve senin siten de etkilenmiştir. Veya otomatik bir kurallar koymuşlardır. Bir ara senin siten de bu kurallara uyar hale gelmiştir.
Sen drupal'e ne zaman geçirmiştin siteyi? Belki de bilvanisli'nin dediği gibi eski sitede indekslemeyi engelleyen birşeyler vardı ve robotlar yeni haline henüz uyanmamış olabilirler şayet drupal'li siten henüz tazeyse. Bu durumda zaten bir süre sonra senin birşey yapmana gerek kalmadan indeksleme başlayabilir veyahut sitenden arama motorlarını haberdar edip hemen başlamalarını sağlayabilirsin. Eski sitenin kodları duruyorsa onları bir alt klasöre atıp buraya gönder istersen url'yi. Bakalım öyle bir durum var mıymış.
Site çok yeni
Aslında önceden topluluktan birkaç arkadaş site konusunda girişimlerde bulunmuşlar; ancak tam anlamıyla bir sistem geliştiremedikleri için devam ettirememişler. Daha doğrusu, hadi başlayalım deyip, bir türlü devam ettirememişler. Tam olarak birşeyler denediler mi bilmiyorum, belki de hiç dokunmadılar. Ben aldığımda herhangi bir şey kurulu değildi. Hemen Drupal kurdum. Tarihi ise Nisan 2010, ayın 9 için FileZilla'da hiç dokunmadığım dosyalar tarih olarak belirtiliyor.
Bu arada bir mail attım. Umarım çözerler.
Ek olarak bir gmail hesabı
Ek olarak bir gmail hesabı ile google web master tools servisine siteni kayıt et ve siten ile ilgili sonuçları izle. Eğer google sitende bir sorun görürse sana bildiri şeklinde uyarı verecektir.
Sitene www li veya www siz erişimi htaccess dosyasından ayarlaman faydalı olabilir. htaccess dosyasında ilgili bölüm mevcut sadece kendi sitene göre ayarla ve başlarındaki # işaretlerini kaldır.
www.aratmedya.com
Teşekkürler
Google Web Araçları'nı kullanıyorum, ancak pek yardım alamıyorum. Ona site haritası gönderdiğim ve sadece bahsettiğim tek sayfayı dizine ekledi, diğerleri yok. Google Bot gibi tarat diye bir aracı var, örneğin, o da işe yaramıyor.
Htaccess dosyası da aslında çözümün bir parçası olabilir. Robot.txt dosyasına ne kadar uzaksam ona da öyle. Htaccess'le ilgili yazılar araştıracağım.
htaccess
Sitene şu anda (www var ve yok) iki durumda da ulaşılıyor. htaccess'e dokunma yani bence. Hem gerek yok şu aşamada, hem de asıl problemi bulmayı zorlaştıracak yeni problemler yaratabilir yapmaya çalışacağın değişiklikler.
Çift index almamak için www
Çift index almamak için www li veya www siz olarak ayarlaman google da sitenin tekbir biçimde index alması için yararlıdır. hem www li hem www siz ulaşıma açık olduğunda google bu isimleri iki ayrı site gibi düşünür ve uzun vadede siteleri spam yapıyor gibi algılayabilir. Bir nevi kopya içerik barındıran siteler gibi. Daha sonradan her sayfanın rasgele index almasını engellemek zorlaşıyor. Bu işlemi yapmak için http://www.aratmedya.com/webtasarim/drupal-htaccess-dosyasini-duzenleme.... yazıma bakabilirsin. Sitene yeni yazı eklendiğinde arama motorlarına ping gönderiyor musun? Sitemap eklemek tek başına yeterli değildir. Google webmaster araçları uyarı veriyor mu die bakmak yeterli ayrıntısına gerek yok zaten.
Nodewords eklentisinde içerik eklendiğinde pinglemek için bir seçenek var onları seçmelisin. Arama motorlarına ping atmazsan şansa indexlenir sitendekiler, bir diğer yolda feedburnera views ile oluşturduğun tüm içerikleri kapsayan bir feed kaydet. Oda google servisi olduğundan index işlemini hızlandırmada birazcık faydası oluyor.
Ping işlemi en önemli olan. Ping konusunda servis sağlayıcınında önemi söz konusu Türkiyeyi içeren ve google Türkiye sayfalarında gözükmesini istediğin bir siteyi Türk sunucularında barındırırsan index alma süresi kısalır. Ping süreleri Türk sunucularında 10 ile 40 arasında değişirken yurt dışı sunucularında 120 ile 250 arasında değişebilmektedir. Senin sitene ping attım ama süreleri elime gelemedi, cevap vermediğinden göremedim.
www.aratmedya.com
teşekkürler
@cihanA teşekkürler çok faydalı yazı olmuş.
www.madenerji.com.tr