Social

Monday, June 13, 2011

Duplikasi Konten: Penyebab dan Solusinya


Duplikasi konten merupakan masalah terbesar yang paling serius dalam perSEOan. Search engine seperti google mempunyai permasalahan yang mereka sebut "duplicate content": konten Anda ditampilkan pada beberapa halaman di situs Anda dan di situs lainnya, dan google nggak tau situs mana yang akan ditampilkan sebagai hasil pencarian. Lebih-lebih saat orang-orang mulai membuat link ke masing-masing versi yang berbeda pada konten milik Anda, permasalahaannya menjadi semakin genting. Artikel ini akan menunjukkan kepada Anda untuk memahami berbagai penyebab dari duplikasi konten dan mencari solusi dari masing-masing penyebab tersebut.

  1. Penyebab Duplikasi Konten
    1. Kesalahpahaman konsep tentang URL
    2. Session ID
    3. Parameter URL yang digunakan untuk pelacakan dan pengurutan
    4. Scraper dan sindikasi konten
    5. Urutan parameter
    6. Halaman komentar
    7. Halaman printer-friendly
    8. WWW vs non-WWW
  2. Konsep Solusi: URL Canonical
  3. Identifikasi Isu Duplikasi Konten
    1. Google Webmaster Tools
    2. Pencarian judul atau cuplikan
  4. Solusi Praktis dari Duplikasi Konten
    1. Menghindari duplikasi konten
    2. Mengarahkan 301
    3. Menggunakan tautan rel="canonical"
    4. Menampilkan tautan ke sumber aslinya
  5. Kesimpulan: Duplikasi Konten Dapat Diperbaiki dan Harus Diperbaiki
Coba Anda bayangkan sedang berada pada sebuah persimpangan yang mempunyai rambu-rambu yang menunjukkan arah yang berbeda untuk tujuan yang sama. Jalan mana yang akan Anda ambil? Atau yang lebih buruk lagi menuju tempat yang tidak sama tetapi mirip. Sebagai pembaca, Anda mungkin tidak terlalu pusing karena yang penting adalah Anda mendapatkan konten yang Anda inginkan. Tetapi search engine tidak demikian, mereka hanya akan menampilkan salah satunya karena tidak mau menampilkan konten yang sama dua kali.
Katakanlah ada artikel Anda membahas kata kunci x dengan url http://www.misalnya.com/kata-kunci-x dan konten yang sama berada pada http://www.misalnya.com/article-category/kata-kunci-x, ini adalah situasi yang umum terjadi pada sebuah CMS modern. Kemudian artikel Anda diambil oleh beberapa bloger yang menampilkan link ke situs Anda (level 1), kemudian ada bloger lain (level 2) yang mengambil dari situs level 1 dan menampilkan link ke situs level 1. Inilah masalah yang dihadapi search engine, dan ini adalah masalah Anda. Menjadi masalah Anda karena situs-situs tersebut menampilkan link yang berbeda sebagai acuan. Lain halnya jika hanya mengacu pada situs Anda, maka hal tersebut akan meningkatkan rangking situs Anda untuk kata kunci x.

Penyebab Duplikasi Konten

Ada berlusin-lusin penyebab yang dapat mengakibatkan duplikasi konten. Kebanyakan adalah masalah teknis, bahwa jarang sekali ada orang yang menempatkan konten yang sama pada dua tempat yang berbeda tampa membedakan sumber aslinya, rasanya ngga banget. Alasan teknis memang cukup banyak, kebanyakan karena para developer tidak berfikir seperti web browser, tidak berfikir sebagai user, tidak berfikir seperti robot search engine, mereka berfikir sebagai pengembang halaman web. Sehingga bagi developer, konten pada http://www.misalnya.com/kata-kunci-x dan konten yang berada pada http://www.misalnya.com/article-category/kata-kunci-x, hanya muncul sekali.

Kesalahpahaman konsep tentang URL

Apakah para developer sudah pada gila? Tidak, mereka hanya berbicara dengan bahasa yang berbeda. Anda melihat pada sebuah situs mungkin hanya tampilan dari sebuah database. Pada database tersebut, hanya terdapat sebuah artikel, dan software website memungkinkan untuk menampilkan sebuah artikel tunggal untuk ditampilkan pada beberapa url. Itu karena bagi developer, pengenalan unik dari sebuah artikel berada pada database, bukan pada url. Sedangkan bagi search engine, pengenalan unik dari sebuah artikel adalah url dari sepotong konten. Jika Anda menjelaskan hal tersebut pada seorang developer halaman web, maka dia akan mendapatkan sebuah masalah, dan kemudian, dia akan menyebutkan kelemahan-kelemahan dari sebuah search engine karena dia dapat melakukan hal demikian sedangkan search engine tidak bisa. Dia salah.

Session ID

Anda selalu ingin melacak pengunjung situs Anda guna, misalnya, menyimpan barang yang ingin mereka beli ke dalam kerangjang belanja. Untuk melakukan itu, Anda perlu menandai mereka dengan "sesi". Sesi pada dasarnya merupakan sejarah singkat dari apa yang pengunjung Anda lakukan pada situs Anda yang dapat berisi berbagai hal seperti item dalam keranjang belanja. Untuk mempertahankan bahwa sesi pengunjung mengklik dari satu halaman ke halaman lainnya pengenal unik tersebut (yang disebut session ID) harus disimpan pada suatu tempat. Solusi paling umum adalah dengan menggunakan cookie, karena bagaimanapun search engine biasanya tidak menyimpan cookie.
Kejadian serupa di atas pada beberapa sistem menggunakan session ID pada URL, sehingga setiap link internal akan mendapatkan tambahan session ID pada URLnya. Dan karena tiap session ID menciptakan URL baru (padahal kontennya sama) maka terjadilan duplikat konten.

Parameter URL yang digunakan untuk pelacakan dan pengurutan

Penyebab lain dari duplikat konten adalah penggunaan parameter URL yang tidak mengubah isi halaman, misalnya pelacakan link. Anda lihat, http://www.misalnya.com/keyword-x dan http://www.misalnya.com/keyword-x?source=rss benar-benar dua URL yang berbeda. Karena ada dua URL yang berbeda tetapi memiliki konten yang sama (dalam hal ini dideteksi duplikasi konten oleh search engine) maka menyulitkan Anda untuk meningkatkan peringkat, sebuah efek samping yang buruk.
Hal ini bukan hanya berlaku untuk parameter pelacakan, tentu saja, tetapi pada semua parameter yang tidak merubah konten utama seperti pengurutan tabel, perubahan sidebar dan semuanya menyebabkan duplikasi konten.

Scraper dan sindikasi konten

Sementara sebagian besar kesalahan yang mengakibatkan duplikasi konten adalah dari Anda, atau setidaknya "kesalahan" website Anda, kadang-kadang ada situs lain yang memasang konten yang sama dari situs Anda, dengan atau tanpa persetujuan Anda (scraper). Mereka tidak selalu mencantumkan link ke konten asli Anda, sehingga search engine kembali menemukan duplikasi konten.
Semakin populer situs Anda, maka semakin banyak scraper, dan menjadi semakin besar permasalahan.

Urutan parameter

Penyebab umum yang lainnya adalah CMS tidak menggunakan URL yang bersih dan bagus, tetapi lebih menggunakan URL seperti ?id=1&cat=2, dimana id mengacu pada identitas dan cat mengacu pada kategori. URL ?cat=2&id=1 akan menampilkan konten yang sama persis namun bagi search engine sama sekali berbeda

Halaman komentar

Pada kebanyakan situs-situs wordpress (atau lainnya) ada opsi untuk mengkelompokkan menampilkan berapa maksimal komentar yang ditampilkan dalam sebuah halaman. Sehingga untuk konten utama yang sama dapat memiliki beberapa URL yaitu URL + /komentar-1, URL + /komentar-2 dan sebagainya.

Halaman versi cetak (printer-friendly)

Jika CMS Anda menciptakan halaman printer-friendly yang dilink dengan artikel utama, maka pada kebanyakan kasus google akan menemukan kedua halaman tersebut jika Anda tidak memblokirnya. Sekarang, versi yang mana yang akan ditampilkan google sebagai hasil pencarian?

WWW vs non-WWW

Salah satu masalah tertua dalam hal ini, tetapi search engine masih melakukan kesalahan adalah ketika sebuah situs dengan URL www dan tanpa www dapat diakses keduanya. Juga terjadi antara http:// dengan https://

Konsep Solusi: URL Canonical

Sebagaimana telah disebutkan di atas, fakta mengenai berbagai macam URL yang mengarah pada konten yang sama adalah sebuah masalah yang serius, tetapi dapat diatasi. Seseorang yang bekerja di bidang publikasi biasanya akan memberitahu Anda dengan mudah bagaimana seharusnya URL yang "benar". Karena lucu juga ketika Anda meminta pendapat dari 3 orang yang berbeda dalam sebuah perusahaan, mereka masing-masing akan memberikan jawaban sendiri-sendiri yang berbeda untuk arti yang sama.
Masalah itulah yang memerlukan pemecahan, karena pada akhirnya hanya ada satu URL. URL yang "benar" tersebut oleh search engine dijuluki URL Canonical.
Hal yang menjadi sebuah ironi adalah: kanonik merupakan sebuah istilah yang berasal dari tradisi Katolik Roma, dimana daftar kitab suci yang ditulis dan diterima sebagai asli dijuluki sebagai Injil Kanonik Perjanjian Baru. Ironisnya adalah: diperlukan 300 tahun dengan berbagai pertempuran bagi gereja Katolik Roma untuk mengumpulkan daftar kanonik tersebut, dan akhirnya mereka memilih 4 versi dari cerita yang sama...

Identifikasi Isu Duplikasi Konten

Anda mungkin tidak tahu apakah Anda memiliki masalah duplikasi konten di dalam situs Anda atau dengan situs lain. Masi kita kupas beberapa metode yang dapat dilakukan.

Google Webmaster Tools

Google Webmaster Tools merupakan alat yang fantastis untuk mengidentifikasi duplikasi konten. Saat Anda menuju Google Webmaster Tools untuk situs Anda, check pada Diagnostics -> HTML Suggestions, dan Anda akan melihat ini:
Saat sebuah halaman mempunyai judul maupun deskripsi, maka itu akan menjadi sesuatu yang nggak baik. Klik pada duplikasi yang diidentifikasi oleh Google Webmaster Tools untuk memudahkan Anda mengatasi duplikasi konten. Permasalahannya adalah saat Anda memiliki artikel dengan kata kunci x yang muncul dalam dua kategori dan judul yang mungkin berbeda, google tidak mengidentifikasi sebagai duplikasi judul, sehingga Anda harus mencarinya dengan cara manual.

Pencarian judul atau cuplikan

Ada beberapa operator pencarian yang sangat membantu mengatasi masalah ini. Saat Anda ingin mencari seluruh URL pada situs Anda yang menggunakan kata kunci x, Anda dapat menuliskan di google seperti ini:
site:misalnya.com intitle:"kata kunci x"
Google akan menampilkan seluruh halaman pada misalnya.com yang memiliki kata kunci tersebut. Semakin spesifik kata kunci yang Anda berikan, semakin mudah Anda menelusuri adanya duplikasi konten. Anda juga dapat melakukan hal ini untuk mencari duplikasi konten terhadap situs lainnya. Katakanlah judul yang ingin anda cari adalah "Menghindari Duplikasi Konten", maka Anda dapat menuliskan di google seperti ini:
intitle:"Menghindari Duplikasi Konten"

Google akan menampilkan semua situs yang memiliki halaman dengan judul tersebut. Kadangkala cara ini berguna dengan mencari salah satu kalimat utuh dari artikel Anda, karena beberapa scraper mungkin akan mengganti judul artikel Anda. Dalam beberapa kasus google akan menampilkan pemberitahuan di akhir halaman seperti di bawah ini:
Ini tandanya google sudah memperbaiki "kebodohannya". Dan masih bukan berita baik, sehingga Anda mungkin mengklik link yang diberikan untuk memperbaiki permasalahannya.

Solusi Praktis dari Duplikasi Konten

Sekali Anda memutuskan sebuah URL kanonik dari konten Anda, maka Anda dapat memulai proses kanonikalisasi (yeah, saya tau, cobalah mengucapkan dengan keras tiga kali :D). Pada dasarnya, kita memberitahu search engine untuk mencatat URL kanonik kita sesegera mungkin. Pada dasarnya ada 4 metode:
  1. Menghindari duplikasi konten
  2. Mengarahkan 301
  3. Menggunakan tautan rel="canonical"
  4. Menampilkan tautan ke sumber aslinya

Menghindari duplikasi konten

Beberapa penyebab yang telah disebutkan di atas dapat dengan mudah diperbaiki:
  • Session ID pada URL Anda?
    Biasanya ini dapat dinonaktifkan pada setting sistem Anda.
  • Halaman versi cetak?
    Hal ini sama sekali tidak perlu, silahkan menggunakan print style sheet.
  • Pembagian halaman komentar di WordPress?
    Fitur ini dapat dinonaktifkan (pada setting -> discussion) pada 99% situs.
  • Perbedaan urutan parameter?
    Beritahu programer Anda untuk membuat skrip yang selalu menggunakan parameter distandarisasi urutannya (sering disebut sebagai URL pabrikan).
  • Isu pelacakan link?
    Pada kebanyakan kasus, Anda dapat menggunakan hash tag based campaign tracking selain menggunakan parameter based campaign tracking.
  • Isu WWW vs non-WWW?
    Pilih salah satu dan gunakan redirecting ke lainnya. Anda dapat pula mengeset preferensi pada Google Webmaster Tools, tetapi Anda harus mengklaim kedua domain tersebut.
Jika menurut Anda hal ini sulit dilakukan, namun lebih baik tetap Anda lakukan guna menghindari kemungkinan munculnya duplikasi konten. Menghindari permasalahan adalah solusi yang terbaik.

    Mengarahkan 301

    Pada kasus tertentu tidak mungkin untuk mencegah sistem secara menyeluruh dari pembuatah URL yang keliru, tetapi biasanya dapat diatasi dengan redirecting. Meskipun ini tidak logis bagi Anda (saya dapat memahaminya), tetap pertimbangkan untuk menyampaikan hal ini kepada developer Anda. Dan jika Anda menginginkan untuk menyingkirkan semua duplikasi konten pada situs Anda, pastikan untuk seluruh URL duplikat untuk redirect ke URL kanonik yang tepat.

    Menggunakan tautan rel="canonical"

    Kadangkala Anda tidak dapat atau tidak ingin menghilangkan duplikasi tersebut, tetapi Anda tahu bahwa URL tersebut bukan URL yang asli. Maka Anda dapat melakukan penyisipan elemen kanonik untuk diperkenalkan pada search engine yang ditempatkan pada <head> seperti berikut:
    <link rel="canonical" href="http://misalnya.com/kata-kunci-x/"/>
    Pada seksi href link kanonik Anda dapat menyisipkan link yang asli dari artikel Anda. Sehingga google (dan beberapa search engine lainnya) menemukan element ini sehingga secara automatis melakukan redirect ke link url yang benar, seperti melakukan 301.
    Cara ini lebih lambat daripada menggunakan 301, sehingga sangat disarankan untuk melakukan 301 seperti disarankan oleh Google John Muller.

    Menampilkan tautan ke sumber aslinya

    Jika Anda tidak mampu untuk melakukan hal-hal yang disebutkan di atas, seperti Anda tidak dapat mengontrol <head>, maka menambahkan link referensi ke sumber aslinya dapat menjadi solusi lainnya. Lakukan hal ini pada RSS Feed Anda, karena beberapa scraper yang tidak bertanggung jawab akan menyaring link dari luar. Jika google menemukan beberapa link yang menuju pada artikel Anda, maka google akan mengetahui bahwa artikel Anda adalah versi kanonik.

    Kesimpulan: Duplikasi Konten Dapat Diperbaiki dan Harus Diperbaiki

    Duplikasi konten terjadi di mana-mana. Yoast belum pernah menemukan sebuah situs yang memiliki lebih dari 1000 halaman yang tidak memiliki duplikasi konten. Ini adalah sesuatu yang memerlukan pengawasan sepanjang waktu. Duplikasi konten dapat diperbaiki dan hasilnya akan menjadi memuaskan. Kualitas konten Anda mungkin akan meningkat dengan drastis. Dan jika Anda memerlukan seseorang yang dapat mengidentifikasi hal-hal seperti ini, atau membantu developer Anda untuk memecahkan permasalahan seperti ini, Anda selalu dapat mempekerjakan orang yang tepat.

    Diterjemahkan dan disadur ulang dari: http://yoast.com/articles/duplicate-content/

    No comments:

    Facebook Blogger Plugin: Bloggerized by AllBlogTools.com Enhanced by MyBloggerTricks.com

    Post a Comment