Selasa, 29 Maret 2011

Bagaimana Google Bekerja

Lightbulb Bagaimana Google Bekerja

Jika anda tidak tertarik untuk belajar bagaimana Google membuat indeks dan database dokumen yang mengakses saat memproses query, abaikan deskripsi ini. Google berjalan pada jaringan terdistribusi ribuan komputer murah sehingga dapat melaksanakan pemrosesan paralel dengan cepat. Pengolahan paralel adalah metode perhitungan di mana banyak perhitungan dapat dilakukan secara simultan, secara signifikan mempercepat pengolahan data. Google memiliki tiga bagian yang berbeda:
  1. Googlebot, web crawler yang menemukan dan mengambil halaman web.
  2. Pengindeks bahwa macam setiap kata pada setiap halaman dan menyimpan indeks yang dihasilkan kata dalam database yang besar.
  3. Prosesor query, yang membandingkan permintaan pencarian Anda ke indeks dan merekomendasikan dokumen-dokumen yang dianggap paling relevan.
    Mari kita melihat lebih dekat pada setiap bagian.
  1. Googlebot, Web Crawler Google
    Googlebot adalah robot web Google perayapan, yang menemukan dan mengambil halaman di web dan memindahkannya ke pengindeks Google. Sangat mudah untuk membayangkan Googlebot sebagai laba-laba kecil yang berlarian di untai dunia maya, namun pada kenyataannya Googlebot tidak melintasi web sama sekali. Ini mirip seperti fungsi browser web Anda, dengan mengirimkan permintaan kepada web server untuk suatu halaman web, men-download seluruh halaman, kemudian menyerahkannya ke pengindeks Google.

    Googlebot terdiri dari banyak komputer meminta dan mengambil halaman jauh lebih cepat dari yang Anda biasa lakukan dengan browser web Anda. Bahkan, Googlebot dapat meminta ribuan halaman yang berbeda secara bersamaan. Untuk menghindari web server yang luar biasa, atau permintaan crowding out dari pengguna manusia, Googlebot sengaja membuat permintaan dari masing-masing individu web server lebih lambat dari pada yang mampu dilakukannya.

    Googlebot menemukan halaman dalam dua cara: melalui add URL form, http://www.google.com/addurl.html, dan melalui menemukan link dengan perayapan web.



    Sayangnya, spammer menemukan cara untuk membuat bot otomatis yang membombardir dan tambahkan bentuk URL dengan jutaan URL yang menunjuk ke propaganda komersial. Google menolak semua URL yang dikirimkan melalui form Add URL bahwa itu tersangka sedang berusaha untuk menipu pengguna dengan menggunakan taktik seperti termasuk teks tersembunyi atau link pada halaman, isian halaman dengan kata-kata tidak relevan, cloaking (alias umpan dan switch), menggunakan pengalihan licik , menciptakan pintu, domain, atau sub-domain dengan isi yang serupa secara substansial, mengirimkan query otomatis ke Google, dan menghubungkannya dengan website yang tidak relevan. Jadi sekarang bentuk URL Tambahkan juga memiliki tes: itu menampilkan beberapa berlekuk-lekuk huruf dirancang untuk menipu otomatis "surat-guessers", melainkan meminta Anda untuk memasukkan huruf yang Anda lihat untuk menghentikan robot spam.

    Ketika Googlebot mengambil sebuah halaman, sisa-sisa semua link muncul di halaman dan menambahkan mereka ke antrian untuk kemudian crawling “Merangkak”. Googlebot cenderung menghadapi spam penulis sedikit karena sebagian besar web link hanya untuk apa yang mereka yakini halaman berkualitas tinggi. Dengan panen link dari setiap halaman itu pertemuan, Googlebot dapat dengan cepat membangun sebuah daftar link yang bisa menutupi mencapai luas dari web. Teknik ini, dikenal dengan nama crawling, Googlebot juga memungkinkan untuk menyelidiki jauh di dalam setiap situs. Karena skala besar mereka, yang dalam merangkak dapat mencapai hampir setiap halaman di web. Karena web sangat luas, hal ini dapat memakan waktu, sehingga beberapa halaman mungkin dapat dijelajahi hanya sekali sebulan.

    Meskipun fungsinya sederhana, Googlebot harus diprogram untuk menangani beberapa tantangan. Pertama, karena Googlebot mengirimkan permintaan secara simultan untuk ribuan halaman, antrian dari "visit soon" URL harus selalu diperiksa dan dibandingkan dengan URL yang sudah ada di indeks Google. Duplikat dalam antrian harus dihilangkan untuk mencegah Googlebot dari mengambil halaman yang sama lagi. Googlebot harus menentukan seberapa sering untuk mengunjungi halaman. Di satu sisi, itu membuang-buang sumber daya untuk kembali indeks halaman tidak berubah. Di sisi lain, Google ingin kembali indeks berubah halaman untuk memberikan hasil yang up-to-date.

    Untuk menjaga indeks saat ini, Google terus mempopuler recrawls halaman web yang sering berubah pada tingkat kasar sebanding dengan seberapa sering perubahan halaman. Seperti indeks terus merangkak arus dan dikenal sebagai segar merangkak. halaman koran-download harian, halaman dengan harga saham di-download lebih sering. Tentu saja, segar kembali menjelajahi halaman lebih sedikit dibandingkan dengan merangkak dalam. Kombinasi dari dua jenis merangkak memungkinkan Google untuk kedua memanfaatkan sumber daya yang efisien dan menjaga indeks cukup lancar.
  2. Google Indexer
    Googlebot memberikan pengindeks yang teks lengkap dari halaman yang ditemukan. Halaman-halaman ini disimpan dalam database indeks Google. Indeks ini diurutkan abjad dengan istilah pencarian, dengan masing-masing entri indeks menyimpan daftar dokumen dalam mana istilah muncul dan lokasi dalam teks di mana itu terjadi. Struktur data memungkinkan akses cepat ke dokumen yang berisi istilah kueri pengguna.

    Untuk meningkatkan performa pencarian, Google mengabaikan (tidak indeks) kata-kata umum yang disebut kata berhenti (seperti, yang, pada, atau, dari, bagaimana, mengapa, serta digit-digit dan huruf tunggal). Hentikan kata-kata sangat umum yang mereka lakukan sedikit untuk mempersempit pencarian, dan karena itu mereka dengan aman bisa dibuang. pengindeks juga mengabaikan beberapa tanda baca dan beberapa ruang, serta mengkonversi semua huruf menjadi huruf kecil, untuk meningkatkan kinerja Google.
  3. Google Query Processor
    Query Prosesor memiliki beberapa bagian, termasuk user interface (kotak pencarian), "mesin" yang mengevaluasi permintaan dan pertandingan mereka untuk dokumen yang relevan, dan hasil formatter.

    PageRank adalah sistem Google untuk peringkat halaman web. Halaman dengan PageRank lebih tinggi dianggap lebih penting dan lebih mungkin untuk dicatatkan di atas halaman dengan PageRank lebih rendah.

    Google menganggap lebih dari seratus faktor dalam komputasi PageRank dan menentukan dokumen yang paling relevan dengan query, termasuk popularitas halaman, posisi dan ukuran istilah pencarian di dalam halaman, dan kedekatan istilah pencarian satu sama lain pada halaman. Sebuah aplikasi paten membahas faktor-faktor lain yang Google menganggap bila menentukan peringkat halaman. Kunjungi laporan SEOmoz.org 'untuk interpretasi konsep dan aplikasi praktis yang terkandung dalam aplikasi paten Google.

    Google juga menggunakan teknik machine-learning untuk meningkatkan kinerja secara otomatis dengan mempelajari hubungan dan asosiasi dalam data yang tersimpan. Sebagai contoh, sistem ejaan-mengoreksi menggunakan teknik tersebut untuk mengetahui ejaan alternatif. Google erat menggunakan rumus untuk menghitung relevansi; mereka meningkatkan kualitas dan kinerja, dan untuk mengecoh teknik licik terbaru yang digunakan oleh spammer.

    Pengindeksan teks lengkap dari web memungkinkan Google untuk pergi lebih dari sekedar pencocokan istilah pencarian tunggal. Google memberikan prioritas untuk halaman yang memiliki istilah pencarian dekat satu sama lain dan dalam urutan yang sama seperti query. Google juga dapat mencocokkan multi-frasa kata dan kalimat. Karena kode HTML Google indeks selain teks pada halaman, pengguna dapat membatasi pencarian berdasarkan kata-kata query muncul, misalnya, dalam judul, dalam URL, di dalam tubuh, dan link ke halaman, pilihan yang ditawarkan dengan Formulir Pencarian Google dan Operator Pencarian Menggunakan (Operator Advanced).

    Mari kita lihat bagaimana Google memproses permintaan:

0 komentar:

Posting Komentar

Featured

Twitter Delicious Facebook Digg Stumbleupon Favorites More

 
Design by Free WordPress Themes | Bloggerized by Lasantha - Premium Blogger Themes | Best WordPress Web Hosting