Đăng nhập

Search Engine và các thuật toán xếp hạng website của Search Engine

  • 26/11/2014 - 2:54 PM
  • 1019 Views

Chúng ta đã quá quen với việc sử dụng các công cụ Search Engine để phục vụ cho công việc tìm kiếm tra cứu thông tin nhưng hầu hết không phải ai cũng hiểu được nguyên lý làm việc cũng như những thuật toán mà các search engine sử dụng để đưa ra được kết quả chính xác nhất cho người dùng.

search-engine-cac-thuat-toan-xep-hang-website

Search Engine

Bằng cách thức cho điểm, danh sách kết quả sẽ được sắp xếp theo thứ tự trước sau tương ứng với số điểm. Trên cơ sở trải nghiệm, bài viết này chúng ta sẽ đề cập đến Search Engine và các thuật toán phương pháp xếp hạng đang được sử dụng trong các Search Engine hiện nay.

Thuật toán Relevancy Ranking – Đánh giá bằng thống kê.

Đây có lẽ là thuật toán căn bản nhất trong làm index (đánh chỉ mục) và search (tìm kiếm). Thuật toán dựa vào những yếu tố sau để cho điểm một từ khoá trong một trang Web:

Số lần xuất hiện của từ khoá trong bài viết. Ví dụ: từ “ Học Seo ” xuất hiện hai lần trong bài viết A và 3 lần trong bài viết B. Như vậy bài viết B sẽ có điểm cao hơn khi truy vấn bằng từ khoá ” Học seo “.

Tỉ lệ tần suất xuất hiện từ khoá với độ dài của bài viết. Ví dụ: từ khoá “Học seo” xuất hiện hai lần trong bài viết A và 3 lần trong bài viết B. Nhưng nếu bài viết A dài 1 trang và bài viết B dài 2 trang thì trong trường hợp này, bài viết A sẽ có điểm số cao hơn bài viết B ứng với từ khóa “Học seo”.

Mật độ từ khóa và tần suất xuất hiện của từ khoá trong toàn bộ bài viết trên database cũng quan trọng khi tìm kiếm bằng nhiều từ khoá. Ví dụ: tìm cụm từ “Khóa Học Seo” trong một database có 10 bài viết. Nếu từ “Khóa học seo” xuất hiện trong hai bài viết và từ ” khóa học wordpress ” xuất hiện trong năm bài viết thì điểm số cho từ “Khóa Học Seo” sẽ cao hơn điểm số từ “Khóa Học WordPress”.

Thuật toán revelancy ranking chỉ mang tính chất thống kê và tương đối. Trong một môi trường thực, không phải bất cứ bài viết nào có sự xuất hiện và tần suất xuất hiện cao của từ khoá cũng là thứ mà người tìm kiếm cần. Rất nhiều trang có từ khoá xuất hiện cao thực chất chỉ là nội dung rác.

Thuật toán Proximity ranking – Đánh giá bởi các từ gần nhau.

Thuật toán Proximity ranking

Thuật toán Proximity ranking

Hay còn gọi là phrase search, thuật toán cho phép tính toán độ gần nhau giữa các từ khoá. Được giới thiệu bởi cỗ máy tìm kiếm Altavista, lần đầu tiên người sử dụng có thể tìm kiếm chính xác cụm từ kiểu như “Học Seo ở đâu“. Hệ thống sẽ trả về các bài viết có nguyên cả cụm từ “Học seo ở đâu” thay vì các bài viết chứa đồng thời các từ riêng lẻ “học”, “seo” và “ở” “đâu”. Các Search Engine sau này cho phép người tìm kiếm chỉ định độ gần nhau của các từ bằng câu lệnh tìm kiếm, lệnh search này sẽ trả về tập bài viết có các từ “Học”, “Seo”, “Ở”, “đâu” và khoảng cách giữa các từ thường không quá năm từ.

Đây là thuật toán khá hay, thuật toán này có thể kết hợp với các phương thức phân tích cao cấp để xác định vấn đề quan trọng trong bài viết nhằm tăng điểm cao hơn cho các câu hoặc cụm từ giá trị trong nội dung.

Hiện nay rất nhiều các webmater tận dụng thuật toán này một cách khéo léo để có được một kết quả tốt hơn trong công cụ tìm kiếm, giả sử như với cụm từ “học seo ở đâu” tôi sẽ không chỉ lặp lại chính xác với cụm từ này mà thay vào đó tôi có thể lồng vào trong bài viết các keyword xoay quanh keyword mục tiêu như “học seo” “trung tâm học seo” , “khóa học seo tốt nhất ở đâu“……

Thuật toán Ranking by the important words – Đánh giá bằng từ khoá quan trọng.

 Ranking by the important words

Ranking by the important words

Web Page là tài liệu có định dạng hiển thị. Thông dụng nhất là chuẩn HTML. Dựa vào cấu trúc định dạng đó, thuật toán cho điểm cao hơn với từ khóa nằm trong các thẻ đặc biệt. Cách thông thường nhất mà Search Engine hay áp dụng chính là cho điểm cao với từ khoá nằm trong anchor text(liên kết), các thẻ tiêu đề, meta keyword, H1, H2, H3, H4, H5, H6 hoặc từ khoá được in đậm, viết hoa.

Kỹ thuật này hiện nay đã ở một mức cao hơn khi nó đánh giá độ quan trọng về mặt ý nghĩa của từ khóa. Nó có thể được xếp vào hàng Semantic Search – tìm kiếm theo ngữ nghĩa.

Thời đi học, chúng ta đã biết một bài văn thường bao gồm ba phần: mở bài, thân bài và kết luận. Trong đó, phần mở bài gần như một tóm tắt hoặc giới thiệu nội dung cho cả bài viết. Nếu chúng ta xác định được đâu là mở bài và cho điểm cao hơn với những từ khóa nằm trong đó thì kết quả search chính xác hơn rất nhiều. Mặt khác, với một từ “học Seo“, nếu xuất hiện ở đầu bài viết, giữa hay cuối bài viết thì nó cũng có những trọng lượng khác nhau.

Trong một bài viết, các từ khóa có độ quan trọng khác nhau còn tùy thuộc vào vị trí hoặc ngữ cảnh.

Ví dụ, các danh từ riêng sẽ ít xuất hiện hơn trong một bài viết nhưng nó mang lại thông tin nhất định cho bài viết. Chẳng hạn, nếu ta thấy từ “Hà Nội”, ta biết ngay bài viết sẽ nói vấn đề gì đó về Hà Nội. Nhưng với từ “làm việc”, chúng ta không thể đưa ra kết luận gì bởi đây là một động từ chung chung. Các danh từ thường có độ quan trọng hơn động từ, tính từ và trạng từ là thành phần kém quan trọng nhất. Ngoài ra, từ viết tắt, từ đồng nghĩa… sẽ giúp nội dung có điểm đánh giá cao hơn. Ví dụ, bài viết chứa cả cụm từ “thủ thuật seo” sẽ có điểm cao hơn so với bài viết chỉ chứa từ “thủ thuật seo”. Trường hợp khác, bài viết chứa cả cụm từ “công nghệ thông tin” và “cntt” sẽ có điểm cao hơn bài viết chỉ chứa cụm từ “công nghệ thông tin”.

Kết hợp với từ điển, phân tích ngữ nghĩa sẽ giúp phân tích sâu hơn về cấu trúc, tóm tắt hay gạn lọc lại những ý chính của bài viết. Loại bỏ các thành phần không quan trọng hoặc cho điểm thấp hơn là phương thức mà những Search Engine Google đang nhắm tới. Yahoo quảng bá cho công nghệ Semantic Search như một hướng đi của tương lai nhằm hạ thấp vai trò của Page Rank mặc dù Yahoo cũng bỏ rất nhiều công sức vào các thuật toán này. Yahoo gọi công nghệ mới của họ là WebMap và WebRank. Cùng thời điểm đó, Microsoft đã mua Powerset – một công ty đình đám trong lĩnh vực làm Semantic Search với những tuyên bố về khả năng phân tích ngữ nghĩa tới từng câu.

Theo tôi hiện nay google vẫn chưa hiểu được ngữ nghĩa tiếng việt nhưng tôi tin rằng thuật toán của google càng ngày càng thông minh, khi mà dữ liệu của google đủ lớn, ngữ nghĩa sẽ là hướng đi của tương lai bởi đó là cách con người giao tiếp và tiến hóa trong tự nhiên.

Thuật toán Ranking by the URL – Đánh giá theo địa chỉ của trang.

Đây cũng một cách đánh giá độ quan trọng của từ khóa với mỗi trang Web. Nhưng thay vì từ khóa nằm trong bài viết thì nó lại nằm trong đường dẫn URL hay tên miền của trang Web (domain name).

Thuật toán Ranking by date – Đánh giá theo ngày tháng.Thông thường, người tìm kiếm có xu hướng tìm kiếm những vấn đề hay sự kiện mới xảy ra. Chẳng hạn, với từ khoá “Ronaldo”, người ta sẽ quan tâm đến những vấn đề như Ronaldo gần đây cặp kè với ai, đá cho đội nào hay mức lương bao nhiêu? Phương thức ranking này là dễ, rẻ nhất và khá hiệu quả. Nếu ta quan sát kết quả Google ở nhiều thời điểm khác nhau với một từ khóa ta sẽ thấy thứ hạng trả về của kết quả thay đổi. Nhưng phương thức xác định thời gian của nội dung không hề đơn giản. Nếu chỉ căn cứ vào thời gian Crawler (máy quét) lấy về thì không chính xác tuyệt đối. Ví dụ, một bài viết xuất hiện trên trang Web A đã lâu nhưng được trang Web B copy lại nội dung. Như vậy, thời gian mà Crawler lấy về chỉ mang tính tương đối. Trường hợp khác, bài viết đề cập tới chiến tranh Việt Nam hay những sự kiện từ thập niên 50 được đăng tải, chúng ta không thể căn cứ vào thời gian cập nhật để xác định thời gian của nội dung.

Thuật toán – Đánh giá theo độ nổi tiếng của trang.

google-pageranks

Google Pageranks

“PageRank của Google đánh giá độ quan trọng của một trang web dựa trên phương pháp xử lí gọi là thuật toán phân tích liên kết (Link Analysis Algorithm). Phương pháp này đánh giá độ quan trọng của một trang Web dựa trên những liên kết trên Internet.

Và Google cho biết:

“Trang nào được chúng tôi đánh giá quan trọng sẽ được ưu tiên hiện trước trong danh sách kết quả tìm kiếm. Chúng tôi luôn tìm cách đánh giá một cách hữu hiệu nhất để tăng chất lượng kết quả tìm kiếm và tạo ra một sản phẩm có ích, và công nghệ PageRank của chúng tôi sử dụng tính cộng đồng trên Internet để xác định độ quan trọng của một trang web.”

Đây là một phương thức hay và có hiệu quả. Nhưng theo tôi giá trị của Page Rank đã được thổi phồng quá mức so với giá trị mà nó mang lại. Tại thời điểm này, số lượng trang web ngày càng bùng nổ theo cấp số nhân, Google đã không còn sử dụng Page Rank làm thước đo cho việc xếp hạng bởi nó bởi đã dẫn tới cuộc chạy đua giữa các Web Master để tối ưu hoá (cho Search Engine) trang web của mình. Họ chịu khó đi các trang khác tạo liên kết,, mua bán liên kết và copy nội dung để tăng điểm cho Web của họ. Ngoài việc tạo nên sự bất công trong đánh giá cho trang có nội dung gốc, nó còn tạo ra một môi trường Web méo mó, nơi mà Web Master ra sức giành giật nhau trong cuộc đua thứ hạng. Việc nhân bản nội dung và tạo liên kết sẽ bắt hệ thống máy móc của Google làm việc nhiều hơn, phân tích nhiều hơn và lưu trữ cũng nhiều hơn. Hiện tại, chất lượng Page Rank đã giảm nhiều so với thời kỳ đầu do ảnh hưởng của các SEO. Bằng chứng là Google đã phải thuê một đội quân Net Rater để kiểm tra, rank lại hay cấm các trang web được optimize (tối ưu) theo hướng spam.

Google cũng nói:

“Về phần mình, Google nhấn mạnh rằng PageRank, được trao bằng sáng chế cho Đại học Stanford, không phải là phương pháp duy nhất để xác định kết quả tìm kiếm. Thực vậy, Google cho biết họ sử dụng kết quả của hơn 200 phương pháp khác nhau để đánh giá toàn thể cấu trúc Web và xác định những trang nào là quan trọng nhất.”

Theo kinh nghiệm của chúng tôi, để đem lại kết quả tìm kiếm tốt cho người dùng thì việc xử lý, loại bỏ các nội dung không cần thiết trong trang web như banner, footer, quảng cáo và phân loại dữ liệu là rất quan trọng. Bởi lẽ đó, Bing của Microsoft đã chú trọng phát triển theo hướng này. Những bài viết có giá trị cao thường là những trang tin tức, wiki, tài liệu PDF, DOC cùng một số blog nổi tiếng. Các trang forum, rao vặt hoặc hàng hóa thì nên ranking theo ngày tháng thay vì liên kết bởi dữ liệu dạng này có tính chất thời gian thực, chúng có thể trở thành vô giá trị sau một khoảng thời gian.

Thuật toán Local Rank – Đánh giá theo truy vấn vùng.

Cùng một từ khóa tìm kiếm, kết quả trả về cho người Mỹ sẽ khác với kết quả trả về cho người Việt. Ngoài việc ưu tiên những nội dung tiếng Việt lên đầu, Search Engine còn cần phải loại bỏ các kết quả không phù hợp với văn hóa và xã hội Việt Nam.

Tính toàn cầu của Internet cũng cần phải thỏa mãn tính bản địa khi truy vấn đến từ nhiều nơi khác nhau. Local Ranking là phương pháp căn cứ vào dải ip truy cập của người dùng rồi đánh giá lại tập nội dung, cho điểm những kết quả phù hợp hơn với người dùng đến từ nước, vùng, khu vực… đó.

Thuật toán User Rank hay Browser Rank – Đánh giá bởi con người và trình duyệt.

User Rank hay Browser Rank

User Rank hay Browser Rank

Phương pháp thống kê nhờ theo dõi hành vi người dùng để đưa ra đánh giá về chất lượng của một trang Web. Phương thức này chỉ có thể triển khai khi một Search Engine có số lượng người dùng lớn như Google hoặc Yahoo. Một phương pháp khác là nhờ vào kiểm soát trình duyệt (Google và Microsoft). Chúng tôi đánh giá phương thức này hiệu quả ngang bằng với Page Rank nếu được triển khai tốt.

Nếu như bạn để ý trong bài viết trước của tôi các tiêu chí xếp hạng website tôi có đưa ra 2 vấn đề mà google search hiện nay sử dụng đó là bounce và time on site, ngoài ra những yếu tố đánh giá người dùng như tính phổ biến, social media, hay những bình luận, comment, đánh giá bởi người dùng ngày nay cũng được google đưa vào trong thuật toán xếp hạng website của họ

Google tuyên bố sử dụng trên 200 phương pháp xếp hạng website và trong một bài báo khác họ tuyên bố một năm thử nghiệm hơn 400 thuật toán xếp hạng. Theo lý thuyết, đây chỉ là các phương pháp xếp hạng dựa vào những gì đã được nêu trên theo mô hình pha trộn… Điểm cốt lõi Search Engine là nhu cầu xử lý nhanh các lệnh tìm kiếm và trả về đúng kết quả mà người dùng mong đợi.

Thay cho lời kết

Bài viết Search Engine và các thuật toán xếp hạng website của Search Engine cung cấp cho bạn cái nhìn tổng quát hơn về các thuật toán mà google cũng như các search engine khác đang sử dụng để từ đó bạn có được định hướng đúng đắn cho chiến lược Seo của mình

Các Search Engine ngày nay không còn là cuộc đua về tốc độ hay số lượng trang Web được đánh chỉ mục (index). Search Engine hiện tại, ngoài việc tính toán xếp hạng sao cho kết quả trả về tốt nhất thì còn phải tính toán đến việc loại bỏ những trang Web không có giá trị, các trang web lập ra với mục đích spam,các trang Web gặp lỗi, nội dung rác hay các trang Web có nội dung trùng lặp cần phải được loại bỏ. Bằng chứng là trong thời gian qua Google liên tục cập nhập 2 thuật toán Google Panda và Google Penguin đã loại bỏ một số lượng lớn các website nội dung xấu, nội dung kém chất lượng

Các thuật toán mới của Search Engine trong thời gian tới theo mình dự đoán vẫn quan tâm bao gồm: tìm kiếm, phân tích theo ngữ nghĩa (Semantic Search) và tìm kiếm dựa vào đánh giá cộng đồng.