Cách xây dựng Lõi ngữ nghĩa trong Trình thu thập khóa: Hướng dẫn đầy đủ. Dừng lời cho Kay Collector là cơ sở hoàn chỉnh nhất! Thu thập các đề xuất tìm kiếm

31.10.2020

Và nó sử dụng Key Collector cho việc này, tôi khuyên bạn nên sử dụng cơ sở các từ dừng để dọn rác. Đối với những người khác, tôi khuyên bạn nên liên hệ với tôi và sau đó bạn sẽ không phải khổ sở, cào cấu và nhóm hàng nghìn cụm từ, tôi sẽ làm tất cả những điều này cho bạn 🙂

Dừng các cơ sở từ cho Trình thu thập chìa khóa

Tôi đã thu thập cơ sở này từ các mẩu tin lưu niệm và các đoạn từ dừng cho Kay Collector, có thể tìm thấy trên Internet. Theo ý kiến \u200b\u200bcủa tôi, đây là danh sách đầy đủ nhất của tất cả các từ khóa phủ định hiện có, vì vậy tôi thực sự khuyên bạn nên sử dụng nó để làm sạch lõi ngữ nghĩa.

Dừng danh sách từ cho KeyCollector ở tất cả các thành phố của Nga, Ukraine và Belarus.
Lọc danh sách từ khóa phủ định: XXX chủ đề, Tự làm, cải tạo, hài hước, v.v.
Danh sách tên nam và nữ.
Dừng lời cho Kay Collector, được chia nhỏ theo chủ đề (!) - thực sự không có nhiều chủ đề, nhưng tuy nhiên.

Những cơ sở dữ liệu này thực sự đủ để dọn sạch 95% rác xuất hiện khi thu thập ngữ nghĩa, nhưng dù sao bạn vẫn phải làm việc bằng tay. Tuy nhiên, nhờ việc sử dụng những từ dừng này, tôi đã bắt đầu tiết kiệm hàng giờ đồng hồ cho việc dọn dẹp các hạt nhân, trước khi nó khá đau đớn!

Tôi bắt đầu viết bài này cách đây khá lâu, nhưng ngay trước khi xuất bản thì hóa ra các đồng nghiệp trong nghề đã đi trước tôi và đăng những tài liệu gần như giống hệt nhau.

Lúc đầu, tôi quyết định rằng tôi sẽ không xuất bản bài báo của mình, vì chủ đề này đã được các đồng nghiệp nhiều kinh nghiệm hơn đề cập đến. Mikhail Shakin nói về 9 phương pháp yêu cầu làm sạch trong KC và Igor Bakalov đã quay video về phân tích trùng lặp tiềm ẩn ... Tuy nhiên, sau một thời gian, sau khi cân nhắc tất cả những ưu và khuyết điểm, tôi đã rút ra kết luận rằng có lẽ bài viết của tôi có quyền sống và có thể hữu ích cho ai đó - đừng phán xét khắt khe.

Nếu bạn cần lọc ra một cơ sở từ khóa lớn có 200k hoặc 2 triệu lượt truy vấn, thì bài viết này có thể giúp bạn. Nếu bạn làm việc với các kernel ngữ nghĩa nhỏ, thì rất có thể bài viết sẽ không đặc biệt hữu ích cho bạn.

Chúng tôi sẽ xem xét việc lọc lõi ngữ nghĩa lớn bằng cách sử dụng ví dụ về một mẫu bao gồm 1 triệu truy vấn về chủ đề pháp lý.

Chúng ta cần gì?

Người thu thập chìa khóa (sau đây gọi là KC)
Ít nhất 8GB RAM (nếu không chúng ta sẽ có một cái phanh địa ngục, tâm trạng hư hỏng, hận thù, tức giận và sông máu trong mao mạch mắt)
Các từ dừng thông dụng
Kiến thức cơ bản về ngôn ngữ biểu thức chính quy

Nếu bạn là người hoàn toàn mới đối với doanh nghiệp này và bạn không phải là bạn tốt nhất với KC, thì tôi thực sự khuyên bạn nên tự làm quen với chức năng nội bộ được mô tả trên các trang chính thức của trang web. Nhiều câu hỏi sẽ tự biến mất, và bạn cũng sẽ hiểu một chút trong mùa giải thường.

Vì vậy, chúng tôi có một cơ sở dữ liệu lớn về các khóa cần được lọc. Bạn có thể lấy cơ sở thông qua tự phân tích cú pháp, cũng như từ nhiều nguồn khác nhau, nhưng ngày nay không phải vậy.

Mọi thứ sẽ được mô tả bên dưới đều có liên quan đến ví dụ về một thị trường ngách cụ thể và không phải là tiên đề! Trong các ngách khác, một số hành động và giai đoạn có thể khác nhau đáng kể! Tôi không giả vờ là Guru về ngữ nghĩa, mà chỉ chia sẻ những suy nghĩ, phát triển và cân nhắc của tôi về vấn đề này.

Bước 1. Xóa các ký tự Latinh

Chúng tôi xóa tất cả các cụm từ có các ký tự Latinh. Theo quy định, các cụm từ như vậy có tần suất không đáng kể (nếu có) và chúng sai hoặc không liên quan.

Tất cả các thao tác với lựa chọn cho các cụm từ được thực hiện thông qua nút trân trọng này.

Nếu bạn lấy hạt nhân thứ triệu và đạt đến bước này, thì các mao mạch mắt có thể bắt đầu vỡ ra ở đây, bởi vì trên máy tính / máy tính xách tay yếu, bất kỳ thao tác nào với SN lớn đều có thể làm chậm một cách đáng xấu hổ.

Chọn / đánh dấu tất cả các cụm từ và xóa.

Bước 2. Loại bỏ đặc biệt. Ký hiệu

Thao tác thực hiện tương tự như thao tác xóa ký tự Latinh (bạn có thể thực hiện cả hai cùng một lúc), tuy nhiên, tôi khuyên bạn nên thực hiện mọi thứ theo từng giai đoạn và xem kết quả bằng mắt chứ không nên "cắt vai", vì đôi khi ngay cả trong một thị trường ngách mà bạn dường như biết mọi thứ, vẫn có những truy vấn hấp dẫn có thể nằm trong bộ lọc và bạn có thể đơn giản là không biết về nó.

Một lời khuyên nhỏ, nếu bạn có nhiều cụm từ hay trong mẫu của mình, nhưng có dấu phẩy hoặc ký hiệu khác, chỉ cần thêm ký hiệu này vào các trường hợp ngoại lệ và thế là xong.

Một lựa chọn khác (con đường samurai)

Tải lên tất cả các cụm từ cần thiết với các ký tự đặc biệt
Xóa chúng trong KC
Trong bất kỳ trình soạn thảo văn bản nào, hãy thay thế ký tự đã cho bằng một khoảng trắng
Tải lại.

Bây giờ các cụm từ đã sạch sẽ, danh tiếng của chúng đã được tẩy trắng và sự lựa chọn cho các đặc biệt. các biểu tượng sẽ không ảnh hưởng đến chúng.

Bước 3. Xóa các từ trùng lặp

Và một lần nữa, chúng tôi sẽ sử dụng chức năng được tích hợp trong KC bằng cách áp dụng quy tắc

Không có gì để thêm ở đây - mọi thứ đều đơn giản. Chúng tôi giết rác mà không nghi ngờ gì.

Nếu bạn phải đối mặt với nhiệm vụ thực hiện lọc khó và loại bỏ càng nhiều rác càng tốt, đồng thời hy sinh một số lượt truy vấn tốt, thì bạn có thể kết hợp cả 3 bước đầu tiên thành một.

Nó sẽ trông giống thế này:

QUAN TRỌNG: Đừng quên chuyển "VÀ" thành "HOẶC"!

Bước 4. Xóa các cụm từ bao gồm 1 và 7 từ trở lên

Ai đó có thể tranh luận và nói về sự thú vị của những từ kỳ quặc, không cần nghi ngờ gì - hãy để nó đi, nhưng trong hầu hết các trường hợp, việc lọc odnoslovniks thủ công mất một thời gian rất dài, theo quy luật, tỷ lệ odnoslovony tốt / xấu là 1/20, không có lợi cho chúng tôi. Và để đưa họ vào TOP bằng cách sử dụng các phương pháp mà tôi thu thập những cốt lõi đó từ thể loại tiểu thuyết. Vì thế, kẽo kẹt một tấm lòng, chúng tôi gửi lời đến các bậc tiền bối.

Tôi đoán trước câu hỏi của nhiều người, "tại sao lại xóa các cụm từ dài?" Câu trả lời của tôi là các cụm từ bao gồm 7 từ trở lên phần lớn có cấu trúc thư rác, không có tần suất xuất hiện và trong khối lượng chung tạo thành nhiều từ trùng lặp, đó là trùng lặp theo chủ đề. Tôi sẽ cho bạn một ví dụ để làm rõ hơn.

Ngoài ra, tần suất các câu hỏi như vậy quá thấp nên thường không gian trên máy chủ đắt hơn mức cạn kiệt từ các yêu cầu như vậy. Ngoài ra, nếu bạn duyệt qua TOP cho các cụm từ dài, thì bạn sẽ không tìm thấy sự xuất hiện trực tiếp trong văn bản hoặc trong các thẻ, vì vậy việc sử dụng các cụm từ dài như vậy trong giáo trình của chúng tôi không có ý nghĩa.

Bước 5. Làm sạch các bản sao ngầm

Chúng tôi thiết lập trước việc dọn dẹp, bổ sung nó bằng các cụm từ của riêng chúng tôi, chỉ ra một liên kết đến danh sách của tôi, nếu có gì cần bổ sung - hãy viết, chúng tôi sẽ cùng nhau phấn đấu để hoàn thiện.

Nếu bạn không làm điều này và sử dụng danh sách do những người tạo ra KC vui lòng cung cấp và đưa vào chương trình theo mặc định, thì các kết quả như vậy sẽ vẫn còn trong danh sách và trên thực tế, chúng rất trùng lặp.

Chúng ta có thể thực hiện phân nhóm thông minh, nhưng để nó hoạt động chính xác, cần phải loại bỏ tần số. Và điều này, trong trường hợp của chúng tôi, không phải là một lựa chọn. Bởi vì Để loại bỏ tần số khỏi 1 triệu. keev, nhưng ngay cả khi từ 100k - bạn sẽ cần một gói proxy riêng, anti-captcha và rất nhiều thời gian. Bởi vì thậm chí 20 proxy sẽ không đủ - trong một giờ nữa hình ảnh xác thực sẽ bắt đầu xuất hiện, bất cứ điều gì người ta có thể nói. Và việc kinh doanh này sẽ mất rất nhiều thời gian, đồng nghĩa với việc, ngân sách của việc chống captcha cũng sẽ ngốn khá nhiều. Và tại sao thậm chí loại bỏ tần suất khỏi các cụm từ rác có thể được lọc ra mà không cần nỗ lực nhiều?

Nếu bạn vẫn muốn lọc các cụm từ với tính năng phân nhóm thông minh, loại bỏ tần số và loại bỏ dần rác, thì tôi sẽ không mô tả chi tiết quá trình này - hãy xem video mà tôi đã đề cập ở đầu bài viết.

Đây là các bước và cài đặt dọn dẹp của tôi

Bước 6. Lọc theo các từ dừng

Theo tôi, đây là điểm đuối nhất, hãy uống trà, hút một điếu thuốc (đây không phải là một lời kêu gọi, thà bỏ thuốc và ngấu nghiến một cái bánh quy) và với năng lượng tươi mới ngồi xuống để lọc lõi ngữ nghĩa bằng những từ dừng.

Đừng phát minh lại bánh xe và bắt đầu xây dựng danh sách từ dừng lại từ đầu. Có các giải pháp làm sẵn. Đặc biệt, đây là cơ sở cho bạn, là cơ sở nhiều hơn sẽ đi.

Tôi khuyên bạn nên sao chép đĩa vào nguồn cấp dữ liệu của PC của riêng bạn, và rồi đột nhiên anh em Shestakov quyết định để lại "sự quyến rũ của bạn" cho chính họ và đóng quyền truy cập vào tệp? Như câu nói, "Nếu bạn bị hoang tưởng, không có nghĩa là bạn không bị theo dõi ..."

Cá nhân tôi đã bỏ nhóm các từ dừng thành các tệp riêng biệt cho các tác vụ nhất định, hãy xem ví dụ trong ảnh chụp màn hình.

Tệp "Danh sách chung" chứa tất cả các từ dừng cùng một lúc. Trong Trình thu thập khóa, mở giao diện từ dừng và tải danh sách từ tệp.

Tôi chỉ đặt một phần xuất hiện và đánh dấu vào mục "Tìm kiếm chỉ đối sánh ở đầu các từ." Các cài đặt này đặc biệt phù hợp với một lượng lớn các từ dừng, vì lý do nhiều từ bao gồm 3-4 ký tự. Và nếu bạn đặt các cài đặt khác, thì bạn cũng có thể lọc ra rất nhiều từ hữu ích và cần thiết.

Nếu chúng ta không đánh dấu vào ô trên, thì từ dừng thô tục "fuck" sẽ được tìm thấy trong các cụm từ như "lời khuyên đối với bảo hiểm nhà nước", "cách bảo hiểm tiền gửi", v.v. Vân vân. Đây là một ví dụ khác, trên từ dừng "RB" (Cộng hòa Belarus), một số lượng lớn các cụm từ sẽ được đánh dấu, chẳng hạn như "bồi thường thiệt hại cho tư vấn thiệt hại", "nộp đơn kiện trong quá trình trọng tài", v.v. Vân vân.

Nói cách khác - chúng ta cần chương trình chỉ chọn các cụm từ có các từ dừng ở đầu các từ.Từ ngữ đau tai, nhưng bạn không thể xóa lời khỏi bài hát.

Riêng biệt, tôi lưu ý rằng cài đặt này dẫn đến việc tăng đáng kể thời gian kiểm tra các từ dừng. Với một danh sách lớn, quá trình này có thể mất 10 và 40 phút, và tất cả là do hộp kiểm này, giúp tăng thời gian tìm kiếm 100 từ trong các cụm từ lên mười hoặc thậm chí nhiều lần. Tuy nhiên, đây là tùy chọn lọc phù hợp nhất khi làm việc với lõi ngữ nghĩa lớn.

Sau khi chúng ta xem qua danh sách cơ bản, tôi khuyên bạn nên nhìn bằng mắt của chúng tôi để xem liệu bất kỳ cụm từ cần thiết nào đã được phân phối chưa và tôi chắc chắn nó sẽ như vậy, tk. danh sách chung của các từ dừng cơ bản không phổ biến và phải được lập riêng cho từng ngách. Đây là nơi bắt đầu "khiêu vũ với tambourine".

Chúng tôi chỉ để lại các từ dừng đã chọn trong cửa sổ làm việc, nó được thực hiện như thế này.

Sau đó, chúng tôi nhấp vào "phân tích các nhóm", chọn chế độ "theo các từ riêng biệt" và xem những gì là thừa trong danh sách của chúng tôi do các từ dừng không phù hợp.

Loại bỏ các từ dừng không phù hợp và lặp lại chu trình. Như vậy, sau một thời gian, chúng tôi sẽ “mài dũa” một danh sách công cộng phổ thông cho nhu cầu của mình. Nhưng đó không phải là tất cả.

Bây giờ chúng ta cần tìm các từ dừng được tìm thấy cụ thể trong cơ sở dữ liệu của chúng ta. Khi nói đến cơ sở dữ liệu từ khóa khổng lồ, luôn có một số loại "rác có thương hiệu", như tôi gọi. Hơn nữa, đây có thể là một cơn mê sảng hoàn toàn không mong muốn và bạn phải loại bỏ nó trên cơ sở cá nhân.

Để giải quyết vấn đề này, chúng ta sẽ sử dụng lại chức năng Phân tích nhóm, nhưng lần này chúng ta sẽ xem qua tất cả các cụm từ còn lại trong cơ sở dữ liệu sau các thao tác trước. Hãy sắp xếp theo số lượng cụm từ và bằng mắt, có, có, có, bằng bút và mắt, chúng ta sẽ xem qua tất cả các cụm từ, lên đến 30-50 trong một nhóm. Ý tôi là cột thứ hai "số cụm từ trong nhóm".

Tôi sẽ nhanh chóng cảnh báo những người yếu tim, thanh cuộn dường như vô tận "sẽ không khiến bạn mất một tuần để lọc, cuộn nó 10% và bạn sẽ tiếp cận được các nhóm chứa không quá 30 truy vấn và việc lọc như vậy chỉ nên được thực hiện bởi những người biết nhiều trong những lần biến thái.

Ngay từ cùng một cửa sổ, chúng ta có thể thêm tất cả các thùng rác vào từ dừng (biểu tượng cái khiên ở bên trái hộp chọn).

Thay vì thêm tất cả các từ dừng này (và còn nhiều từ khác nữa, tôi chỉ không muốn thêm ảnh chụp màn hình dài theo chiều dọc), chúng tôi thêm vào một gốc bộ lọc và ngay lập tức cắt bỏ tất cả các biến thể. Do đó, danh sách stop-word của chúng tôi sẽ không tăng lên quá lớn và quan trọng nhất là chúng tôi chúng tôi sẽ không lãng phí thêm thời gian để tìm kiếm chúng... Và ở khối lượng lớn, điều này rất quan trọng.

Bước 7. Loại bỏ 1 và 2 "từ" tượng trưng

Tôi không thể tìm ra định nghĩa chính xác cho kiểu kết hợp các ký hiệu này, vì vậy tôi gọi nó là "từ". Có lẽ ai đó đã đọc bài báo sẽ gợi ý thuật ngữ nào tốt hơn, và tôi sẽ thay thế nó. Ở đây tôi rất lè lưỡi.

Nhiều người sẽ hỏi, "tại sao lại làm điều này?" Câu trả lời rất đơn giản, rất thường xuyên các mảng từ khóa như vậy chứa loại rác:

Đặc điểm chung của các cụm từ như vậy là 1 hoặc 2 ký tự không có nghĩa (trong ảnh chụp màn hình, ví dụ có 1 ký tự). Đây là những gì chúng tôi sẽ lọc. Có những cạm bẫy ở đây, nhưng điều đầu tiên trước tiên.

Làm cách nào để xóa tất cả các từ có 2 ký tự?

Đối với điều này, chúng tôi sử dụng

Mẹo bổ sung: Luôn giữ các mẫu thường xuyên! Họ không được lưu trong dự án, nhưng trong KC nói chung... Vì vậy, họ sẽ luôn ở trong tầm tay.

(^ | \\ s +) (..) (\\ s + | $) hoặc (^ | \\ s) (1,2) (\\ s | $)

(st | fz | uk | na | rf | li | do | st | not | un | to | from | for | to | from | about)

Đây là phiên bản của tôi, tùy chỉnh để phù hợp với nhu cầu của bạn.

Dòng thứ hai chứa các ngoại lệ, nếu bạn không nhập chúng, thì tất cả các cụm từ chứa các tổ hợp ký tự từ dòng thứ hai của công thức sẽ được đưa vào danh sách các ứng cử viên để xóa.

Dòng thứ ba loại trừ các cụm từ kết thúc bằng "рф", bởi vì đây thường là những cụm từ hữu ích bình thường.

Tôi cũng muốn làm rõ rằng tùy chọn (^ | \\ s +) (..) (\\ s + | $) sẽ chọn mọi thứ - bao gồm các giá trị số... Trong khi dấu thường (^ | \\ s) (1,2) (\\ s | $) - sẽ chỉ ảnh hưởng đến các chữ cái, đặc biệt cảm ơn Igor Bakalov vì nó.

Chúng tôi áp dụng thiết kế của mình và loại bỏ các cụm từ rác.

Làm cách nào để xóa tất cả các từ 1 ký tự?

Mọi thứ ở đây có phần thú vị hơn và không quá rõ ràng.

Lúc đầu, tôi đã cố gắng áp dụng và hiện đại hóa phiên bản trước, nhưng kết quả là tôi không thể dọn sạch tất cả rác - tuy nhiên, chương trình này sẽ phù hợp với nhiều người, hãy thử nó.

(^ | \\ s +) (.) (\\ s + | $)

(s | v | u | i | k | y | o)

Theo truyền thống, dòng đầu tiên là chính regex, dòng thứ hai là ngoại lệ và dòng thứ ba loại trừ những cụm từ trong đó các ký tự được liệt kê xuất hiện ở đầu cụm từ. Đó là hợp lý, vì không có khoảng trống phía trước chúng, do đó, dòng thứ hai không loại trừ sự hiện diện của chúng trong mẫu.

Và đây là tùy chọn thứ hai mà tôi xóa tất cả các cụm từ có một ký tự rác, đơn giản và không thương tiếc, trong trường hợp của tôi đã giúp loại bỏ một lượng rất lớn các cụm từ trái tay.

(y | ts | e | n | g | w | wh | z | x | b | f | s | a | p | r | l | d | w | e | h | m | t | b | b | y )

Tôi đã loại trừ khỏi mẫu tất cả các cụm từ nơi xuất hiện "Moscow", bởi vì có rất nhiều cụm từ thuộc loại:

và tôi cần nó, bạn tự đoán tại sao.

Sergey Arsentiev

KeyCollector (Bộ sưu tập khóa): biên dịch chuyên nghiệp lõi ngữ nghĩa.

Cốt lõi ngữ nghĩa là cơ sở để thúc đẩy thành công bất kỳ dự án Internet nào. Vì vậy, cần hết sức lưu ý khâu này. Để làm điều này, bạn có thể sử dụng chương trình phổ biến nhất để thu thập các truy vấn tìm kiếm chính - KeyCollector.

KeyCollector là một chương trình trả phínhưng giá trị từng đô la chi cho nó.

Nó là một trình phân tích cú pháp thực sự tuyệt vời và mạnh mẽ cho nhiều loại chỉ số, từ từ khóa, giá thầu trong Yandex.Direct và Google.Adwords, kiểm tra sự phụ thuộc địa lý và tính đúng đắn của các dạng từ, mức độ cạnh tranh và kết thúc bằng phân tích dữ liệu nâng cao của các nhà tổng hợp SEO hàng đầu.

Đơn giản là không thể mô tả tất cả các tính năng của chương trình trong một bài báo, vì vậy bây giờ tôi sẽ tập trung vào điều quan trọng nhất trong số đó - biên dịch chuyên nghiệp của lõi ngữ nghĩa.

Có thể có khá nhiều phương pháp để chọn, lọc và nhóm các yêu cầu, nhưng tôi sẽ mô tả quá trình chọn khóa bằng Trình thu thập khóa chính xác như tôi đã "quen" thực hiện với một lượng thời gian tối thiểu và đạt được kết quả mong muốn. Thông thường, tôi mất khoảng 10-15 phút để tìm chìa khóa cho một chủ đề được quảng bá. Vậy hãy bắt đầu.

Ngay khi mở, Key Collector sẽ đề nghị tạo một dự án mới hoặc mở một dự án cũ. Trong một dự án, bạn nên chọn và lưu trữ các truy vấn chính cho toàn bộ trang web nếu nó tương đối nhỏ, ví dụ: lên đến 1000 trang. Do đó, tên dự án của tôi thường là tên của trang web.

Vì vậy, chúng tôi tạo một dự án mới, lưu nó dưới bất kỳ tên nào và trước hết chúng tôi chỉ ra địa chỉ trang web ở đầu trang trong trường URL.

Tiếp theo, chúng tôi chỉ ra khu vực mà bạn muốn thu thập yêu cầu. Để thực hiện việc này, nhấp vào cuối chương trình trên mỗi nút Khu vực (có 4 khu vực trong số họ) và chọn khu vực mong muốn trong cửa sổ xuất hiện. Chúng tôi sẽ cần nút đầu tiên để thu thập số liệu thống kê và định dạng từ từ Yandex.Wordstat, nút thứ hai để lấy tần số từ Yandex.Direct, nút thứ ba để phân tích mức độ cạnh tranh và nút cuối cùng để thu thập thống kê từ Google.

Cài đặt cơ bản.

Bây giờ bạn cần cấu hình bộ sưu tập thống kê từ Yandex. Nó được cấu hình theo mặc định, nhưng bạn cần thực hiện các thay đổi nhỏ tùy thuộc vào nhiệm vụ cụ thể của việc biên dịch lõi ngữ nghĩa.

Đầu tiên, chỉ định giới hạn tần suất thấp hơn cho các cụm từ được thêm vào. Điều này được thực hiện trong mục "Thêm cụm từ có tần suất từ" vào bảng. Nếu mục tiêu của bạn là thu thập hàng nghìn truy vấn tần suất thấp, hãy đặt một phạm vi gần đúng 5-50 ... Nếu bạn cần thu thập các yêu cầu tần suất cao, hãy đặt giới hạn tần suất thấp hơn từ 50... Trong tất cả các trường hợp khác, tham số mặc định phù hợp: từ 10.

Bạn nên chọn hộp "Tự động ghi 0". Trong trường hợp này, khi thu thập một số truy vấn tần suất thấp, sẽ không có kết quả trống.

Bạn có thể nhận thấy rằng chúng tôi để độ sâu phân tích cú pháp bằng 0. Sẽ không hợp lý khi sử dụng độ sâu lớn hơn khi thu thập các truy vấn khu vực thông thường, vì các truy vấn thường ít hơn 40 trang, được đặt theo mặc định. Chỉ nên đặt độ sâu là 1 nếu nhiệm vụ là thu thập tối đa các khóa liên quan cho các truy vấn có tần suất rất cao và đồng thời bạn phải chỉ định một giá trị phù hợp, ví dụ: 100 trong mục "Không thêm các cụm từ cho nghiên cứu chuyên sâu với tần suất cơ bản bằng hoặc thấp hơn".

Tôi thường tăng độ trễ giữa các yêu cầu một chút. Với giá trị 8000-15000, captcha của tôi không bao giờ xuất hiện mà không có bất kỳ máy chủ proxy nào và tốc độ làm việc ở mức chấp nhận được.

Nhưng nếu hình ảnh xác thực xuất hiện quá thường xuyên, thì lựa chọn hợp lý nhất, tất nhiên là sử dụng máy chủ proxy, ở đây có một proxy dành riêng cho Keycollector https://proxy-sale.com

Bạn chỉ cần mở tab Yandex.Direct trong cùng cài đặt và thêm 5-6 tài khoản giả được tạo đặc biệt dưới dạng địa chỉ: mật khẩu.

Chương trình được thiết lập và sẵn sàng thu thập từ khóa.

Bộ sưu tập các cụm từ chính.

Cá nhân tôi thấy việc thu thập từ khóa là thuận tiện nhất cho một trang cụ thể... Mặc dù trước tiên, một số SEO thích thu thập hàng nghìn cụm từ và sau đó phân tán chúng trên các trang bằng bộ lọc.

Trong bài viết này, tôi sẽ xem xét tùy chọn đầu tiên, vì nó đơn giản hơn và theo tôi, đúng hơn và phù hợp hơn khi biên dịch cốt lõi để quảng cáo các trang web kinh doanh thông thường hoặc cùng một blog.

Nhấp vào biểu tượng thu thập thống kê Yandex.WordStat và nhập danh sách các khóa phù hợp với trang hoặc phần trang được quảng bá. Ở đây, bạn cần thể hiện một chút trí tưởng tượng và nghĩ ra tất cả các loại từ có thể phản ánh bản chất của trang của bạn và nhờ đó khách truy cập tiềm năng có thể tìm kiếm trang web được quảng cáo trong tìm kiếm.

Nếu trí tưởng tượng của bạn hạn hẹp, chỉ cần tìm theo cách thủ công các ví dụ về các truy vấn tìm kiếm tương tự trong cùng một Yandex ,.

Tất nhiên, bạn có thể thu thập các gợi ý bằng cách sử dụng cùng một chương trình KeyCollector, nhưng khi biên dịch lõi ngữ nghĩa cho một phần hoặc trang cụ thể, thường là không cần thiết và nhanh hơn nếu chỉ lái xe bằng một vài từ chung chung, thường thì không có nhiều trong số đó, chỉ 5-10 cho mỗi trang được quảng cáo.

Không cần phải lo lắng về phần kết thúc hoặc dạng từ, chương trình sẽ tìm tất cả các tùy chọn - chỉ cần lái xe bằng những từ chung chung nhất phù hợp với nghĩa và loại trừ các cách hiểu khác.

Đối với một bài viết về đánh giá trao đổi các liên kết vĩnh viễn, ban đầu tôi sử dụng các từ sau:

Nếu tôi chỉ sử dụng từ "trao đổi", thì chương trình sẽ đưa ra rất nhiều thứ không phù hợp với nội dung bài viết của tôi, ví dụ như về cổ phiếu, đầu cơ chứng khoán, trao đổi lao động, v.v. Và đối với truy vấn "trao đổi liên kết", nhiều loại kết hợp đã được tìm thấy, trong khi rất phù hợp với trang của tôi, bao gồm "trao đổi liên kết tốt nhất", "trao đổi liên kết vĩnh cửu", v.v.

Đồng thời, từ "miralinks" nói chung được sử dụng một mình tốt nhất để tìm ra số lượng tùy chọn lớn nhất có thể cho các truy vấn với từ này: xét cho cùng, nó chỉ được gõ bởi những người quan tâm đến chủ đề cụ thể này chứ không phải người khác.

Chúng tôi lọc ra phần dư thừa.

Sau khi thu thập từ khóa bằng chương trình KeyCollector, danh sách tất cả các cụm từ được tìm thấy trong thống kê tìm kiếm tương ứng với các tham số đã định cấu hình sẽ xuất hiện trên tab hiện tại.

Trong số đó, có hai loại khóa không phù hợp để khuyến mại:

Các phím có ít lần xuất hiện trực tiếp.
Các khóa chứa từ khóa phủ định.

Các phím có số lần xuất hiện trực tiếp nhỏ.

Tôi đã viết trước đó nó là gì, bây giờ tôi sẽ chỉ lặp lại bản thân mình một chút. Ban đầu, chương trình thu thập các truy vấn chính với tần số cơ bản... Điều này có nghĩa là số lượng một yêu cầu nhất định mỗi tháng sẽ bao gồm tất cả các biểu mẫu từ có yêu cầu này.

Ví dụ: truy vấn "liên kết mua trao đổi" \u003d 55 lần hiển thị mỗi tháng. Nhưng những lần hiển thị này sẽ bao gồm nhiều biến thể của truy vấn này, ví dụ: "đánh giá trao đổi mua liên kết" hoặc "trao đổi mua liên kết sape", v.v.
Để quảng bá trang web, không thể sử dụng tất cả các tùy chọn này cùng một lúc, vì các truy vấn chính sẽ cần phải được viết bằng thẻ meta, có khối lượng rất nhỏ, được thêm vào các tiêu đề và tiêu đề phụ của trang, cũng không cao su và không viết quá mức với mật độ bình thường, nhập vào văn bản.

Do đó, hợp lý là chọn các yêu cầu phổ biến nhất và tối ưu hóa trang cụ thể cho chúng, để càng nhiều người truy cập vào trang được quảng cáo càng tốt. Và có bao nhiêu lần hiển thị trên "trao đổi mua liên kết" mà không có bất kỳ bổ sung và biến thể nào? Để làm điều này, bạn cần thu thập dữ liệu với tần suất được gọi là "!".

Bắt đầu nào.
Nhấp vào biểu tượng Trực tiếp, chọn hộp kiểm bên cạnh "! Word" và nhấp vào "Lấy dữ liệu".

Như bạn có thể thấy, số lượng yêu cầu trực tiếp cho khóa "liên kết mua trao đổi" là khá nhỏ - chỉ 3 (!) Yêu cầu mỗi tháng, thay vì 55. Vì vậy, cá nhân tôi không thấy điểm trong việc tối ưu hóa trang cho yêu cầu này.

Do đó, điều quan trọng là phải lọc ra tất cả các truy vấn có ít lần xuất hiện chính xác trực tiếp trong tìm kiếm, ví dụ: nhỏ hơn 5. Để thực hiện việc này nhanh chóng, chỉ cần sắp xếp tất cả các khóa được thu thập theo tần suất chính xác "!".

Sau đó, chọn các dòng chứa các từ không đủ tần suất và xóa chúng.
10 giây, và một danh sách hàng trăm từ thường được rút ngắn 3-5 lần. Bây giờ sẽ hợp lý khi loại bỏ các khóa không liên quan còn lại.

Các phím có từ khóa phủ định.

Nó là gì? Đây là một truy vấn tìm kiếm được sử dụng để tìm kiếm một trang không được quảng cáo và rõ ràng không phải là khách hàng tiềm năng.
Ví dụ: đối với một cửa hàng bán máy hút bụi, các yêu cầu không liên quan như vậy có thể là các khóa có từ "hướng dẫn", "đánh giá",
Có nghĩa là, yêu cầu "hướng dẫn sử dụng máy hút bụi samsung" khó có thể hữu ích đối với chủ một cửa hàng trực tuyến thông thường, bởi vì ngay cả khi có nhiều người xem qua nó, họ sẽ tối đa chỉ tải hướng dẫn này và hoàn toàn không mua một máy hút bụi mới.

Trong trường hợp của tôi, bạn nên xóa các khóa có từ "script", "www", v.v.

Bắt đầu nào.
Bấm vào nút Stop Words. Trong cửa sổ xuất hiện, hãy nhập từ khóa phủ định, đảm bảo rằng ở cuối loại tìm kiếm xuất hiện là "Từ dừng độc lập với hình thức từ". Điều này là cần thiết để không viết mọi từ khóa phủ định trong một đối sánh chính xác mà để sử dụng các từ khóa phủ định tổng quát hơn.
Trong trường hợp này, khi sử dụng, ví dụ: từ phủ định "người hướng dẫn", các truy vấn tìm kiếm "hướng dẫn máy hút bụi", "hướng dẫn tải xuống máy hút bụi", v.v. sẽ bị xóa, tức là các truy vấn có dạng từ bất kỳ.

Nhấp vào "Đánh dấu trong bảng" và kết quả là tất cả các từ khóa có chứa từ khóa phủ định trở thành hộp kiểm.

Bây giờ tất cả những gì còn lại là xóa chúng.
Mở tab "Dữ liệu" ở trên cùng, chọn "Xóa các cụm từ đã đánh dấu" và thế là xong - bây giờ bạn có một danh sách các khóa mà không có bất kỳ yêu cầu liên quan nào.

Chúng tôi xác định mức độ cạnh tranh.

Một tính năng tuyệt vời của chương trình KeyCollector là phân tích cú pháp dữ liệu về số lượng trang được lập chỉ mục được tìm thấy cho mỗi truy vấn tìm kiếm, số lượng trang web trong TOP-10 có chứa cụm từ khóa này trong tiêu đề của trang Tiêu đề và cũng có bao nhiêu trang từ mười trang hàng đầu cho các yêu cầu này là trang chính.

Rõ ràng là càng có nhiều trang được lập chỉ mục, tiêu đề và trang chính được tối ưu hóa trong SERP thì càng khó cạnh tranh với chúng.

Tuy nhiên, rất phổ biến các truy vấn tần suất cao có sự cạnh tranh tương đối ít. Do đó, điều rất quan trọng là phải phân tích tất cả các truy vấn khóa đã thu thập được để biết mức độ cạnh tranh nhằm chọn và quảng bá các khóa có lợi nhất và không bị chiếm dụng.

Để thực hiện việc này, hãy nhấp vào biểu tượng "KEI" và chọn "Lấy dữ liệu cho Yandex PS".
Tất nhiên, bạn có thể làm rõ mức độ cạnh tranh trong các công cụ tìm kiếm khác, điều đó phụ thuộc vào nhiệm vụ quảng bá, nhưng trong hầu hết các trường hợp, Yandex đủ để có được bức tranh khách quan về độ khó của việc quảng cáo một truy vấn cụ thể.

Tất nhiên, mức độ định nghĩa về cạnh tranh này là không hoàn hảo. Sẽ rất lý tưởng nếu chương trình cũng có thể phân tích cú pháp cho từng yêu cầu:

Các trang web có TCI và PR trung bình trong TOP-10.
Kích thước trang trung bình.
Số lượng liên kết đến trung bình đến đối thủ cạnh tranh, v.v.

Trong trường hợp này, kết quả sẽ chính xác hơn.
Nhưng như thực tế cho thấy, ngay cả một phân tích "sơ lược" về cạnh tranh như vậy cũng đủ để tìm thành công các khóa sinh lời và nhanh chóng di chuyển theo chúng, vì nhiều trình tối ưu hóa hoàn toàn không tiến hành và kết quả là nhiều trang web được quảng bá theo các truy vấn cạnh tranh phức tạp, mặc dù chúng "nói dối" yêu cầu với tần suất không ít và hoàn toàn không có đối thủ cạnh tranh được tối ưu hóa.

Cách thu thập các từ khóa phủ định cho Yandex Direct, cũng như các ngữ nghĩa rõ ràng nhất và bán chạy nhất cho các chiến dịch quảng cáo của bạn.

Có 2 cách tiếp cận để thu thập các từ khóa và cụm từ phủ định:

Phương thức cấp tốc

Nhiều chuyên gia giám đốc cung cấp các phương pháp đối sánh trong 20 phút, 10 phút hoặc ít hơn.

Vấn đề là bạn thu thập kết quả đầu ra từ Wordstat, chuyển nó sang Excel hoặc một chương trình tương tự và kéo ra các phím và các từ bổ sung có liên quan từ đó, cuối cùng bạn sẽ có một danh sách các điểm nhỏ.

Tại sao phương pháp này không tốt và tại sao tôi sẽ dạy bạn một phương pháp khác:

- Tính hạn chế.

Wordstat giúp bạn chỉ có thể thu thập các yêu cầu cho 40 trang đầu tiên. Ngay cả khi bạn không thu thập từng yêu cầu bằng bút, nhưng với sự trợ giúp của một số plugin, bạn sẽ ngồi như một kẻ ngốc và lật bốn mươi trang.

- Không có khả năng thu thập một danh sách đầy đủ các từ dừng.

Do những hạn chế của wordstat, bạn sẽ biên dịch một danh sách khá, nhưng không phải là một danh sách hoàn chỉnh. Điều này đặc biệt đúng đối với ngữ nghĩa rộng như căn hộ ở Moscow. Ở đó, các yêu cầu cho trang cuối cùng xuất hiện với tần suất 300 yêu cầu. Và bạn phải rời đi ở tuổi 30 hoặc ít hơn, vì nếu bạn chỉ cho mình những yêu cầu không phù hợp, thậm chí tần suất thấp, bạn sẽ đổ ra rất nhiều tiền và càng nhiều nước mắt, càng đắt.

Ngoài ra, trong nhiều ngách, kết quả tìm kiếm trên thiết bị di động rất quan trọng và Yandex luôn thông minh với vị trí địa lý trong điện thoại - Nizhny Novgorod liên tục xác định tôi thay vì Saratov. Để SERP có liên quan đến địa lý, bạn sẽ phải bật nhắm mục tiêu theo địa lý mở rộng, nhưng đồng thời trừ đi tất cả các thành phố mà bạn không muốn hiển thị.

Phương thức cấp tốc sẽ không cho bạn cơ hội như vậy, bạn phải tự mình thêm vào.

- VÀ QUAN TRỌNG NHẤT: với sự giúp đỡ của phương pháp của tôi, bạn, ngoài danh sách các điểm yếu, sẽ thu thập TẤT CẢ các từ khóa mục tiêu!

Thu thập các từ khóa phủ định trongKay Collector

Sẽ dễ dàng và thuận tiện hơn nhiều để phân tích ngữ nghĩa và các từ "xấu" cho nó trong các dịch vụ đặc biệt. Bạn có thể sử dụng trình phân tích cú pháp Slovoebom, Magadan miễn phí (có phiên bản miễn phí), v.v., có khá nhiều chương trình.

Tôi sẽ chỉ cho bạn cách lọc các từ dừng trong Trình thu thập chính và đồng thời nhận được ngữ nghĩa chuyển đổi rõ ràng cho quảng cáo.

Tất cả bắt đầu với thực tế là bạn thu thập các mặt nạ chính (hướng dẫn phân tích cú pháp) từ wordstat hoặc ước tính ngân sách chiến dịch quảng cáo, sau đó nhân chúng và mang chúng đến Người thu thập chìa khóa.

Ví dụ, nhiệm vụ là làm sạch ngữ nghĩa cho việc bán đồ phượt ở Moscow. Chúng tôi đã thu thập tất cả các yêu cầu, chúng tôi xem hình ảnh:

1. Chuyển đến cửa sổ dừng từ.

2. Trong đó, chọn kiểu tìm kiếm lần xuất hiện: Độc lập với dạng dừng từ. Vì vậy, chúng tôi sẽ lấy tất cả các biến thể của một từ (thuê, thuê, thuê).

3. Nhấp vào dấu cộng màu xanh lá cây.

4. Trong cửa sổ thả xuống, quy định các từ có hại (được phân tách bằng dấu phẩy, bạn có thể trên một dòng mới).

Viết từ khóa phủ định nào ở đây?

Để bắt đầu, những thứ rõ ràng nhất là những thứ thể hiện ý định không mua, chẳng hạn như để xem các bài đánh giá hoặc tự xử lý: như thế nào, cái gì, tốt hơn, miễn phí, bằng chính tay bạn, loại sửa chữa, hình ảnh, video. Nếu bạn đang bán một sản phẩm mới và không sử dụng bảng tin, hãy thêm "avito". Vân vân.

Ở đây, cần phải đi sâu vào thị trường ngách, hiểu rõ đặc thù của các quy trình bán hàng và suy nghĩ của khách hàng khi tìm kiếm. Điều quan trọng khi lựa chọn những đặc điểm, điều khoản mua hàng, giao hàng, bảo hành hoặc dịch vụ là gì.

5. Nhấn nút "Đánh dấu các cụm từ trong bảng".

6. 15-20 từ rõ ràng nhất đã cho tôi 396 truy vấn tạp nham. Chúng tôi mang chúng vào giỏ.

Chọn "Chuyển cụm từ sang nhóm khác", trong cửa sổ thả xuống, nhấp vào "Thùng rác" và sau đó "OK". Chiêm ngưỡng kết quả (khoanh xanh):

NHƯNG! Chúng tôi chưa hoàn thành những yêu cầu này. Chúng tôi đi đến giỏ hàng và xem xét các yêu cầu về tính khả dụng của thương mại. Chúng tôi thấy một chìa khóa như vậy "mua ảnh bạt lò xo giá":

Nhấn Ctrl + nhấp vào nó, chương trình chuyển chúng tôi đến Yandex với việc phát hành yêu cầu này. Cuộn qua, theo các liên kết và thấy rằng khóa là thương mại:

Kéo nó trở lại.

7. Phía trên danh sách trong trường "bộ lọc nhanh", hãy viết từ "giá" và phân tích:

Tương tự, bạn lọc theo các từ bán hàng khác (mua, đặt hàng, thành phố, giá cả) và lấy lại các chìa khóa bạn cần. Trong cái ngách này, người ta mò cá ba ba mà không có lưới, cuối cùng cũng lọt rổ, tôi sẽ đưa về tổ công tác.

8. Bước tiếp theo là loại bỏ các khóa chưa hoàn chỉnh.

Đây là những truy vấn có tần số cơ bản là số tương đối và số không trong phần trích dẫn (khi cụm từ bao gồm các dạng từ, nhưng không bao gồm các từ khác).

Nói cách khác, ở dạng này mà không ai tìm kiếm chúng và chúng có thể có các mục nhập trong các truy vấn với ngữ nghĩa rộng hơn, hoặc đơn giản chỉ là thông tin. Người ta không viết: "a trampoline with a net cm" - có thể có nghĩa là tấm bạt lò xo có đường kính nhất định. Và đây đã là một chìa khóa thông tin.

Thủ tục: nhấp vào trường "Tần số" "và do đó sắp xếp các tần số với dấu ngoặc kép theo thứ tự giảm dần. Di chuyển đến tần số 0 và xem. Chúng tôi thấy như sau:

Chúng tôi xóa tất cả mọi thứ như vậy, nếu không chúng tôi sẽ không còn tiền.

9. Làm sạch các thành phố.

Chúng tôi đã viết cách độc lập xây dựng cốt lõi ngữ nghĩa ... Nhưng trước khi bạn phân loại các truy vấn của mình, bạn cần phải làm sạch chúng. Làm thế nào để loại bỏ tám cấp độ của xỉ và để lại bạc nguyên chất? Sẽ mất một tài khoản với Key Collector và 12 phút để đọc bài đăng này.

1. Làm sạch lõi ngữ nghĩa bằng các từ đánh dấu

Bạn cũng có thể thêm tất cả các từ không cần thiết trực tiếp từ danh sách đầy đủ các truy vấn. Trong trường hợp này, chúng tôi tạo một nhóm riêng biệt - đặc biệt cho các từ dừng như vậy.

Thuật toán các hành động:

5. Dọn dẹp kernel bằng chức năng phân tích nhóm từ

Các nhóm được đánh dấu trong bảng sẽ tự động được đánh dấu trong danh sách yêu cầu chính. Sau khi tất cả các từ không phù hợp đã được đánh dấu, hãy đóng bảng và xóa tất cả các truy vấn không cần thiết.

6. Tìm và loại bỏ các bản sao ngầm

Để sử dụng phương pháp này, trước tiên bạn phải thu thập thông tin về tần suất yêu cầu. Sau đó, chuyển đến tab "Dữ liệu" - "Phân tích các bản sao ngầm":

Chương trình sẽ tự động đánh dấu tất cả các bản sao tiềm ẩn, tần suất của chúng thấp hơn trong công cụ tìm kiếm được chỉ định.

7. Tìm kiếm thủ công theo nhóm truy vấn

Cuối cùng, bạn có thể tự đánh dấu tất cả các từ không cần thiết trong lõi ngữ nghĩa: tiếng lóng, từ sai chính tả, v.v. Mảng chính của các yêu cầu không liên quan đã được dọn dẹp trước đó, vì vậy việc dọn dẹp thủ công sẽ không mất nhiều thời gian.

8. Xóa truy vấn theo tần suất

Sử dụng bộ lọc nâng cao trong KeyCollector, chúng tôi đặt các thông số về tần suất yêu cầu và đánh dấu tất cả các cụm từ có tần suất thấp. Giai đoạn này là cần thiết không phải luôn luôn.

kết luận

Để làm sạch định tính lõi ngữ nghĩa của rác, bạn nên thực hiện tám bước trong KeyCollector:

Làm sạch lõi ngữ nghĩa bằng các từ đánh dấu.
Loại bỏ các từ trùng lặp.
Xóa các chữ cái Latinh, các ký tự đặc biệt, các truy vấn có số.
Dọn dẹp nhân bằng chức năng phân tích nhóm từ.
Tìm và loại bỏ các bản sao ngầm.
Tìm kiếm thủ công theo nhóm yêu cầu.
Xóa truy vấn theo tần suất.

Ở mỗi giai đoạn, nên xem lại các từ được đánh dấu để xóa, vì có nguy cơ xóa các truy vấn chất lượng cao và có liên quan.

Thay vì loại bỏ các truy vấn không cần thiết, tốt hơn là tạo một nhóm riêng biệt và di chuyển chúng đến đó. Trong các bản cập nhật gần đây cho Key Collector, một nhóm mặc định tương ứng đã được thêm vào - "Thùng rác".

Sau khi làm sạch kỹ lưỡng lõi ngữ nghĩa, bạn có thể tiến hành giai đoạn tiếp theo - phân cụm và nhóm các truy vấn.

Lưu ý rằng luôn có nguy cơ bỏ lỡ một vài yêu cầu không liên quan trong quá trình dọn dẹp hạt nhân. Chúng chỉ rất dễ xác định và loại bỏ ở giai đoạn phân nhóm, nhưng sẽ nhiều hơn ở lần sau.

Bài viết mới nhất

06.11.2020
Bài viết được gắn thẻ bài học hymp Nhiệm vụ cấp bách nhất
31.10.2020
Dừng lời cho Kay Collector là cơ sở hoàn chỉnh nhất!
31.10.2020
Tất cả các thuộc tính css html của bảng

Các bài viết phổ biến

Lựa chọn của người biên tập

31.10.2020

EA Analyzer Pro: xác định các phiên bản phát triển của các sự kiện trên Forex Cài đặt chương trình EA Analyzer
Đặc điểm chính khác biệt giữa nhà giao dịch chuyên nghiệp với người mới bắt đầu là khả năng tự phê bình và xem xét nội tâm. Vấn đề là đối với tất cả những sai lầm ...
31.10.2020

Các chương trình tốt nhất để nhận dạng và quét văn bản
Chúng tôi giới thiệu cho bạn các chương trình chú ý để nhận dạng và quét văn bản, nhờ đó bạn có thể tối ưu hóa quá trình số hóa tài liệu, ...
31.10.2020

Tính toán từng bước một công thức trong Excel
Dữ liệu ban đầu và công thức để tính toán các giá trị kết quả được nhập vào bảng tính. Bất kỳ thay đổi nào đối với dữ liệu gốc đều gây ra ...
31.10.2020

Áp dụng các lớp điều chỉnh trong Photoshop
Adobe Photoshop phức tạp bởi độ bão hòa của nó. Các hành động thông thường có thể được thực hiện theo nhiều cách khác nhau. Điều này thật tiện lợi khi bạn ...
31.10.2020

Công thức tính hàm z trong excel
Bài thực hành số 20 Thực hiện các phép tính trong Excel Mục đích: học cách thực hiện các phép tính trong Excel Thông tin từ lý thuyết Tất cả các phép tính trong chương trình MS ...