Analiza linków SEO w Pythonie

Łukasz Wesołowski | 4 grudnia 2023 | Poradnik | Brak komentarzy

analiza linków SEO w Pythonie

Nawiązując do poprzedniego artykułu, nie mogłem odpuścić gdyż miałem zdecydowanie za mało danych. W tym artkule chciałbym zaprezentować wyniki do jakich udało mi się dojść. Wspomnę, że analizie została poddana domena z branży motoryzacji i usług i prace przebiegały tylko i wyłącznie na podstawie jednego pliku z Ahrefs.

Podstawowe dane

descript

W dużej mierze warto jest na początku dowiedzieć się z jakimi danymi przyjdzie nam pracować. Niezwykle istotnym jest również to, aby dane wyczyścić z niepotrzebnych rzeczy, które de facto mogą mieć wpływ na późniejszą analizę i formułowanie wniosków. Właśnie dlatego po wyczyszczeniu niektórych kolumn i wierszy postanowiłem pracować na poniższych danych.

wyczyszczone dane

Jeśli chodzi o cyfry to są one następujące:

  • Łączna ilość domen – 1127
  • Średni DR – 46
  • Odchylenie standardowe dla DR – około 13
  • Minimalny DR – 0
  • Percentyl 25% DR – 43
  • Percentyl 50% DR – 46
  • Percentyl 75% DR – 53
  • Max DR – 79

Skupiłem się na domain rating dlatego, że jest to dość stabilna liczba i moim zdaniem stanowi znakomity punkt wyjścia do dalszej analizy.

Rozkład Domain Rating z odchyleniem standardowym

Jako pierwsze i podstawowe badanie chciałem poznać jak faktycznie rozkłada się DR oraz ile domen posiada dane wartości. W formie wykresu wygląda to następująco:

DR i odchylenie standardowe

Wykres przedstawia rozkład wartości Dromain Rating w zestawie danych, wraz z estymowaną krzywą gęstości (Kernel Density Estimate – KDE). Krzywa KDE pomaga zobaczyć, gdzie znajduje się środek rozkładu i jak szeroko rozłożone są dane, co jest związane z odchyleniem standardowym.

Jak można zauważyć najwięcej w zestawieniu jest domen z DR około 45 i ich ilość wynosi ponad 160 sztuk. Czyli licząc na szybko jest to praktycznie 10% całego profilu linkowego.

DR w skali logarytmicznej (z podziałem na ruch)

W przypadku danych z długim ogonem, gdzie kilka wartości znacznie odbiega od reszty, często używa się logarytmicznej skali osi, aby lepiej zobrazować zarówno niskie, jak i bardzo wysokie wartości. Możemy zmodyfikować wykres, stosując skalę logarytmiczną dla osi X, aby lepiej zobrazować cały zakres Domain Rating, w tym te wysokie wartości.

dr w skali logarytmicznej

 

Z wykresu możemy zauważyć:

Większość domen ma stosunkowo niski ruch, co jest widoczne z wysokimi słupkami przy niższych wartościach ruchu (na lewej stronie wykresu).
Istnieje mniejsza liczba domen z wyższym ruchem, co jest widoczne z niższymi słupkami rozciągającymi się w prawo na skali logarytmicznej. To wskazuje na obecność domen z wyższym ruchem, choć są one mniej liczne.
Analiza ta pozwala zrozumieć, że większość linków pochodzi ze stron o niskim ruchu, ale są również linki z domen o wysokim ruchu. To ważne dla strategii linkowania, ponieważ pokazuje, że wartościowe mogą być linki z różnorodnych źródeł, zarówno o niskim, jak i wysokim ruchu.
 

Analiza ilości linków zewnętrznych

Tutaj przede wszystkim chciałem wiedzieć jak liczba linków zewnętrznych (External links) na stronie odsyłającej wpływa na wartość tej strony jako źródła odnośników.

dr i external links

Z wykresu możemy zauważyć:

Większość stron ma stosunkowo niewielką liczbę linków zewnętrznych, co wskazuje na to, że są to strony z ograniczoną liczbą odnośników.
Istnieją pewne strony z dużo większą liczbą linków zewnętrznych, co widać z dłuższego ogona na wykresie w skali logarytmicznej. Może to wskazywać na strony o większym autorytecie lub na strony, które aktywnie gromadzą odnośniki.
Ta analiza może pomóc w zrozumieniu charakterystyki stron odsyłających do witryny. Strony z mniejszą liczbą linków zewnętrznych mogą być bardziej wartościowe jako źródło odnośników, ponieważ link do Twojej strony nie jest „zagubiony” wśród wielu innych. Z drugiej strony, strony z dużą liczbą linków zewnętrznych mogą mieć wyższy ruch, co również może być korzystne.

Porównanie External links do ruchu

Kolejną dość istotną kwestią było dla mnie zrozumienie jak ilość linków wychodzących z domeny linkującej ma się do ruchu, który dana strona generuje.

Linki i ruch

Użyłem palety kolorów od chłodnych do ciepłych (coolwarm), gdzie chłodniejsze kolory reprezentują niższy ruch, a cieplejsze – wyższy ruch.

Na tym wykresie możemy zobaczyć:

Koloryzacja i rozmiar punktów: Kolory i rozmiary punktów dają lepsze zrozumienie zależności między liczbą linków zewnętrznych a ruchem domenowym. Większe, cieplejsze punkty wskazują na strony z większym ruchem.
Rozkład i koncentracja punktów: Większość punktów skupia się w dolnym lewym rogu wykresu, co sugeruje, że większość stron ma niski ruch i niewiele linków zewnętrznych.
Ten sposób przedstawienia danych pozwala na bardziej intuicyjne zrozumienie, jak ruch domenowy koreluje z liczbą linków zewnętrznych.
 

Analiza ruchu na stronie

Następnym i dość istotnym czynnikiem było zbadanie jak rozkłada się ruch na stronach prowadzących do domeny pozycjonowanej.

analiza ruchu

Z wykresu możemy zauważyć:

Dominacja niskiego ruchu: Większość stron ma niski ruch, co widać z wysokich słupków przy niższych wartościach ruchu (na lewej stronie wykresu).
Obecność stron z wyższym ruchem: Istnieją również strony z wyższym ruchem, co widać z niższych słupków, które sięgają dalej na osi X.
Ta analiza może pomóc w identyfikacji stron, które są wartościowymi kandydatami do pozyskiwania linków, zwłaszcza tych z wyższym ruchem, które mogą przekierować znaczącą ilość odwiedzających na Twoją stronę.
 

Analiza słów kluczowych

Zbadanie rozkładu Keywords pomoże zrozumieć, ile słów kluczowych zazwyczaj przypisanych jest do stron odsyłających do danej strony www.

keywords

Na podstawie wykresu można zauważyć:

Dominacja niskiej liczby słów kluczowych: Większość stron ma bardzo niewiele słów kluczowych związanych z nimi, co widać z wysokiego słupka przy niższych wartościach. To sugeruje, że wiele stron odsyłających do witryny może nie być silnie związanych z konkretnymi tematami lub słowami kluczowymi.
Mniejsza liczba stron z większą liczbą słów kluczowych: Istnieje znacznie mniej stron z większą liczbą słów kluczowych, co wskazuje na to, że tylko niektóre strony odsyłające są silnie związane z określonymi tematami.
Ta analiza może być pomocna w zrozumieniu, jak strony odsyłające do witryny są związane z tematami lub słowami kluczowymi. Może to wskazywać na potencjalne obszary do wzmocnienia w strategii SEO, na przykład poprzez zdobywanie linków z bardziej tematycznie związanych stron.
 

Mapa korelacji

W tej sytuacji chciałem poznać jak wszystkie wskaźniki wpływają na siebie i czy w ogóle w jakikolwiek sposób oddziałują wobec siebie.

mapa korelacji

Wartości korelacji wahają się od -1 do 1, gdzie:

1 oznacza silną korelację dodatnią (gdy jedna zmienna wzrasta, druga również wzrasta).
-1 oznacza silną korelację ujemną (gdy jedna zmienna wzrasta, druga maleje).
Wartości bliskie 0 wskazują na brak lub bardzo słabą korelację między zmiennymi.
 
Na podstawie wykresu możemy zauważyć:

Korelacje między Domain Traffic a innymi zmiennymi: Korelacje są generalnie niskie, co sugeruje, że ruch domenowy nie jest mocno związany z ratingiem domeny, ruchem na stronie, ani liczbą linków zewnętrznych.
Korelacje między innymi zmiennymi: Pozostałe korelacje również są stosunkowo niskie, co wskazuje na to, że te zmienne działają dość niezależnie od siebie.
Niska korelacja między tymi zmiennymi może wskazywać na to, że każda z nich oddziałuje na witrynę w inny sposób, co podkreśla znaczenie zróżnicowanego podejścia do optymalizacji SEO.
 

Klasteryzacja

Warto było znaleźć wspólne punkty i sklasteryzować domeny w tym przypadku na 3 grupy. Jednak zanim to nastąpiło chciałem wiedzieć coś więcej na ten temat:

klaster

Po przeprowadzeniu grupowania i analizie charakterystyk każdego klastra otrzymujemy następujące wyniki:

Klaster 0:

Średni Domain Rating: 48.28
Średni Domain Traffic: 83,755 (bardzo wysoki)
Średnia liczba External Links: 9.24
Liczba domen w klastrze: 196
 
Klaster 1:

Średni Domain Rating: 41.79
Średni Domain Traffic: 2.18 (bardzo niski)
Średnia liczba External Links: 69.65 (wysoka)
Liczba domen w klastrze: 422
 
Klaster 2:

Średni Domain Rating: 47.54
Średni Domain Traffic: 71.42 (umiarkowany)
Średnia liczba External Links: 2.97
Liczba domen w klastrze: 509
 
Interpretacja wyników:

Klaster 0 może reprezentować domeny o wysokim autorytecie i bardzo wysokim ruchu, ale z niewielką liczbą linków zewnętrznych. Są to prawdopodobnie dobrze ustanowione i popularne strony.
Klaster 1 zawiera domeny o niższym autorytecie, bardzo niskim ruchu, ale z dużą liczbą linków zewnętrznych. Mogą to być strony typu „link farms” lub mniej wartościowe źródła.
Klaster 2 obejmuje domeny o umiarkowanym autorytecie i ruchu, ale z niewielką liczbą linków zewnętrznych. Są to prawdopodobnie standardowe strony internetowe.
 
Te informacje mogą być pomocne w zrozumieniu, jakie typy domen najczęściej odsyłają do Twojej witryny i mogą być wykorzystane do dalszego kształtowania strategii linkowania.
 
Więc chciałem jeszcze zbadać jak wyglądają one na osiach:
 
klasteryzacja
Zastosowano algorytm KMeans do grupowania domen na podstawie Domain Rating, Domain Traffic i liczby External Links. Dane zostały najpierw znormalizowane poprzez zastosowanie logarytmu naturalnego (by uwzględnić różnice w skali między zmiennymi), a następnie podzielone na 3 grupy (klaster).

Na wykresie przedstawiono wyniki grupowania, gdzie każdy punkt reprezentuje domenę, a kolor wskazuje na przynależność do jednego z trzech klastrów. Zarówno Domain Rating, jak i Domain Traffic są przedstawione w skali logarytmicznej, aby ułatwić ich interpretację.

Na podstawie wykresu można zauważyć:

Różnorodność grup: Istnieją wyraźne różnice między klastrami pod względem Domain Rating i Domain Traffic.
Klaster 0, 1, 2: Grupy te mogą reprezentować różne typy domen, na przykład domeny o niskim, średnim i wysokim autorytecie lub ruchu.
 
Analiza ta może być pomocna w zrozumieniu, jakie typy domen najczęściej odsyłają do strony i w identyfikacji potencjalnych segmentów rynku lub nisz, które można wykorzystać w strategiach marketingowych lub SEO.
 

Wnioski z analizy

W ramach strategii SEO  przeprowadziłem szczegółową analizę danych dotyczących linków przychodzących. Analiza ta opierała się na różnorodnych metrykach, takich jak Domain Rating (DR), Domain Traffic, External Links i inne. Oto kluczowe wnioski:

  1. Rozkład Domain Rating (DR)

    • Większość linków przychodzących pochodzi z domen o średnim DR, co wskazuje na zrównoważony profil linków. Domeny o wyższym DR również są obecne, choć w mniejszej liczbie.
  2. Analiza Ruchu Domenowego

    • Ruch domen odsyłających był zróżnicowany, z dominacją stron o niskim ruchu. Odkryłem również obecność domen o wysokim ruchu, które mogą przyczyniać się do zwiększonego ruchu na Twojej stronie.
  3. Liczba Linków Zewnętrznych

    • Większość stron odsyłających posiada stosunkowo niewielką liczbę linków zewnętrznych. To sugeruje, że linki do Twojej strony nie są 'rozcieńczane’ przez dużą liczbę innych linków na tych stronach.
  4. Ruch na Stronie

    • Podobnie jak w przypadku ruchu domenowego, większość stron odsyłających do witryny generuje niski ruch. Jednakże, istnieje grupa stron generujących znaczący ruch, co może być korzystne dla SEO.
  5. Korelacje między Zmiennymi

    • Analiza korelacji wykazała, że nie ma silnej zależności między DR, ruchem domenowym, ruchem na stronie i liczbą linków zewnętrznych, co sugeruje, że te metryki działają dość niezależnie od siebie.
  6. Grupowanie i Segmentacja

    • Klasterowanie domen ujawniło różne segmenty, w tym domeny o wysokim ruchu i DR, domeny z niskim ruchem, a także domeny o średnich wartościach tych metryk.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

SEO BLOG

Zapoznaj się z nowościami z branży SEO i zobacz co nowego jest na blogu

błąd http 410
Błąd HTTP 410 (Gone) – Co to jest i jak go naprawić?

Błąd HTTP 410, znany również jako „Gone”, jest jednym z rzadziej spotykanych, ale ważnych błędów, które mogą pojawić się...

ta witryna jest nieosiągalna
Ta witryna jest nieosiągalna – co oznacza i jak naprawić?

Natrafienie na komunikat „ta witryna jest nieosiągalna” może być wyjątkowo irytujące, zwłaszcza gdy pilnie potrzebujesz dostępu do ważnych informacji...

strona niewidoczna w google
Dlaczego Twoja strona jest niewidoczna w Google i jak to naprawić

Czy zastanawiałeś się kiedyś, dlaczego Twoja strona internetowa nie pojawia się w wynikach wyszukiwania Google? Widoczność w Google to...

audyt seo cennik
Audyt SEO – cennik

Inwestycja w audyt SEO jest niezbędnym krokiem dla każdego, kto chce poprawić widoczność swojej strony internetowej w wynikach wyszukiwania...

SEO BLOG