כיצד לחסום גישה ל-SeekportBot או אחר גrawלחצתי על אתר

רוב הזמן, כאשר אתה צריך לחסום גישה SeekportBot או אחרים crawl bots עם אתר, הסיבות לכך פשוטות. עכביש האינטרנט מבצע יותר מדי גישה בפרק זמן קצר ומבקש את המשאבים של שרת האינטרנט, או שהוא מגיע ממנוע חיפוש שבו אינך רוצה שהאתר שלך יתווסף לאינדקס.

זה מאוד מועיל לאתר שבו ביקר crawנתקלתי בו. עכבישי האינטרנט הללו נועדו לחקור, לעבד ולהוסיף לאינדקס את התוכן של דפי אינטרנט במנועי חיפוש. גוגל ובינג משתמשות בכזה גrawנתקלתי בו. עם זאת, ישנם גם מנועי חיפוש המשתמשים ברובוטים כדי לאסוף נתונים מדפי אינטרנט. Seekport הוא אחד ממנועי החיפוש הללו, המשתמש ב-crawה-SeekportBot ler לאינדקס דפי אינטרנט. למרבה הצער, לפעמים הוא משתמש בו בצורה מוגזמת ויוצר תנועה מיותרת.

מה זה SeekportBot?

SeekportBot הוא web crawler שפותחה על ידי החברה Seekport, שבסיסה בגרמניה (אך משתמש בכתובות IP ממספר מדינות, כולל פינלנד). בוט זה משמש לסריקה ואינדקס של אתרים כך שניתן יהיה להציגם בתוצאות של מנוע החיפוש. Seekport. מנוע חיפוש לא פונקציונלי, למיטב ידיעתי. לפחות, זה לא החזיר לי שום תוצאות עבור שום ביטוי מפתח.

SeekportBot להשתמש user agent:

"Mozilla/5.0 (compatible; SeekportBot; +https://bot.seekport.com)"

כיצד לחסום גישה ל-SeekportBot או אחר גrawלחצתי על אתר

אם הגעתם למסקנה שעכביש האינטרנט הזה או אחר, אין צורך לסרוק את כל האתר שלכם ולעשות תנועה מיותרת לשרת האינטרנט, יש לכם מספר שיטות בהן תוכלו לחסום את הגישה שלהם.

חומת אש ברמת שרת האינטרנט

הם יישומי חומת אש open-source אשר ניתן להתקין על מערכות הפעלה Linux וניתן להגדיר אותו לחסום תעבורה על סמך מספר קריטריונים. כתובת IP, מיקום, יציאות, פרוטוקולים או סוכן משתמש.

APF (Advanced Policy Firewall) היא תוכנה כזו שדרכה ניתן לחסום בוטים לא רצויים, ברמת השרת.

מכיוון ש-SeekportBot ועכבישי אינטרנט אחרים משתמשים במספר בלוקים של כתובות IP, כלל החסימה היעיל ביותר מבוסס על "user agent". אז, אם אתה רוצה לחסום את הגישה SeekportBot באמצעות APF, כל מה שאתה צריך לעשות הוא להתחבר לשרת האינטרנט באמצעות SSH, והוסיפו את כלל הסינון בקובץ התצורה.

1. פתח את קובץ התצורה עם nano (או מוציא לאור אחר).

sudo nano /etc/apf/conf.apf

2. חפש את השורה שמתחילה ב-"IG_TCP_CPORTS" והוסיפו את סוכן המשתמש שברצונכם לחסום בסוף שורה זו, ואחריו פסיק. לדוגמה, אם אתה רוצה לחסום user agent "SeekportBot", השורה צריכה להיראות כך:

IG_TCP_CPORTS="80,443,22" && IG_TCP_CPORTS="$IG_TCP_CPORTS,SeekportBot"

3. שמור את הקובץ והפעל מחדש את שירות APF.

sudo systemctl restart apf.service

גישת "SeekportBot" תיחסם.

לְסַנֵן web crawls בעזרת Cloudflare - חסום גישה של SeekportBot

בעזרת Cloudflare, זו נראית לי השיטה הבטוחה והנוחה ביותר באמצעותה ניתן להגביל את הגישה של כמה בוטים לאתר בדרכים שונות. השיטה בה השתמשתי גם במקרה SeekportBot לסנן תנועה לחנות מקוונת.

בהנחה שכבר הוספת את האתר ל-Cloudflare ושירותי ה-DNS מופעלים (כלומר, התעבורה לאתר עוברת דרך Cloudflare), בצע את השלבים הבאים:

1. פתח את חשבון Clouflar שלך ועבור לאתר שאליו ברצונך להגביל את הגישה.

2. עבור אל: Security → WAF ולהוסיף כלל חדש. Create rule.

3. בחר שם לכלל החדש, Field: User Agent - Operator: Contains - Value: SeekportBot (או שם בוט אחר) - Choose action: Block - Deploy.

כיצד לחסום גישת SeekportBot
חסום גישה ל-SeekportBot מ-Cloudflare

תוך שניות ספורות, הכלל החדש WAF (Web Application Firewall) זה מתחיל להשפיע.

אירועי חומת אש ב-Cloudflare
אירועי חומת אש ב-Cloudflare

בתיאוריה, ניתן לקבוע את התדירות שבה עכביש רשת ניגש לאתר robots.txt, אבל... זה רק בתיאוריה.

User-agent: SeekportBot
Crawl-delay: 4

רבים web crawlerii (למעט Bing ו-Google) אינם פועלים לפי הכללים האלה.

לסיכום, אם אתה מזהה רשת גrawאם ניגש יתר על המידה לאתר שלך, עדיף לחסום את הגישה שלו לחלוטין. כמובן, אם הבוט הזה הוא לא ממנוע חיפוש שבו אתה מעוניין להיות נוכח.

כחובב טכנולוגיה, אני כותב בשמחה ב- StealthSettings.com מאז 2006. יש לי ניסיון עשיר במערכות הפעלה: macOS, Windows, ו- Linux, וגם בשפות תכנות ופלטפורמות בלוגינג (WordPress) ולסוחרת אלקטרונית (WooCommerce, Magento, PrestaShop).

איך » גלישה נטו » כיצד לחסום גישה ל-SeekportBot או אחר גrawלחצתי על אתר
השאירו תגובה