測試開放給AI搜尋的可行性
« 1 | < | > | 3 » |
| |||||
| |||||
| |||||
喂對唔住,program logic可以,但apache / nginx server set野,network野我唔熟,亦唔知你咩architecture ... 呢個forum用Discuz! 7.2,.php應該係唔可以cache既野,否則顯示內容就會唔update。 Server唔夠照,我用cloudflare來頂下啲hacker, AI咁。唔熟就由佢啦。 | |||||
Allow cache: (not starts_with(http.request.uri, "/forum")) or (not http.request.full_uri contains ".php") or (starts_with(http.request.uri, "/forum/forumdata")) | |||||
| |||||
| |||||
| |||||
AI應該係亂咁爬,static野應該都會爬晒,所以先想cache晒佢地,保住個原始server。 | |||||
我就見過啲pen test report suggestion都係話啲version show 得越vague越好,呢個情況就咁寫 "powered by Discuz!"應該就夠。或者Discuz本身都可以set 唔 show version。當然幫助本身係好細。 回覆 49# 抽刀斷水 google spider好耐前已識得判斷邊啲網頁更新頻率低,少啲爬。 正常黎講啲AI爬蟲應該係識承襲呢種智慧嘅。 除非根本係太多爬蟲。或者有啲爬蟲真係太蠢。 以前睇過本書,講過爬蟲同content server嘅共生關係。 如果有啲爬蟲太蠢太鍾意爬,就唯有block左佢,呢啲應該係用http header個agent去分,前提係佢誠實。 呢啲就要靠睇log啦。 或者,折衷吓嘅,星期一三五block,其他時間都俾佢爬,越蠢嘅越block。呢個我就唔清楚 robot.txt 有冇咁多設定,或者要有個crontab每日00:00更新個robot.txt啦。講開,爬蟲唔睇robot.txt你都吹佢唔脹,最多封佢IP。 |
« 1 | < | > | 3 » |