測試開放給AI搜尋的可行性

　3 »

	抽刀斷水
	2024/12/24 01:27

搞乜鬼set完cache rule之後仲好似cache少咗？占版友幫下手睇下，唔好嗌交住先，我個rule有無寫錯：

	jimmychauck
	2024/12/24 01:32

喂對唔住，program logic可以，但apache / nginx server set野，network野我唔熟，亦唔知你咩architecture，俾唔到意見。你要幫手要俾多啲資料先識幫。

	抽刀斷水
	2024/12/24 01:35

可能set咗呢啲古靈精怪野，off晒佢先：

	抽刀斷水
	2024/12/24 01:38

喂對唔住，program logic可以，但apache / nginx server set野，network野我唔熟，亦唔知你咩architecture ...
jimmychauck 發表於 2024/12/24 01:32

呢個forum用Discuz! 7.2，.php應該係唔可以cache既野，否則顯示內容就會唔update。

Server唔夠照，我用cloudflare來頂下啲hacker, AI咁。唔熟就由佢啦。

	抽刀斷水
	2024/12/24 01:49

/forum/forumdata 應該係相對static野，咁寫應該可以由佢去cache:

Allow cache: (not starts_with(http.request.uri, "/forum")) or (not http.request.full_uri contains ".php") or (starts_with(http.request.uri, "/forum/forumdata"))

	jimmychauck
	2024/12/24 04:49

睇落冇咩問題，但你最想佢爬果啲似係forum php野， cache左static野杯水車薪，除非大部份嘅爬蟲好蠢專爬static。

	jimmychauck
	2024/12/24 04:52

建議就唔好公開講咩ver，立心不良嘅人可以直接target個vulnerability。

	抽刀斷水
	2024/12/24 08:22

都公開咗好耐了， forum下面有寫，要hack早就hack咗啦。

	抽刀斷水
	2024/12/24 08:24

睇落冇咩問題，但你最想佢爬果啲似係forum php野， cache左static野杯水車薪，除非大部份嘅爬蟲好蠢專爬sta ...
jimmychauck 2024/12/24 04:49 提交

AI應該係亂咁爬，static野應該都會爬晒，所以先想cache晒佢地，保住個原始server。

	jimmychauck
	2024/12/24 23:58

回覆 48# 抽刀斷水
我就見過啲pen test report suggestion都係話啲version show 得越vague越好，呢個情況就咁寫 "powered by Discuz!"應該就夠。或者Discuz本身都可以set 唔 show version。當然幫助本身係好細。

回覆 49# 抽刀斷水

google spider好耐前已識得判斷邊啲網頁更新頻率低，少啲爬。
正常黎講啲AI爬蟲應該係識承襲呢種智慧嘅。
除非根本係太多爬蟲。或者有啲爬蟲真係太蠢。

以前睇過本書，講過爬蟲同content server嘅共生關係。
如果有啲爬蟲太蠢太鍾意爬，就唯有block左佢，呢啲應該係用http header個agent去分，前提係佢誠實。
呢啲就要靠睇log啦。
或者，折衷吓嘅，星期一三五block，其他時間都俾佢爬，越蠢嘅越block。呢個我就唔清楚 robot.txt 有冇咁多設定，或者要有個crontab每日00:00更新個robot.txt啦。講開，爬蟲唔睇robot.txt你都吹佢唔脹，最多封佢IP。

	抽刀斷水
	2024/12/27 10:32

Cache多返啲，希望可以減輕原始server負擔。

各位近排多唔多遇到Resource Limit Is Reached既Error?

	抽刀斷水
	2024/12/27 11:27

回覆 50# jimmychauck

普通search engine爬蟲就好耐了，黎黎去去都係嗰幾個熟口熟面，但AI就有新有舊，有啲幾惡意咁，cloudflare都有詳細講，咁長我就無乜心機仔細研究：

https://blog.cloudflare.com/bringing-ai-to-cloudflare/

我account內的"AI Audit"又乜料都無，唔知點解。

	jimmychauck
	2025/1/9 06:13

2025-01-08，又忽然之間，提醒燈著，冇左堆新啲嘅通知，得返7日前。唔知係咩cache問題。

	抽刀斷水
	2025/1/9 12:23

回覆 53# jimmychauck

Ctrl-F5會唔會update返？

	jimmychauck
	2025/1/9 16:53

回覆 54# 抽刀斷水

冇，你個別53回覆係下一個提醒

	抽刀斷水
	2025/1/10 14:18

調教完cache rule後，似乎可以頂到AI的爬行，暫時未見有Resource Exceeded既問題，至於提醒的問題，另外Forum頁面有時都無update要Refresh才見到，這些再慢慢研究。

	抽刀斷水
	2025/1/14 09:42

發現有login錯配的大問題，刪去 (not http.request.full_uri contains ".php")的Cache Rule Condition試試。

	抽刀斷水
	2025/1/16 10:04

今日終於遇到Resource Limit Is Reached的問題了，Refresh幾次後就入得返。

« 1

　3 »

論壇版塊 | 登錄 | 註冊