有趣的部落格

在其他地方如果有看到Leaf大的部落格或許會看到這樣的註解:

「有機器人驗證」

機器人驗證好嗎?

大多時候應該是好的,例如防範智障、防止自動化機器人攻擊、防止爬蟲等等非人行為

被驗證擋在牆外的...

其實機器人某種程度幫了我們一些事情:網頁爬蟲
爬蟲重要嗎?

搜尋引擎

搜尋引擎通常都會使用機器人例如GoogleBot來爬蟲探索網頁,並且根據內容、meta標籤等等來進行索引及篩選,然而如果只是看到一些沒有意義的recaptcha 可能就會放棄

嵌入式預覽

有時候你把連結貼到一個im平台上:不論matrix, discord, line, Instagram 等等都是
在這些平台上其實都會利用爬蟲bot來協助爬取網頁資料如縮圖標題描述等等(其實也是meta標)

抓取標題

我自己的部落格有特別設計一種語法,可以讓我在不用輸入超連結需要的文字情況下去自動抓取網頁標題,但如果我用Leaf大的網頁來抓取,就會變這樣:
Security Check | Albireo
呃...一個網頁但是Security check?

IndiePing

這是JN大自架的一個平台,主要是希望可以藉由獨立部落格本身的資料來爬蟲抓取部落格被引用的紀錄

Ai分析

我相信這在此時此刻是會發生的事情,因為爬蟲機器人可以爬到網頁資料,所以很可能會將這些資料進一步餵給ai來進行分析
我想這應該是一個需要Trade off的?
畢竟像是RSS如果想閱覽全文,就沒辦法在閱讀器用爬蟲爬到網頁內文,就必須得用網頁模式下查看
又例如上面舉的例子就是可能會有的問題。
當然搜尋引擎可以透過後面Search console手動索引,或者是讓meta標穿透機器人驗證(也就是head的部分正常發揮,但是body內的內容是機器人驗證)(這部分我暫時還沒有查證F12,我可能要再研究看看)

umami

我曾經想讓umami來幫我看RSS閱讀器的爬去狀況,但發現umami會自動忽視非人為瀏覽器的請求,例如python-urllib之類。我嘗試透過api測試,如果是直接爬蟲或是模擬成閱讀器,umami會送我{"beep":"boop"},我感覺到這很「機器人」呢
如果改成用又臭又長的瀏覽器標頭來模擬行為,就可以順利接通api

所以關於機器人,這的確是應該思索衡量的部分