Robots.txt與AI爬蟲的愛恨情仇

爬蟲巨獸無情吞噬網路上的一切,知識型網站的未來是?

各大網站基本上靠一個叫做"robots.txt"的檔案對網路爬蟲[1]說明哪些頁面可以爬取而哪些頁面禁止爬取,過去我們透過這個設定讓Google Search, Bing Webmaster等搜尋引擎的spider來逛我們的個人網站,時至今日這些公司為了讓他們自己的大型語言模型系統更完善,利用RAG強化AI爬蟲花更多力氣想把整個網際網路都爬下來,以便更精確的回應使用者的提問,以及能訓練生成更多種類的內容

一些網路新聞公司及出版社的執行長都跳出來説這些AI公司只顧自己的利益一直爬創作者辛苦創造出來的內容,卻沒有給任何報酬來回饋,甚至讓一些平台的點擊率下降[2],因為現在Google的AI Overview真的挺好用的,雖然Overview最後都會附上參考資料連結,但如果解法已經呈現出來的話我通常就不花時間點進文章裡看前因後果了

不過這情形應該也勢不可擋,雖然robots.txt可以設定一些守則告知爬蟲,但也得那間AI公司遵守我們設定的條款,如果不管的話照樣可以直接爬取我們所創作的內容,我想新技術出來一定有一段時間的陣痛期,未來內容創作者也許有一些方法可以跟AI公司進行協同合作[3]


[1] 關於網路爬蟲:https://steam.oxxostudio.tw/category/python/spider/about-spider.html

[2] Google AI總覽功能掀「零點擊」潮,新聞產業已陷入流量與版權危機:https://www.thenewslens.com/article/256565

[3] AI橫行,30年前寫給「君子」的robots.txt擋得住今日的爬蟲巨獸嗎?:https://dq.yam.com/post/16602

comments powered by Disqus
Posts Copyright Scientia from Scientia Potentia Est