AI內容擷取最新趨勢
隨著AI技術的不斷進步,AI機器人從出版商網站擷取即時資訊的能力日益增強,這種即時擷取的頻率甚至超過用於訓練大型語言模型的機器人。而識別這些進階的AI機器人變得愈發困難。
根據TollBit最近的報告,從2024年第四季度到2025年第一季度,用於即時生成增強檢索(RAG)的機器人在每個網站上的擷取次數增長了49%。相比之下,訓練用機器人的擷取次數僅增長了18%。這顯示出即時擷取對出版商業務的威脅日益加劇,這背後包含了一些機會與挑戰,而並非所有出版商都完全理解這些差異。
AI擷取的類型與特點
AI機器人主要分為兩種類型:RAG機器人和訓練數據機器人。RAG機器人實時檢索事實性的信息,以回應用戶在AI產品如ChatGPT或Perplexity中的提示,並提供原來源網站的鏈接或引用。RAG可以呈現並總結文章而不需要將其存儲在訓練數據中,這使得對流量和盈利的威脅更加直接且難以控制。
相較之下,訓練數據機器人專注於爬取Web數據以供大型語言模型使用,這些大型數據集用以訓練模型生成類似人類的語言交換。而隨著模型不斷進化,訓練機器人的擷取次數已減少,但RAG機器人需不斷爬取網站以獲取最新資訊。
檢測RAG擷取的挑戰
隨著AI技術的進步,能夠模仿人類行為甚至破解CAPTCHA的高階AI機器人日漸增多,這使得檢測難度加大。失去可見性意味著出版商難以掌握機器人擷取的頻率以及對業務彈性與效益的影響。
例如,Google的"Google-Extended"允許出版商使用robots.txt來阻擋爬行,但Google的AI搜尋功能不會使用此設置來擷取即時數據,這意味著出版商無法在不影響搜尋流量的情況下阻擋RAG機器人的擷取。
獲利方式的多元化
AI公司像OpenAI已與出版商簽訂大筆合約來獲取訓練其語言模型的內容。但這不是唯一的獲利模式。出版商可以向RAG機器人收取擷取內容的費用或者在AI產品回答中被引用時收取費用。開發這類商業模式將成為未來的重要趨勢。
例如,TollBit提供一個平台,讓AI擷取者支付費用來訪問出版商的內容。這樣的模式正在發展中,尚待廣泛採納。
擷取與流量轉化不成正比
根據報告發現,AI機器人對出版商網站的爬取次數遠超過引入的人類流量。平均每11次爬取,僅有一次人類訪問,比如Bing的擷取與流量比率為11:1,而OpenAI的比率高達179:1。這意味着出版商在這一過程中未能有效地獲利。
robots.txt並非萬能
雖然robots.txt是出版商用來管理網站爬取的一個工具,但其效力有限。2025年一季度AI機器人成功繞過robots.txt的比率大幅上升,表明了其弱點。
AI開發者的技術更新允許其機器人無視robots.txt的設置,這被譽為"數位傾銷"的時代,信息市場充斥著生成性AI模型產生的內容,而不是高品質的新聞報導。
AI內容擷取的技術進步與出版商的變現挑戰並存,這需要更全面的理解與協同方案,以保障新闻業的長遠利益。