為什么瀏覽器總問我是不是機器人?
當前位置:點晴教程→知識管理交流
→『 技術文檔交流 』
證明自己不是機器人,幾乎是每個網絡沖浪人的日常小考。 有太多這樣的瞬間:你正在網上訂票,準備支付時,界面出現一個彈窗要求你確認你是人類: 為了給程序證明我不是程序 —— 你在5秒內找出了所有的十字路口, 在3秒內點擊了混在草叢后的自行車, 以超過全民85%的速度把滑塊移到了正確的位置…… 最終,以人類身份光榮地通過了系統的考驗! 那么,這個驗證是如何判斷區分真實人類的?機器人難道就無法勾選「我不是機器人」的復選框嗎? 首先,我們來介紹一下這場人機戰的關鍵裁判—— reCAPTCHA。 什么是reCAPTCHA reCAPTCHA是Google開發的一種安全機制,核心任務就是區分真人用戶和自動化程序(比如“爬蟲”或機器人等)——— 每當你在網上點擊那個“我不是機器人”的小方框,就是在參與一場人機較量。 reCAPTCHA就是較量中的裁判,通過用戶的點擊進行判斷,把惡意程序擋在門外,確保只有真正的用戶才能通過。 reCAPTCHA的演變歷程 reCAPTCHA最早誕生在20年代初期,隨著互聯網的興起,網絡開始面臨越來越多的垃圾信息和惡意程序的威脅。當時,卡內基梅隆大學的路易斯·馮·安(Luis von Ahn)在研究惡意程序防御時開發了reCAPTCHA。 這種技術最初通過讓用戶識別扭曲的文字或圖像,來驗證其是否為人類。 比較典型的驗證 偶爾也會遇到特別離譜的…… 研究過程中,馮·安意識到這項技術還可以應用于幫助轉錄舊手稿。為此,馮·安進一步改進了reCAPTCHA:不僅使用驗證碼,也同時把老舊文檔文獻中的單詞展示給用戶,借助用戶的驗證過程完成標注,助力歷史文獻的數字化。(這些文獻中的字跡僅靠光學字符識別系統(OCR)無法很好地識別) reCAPTCHA的使用大大減少了人工手動轉錄文獻的工作量。目前已有約5萬個網站在使用它進行身份驗證,每天幫助轉錄超過1800萬個單詞。世界頭部互聯網檔案館(Internet Archive)每天使用reCAPTCHA來數字化多達1000本書籍、報紙和其他文檔;《紐約時報》也利用reCAPTCHA來數字化其自1851年以來的檔案。 和傳統的OCR技術相比,reCAPTCHA在處理舊文檔時的準確率高達99%,遠遠優于OCR在處理19世紀前出版書籍時高達20%的錯誤率。 這個方法一開始效果還不錯,但隨著技術的進步,機器人也慢慢地學會了識別這些扭曲的文字。 于是reCAPTCHA也跟著進化,從簡單的文字識別變成了我們今天看到的「請點擊所有有交通燈的圖片」之類的圖片識別任務,以及讓用戶勾選「我不是機器人」的方式來完成驗證。 谷歌在2009年收購了reCAPTCHA后,把這種技術用到了谷歌書籍和Google Maps等項目,用來改進文字識別和地理數據處理。 頓悟原來我每次嘔心瀝血完成驗證,都在充當Google的人工標注勞動力 那么,reCAPTCHA究竟是如何判斷你是人類還是機器人的? 驗證背后的實現原理 當你點擊這個“我不是機器人”的方框時,reCAPTCHA就會根據你的點擊行為判斷你是否是一個真實的人類。 點擊行為分析背后是非常有趣的領域:人機交互(HCI)與行為生物識別(Behavioral Biometrics):通過大量的行為數據分析,從用戶的日常操作中提取出生物行為特征,與機器人的行為對比。 識別的關鍵并不在于你是否能在框中完成點擊,而在于你點擊的動作。 reCAPTCHA通過分析你點擊的速度、鼠標的軌跡,以及你在頁面上的一些小動作來判斷你到底是不是人類。 人在操作鼠標時,手指總是會有些許抖動的。移動路徑可能會有一些小彎曲或停頓、速度時快時慢、點擊前隨著閱讀思考有小片刻停頓,或是在點擊后追加一些慣性動作。這些微小的變化通常會比機器人更自然。 而機器人則趨向于完美的直線和精準的點擊。 大量行為數據分析發現,機器人雖然能快準狠地點擊目標,但它們的動作太“完美”,不像人類的隨意:鼠標的移動路徑通常是最短的直線,點擊速度也十分一致。這種差異是用來識別人類和機器人的關鍵。 (原來我勝出是因為菜…) 人類vs機器的移動軌跡 Castle(一家專注做賬戶安全和欺詐檢測的公司)的研究員Johan Brissmyr通過記錄鼠標在網頁上的位置,展示了人機兩種截然不同的移動軌跡:包括瞬間跳躍、直線移動和貝塞爾曲線: 可以看出,模擬生成的自動化程序通常會通過直接指定坐標的方式移動鼠標,導致不自然的軌跡,如瞬間跳躍或直線移動(1A)。 通過移動速度和加速度的分析比對,也可以發現機器人軌跡中的加速度通常接近于零,這是識別人機的關鍵。 人類日常點擊鼠標時,隨著手腕手指的發力,鼠標的移動軌跡會產生加速度變化。而自動化程序的鼠標移動通常是以恒定速度沿直線完成,加速度接近零。 針對行為分析的結果,系統會為每個用戶生成一個“信譽評分”(score)。這個評分從0.1到1不等。分數越高,說明系統越相信你是個真真切切的人類;分數越低,系統就會更加警覺,甚至可能要求你進行進一步驗證。 多模態驗證:運動軌跡+圖像識別 當用戶點擊太快或軌跡過于“機器人”時,系統給出的低分會觸發更復雜的視覺驗證,比如讓用戶選擇含有摩托車或街燈的圖片,或甚至語音、視頻的驗證。 系統展示的驗證圖片一般會具有一定的模糊性或復雜性,這種多角度的物體識別對自動程序來說挑戰比較大。因為物體從不同角度看,輪廓、光影會發生變化,會導致識別難度大大增加。 而電腦程序主要根據平面圖像來理解三維物體,如果訓練數據不夠全面,就可能無法準確識別在特定角度下的物體。人類的大腦則天然擅長處理這些變化,即使圖片質量不高或角度怪異,也能迅速識別出目標物體。 道高一尺,魔高一丈。 隨著人工智能技術的迅猛發展,機器人不僅能執行點擊任務,也能逐漸通過復雜的算法模仿人類行為。防御與攻擊相互推動,像一場無休止的貓鼠游戲。每一步都要求防御系統不斷進化,以應對愈加精巧的對抗性AI。 該文章在 2024/10/8 21:25:13 編輯過 |
關鍵字查詢
相關文章
正在查詢... |