計算機視覺VS人類檢測物體大戰孰贏?

時間:2019-02-15
點擊上方關注,All in AI中國
計算機視覺VS人類檢測物體大戰孰贏?

用計算機視覺檢測物體

《夢幻之旅:沃爾多在哪》是美國遊戲製造商UBISOFT公司製作的一款冒險遊戲,遊戲故事講述的是一個生活中不得意的青年沃爾多,意外的穿越到了另一個空間在此展開了夢幻之旅並以此作為主線,穿插出曲折的故事作為劇情。

我經常和家人朋友一起參加比賽,看看是誰能更快的找到他。不得不說,經過多次的練習,我的遊戲表現已經非常好了,它並不像看起來的那麼容易,在這張圖中,你想要快速找到一個身穿藍色褲子和條紋襯衫的瘦小傢伙是很難的。

計算機視覺VS人類檢測物體大戰孰贏?

你試試看下面這張圖,能否快速找到Waldo?你可能會發現,需要花費很長的時間才能勾找到,那麼,有沒有什麼辦法可以加速呢?

遊戲的重點是速度、焦點和專注。它應該讓孩子們主動思考,鍛鍊他們的大腦肌肉。

但是,如果我告訴你,你不需要這些東西就可以在遊戲中取得成功呢!

在遊戲中,我們經常聽到的就是“重在參與、最重要的就是開心嘍!”等內容,但從技術上講,提出有效策略的人才會是最穩定的贏家。想要成為一個這樣的人,你所要做的就是超越其他人。這實際上適用於生活中的大多數事情,在《夢幻之旅:沃爾多在哪》遊戲中,其實並沒有真正的規則,想要獲勝,最重要的一條規則就是,你必須是第一個找到他的人,每次的成功你都可以選擇一條不同的道路。

現在的孩子們已經可以接觸到這樣或那樣的技術,也是時候將它用在刀刃上了。關鍵是,計算機比你要聰明,因為當它們看到一張非常複雜的圖片的時候,它們可以立刻看到整件事,並在幾秒鐘內就找到沃爾多。

我們作為人類卻不具備這種處理能力,除非你從根本上將自己的基因修改為異常聰明的天才。(這可能不那麼現實了,或者說,就是另一個故事了。)那麼無論如何,你的計算機的能力一定是超過了人類的能力。這是怎麼發生的?

計算機視覺VS人類檢測物體大戰孰贏?

計算機視覺:可以看到的技術

普通的博客寫手對於計算機視覺的想法可能類似於一臺擁有超級眼睛的計算機,就像是一個網絡攝像頭一樣在監視著你,但這種想法是錯誤的。

對象檢測(作為計算機視覺的一個分支)實際上是當計算機能夠解釋數字圖像或視頻的內容而無需您手動輸入該信息時。該技術可以分解該圖像的不同部分,並找出存在的對象。這就是面部識別的動力,就像你在iPhoto中的家人和朋友一樣,並將犯罪分子與安全鏡頭相匹配。

計算機視覺不僅能夠看到正在發生的事情,而且能夠理解它。

YOLO ......但這不是你的想法

YOLO,它是一個實時檢測物體的系統。說實話,當我第一次得知YOLO不是“你只活一次”時(YOLO,美語新詞,是You Only Live Once的首字母縮略詞,意為你只能活一次,應該活在當下,大膽去做。),我很失望,但是一旦我知道真正的YOLO是什麼,我保證它會變得有趣和酷炫一百萬倍。

該系統不同於經典模型(例如快速R-CNN),因為您不會對圖像上的相同區域進行多次預測,而是隻通過全卷積神經網絡(FCNN)傳遞數據集一次。

以下是YOLO(V3)模型的工作原理:

計算機視覺VS人類檢測物體大戰孰贏?

  1. 網格:圖像被分為S x S網格(您可以從左側圖像中看到)。這是為了將不同的部分分解,並允許圖像作為一個整體來“讀取”的內容。如果對象落在網格的中心,則該網格負責檢測該對象。
  2. 邊界框:整個圖像的整體特徵用於確定邊界框,它們基本上只是對象所在的輪廓。重要的是要注意它們覆蓋圖像的每個部分並重疊。它也更可能比網格本身更大。想想一下,你想要找到在床上的某個地方的手機,那麼,凸起的輪廓可能就是你的邊框了。
  3. 置信度得分:置信度得分表示模型預測您認為實際存在的程度。它基於寬度、高度以及對象中心相對於單元格邊界的位置。這是當你看到床的不同凸起(邊界框)的大小,然後將您的手機的大小與凸起的大小進行比較,然後根據具體情況確定您的手機實際的大小。
  4. 條件類概率:這些是以包含對象的網格單元為條件的概率。使用以前的YOLO模型,每個網格單元只能預測一組類概率。由此,您可以區分不同的對象(參見上圖)。但是YOLO V3為每個類使用獨立的邏輯分類器。這基本上允許您為同一個對象設置多個標籤:計算機找到Waldo,並將其標記為“Waldo”,“人”和“男孩”。

這是一個代碼片段,用於收集和解釋上面提到的數據(它還說明了對象被檢測的速度有多快!):

計算機視覺VS人類檢測物體大戰孰贏?

這只是代碼的摘錄。我使用YOLO V3編寫了一個完整的物體檢測模型,你可以在這裡找到鏈接(https://github.com/nathaliejeans/yolo_v3)。

計算機視覺VS人類檢測物體大戰孰贏?

這是模型的架構 - 您可以看到不同的層

操縱數據

由於單一回歸,客觀性和分類的損失需要單獨計算 - 但仍然在同一網絡中。通過邏輯迴歸得到客觀分數:1表示邊界框和地面實況對象完全重疊(圖片實際上是什麼)。該模型僅預測此類型的1個邊界框,但誤差會受到客觀性和分類損失的影響。

YOLO(V3)模型還預測了3種不同尺度的方框,以支持尺度變化。這看起來像這樣:

計算機視覺VS人類檢測物體大戰孰贏?

為了測試模型,我們必須將條件類概率乘以單個框置信度預測。此方程返回類在框中的概率,以及預測框與對象的匹配程度。

計算機視覺VS人類檢測物體大戰孰贏?

下面是另一段代碼摘錄,它加載了預先訓練過的對象名稱類,以及它如何處理寫入/註釋數字圖像的不同幀:

計算機視覺VS人類檢測物體大戰孰贏?

You Only Look Once(YOLO V3)模型的輸出如下圖所示。很清楚你想從模型中得到什麼,以及它如何在不同的應用程序中使用,例如路線圖。

現在我希望你明白為什麼找Waldo會這麼容易!你甚至不需要看兩次......

計算機視覺VS人類檢測物體大戰孰贏?

我們為何使用它

  • 它被認為是實時的,因為它速度快 - 能夠每秒捕獲45幀。還有一個更快的版本,更小的架構,可以捕獲每秒155幀,但它精度比較低。
  • 使用的FCNN可以理解並使用廣義對象表示。您可以使用真實世界的圖像和藝術作品來使用它並進行訓練。
計算機視覺VS人類檢測物體大戰孰贏?

展望未來

計算機視覺VS人類檢測物體大戰孰贏?

這項技術已經過了初步階段:人們在日常生活中使用計算機視覺。越來越多的技術正在該領域發展,這是令人興奮的,因為它具有如此多樣化的實際應用。

將對象檢測軟件與語音反饋相結合也是非常強大的。它已經在今天使用,人們只是不知道它的存在。失明的人能夠得到他們對周圍環境的描述,不得不減少對他們所有其他感覺的依賴,每週7天每天24小時。他們甚至可以開車!雖然,我不確定當我們有自動駕駛汽車時,這是多麼重要。

另一個可能的用例是為大型零售店或雜貨店的分類、確定和協助庫存。醫療診斷也可以從中受益,同時處理外部傷口,骨折、淤青或損傷。但最重要的是,它的技術可以幫助我找到Waldo!

無論如何,這個領域有巨大的潛力,我迫不及待想成為未來的一部分。

讓我知道你的想法!

計算機視覺VS人類檢測物體大戰孰贏?

編譯出品

來源:https://towardsdatascience.com/can-you-find-waldo-faster-than-a-computer-spoiler-you-cant-ff382e601c31

相關推薦




計算機產業迎政策紅利

新華社北京9月11日電(記者郭倩 謝櫻)《經濟參考報》9月11日刊發題為《計算機產業迎政策紅利》的報道。文章稱,計算機產業發展迎來央地新一輪政策加碼,鼓勵外資企業在華佈局成為重要發力點。

財經 72評論

2019-09-11





2018-12-14