導讀:索尼研發(fā)的VR手柄克服了這一局限性,較精準地再現用戶每個手指的動作。
近日,索尼研究人員研發(fā)一款VR手柄,可以較精準地跟蹤玩家手指的動作。據傳,這一技術或將用于索尼下一代PS游戲機。
VR提供一種沉浸式體驗,手勢的自然交互對于用戶的體驗十分重要,現有的VR手柄在這一點上還有缺陷。比如,Facebook旗下VR手柄產品Oculus Touch只在食指和中指部位設置觸發(fā)器,能夠感知到的手部動作較少。
索尼研發(fā)的VR手柄克服了這一局限性,較精準地再現用戶每個手指的動作。
這項研究發(fā)表在美國計算機協會(ACM)官網上,論文題目為《接近傳感器手持設備手勢估計的機器學習技術評價(Evaluation of Machine Learning Techniques for Hand Pose Estimation on Handheld Device with Proximity Sensor)》。
論文鏈接:
https://dl.acm.org/doi/fullHtml/10.1145/3313831.3376712#BibPLXBIB0032
一、傳感器+神經網絡:檢測、預測兩手抓
據了解,現有的手指動作追蹤技術主要依靠兩種硬件來實現:能捕捉手指運動的攝像頭和電容式接近傳感器。
前者受到物理控制器的限制,Oculus Touch就屬于這一類。后者能實現更精確的動作識別,但是技術還不成熟。
索尼研究人員設想,可以結合電容式傳感器和神經網絡來實現更精準的手勢追蹤。
用手柄上的電容式傳感器檢測出用戶手勢變化,用神經網絡模型預測出用戶手指在三維空間的運動情況。為了設計出最佳方案,研究人員計劃選用兩種不同的神經網絡。
二、用62個傳感器制作VR手柄原型
基于上述設想,索尼研究人員設計出VR手柄原型。
首先,研究人員在手柄握把部分安裝62個電容式接近傳感器,使傳感器盡可能多地覆蓋手柄曲面和頂面。傳感器尺寸為10mm*8mm,輸入電流頻率為87.5kHz。
然后,研究人員為神經網絡模型建立訓練集。
為VR手柄原型建立CV模型,將其置于一個UV空間中。選擇12位手形不同的人(男性8人,女性4人)作為參與者,用動作捕捉系統(tǒng)OptiTrack以60幀率捕捉參與者動作。每個參與者用右手做出11套不同手勢。每個動作重復4次,前3次用于訓練,第四次用于驗證。
準備好的訓練集包含344015幀圖像,驗證集包含111165幀圖像。
接下來,研究人員基于卷積神經網絡(CNN)ResNet-18來構建直接回歸網絡(Direct Regression Network),基于2.5D熱圖回歸架構(2.5D heatmap regression architecture)構建熱圖檢測網絡(Heatmap Detection Network)。
用動量為0.9的隨機梯度下降優(yōu)化器來訓練這兩個神經網絡。神經網絡模型儲存誤差最小的模型。直接回歸網絡的初始學習率為0.03,熱圖檢測網絡的初始學習率為0.01。
三、模型精度較高:能抓起小物體,還能進行交流
研究人員用驗證數據集評估了兩個神經網絡模型的性能。結果顯示,直接回歸神經網絡模型更精確地預測了手部動作。直接回歸神經網絡模型平均絕對誤差(MAE)更小,為11.02mm。
研究人員還對比了手勢追蹤模型與其他模型的性能。2018年,Le等研究者設計出一款基于電容傳感器的手柄,平均絕對誤差為15.2mm。相比之下,索尼的解決方案精度更高。
另外,研究人員用英特爾酷睿i7-6950X 3.0GHz CPU和NVIDIA GTX1080 GPU成功演示了手勢追蹤模型,演示場景包括操縱小物體和用手指進行非語言交流。
結語:將繼續(xù)提升精度
索尼研究人員結合電容式接近傳感器和神經網絡,設計出一款精度較高的VR手柄,或能提升VR游戲的用戶體驗。
除此以外,研究人員認為這個模型還可以用于游戲之外的領域,比如非語言交流應用。
研究人員下一步計劃繼續(xù)提升模型精度,使其能夠反映更多用戶手掌的特征,比如手指長度。
文章來源:TechXplore,ACM