1.
Introduction
Arsitektur dalam dengan struktur konvolusi telah ditemukan sangat efektif
dan umum digunakan dalam penglihatan komputer. Dengan diperkenalkannya Graphics
Processing Unit (GPU) untuk tujuan umum, telah terjadi peningkatan perhatian
terhadap pemanfaatan kekuatan pemrosesan GPU untuk algoritma pembelajaran yang
mendalam. Selain itu, sejumlah besar data online memungkinkan untuk melatih
jaringan syaraf dalam secara efisien. Tujuan dari makalah ini adalah untuk
melakukan studi pemetaan sistematis, untuk menyelidiki penelitian yang ada
mengenai implementasi pendekatan penglihatan komputer berdasarkan algoritma
pembelajaran yang mendalam dan Convolutional Neural Networks (CNN). Kami
memilih total 119 makalah, yang diklasifikasikan menurut bidang minat, tipe
jaringan, paradigma pembelajaran, jenis penelitian dan kontribusi. Studi kami
menunjukkan bahwa bidang ini adalah area yang menjanjikan untuk penelitian.
Kami memilih estimasi pose manusia dalam bingkai video sebagai tugas
penglihatan komputer yang mungkin untuk dijelajahi dalam penelitian kami.
Setelah mempelajari dengan seksama, kami mengusulkan tiga arahan penelitian
yang berbeda terkait dengan: memperbaiki implementasi CNN yang ada, menggunakan
Jaringan Saraf Kelahiran berulang (RNN) untuk perkiraan perkiraan manusia dan
akhirnya mengandalkan paradigma pembelajaran tanpa pengawasan untuk melatih
NNs.
2.
Systematic Mapping Study
Metode yang kita
gunakan untuk melakukan studi pemetaan ini didasarkan pada studi pemetaan
sistematis yang diajukan oleh Petersen. Idenya adalah mengumpulkan serangkaian
publikasi di bidang yang diminati, untuk mengetahui cakupan penelitian
lapangan. Studi pemetaan sistematis menyediakan struktur jenis laporan dan
hasil penelitian yang telah dipublikasikan dengan mengkategorikannya. Sejumlah
pertanyaan penelitian didefinisikan untuk mendapatkan tujuan ini secara
sistematis. Kami memilih penelitian ini, karena tujuan utamanya adalah
menyajikan ikhtisar area penelitian tertentu dan untuk mengidentifikasi
kesenjangan penelitian. Inilah yang kita butuhkan pada awal penelitian kami.
Kami mengumpulkan total 263 artikel, namun setelah proses penyaringan hanya 119
artikel tetap ada. Untuk mengklasifikasikan makalah dan menentukan kata kunci,
kami menggunakan abstrak sebagai sumber utama.
3.
Literature
Review
Dari proses pemetaan pemetaan sistematis kami, kami
memutuskan untuk memusatkan perhatian pada satu tugas tertentu dari penglihatan
komputer: estimasi pose manusia dalam bingkai video. Dari studi pemetaan
sistematis dan juga dari tinjauan literatur lainnya di bidang yang sama, dapat
kita katakan bahwa analisis citra telah dipelajari secara ekstensif. Kami
condong ke arah analisis video sehingga kita bisa melihat momok visi komputer
yang bisa menawarkan kemungkinan untuk studi lebih lanjut. Sedangkan untuk
estimasi pose manusia, ini merupakan tugas yang hadir dalam aplikasi yang
menganalisa orang. Misalnya: interaksi manusia-komputer, game (Kinect) atau
gesture recognition. Satu studi kasus yang kami bidik adalah pengenalan isyarat
dalam video bahasa isyarat: untuk memahami tanda-tanda dari gerakan tubuh
bagian atas manusia. Seperti yang akan kita lihat di bawah, di dunia akademis
dan aplikasi kehidupan nyata, ini adalah masalah yang telah ditangani, namun
masih ada ruang untuk perbaikan.
4.
Research Questions
Dengan mempertimbangkan karya terbaru dalam menangani
estimasi pose manusia melalui CNN, kita akan melihat cara untuk memperbaiki
model yang ada yang sudah berhasil dalam tugas ini. Model dasar kami akan
menjadi pekerjaan yang dilakukan oleh Pfister. Sebelum membahas secara rinci
tentang apa yang akan kita perbaiki, kita akan melihat tiga model yang
diusulkan Pfister. Gagasan di balik karyanya adalah memperkirakan estimasi pose
manusia sehingga jaringan bisa mendeteksi isyarat manusia dalam video bahasa
isyarat.
1) CoordinateNet:
Dalam jaringan ini, tugas memperkirakan pose manusia diperlakukan sebagai
masalah regresi, dimana inputnya adalah frame video RGB dan hasilnya adalah
koordinat sendi (x, y).
2) HeatmapNet: Rasa penerapan CNN berikutnya adalah jaringan hotmap. Dalam hal ini, heatmap posisi sendi merupakan sasaran dari masalah regresi. Pada awal proses pelatihan, untuk beberapa lokasi gabungan dapat terbakar, namun seiring berjalannya waktu, prediksi yang benar berlaku. HeatmapNet berkinerja lebih baik dari CoordinateNet.
3) HeatmapNet menggunakan aliran optik: Idenya adalah untuk memanfaatkan informasi temporal dalam video, dengan menggunakan arus optik untuk menghasilkan prediksi dari frame tetangga. Prosedurnya adalah untuk memprediksi posisi sendi untuk semua frame tetangga dan kemudian menyelaraskannya ke bingkai tertentu dengan cara melengkungkannya ke belakang dan ke depan dengan menggunakan aliran optik yang padat. Metode ini berkinerja lebih baik dari yang sebelumnya.
2) HeatmapNet: Rasa penerapan CNN berikutnya adalah jaringan hotmap. Dalam hal ini, heatmap posisi sendi merupakan sasaran dari masalah regresi. Pada awal proses pelatihan, untuk beberapa lokasi gabungan dapat terbakar, namun seiring berjalannya waktu, prediksi yang benar berlaku. HeatmapNet berkinerja lebih baik dari CoordinateNet.
3) HeatmapNet menggunakan aliran optik: Idenya adalah untuk memanfaatkan informasi temporal dalam video, dengan menggunakan arus optik untuk menghasilkan prediksi dari frame tetangga. Prosedurnya adalah untuk memprediksi posisi sendi untuk semua frame tetangga dan kemudian menyelaraskannya ke bingkai tertentu dengan cara melengkungkannya ke belakang dan ke depan dengan menggunakan aliran optik yang padat. Metode ini berkinerja lebih baik dari yang sebelumnya.
5.
Conclusions
Makalah ini mengusulkan tiga pertanyaan penelitian yang
berkaitan dengan jaringan syaraf dalam untuk analisis video estimasi pose
manusia. Manfaat dari penelitian ini adalah tiga kali lipat. Ini memberikan
gambaran umum penelitian mutakhir di lapangan. Ini membuka jalan untuk studi
lebih lanjut tentang analisis video, area yang tidak ditangani sebanyak gambar
oleh komunitas penglihatan komputer. Selain itu, diusulkan dua model yang
membawa perkembangan baru pada masalah estimasi pose manusia. Di masa depan,
kami bermaksud untuk mengerjakan tiga gagasan yang diajukan dan menerapkannya
untuk pengenalan isyarat dalam video bahasa isyarat.
Tidak ada komentar:
Posting Komentar