Selasa, 21 November 2017

Computer Vision Approaches based on Deep Learning and Neural Networks



1.      Introduction
Arsitektur dalam dengan struktur konvolusi telah ditemukan sangat efektif dan umum digunakan dalam penglihatan komputer. Dengan diperkenalkannya Graphics Processing Unit (GPU) untuk tujuan umum, telah terjadi peningkatan perhatian terhadap pemanfaatan kekuatan pemrosesan GPU untuk algoritma pembelajaran yang mendalam. Selain itu, sejumlah besar data online memungkinkan untuk melatih jaringan syaraf dalam secara efisien. Tujuan dari makalah ini adalah untuk melakukan studi pemetaan sistematis, untuk menyelidiki penelitian yang ada mengenai implementasi pendekatan penglihatan komputer berdasarkan algoritma pembelajaran yang mendalam dan Convolutional Neural Networks (CNN). Kami memilih total 119 makalah, yang diklasifikasikan menurut bidang minat, tipe jaringan, paradigma pembelajaran, jenis penelitian dan kontribusi. Studi kami menunjukkan bahwa bidang ini adalah area yang menjanjikan untuk penelitian. Kami memilih estimasi pose manusia dalam bingkai video sebagai tugas penglihatan komputer yang mungkin untuk dijelajahi dalam penelitian kami. Setelah mempelajari dengan seksama, kami mengusulkan tiga arahan penelitian yang berbeda terkait dengan: memperbaiki implementasi CNN yang ada, menggunakan Jaringan Saraf Kelahiran berulang (RNN) untuk perkiraan perkiraan manusia dan akhirnya mengandalkan paradigma pembelajaran tanpa pengawasan untuk melatih NNs.
2.      Systematic Mapping Study
Metode yang kita gunakan untuk melakukan studi pemetaan ini didasarkan pada studi pemetaan sistematis yang diajukan oleh Petersen. Idenya adalah mengumpulkan serangkaian publikasi di bidang yang diminati, untuk mengetahui cakupan penelitian lapangan. Studi pemetaan sistematis menyediakan struktur jenis laporan dan hasil penelitian yang telah dipublikasikan dengan mengkategorikannya. Sejumlah pertanyaan penelitian didefinisikan untuk mendapatkan tujuan ini secara sistematis. Kami memilih penelitian ini, karena tujuan utamanya adalah menyajikan ikhtisar area penelitian tertentu dan untuk mengidentifikasi kesenjangan penelitian. Inilah yang kita butuhkan pada awal penelitian kami. Kami mengumpulkan total 263 artikel, namun setelah proses penyaringan hanya 119 artikel tetap ada. Untuk mengklasifikasikan makalah dan menentukan kata kunci, kami menggunakan abstrak sebagai sumber utama.

3.      Literature Review
Dari proses pemetaan pemetaan sistematis kami, kami memutuskan untuk memusatkan perhatian pada satu tugas tertentu dari penglihatan komputer: estimasi pose manusia dalam bingkai video. Dari studi pemetaan sistematis dan juga dari tinjauan literatur lainnya di bidang yang sama, dapat kita katakan bahwa analisis citra telah dipelajari secara ekstensif. Kami condong ke arah analisis video sehingga kita bisa melihat momok visi komputer yang bisa menawarkan kemungkinan untuk studi lebih lanjut. Sedangkan untuk estimasi pose manusia, ini merupakan tugas yang hadir dalam aplikasi yang menganalisa orang. Misalnya: interaksi manusia-komputer, game (Kinect) atau gesture recognition. Satu studi kasus yang kami bidik adalah pengenalan isyarat dalam video bahasa isyarat: untuk memahami tanda-tanda dari gerakan tubuh bagian atas manusia. Seperti yang akan kita lihat di bawah, di dunia akademis dan aplikasi kehidupan nyata, ini adalah masalah yang telah ditangani, namun masih ada ruang untuk perbaikan.

4.      Research Questions
Dengan mempertimbangkan karya terbaru dalam menangani estimasi pose manusia melalui CNN, kita akan melihat cara untuk memperbaiki model yang ada yang sudah berhasil dalam tugas ini. Model dasar kami akan menjadi pekerjaan yang dilakukan oleh Pfister. Sebelum membahas secara rinci tentang apa yang akan kita perbaiki, kita akan melihat tiga model yang diusulkan Pfister. Gagasan di balik karyanya adalah memperkirakan estimasi pose manusia sehingga jaringan bisa mendeteksi isyarat manusia dalam video bahasa isyarat.
1) CoordinateNet: Dalam jaringan ini, tugas memperkirakan pose manusia diperlakukan sebagai masalah regresi, dimana inputnya adalah frame video RGB dan hasilnya adalah koordinat sendi (x, y).

2) HeatmapNet: Rasa penerapan CNN berikutnya adalah jaringan hotmap. Dalam hal ini, heatmap posisi sendi merupakan sasaran dari masalah regresi. Pada awal proses pelatihan, untuk beberapa lokasi gabungan dapat terbakar, namun seiring berjalannya waktu, prediksi yang benar berlaku. HeatmapNet berkinerja lebih baik dari CoordinateNet.

3) HeatmapNet menggunakan aliran optik: Idenya adalah untuk memanfaatkan informasi temporal dalam video, dengan menggunakan arus optik untuk menghasilkan prediksi dari frame tetangga. Prosedurnya adalah untuk memprediksi posisi sendi untuk semua frame tetangga dan kemudian menyelaraskannya ke bingkai tertentu dengan cara melengkungkannya ke belakang dan ke depan dengan menggunakan aliran optik yang padat. Metode ini berkinerja lebih baik dari yang sebelumnya.

5.      Conclusions
Makalah ini mengusulkan tiga pertanyaan penelitian yang berkaitan dengan jaringan syaraf dalam untuk analisis video estimasi pose manusia. Manfaat dari penelitian ini adalah tiga kali lipat. Ini memberikan gambaran umum penelitian mutakhir di lapangan. Ini membuka jalan untuk studi lebih lanjut tentang analisis video, area yang tidak ditangani sebanyak gambar oleh komunitas penglihatan komputer. Selain itu, diusulkan dua model yang membawa perkembangan baru pada masalah estimasi pose manusia. Di masa depan, kami bermaksud untuk mengerjakan tiga gagasan yang diajukan dan menerapkannya untuk pengenalan isyarat dalam video bahasa isyarat.

Tidak ada komentar:

Posting Komentar