Selasa, 21 November 2017

Augmented reality (AR) applications for supporting human-robot interactive cooperation





1.      Introduction
Makalah ini menyajikan alat Augmented Reality (AR) untuk mendukung operator dimana manusia dan robot hidup berdampingan dalam industri bersama tempat kerja. Sistem ini menyediakan visualisasi AR dari proses perakitan, video dan teks berbasis instruksi dan status produksi update. Alat ini juga meningkatkan keselamatan dan penerimaan operator lingkungan perakitan hibrida melalui kemampuan perendaman teknologi AR. Landscape perangkat keras termasuk peralatan dan spidol AR, perangkat genggam untuk input pengguna dan infrastruktur jaringan interfacing robot dan database penyimpanan yang disediakan.
Makalah ini bertujuan untuk menyajikan implementasi alat bantu AR untuk operator di dalam jalur perakitan, dimana kerjasama dengan robot industri dilakukan. Metode yang digunakan dan eksperimen yang dilakukan dalam studi kasus, nstemming dari industri otomotif juga disajikan. Bagian 2, memberikan deskripsi tentang pendekatan yang diusulkan dan fungsi yang diimplementasikan. Bagian 3 menjelaskan implementasi sistem dalam hal komponen perangkat lunak dan perangkat keras dan Bagian 4, dipersembahkan untuk menyajikan studi kasus. Akhirnya, di Bagian 5, kesimpulan diambil bersamaan dengan prospek penelitian masa depan.

2.      Approach
Pendekatan yang diusulkan bertujuan untuk memberikan dukungan melalui visualisasi berbagai jenis informasi, yang berasal dari tingkat organisasi yang berbeda. Dalam konteks ini, aplikasi AR menerapkan empat fungsi utama: penyediaan informasi proses perakitan, gerak robot dan visualisasi ruang kerja, visual alert dan data produksi. "Beberapa visualisasi" berarti tablet dan kacamata AR dapat digunakan untuk mendukung kerja operator. Pada setiap titik waktu, pengguna dapat mengaktifkan atau menonaktifkan fungsi ini, melalui tombol antarmuka, kecuali peringatan audio visual yang didorong ke perangkatnya secara otomatis.

3.      System Implementation
Tantangan utama yang harus dihadapi dalam aplikasi ini adalah keragaman kasus dan sistem yang harus bekerja dengan sistem yang sama. Agar kesulitan ini bisa diatasi, satu set percobaan yang membahas tantangan teknis berikut ini dilakukan:

- Penanda penempatan di ruang dan pengenalan oleh kamera.
- Multi-model visualisasi di ruang atas marker
pengakuan.
- Mengkoordinasikan transformasi dari koordinat berbasis robot ke
berbasis marker.

4.      Case Study
Studi kasus yang diuji oleh aplikasi ini berasal dari industri otomotif dan telah diterapkan pada sel robotika yang ditunjukkan pada Gambar 8. Robot muatan tinggi (COMAU NJ 370) digunakan untuk memuat as roda 25 kg pada fixture dan untuk mendukung manusia dengan memegangi kelompok roda belakang di area perakitan. Pemuatan gandar semata-mata dilakukan oleh robot dalam mode otomatis, sedangkan perakitan kelompok roda memerlukan kerjasama antara robot yang membawa bobot (10-12 kg) dan manusia, yang menggunakan tangannya untuk langsung menyesuaikan posisi bagian. Bagian terberat yang diangkat oleh operator dalam skenario ini adalah obeng (1.5kg). Sementara manusia melakukan tugas yang sulit (cable assembly), robot terus membawa kelompok roda kedua, menghindari benturan dengan manusia.

5.      Conclusions
Makalah ini menyajikan aplikasi berbasis AR yang berjalan di atas tablet android, untuk mendukung kerjasama robot manusia-interaktif di lingkungan otomotif. Dua tujuan utama yang ingin dicapai oleh aplikasi ini adalah untuk meningkatkan keselamatan manusia dan meningkatkan produktivitasnya di lingkungan industri, di mana robot hidup berdampingan dengan manusia. Beberapa fungsi yang melibatkan visualisasi volume kerja yang aman, penyediaan data terkait produksi, pemberlakuan peringatan visual / audio serta representasi gerakan robot, telah diterapkan ke arah ini. Eksperimen pertama telah memvalidasi kemudahan penerapan dan penerapan sistem dengan penggunaan setup PC sederhana atau tablet genggam. Penelitian lebih lanjut harus fokus pada integrasi kacamata AR ringan. Solusi saat ini (penggunaan tablet) tidak optimal untuk lingkungan industri, karena memerlukan kedua tangan pengguna untuk interaksi yang mengganggu proses perakitan. Selain itu, pengguna membuang waktu saat memeriksa info yang diperlukan melalui tablet dan kemudian melanjutkan tugasnya. Sebagai alternatif, saat menggunakan kacamata AR, semua info ini dipresentasikan ke bidang pandangnya secara real time dan sejajar dengan karyanya. Dengan kata lain, penggunaan tablet memiliki dampak negatif terhadap kenyamanan operator, di lini produksi, dengan penundaan proses produksi lebih lanjut.

Computer Vision Approaches based on Deep Learning and Neural Networks



1.      Introduction
Arsitektur dalam dengan struktur konvolusi telah ditemukan sangat efektif dan umum digunakan dalam penglihatan komputer. Dengan diperkenalkannya Graphics Processing Unit (GPU) untuk tujuan umum, telah terjadi peningkatan perhatian terhadap pemanfaatan kekuatan pemrosesan GPU untuk algoritma pembelajaran yang mendalam. Selain itu, sejumlah besar data online memungkinkan untuk melatih jaringan syaraf dalam secara efisien. Tujuan dari makalah ini adalah untuk melakukan studi pemetaan sistematis, untuk menyelidiki penelitian yang ada mengenai implementasi pendekatan penglihatan komputer berdasarkan algoritma pembelajaran yang mendalam dan Convolutional Neural Networks (CNN). Kami memilih total 119 makalah, yang diklasifikasikan menurut bidang minat, tipe jaringan, paradigma pembelajaran, jenis penelitian dan kontribusi. Studi kami menunjukkan bahwa bidang ini adalah area yang menjanjikan untuk penelitian. Kami memilih estimasi pose manusia dalam bingkai video sebagai tugas penglihatan komputer yang mungkin untuk dijelajahi dalam penelitian kami. Setelah mempelajari dengan seksama, kami mengusulkan tiga arahan penelitian yang berbeda terkait dengan: memperbaiki implementasi CNN yang ada, menggunakan Jaringan Saraf Kelahiran berulang (RNN) untuk perkiraan perkiraan manusia dan akhirnya mengandalkan paradigma pembelajaran tanpa pengawasan untuk melatih NNs.
2.      Systematic Mapping Study
Metode yang kita gunakan untuk melakukan studi pemetaan ini didasarkan pada studi pemetaan sistematis yang diajukan oleh Petersen. Idenya adalah mengumpulkan serangkaian publikasi di bidang yang diminati, untuk mengetahui cakupan penelitian lapangan. Studi pemetaan sistematis menyediakan struktur jenis laporan dan hasil penelitian yang telah dipublikasikan dengan mengkategorikannya. Sejumlah pertanyaan penelitian didefinisikan untuk mendapatkan tujuan ini secara sistematis. Kami memilih penelitian ini, karena tujuan utamanya adalah menyajikan ikhtisar area penelitian tertentu dan untuk mengidentifikasi kesenjangan penelitian. Inilah yang kita butuhkan pada awal penelitian kami. Kami mengumpulkan total 263 artikel, namun setelah proses penyaringan hanya 119 artikel tetap ada. Untuk mengklasifikasikan makalah dan menentukan kata kunci, kami menggunakan abstrak sebagai sumber utama.

3.      Literature Review
Dari proses pemetaan pemetaan sistematis kami, kami memutuskan untuk memusatkan perhatian pada satu tugas tertentu dari penglihatan komputer: estimasi pose manusia dalam bingkai video. Dari studi pemetaan sistematis dan juga dari tinjauan literatur lainnya di bidang yang sama, dapat kita katakan bahwa analisis citra telah dipelajari secara ekstensif. Kami condong ke arah analisis video sehingga kita bisa melihat momok visi komputer yang bisa menawarkan kemungkinan untuk studi lebih lanjut. Sedangkan untuk estimasi pose manusia, ini merupakan tugas yang hadir dalam aplikasi yang menganalisa orang. Misalnya: interaksi manusia-komputer, game (Kinect) atau gesture recognition. Satu studi kasus yang kami bidik adalah pengenalan isyarat dalam video bahasa isyarat: untuk memahami tanda-tanda dari gerakan tubuh bagian atas manusia. Seperti yang akan kita lihat di bawah, di dunia akademis dan aplikasi kehidupan nyata, ini adalah masalah yang telah ditangani, namun masih ada ruang untuk perbaikan.

4.      Research Questions
Dengan mempertimbangkan karya terbaru dalam menangani estimasi pose manusia melalui CNN, kita akan melihat cara untuk memperbaiki model yang ada yang sudah berhasil dalam tugas ini. Model dasar kami akan menjadi pekerjaan yang dilakukan oleh Pfister. Sebelum membahas secara rinci tentang apa yang akan kita perbaiki, kita akan melihat tiga model yang diusulkan Pfister. Gagasan di balik karyanya adalah memperkirakan estimasi pose manusia sehingga jaringan bisa mendeteksi isyarat manusia dalam video bahasa isyarat.
1) CoordinateNet: Dalam jaringan ini, tugas memperkirakan pose manusia diperlakukan sebagai masalah regresi, dimana inputnya adalah frame video RGB dan hasilnya adalah koordinat sendi (x, y).

2) HeatmapNet: Rasa penerapan CNN berikutnya adalah jaringan hotmap. Dalam hal ini, heatmap posisi sendi merupakan sasaran dari masalah regresi. Pada awal proses pelatihan, untuk beberapa lokasi gabungan dapat terbakar, namun seiring berjalannya waktu, prediksi yang benar berlaku. HeatmapNet berkinerja lebih baik dari CoordinateNet.

3) HeatmapNet menggunakan aliran optik: Idenya adalah untuk memanfaatkan informasi temporal dalam video, dengan menggunakan arus optik untuk menghasilkan prediksi dari frame tetangga. Prosedurnya adalah untuk memprediksi posisi sendi untuk semua frame tetangga dan kemudian menyelaraskannya ke bingkai tertentu dengan cara melengkungkannya ke belakang dan ke depan dengan menggunakan aliran optik yang padat. Metode ini berkinerja lebih baik dari yang sebelumnya.

5.      Conclusions
Makalah ini mengusulkan tiga pertanyaan penelitian yang berkaitan dengan jaringan syaraf dalam untuk analisis video estimasi pose manusia. Manfaat dari penelitian ini adalah tiga kali lipat. Ini memberikan gambaran umum penelitian mutakhir di lapangan. Ini membuka jalan untuk studi lebih lanjut tentang analisis video, area yang tidak ditangani sebanyak gambar oleh komunitas penglihatan komputer. Selain itu, diusulkan dua model yang membawa perkembangan baru pada masalah estimasi pose manusia. Di masa depan, kami bermaksud untuk mengerjakan tiga gagasan yang diajukan dan menerapkannya untuk pengenalan isyarat dalam video bahasa isyarat.

A Novel Vision-Based Human Motion Capture System Using Dual-Kinect



1.      Introduction
Dalam tulisan ini, kami menyajikan sebuah sistem pengejaran gerak manusia berbasis visi baru, yang menggunakan dua Kinect yang berjalan bersamaan untuk memindai subjek yang sama guna memperbaiki stabilitas. Pertama, penyebab kebisingan dan ketidakstabilan sistem Kinect tunggal dianalisis. Kemudian kami mengenalkan metode yang sangat sederhana namun efektif untuk mengkalibrasi dua Kinect. Karena penginderaan kedalaman Kinect didasarkan pada pancaran pola inframerah, dua Kinektor harus ditempatkan dengan sudut 1800 satu sama lain untuk mengurangi kesalahan interferensi yang disebabkan oleh bidang pandang yang tumpang tindih. Dua Kinects menangkap gerakan dari subjek yang sama menghasilkan dua set data, masing-masing mewakili gerakan dari sudut tertentu. Kami mengusulkan sebuah algoritma fusi dengan data redundan untuk menebus bagian yang terhambat tanpa melakukan estimasi atau aproksimasi pos dan menstabilkan sistem juga. Percobaan memvalidasi keefektifan pendekatan yang diusulkan untuk mengatasi kebisingan dan masalah oklusi.
2.      Kinect And Its Stability Analysis
Sensor Kinect menggabungkan beberapa perangkat penginderaan jauh. Ini berisi sensor kedalaman, sensor kedalaman, dan rangkaian empat mikrofon yang memberikan kemampuan menangkap gerak tubuh 3D penuh dan kemampuan pengenalan suara. Kami terutama tertarik pada aspek penglihatan dari sensor Kinect. Gambar 2 menunjukkan susunan proyektor inframerah (inframerah), kamera warna, dan kamera infra merah. Sensor kedalaman terdiri dari proyektor IR yang dipadukan dengan kamera IR, yang merupakan sensor semikonduktor oksida logam monokrom komplementer (CMOS). Proyektor inframerah menghasilkan pola konstan dan kamera IR mengukur perbedaan antara pola yang diamati dan gambar yang telah direkam sebelumnya pada kedalaman konstan yang diketahui. Keluaran terdiri dari citra nilai disparitas skala. Lebih khusus lagi, sensor Kinect mampu memberikan pelacakan skeletal. Alih-alih menentukan secara langsung pancaran tubuh di ruang berdimensi tinggi, Kinect menggunakan perpixel, pengenalan bagian tubuh sebagai langkah perantara untuk menghindari pencarian kombinatorial pada sendi tubuh yang berbeda. Dalam pelacakan skeletal, tubuh manusia ditunjukkan oleh sejumlah sendi yang mewakili bagian tubuh seperti kepala, leher, bahu dan lengan. Setiap sendi diwakili oleh koordinat 3D-nya. Dengan semua parameter 3D sendi ini ditentukan, pelacakan gerak manusia menjadi tugas yang kurang menantang.

3.      Calibration And Relative Position
Untuk merekonstruksi sebuah adegan dari dua kamera kedalaman Kinect, sistem harus dikalibrasi. Ini termasuk kalibrasi internal setiap Kinect serta kalibrasi pose relatif antara Kinect. Sedangkan kalibrasi sensor kedalaman masih harus menjadi tugas yang cukup menantang. Dari Gambar 2 kita dapat menemukan bahwa kamera IR dan RGB hanya dipisahkan oleh garis dasar kecil. Menunjukkan bahwa komponen rotasi transform antara kamera IR dan kamera RGB sangat kecil sehingga hampir bisa terbengkalai. Oleh karena itu, kita kira-kira bisa berasumsi bahwa kamera IR dan RGB berada dalam koordinat dunia yang sama. Dengan memanfaatkannya, kita bisa mendapatkan transformasi kaku antara dua kamera IR dengan mengkalibrasi dua kamera RGB yang jelas jauh lebih mudah.

4.      Data Process
Seperti yang dijelaskan di Sec. II, posisi relatif sendi rangka antara frame yang berdekatan kadang jitter atau loncat karena noise. Jadi sebelum operasi lebih lanjut kerangka kerangka harus dihaluskan dengan menggunakan saringan. Kerangka kerangka disediakan oleh 30 frame per detik, yang jelas merupakan data deret waktu dengan tren. Dalam situasi ini, pemulusan eksponensial ganda atau eksponensial orde kedua biasanya diadopsi. Ide dasar dibalik pemulusan eksponensial ganda adalah mengenalkan sebuah istilah untuk memperhitungkan kemungkinan sebuah seri yang menunjukkan beberapa bentuk tren. Komponen kemiringan ini sendiri diperbarui melalui smoothing eksponensial. Kami menggunakan salah satu metode pemulusan eksponensial ganda, yang kadang-kadang disebut sebagai pemulusan eksponensial Holt-Winter [16], untuk memberikan perataan dengan latensi lebih sedikit daripada algoritma penyaring smoothing lainnya. Ini bekerja seperti perataan sederhana kecuali dua komponen harus diperbarui setiap periode: tingkat dan tren. Tingkat adalah perkiraan nilai data yang merapikan pada akhir setiap periode. Tren ini merupakan perkiraan rata-rata pertumbuhan rata-rata pada akhir setiap periode.



5.  Experiments
Untuk memverifikasi keakuratan sistem kami, kami membandingkan sistem kami dengan tingkat sudut digital yang mengukur sudut dengan cepat dan mudah dengan akurasi yang luar biasa dengan mengukur sudut sendi pinggul kiri saat berjalan. Pada Gambar 5, kurva melintang hijau menunjukkan variasi sudut yang diukur dengan tingkat sudut digital, dan kurva solid biru menunjukkan variasi sudut yang diukur oleh sistem Dual-Kinect. Perubahan Tren dua kurva hampir identik yang periodik dan mulus. Tapi masih ada beberapa kesalahan, diperkirakan rata-rata 10%. Biasanya kesalahan pengukuran Kinect tunggal adalah sekitar 5% yang kurang dari nilai kita. Kesalahan mungkin datang dari prosedur kalibrasi dan kesimpulan inframerah dengan perkiraan terbaik kami.

6.  Conclusions And Future Work
Makalah ini memperkenalkan metode berbasis visi baru untuk menangkap gerakan manusia menggunakan dua Kinect yang berjalan bersamaan. Dibandingkan metode tradisional yang hanya menggunakan satu Kinect, pendekatan kami dapat membantu menghindari masalah kebisingan dan oklusi untuk menstabilkan sistem dan mengeluarkan kemungkinan kondisi aplikasinya. Pekerjaan kami juga mengusulkan algoritma fusi yang sesuai untuk menangani data yang diperoleh. Hasil percobaan mengkonfirmasi kelayakan pendekatan baru kami. Pekerjaan masa depan mencakup isu-isu berikut untuk memperbaiki kinerja sistem: Pertama, mengkalibrasi langsung kedua kamera kedalaman dapat mengurangi kesalahan kalibrasi dan bukan mengkalibrasi dua kamera RGB; Kedua, dengan menggunakan setup multiplexing waktu yang terdiri dari dua Kinect aktif, kesalahan interferensi dapat dieliminasi; Dan ketiga, algoritma fusi yang kami ajukan efektif tapi sederhana, algoritma lain yang lebih baik dapat diadopsi untuk lebih meningkatkan kinerjanya.