लेखक
Aditya Sundar - Waseda Universityसारांश
यो परियोजनाले भिडियो र अडियो डाटा preprocessing को लागि स्वचालित pipeline सिर्जना गर्दछ, भिडियो उत्पादन मोडेलहरू प्रशिक्षणको लागि मुख्य जानकारी extract गर्दै। Pipeline ले अनुहार detection, भावना वर्गीकरण, pose अनुमान, र अडियो प्रशोधन ह्यान्डल गर्दछ। मुख्य विशेषताहरू:- स्वचालित अद्वितीय अनुहार detection र isolation
- टाउको pose अनुमान (yaw, pitch, roll)
- Deep learning प्रयोग गरेर भावना वर्गीकरण
- अडियो वर्गीकरण र भाषण isolation
- Clip उत्पादन (3-10 सेकेन्ड segments)
1. परिचय
भिडियो-आधारित generative मोडेलहरूको वृद्धिले बलियो preprocessed भिडियो datasets को आवश्यकता सिर्जना गरेको छ। यो परियोजनाले भिडियो र अडियो डाटाको preprocessing स्वचालित गर्दछ:- स्वचालित रूपमा अद्वितीय अनुहारहरू वर्गीकृत र पहिचान गर्न
- समयमा अनुहारको भावनाहरू र टाउको poses पत्ता लगाउन
- पृष्ठभूमि संगीतको लागि अडियो वर्गीकृत गर्न र भाषण अलग गर्न
- Generative मोडेलहरूमा प्रयोगको लागि भिडियोहरू ट्रिम र परिष्कृत गर्न
2. विधि
Pipeline अवलोकन

भिडियो preprocessing pipeline workflow
| चरण | कार्य |
|---|---|
| अडियो वर्गीकरण | भाषण पहिचान र पृष्ठभूमि आवाजबाट अलग |
| अनुहार Detection | भिडियोमा अद्वितीय अनुहारहरू पत्ता लगाउने र पहिचान गर्ने |
| अनुहार Cropping | अनुहार-केन्द्रित clips उत्पन्न गर्ने (3-10 सेकेन्ड) |
| Pose अनुमान | टाउको orientation अनुमान (yaw, pitch, roll) |
| भावना वर्गीकरण | प्रत्येक frame मा भावनाहरू पत्ता लगाउने |
2.2 अडियो वर्गीकरण
Audio Spectrogram Transformer मोडेल प्रयोग गरेर अडियो वर्गीकृत गरिन्छ। उदाहरण परिणामहरू:| भिडियो प्रकार | भाषण % | संगीत % |
|---|---|---|
| संगीतको साथ टिप्पणी | 50.28% | 37.20% |
| लाइभ प्रदर्शन | 1.50% | 46.54% |
| समाचार अन्तर्वार्ता | 82.64% | 0% |
2.4 Pose अनुमान
68 अनुहार landmarks प्रयोग गरेर टाउको pose अनुमान गरिन्छ:- Yaw: बायाँ-दायाँ rotation (>10° = दायाँ/बायाँ हेर्दै)
- Pitch: माथि-तल rotation (>10° = माथि/तल हेर्दै)
- Roll: टाउको झुकाव
2.5 भावना वर्गीकरण
Hugging Face बाट facial_emotions_image_detection प्रयोग गर्दै:- पत्ता लगाउँछ: happy, sad, angry, neutral, fear, disgust, surprise
- स्कोरहरू 100% मा normalize गरिन्छ
- सारांशको लागि सम्पूर्ण भिडियोमा औसत गरिन्छ
3. परिणामहरू
उदाहरण भिडियो विश्लेषण
परीक्षण भिडियो: “Hacksaw Ridge Interview - Andrew Garfield” (4 min 11 sec)| Metric | मान |
|---|---|
| कुल frames | 6,024 |
| FPS | 23.97 |
| अनुहार detection दर | 98.26% |
| प्रति frame औसत अनुहारहरू | 1.0 |
| उत्पन्न clips | 26 |
4. भविष्यका दिशाहरू
- थप वर्गीकरणहरू: ओठ पढ्ने, हावभाव detection
- GPU acceleration: हाल स्रोत सीमाको कारण CPU-मात्र
- फाइन-ट्युन गरिएका मोडेलहरू: विशेष कार्यहरूको लागि कस्टम मोडेलहरू
- उन्नत भावना detection: Static images भन्दा बाहिर multi-modal दृष्टिकोणहरू
सन्दर्भहरू
- 1adrianb/face-alignment - 2D र 3D अनुहार alignment library
- ageitgey/face_recognition - Python को लागि अनुहार पहिचान API
- CelebV-HQ - ठूलो-स्तरको भिडियो अनुहार Attributes Dataset
- danielgatis/rembg - पृष्ठभूमि हटाउने उपकरण
- dima806/facial_emotions_image_detection - Hugging Face
