Skip to main content

लेखक

Aditya Sundar - Waseda University

सारांश

यो परियोजनाले भिडियो र अडियो डाटा preprocessing को लागि स्वचालित pipeline सिर्जना गर्दछ, भिडियो उत्पादन मोडेलहरू प्रशिक्षणको लागि मुख्य जानकारी extract गर्दै। Pipeline ले अनुहार detection, भावना वर्गीकरण, pose अनुमान, र अडियो प्रशोधन ह्यान्डल गर्दछ। मुख्य विशेषताहरू:
  • स्वचालित अद्वितीय अनुहार detection र isolation
  • टाउको pose अनुमान (yaw, pitch, roll)
  • Deep learning प्रयोग गरेर भावना वर्गीकरण
  • अडियो वर्गीकरण र भाषण isolation
  • Clip उत्पादन (3-10 सेकेन्ड segments)

1. परिचय

भिडियो-आधारित generative मोडेलहरूको वृद्धिले बलियो preprocessed भिडियो datasets को आवश्यकता सिर्जना गरेको छ। यो परियोजनाले भिडियो र अडियो डाटाको preprocessing स्वचालित गर्दछ:
  • स्वचालित रूपमा अद्वितीय अनुहारहरू वर्गीकृत र पहिचान गर्न
  • समयमा अनुहारको भावनाहरू र टाउको poses पत्ता लगाउन
  • पृष्ठभूमि संगीतको लागि अडियो वर्गीकृत गर्न र भाषण अलग गर्न
  • Generative मोडेलहरूमा प्रयोगको लागि भिडियोहरू ट्रिम र परिष्कृत गर्न

2. विधि

Pipeline अवलोकन

Pipeline Workflow

भिडियो preprocessing pipeline workflow

Preprocessing pipeline पाँच मुख्य चरणहरू समावेश गर्दछ:
चरणकार्य
अडियो वर्गीकरणभाषण पहिचान र पृष्ठभूमि आवाजबाट अलग
अनुहार Detectionभिडियोमा अद्वितीय अनुहारहरू पत्ता लगाउने र पहिचान गर्ने
अनुहार Croppingअनुहार-केन्द्रित clips उत्पन्न गर्ने (3-10 सेकेन्ड)
Pose अनुमानटाउको orientation अनुमान (yaw, pitch, roll)
भावना वर्गीकरणप्रत्येक frame मा भावनाहरू पत्ता लगाउने

2.2 अडियो वर्गीकरण

Audio Spectrogram Transformer मोडेल प्रयोग गरेर अडियो वर्गीकृत गरिन्छ। उदाहरण परिणामहरू:
भिडियो प्रकारभाषण %संगीत %
संगीतको साथ टिप्पणी50.28%37.20%
लाइभ प्रदर्शन1.50%46.54%
समाचार अन्तर्वार्ता82.64%0%

2.4 Pose अनुमान

68 अनुहार landmarks प्रयोग गरेर टाउको pose अनुमान गरिन्छ:
  • Yaw: बायाँ-दायाँ rotation (>10° = दायाँ/बायाँ हेर्दै)
  • Pitch: माथि-तल rotation (>10° = माथि/तल हेर्दै)
  • Roll: टाउको झुकाव

2.5 भावना वर्गीकरण

Hugging Face बाट facial_emotions_image_detection प्रयोग गर्दै:
  • पत्ता लगाउँछ: happy, sad, angry, neutral, fear, disgust, surprise
  • स्कोरहरू 100% मा normalize गरिन्छ
  • सारांशको लागि सम्पूर्ण भिडियोमा औसत गरिन्छ

3. परिणामहरू

उदाहरण भिडियो विश्लेषण

परीक्षण भिडियो: “Hacksaw Ridge Interview - Andrew Garfield” (4 min 11 sec)
Metricमान
कुल frames6,024
FPS23.97
अनुहार detection दर98.26%
प्रति frame औसत अनुहारहरू1.0
उत्पन्न clips26

4. भविष्यका दिशाहरू

  1. थप वर्गीकरणहरू: ओठ पढ्ने, हावभाव detection
  2. GPU acceleration: हाल स्रोत सीमाको कारण CPU-मात्र
  3. फाइन-ट्युन गरिएका मोडेलहरू: विशेष कार्यहरूको लागि कस्टम मोडेलहरू
  4. उन्नत भावना detection: Static images भन्दा बाहिर multi-modal दृष्टिकोणहरू

सन्दर्भहरू

  1. 1adrianb/face-alignment - 2D र 3D अनुहार alignment library
  2. ageitgey/face_recognition - Python को लागि अनुहार पहिचान API
  3. CelebV-HQ - ठूलो-स्तरको भिडियो अनुहार Attributes Dataset
  4. danielgatis/rembg - पृष्ठभूमि हटाउने उपकरण
  5. dima806/facial_emotions_image_detection - Hugging Face