LLM2Fx-ის ახსნა - ხელოვნური ინტელექტი აკონტროლებს ეკვალაიზერსა და რევერბერაციას ხმის საშუალებით.

Sony AI-სა და KAIST-ის გუნდმა LLM2Fx-ის გამოყენებით აჩვენა, რომ GPT-4-ის მსგავს მასშტაბურ ენობრივ მოდელებს შეუძლიათ ეკვალაიზერისა და რევერბერაციის პარამეტრების პროგნოზირება მხოლოდ ტექსტის აღწერილობებიდან - სპეციალური მომზადების გარეშე. ამან შეიძლება რევოლუცია მოახდინოს აუდიოს პოსტ-პროდაქშენში.

LLM2FX ხელოვნური ინტელექტის ხმოვანი კონტროლი რევერბერაციისა და ეკვალაიზერისთვის

რა არის LLM2Fx?

LLM2Fx არის კვლევითი ჩარჩო, რომელიც იყენებს დიდ ენობრივ მოდელებს, როგორიცაა GPT-4 ან LLaMA, აუდიო ეფექტების პარამეტრების, როგორიცაა ეკვალაიზერის ან რევერბერაციის პარამეტრები, გენერირებისთვის პირდაპირ ტექსტის შეყვანიდან. ტრადიციული ინსტრუმენტებისგან განსხვავებით, LLM2Fx-ს სჭირდება კონკრეტული ტრენინგის გარეშემაგრამ იყენებს თანამედროვე ენობრივი მოდელების ნულოვანი დარტყმის შესაძლებლობებს.

მაგალითი: ტექსტური ბრძანება „გიტარის ხმა უფრო თბილი გახადეთ“ საკმარისია - მოდელი ავტომატურად შემოგთავაზებთ შესაბამის ეკვალაიზერის პარამეტრებს.

🔗 arXiv-ის შესახებ ორიგინალურ კვლევაზე

როგორ მუშაობს Text2Fx

LLM2Fx აერთიანებს სემანტიკური ენის გაგებას ციფრული სიგნალის დამუშავების (DSP) ექსპერტიზასთან. პროცესი დაყოფილია ოთხ ეტაპად:

  1. სისტემის მოთხოვნამოდელი წარმოდგენილია, როგორც „ვირტუალური აუდიო ინჟინერი“.

  2. ტექსტური ბრძანებამაგ. „რბილი რევერბაცია აკუსტიკური გიტარისთვის“.

  3. კონტექსტში არსებული მაგალითებიტექსტისა და პარამეტრის წინა შესაბამისობები მოცემულია მითითებისთვის.

  4. აუსგაბესტრუქტურირებული JSON პარამეტრები პლუს ახსნა, თუ როგორ წარმოქმნიან პარამეტრები სასურველ ხმას.

ეს კომბინაცია ქმნის მოქნილ, ბუნებრივ ენობრივ ინტერფეისს ხმოვანი კონტროლით ხმის დიზაინისთვის.

მოდელების შესრულების შედარება

მკვლევარებმა გამოსცადეს GPT-4o, LLaMA3 (1B–70B), Mistral-7B და უფრო ძველი ოპტიმიზაციის მეთოდები. ხმის ხარისხი შეფასდა MMD ქულის გამოყენებით. საუკეთესო შედეგები მიღწეული იქნა:

  • GPT-4o: ეკვალაიზერი: 0.22 | რევერბაცია: 0.70

  • LLaMA3-70B: ეკვალაიზერი: 0.24 | რევერბაცია: 0.52

  • მისტრალი-7ბ: ეკვალაიზერი: 0.30 | რევერბაცია: 0.45

დამატებითმა კონტექსტურმა ინფორმაციამ, როგორიცაა DSP ფუნქციები, აუდიო ფუნქციები და სამაგალითო მოთხოვნები, კიდევ უფრო გააუმჯობესა პროგნოზირების სიზუსტე.

შესაძლო გამოყენება პრაქტიკაში 

LLM2Fx არ არის მხოლოდ კვლევითი კონცეფცია - ის აჩვენებს მომავალი ინსტრუმენტების გამოყენების მკაფიო სფეროებს:

  • ტექსტით კონტროლირებადი DAW დანამატებიმაგ. „ვოკალი უფრო ღია გახადე“

  • ხელოვნური ინტელექტის ოსტატობის ასისტენტები: გადააკეთეთ უკუკავშირი, როგორიცაა „მეტი დარტყმა“, EQ მრუდებად

  • ხმოვანი სამუშაო პროცესებიხმოვანი კონტროლი მიქსის დავალებების შესასრულებლად

ეს რევოლუციურია ყველასთვის, ვისაც სურს უფრო ინტუიციურად მუშაობა ან საჭიროებს ადვილად მისაწვდომ ინტერფეისებს.


სხვათა შორის: ამავე პიკ სტუდიები მიქსინგისა და მასტერინგის ონლაინ დაჯავშნა დღესვე შეგიძლიათ – პირადი გამოხმაურებისა და ინდივიდუალური რჩევების ჩათვლით.

დასკვნა: LLM2Fx ყოველდღიურ მიქსინგში

LLM2Fx ამტკიცებს, რომ თანამედროვე ენობრივ მოდელებს შეუძლიათ შემოქმედებითი აუდიო აღწერილობების ზუსტ პარამეტრებად გარდაქმნა. ეს ხმის მიქსინგისა და დიზაინის შექმნას არა მხოლოდ უფრო ხელმისაწვდომს, არამედ უფრო სწრაფსა და ინტუიციურსაც ხდის.

კლასიკური კონტროლერებიდან ხმოვან კონტროლზე გადასვლა არა მხოლოდ ტექნიკურად საინტერესოა, არამედ თანამედროვე მწარმოებლებისთვის UX ინოვაციაცაა.

სცადეთ ხმაზე დაფუძნებული მიქსი – Peak Studios-თან ერთად

გსურთ იცოდეთ, როგორ გააუმჯობესოთ თქვენი მიქსის ჟღერადობა სემანტიკური უკუკავშირის გამოყენებით?
ამავე პიკ სტუდიოსი ჩვენ გთავაზობთ პერსონალურ ონლაინ მიქსინგს – გამჭვირვალე, ინდივიდუალურ და, სურვილის შემთხვევაში, ხელოვნური ინტელექტით მხარდაჭერილი ინსტრუმენტებისა და ეფექტური ეკვალაიზერის პარამეტრების შესახებ ტექნიკური რჩევების ჩათვლით.

???? დაჯავშნეთ ონლაინ მიქსი Peak Studios-ში
→ ან წინასწარ გამოგვიგზავნეთ თქვენი ნაზავი შეფასებისთვის.

კითხვა-პასუხი

LLM2Fx არის ჩარჩო, რომელიც ავტომატურად წარმოქმნის EQ და რევერბერაციის პარამეტრებს ტექსტის სპეციფიკაციების საფუძველზე.

დიახ - მოდელები მუშაობენ ნულოვანი გასროლის რეჟიმში დამატებითი სავარჯიშო მონაცემების გარეშე.

კვლევა ფოკუსირებულია ეკვალაიზერებსა და რევერბერაციაზე - აუდიო რედაქტირების ორ ცენტრალურ ინსტრუმენტზე.

კვლევის თანახმად, პროგნოზები გაცილებით უკეთ შეესაბამება სასურველ ხმის პროფილებს, ვიდრე კლასიკური ოპტიმიზაციის მეთოდები.

ჯერ არ არის კომერციული, მაგრამ არსებობს საჯარო LLM2Fx დემო ვერსია.

სურათის ავტორი: კრის ჯონსი

კრის ჯონსი

აღმასრულებელი დირექტორი – მიქსინგისა და მასტერინგის ინჟინერი. Peak Studios-ის დამფუძნებელი (2006) და გერმანიაში პროფესიონალური აუდიო მიქსინგისა და მასტერინგის ერთ-ერთი პირველი ონლაინ სერვისის მიმწოდებელი.