지난 글에 이어서 이번 글에서는 Related Work 파트의 내용을 정리해려고 합니다. 이번 파트는 선행 연국에 대한 이야기이기 때문에 레펀러스가 많이 달리고 논문 링크는 하단에 레퍼런스로 있습니다

Index

Intro
Related Work
Model Architecture
Dataset and Preprocessing
Architecture Parmeters and Training
Experimental Results
Conclusion

Gatys et al.1 의 논문에서 Neural Style Transfer의 컨셉을 설명한다. 이 논문에서는 Pre-Trained CNN ResNet을 이용해 두 이미지의 스타일과 컨텐츠를 합친다.

CycleGAN2같은 접근에서는 explict 스타일 특성 추출이 요구되지 않는다. 대신 pair의 Generator (G)가 사용된다. 이 두 개의 G는 데이터의 domain transfer를 위해 사용이 된다. 두 도메인의 특성은 추출될 특징의 종률르 implicit 한다. A 도메인이 사진이고 B가 그림이라고 한다면 CycleGAN은 사진을 그림으로 바꾸고, 그림을 사진으로 바꾸는 양 방향으로 작동한다. MIDI 파일을 이미지와 같은 방법으로 CycleGAN이 사용 가능하다. CycleGAN은 CycleGAN-VC, StarGAN, DualGAN 등으로 발전했다. music domain transfer에서 좀 더 발전된 복잡한 네트워크를 도입하기 기대하지만 해당 프로젝트에서는 시도하지 않고 CycleGAN을 사용한다

Malik et al.3의 논문은 기존 music domain transfer연구에 대한 내용이 담겨 있다. 사람의 연주에서 연주 스타일을 배우는 모델을 소개한다. Flat한 MIDI에 Velocities(음의 강약)를 추가해 실제적은 소리로 만들어 낸다. 단순히 Note Velocities를 변화 시킴으로 다른 음악가의 스타일이나 장르에 대한 학습 없이 정말 사람처러 연주를 한다

Brunner et al.4의 논문에서는 MIDI-VAE 다중작업 VAE모데을 소개한다. 이 모델은 latent space를 공유한다. 스타일의 구성요소를 완벽하게 바꿀수 있는 네트워크 모델이다. 즉 MIDI-VAE는 Note pitch 외에도 MIDI 파일에 포함된 음악의 대부분의 다른 측명, Velocity, Duration 및 기악 instumentation을 모델링한다. MIDI-VAE는 재생되는 음의 수를 제한하는 반면 해당 논문은 음의 수를 제한하지 않아 더 풍부한 음향을 불러온다. 또 Note pitch에만 집중하면 되기 때문에 편한 모델이다.

Van den Oord et al.5의 논문에서는 Raw Audio VAE모델을 이야기 한다. Latent space에서 speaker의 voice transfer가 가능하다.

Mor et al.6에서는 WaveNet을 기반으로 한 네트워크를 소개한다. AutoEncoder는 악기, 장르 스타일 간의 raw 음악을 translate 가능하다. 심지어 휘파람에서 음악을 synthesis가 가능하다.

Roberts et al.7에서 소개된 모델은 lecome MusicVAE는 폴리포닉(동시에 여러 음 연주) 음악에서 장기적 구조를 포착할 수 있고 높은 보간과 재구성을 보여줄 수 있는 계층적 VAE 모델이다. GAN은 매우 강력하지만, 훈련하기가 어렵기때문에 일반적으로 순차 데이터에 적용되지 않는다.

Mogren8, Yang et al.9 and Dong et al.10에서 CNN기반의 GAN 작곡의 효과를 보여줌

음악은 듣을 때 이상하지 않아야 성공이다. 스타일이나 도메인 전송에 직접 적용하지 않고 자동 음악 생성 분야에서 중요한 작업을 간단히 다룰 것이다. 대부분 Standard RNN 이나 LSTM모델을 사용한다. 최근 연구에서는 CNN에서도 성공적으로 사용되었고, RNN과 결합되기도 한다. VAE(Variational Autoencoder)와 GAN(Generative Adversacy Networks)은 점점 성공적으로 나아간다

1. Image style transfer using convolutional neural networks
2. Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks
3. Neural translation of musical style
4. MIDI-VAE: Modeling dynamics and instrumentation of music with applications to style transfer
5. Neural discrete representation learning
6. A universal music translation network
7. Hierarchical variational autoencoders for music
8. C-RNN-GAN: continuous recurrent neural networks with adversarial training
9. MidiNet: A convolutional generative adversarial network for symbolic-domain music generation
10.MuseGAN: Multi- track sequential generative adversarial networks for symbolic music generation and accompaniment

Symbolic Music Genre Transfer with CycleGAN(2)

Index

Sihan Son