?

Log in

No account? Create an account
Решение задачи на стыке дисциплин - сообщество "Звукорежиссура" [entries|archive|friends|userinfo]
Звукорежиссура

[ website | Привоз звукового оборудования из Европы (www.thomann.de) ]
[ userinfo | livejournal userinfo ]
[ archive | journal archive ]

Решение задачи на стыке дисциплин [Apr. 25th, 2006|10:40 pm]
Звукорежиссура
ru_zvuk
[ded_flint]
Возвращаясь к теме, затронутой в предыдущем моём посте, расскажу как я сегодня пытался хоть как-то решить поставленную мной же задачу.

В комментариях были некоторые дельные советы, в частности, по использованию программы SpectrumPlay. Хороша она оказалась тем, что позволяет отрисовывать сонограмму в логарифмической шкале по частоте, а это, как стало ясно позже, очень важно.
Ещё одну программу, на которую посоветовали обратить внимание - Coagula. С ней я был знаком давно, только вот как скачал - так и забросил, как яркую, но совершенно никчёмную игрушку. Теперь пришёл и её черёд.

Для метода, которым пользовался я, будут нужны следующие программы:
Cool Edit 2
Adobe Photoshop
Coagula

В качестве тестового звука пришлось, для простоты задачи, взять фразу, произнесённую мужским голосом длиной пять секунд. Звук предварительно был сконвертирован в частоту дискретизации 11025Гц, дабы ещё больше упростить эксперимент.
Данный звук был отображён в виде сонограммы в окне Cool Edit. Для большей разрешающей способности предварительно было выставлено максимально возможное разрешение экрана. Далее при помощи классического принтскрина изображение сонограммы было перенесено в Фотошоп.
Так как КулЭдит не имеет возможности отображения сонограммы по логарифмической шкале частот, то пришлось попыхтеть в фотошопе. Грубым методом это было сделано так:
- Canvas Size -> увеличиваем канву над сонограммой 200% от исходной высоты, заливка чёрным цветом;
- Image Size -> увеличиваем общий размер изображения раза, эдак, в два-три, по вкусу;
- Filter -> Distort -> Spherize -> здесь mode: Vertical only, amount = -100%
Повторяем фильтр ещё раз. Затем изображение обрезается сверху по размеру увеличенной пустой канвы и снизу, дабы убрать лишние вертикальные полосы:

- Уменьшаем изображение обратно до исходного размера. Вообще, применение ресайза в данном случае очень полезно, чтобы не внести ещё больше дискретных искажений при использовании фильтра Spherize.

Таким образом, я очень примитивно сымитировал логарифмическую шкалу. Казалось бы, это могла сделать программа SpectrumPlay, но в ней отсутствовали возможности подгонки параметров FFT-преобразования, а те что были зашиты изначально оказались полным шитом для наших целей.

Далее, полученное изображение сохраняется в bmp-файл и открывается в Coagula. Здесь устанавливаются следующие Render Options:
Time = 5 sec;
Amp factor = 5;
Pitch high = 6000 Hz;
Pitch low = 60 Hz;
Noise bandw. убираем до нуля.

Нажимаем Render и ждём результата.

То что получилось у меня, можно увидеть и услышать в следующих файлах:
сонограмма исходного и перекодированного звука, 40k. Оба звука объединены последовательно, попробуйте догадаться какой из них исходный, а какой - перекодированный.
http://ded-flint.truelife.ru/other/sonogram/mayhem_both.mp3, 50k - сам звук, также сначала исходный, затем перекодированный.

Вывод можно сделать следующий:
Для успешного перекодирования нужно отрисовывать сонограмму в как можно большем разрешении, обязательно сразу в логарифмической шкале. То что получилось у меня можно сравнить с действием на исходный звук очень знакомого всем эффекта.
Для улучшения качества, также, безусловно, надо подбирать оптимальные значения FFT Size и Window width при изначальной отрисовке сонограммы. Ещё одним узким местом, возможно, является "оцифровщик" сонограммы - Coagula, качество реализации внутренних алгоритмов которой нам неизвестно.
В случае с нашим звуком, мы получили разборчивую речь на выходе, хотя, конечно же, жутко искажённую. Тем не менее, это позволило закодировать звук в 22.4 кбпс, так как исходное изображение сонограммы в jpeg занимает 14кб.

Такие дела.
LinkReply

Comments:
[User Picture]From: greycat_na_kor
2006-04-25 08:05 pm (UTC)
Вы действительно таким образом собрались что-то сжимать? %) в 22.4 кбпс можно получать вполне себе шикарную по разборчивости речь %)
(Reply) (Thread)
[User Picture]From: rpstudio
2006-04-25 09:16 pm (UTC)
Я пробовал закручивать болты шваброй и красить стены молотком. Неудобно!:))
(Reply) (Thread)
[User Picture]From: holgert
2006-04-25 10:14 pm (UTC)
Немецкому режиссеру Вальтеру Руттману в эпоху немого кино тоже было не удобно снимать кино без звука. Его фильм "Берлин. Симфония большого города" вышел в 1927 году и вошёл в классику мирового кинематографа, где "графические" образы главного героя (Берлина) превращались в музыку. ;)

На самом деле эта задача ничем не удивляет, так как, так называемая, сонограмма наносится на киноплёнку для воспроизведения в кинотеатрах, а раз так, то должны быть и методы расшифровки сонограмм софтвейным способом. бла-бла-бла... спасибо за внимание.
(Reply) (Parent) (Thread)
From: ded_flint
2006-04-26 05:42 am (UTC)
значит всё-таки не зря я гвозди микроскопом забивал?
(Reply) (Parent) (Thread)
[User Picture]From: gaius_julius
2006-04-26 08:42 am (UTC)
зря. принцип у "плёночной" записи двука совсем другой.
(Reply) (Parent) (Thread)
From: ded_flint
2006-04-26 09:01 am (UTC)
а причём тут пиво сокол плёночная запись?
(Reply) (Parent) (Thread)
[User Picture]From: gaius_julius
2006-04-26 09:04 am (UTC)
имелась ввиду киноплёнка. О допотопной технологии записи звука на которую упоминается во втором абзаце комментария holget выше по дереву.
(Reply) (Parent) (Thread)
[User Picture]From: holgert
2006-04-26 01:52 pm (UTC)
я бы не хотел уходит в частности и в рассказы об эволюции полутонной оптической фонограммы,
я вероятней всего где-нибудь ошибусь, как и Вы тыкаете, блин, в меня пальцем
в написании моего ника. ;) Просто я не об этом.


(Reply) (Parent) (Thread)
[User Picture]From: holgert
2006-04-26 01:43 pm (UTC)
Зря или нет это Вам решать, смотря какое стекло в микроскопе, да и сам микроскоп можно превратить в золотой
и при желании забивать не гвозди, а сваи. Это я о медиа-арте.

Любой человек, занимающийся дизайном или рекламой наслышен о современном искусстве.
Не знаю стоит ли рассказывать, что это такое , как это делается и какими средствами медиахудожники
становятся знаменитами. Примеров масса.

Со звуком сложнее, даже если и придуманна классная концепция, поймут её не многие. Электронщикам проще
это понять, да и придумать что-то новое, потому что каждый день они ислледуют новые звуки в своих синтезаторах

Вот пожалуйста, пример для вашей "задачи". Устраиваем Preved Party (о! сколько будет публики!), ну, что-то типа фотожабной галлерии с медведом.
Берём изображение медведа, кладём его на пол, отрываем мишке лапу и превращаем его в звук, всё это делаем
при публике, даже если получится треск, то можно обыграть его, как рёв медведа, а затем вставлем сэмпл в свою работу.
Всё! Называем стиль "Medved Dance Music", сэт "превед кросавчегам" смотрим на позолоту микроскопа , становимся известными года на 2, пока
медвед не эволюционировал. Ах да, в вашем инфо - рок ;) , извиняюсь, придётся искать метафизику в творчестве, исследовать
синтез искусств, поэзию сочетаний,создание мифов и т.д., (продаваться почти не будет, но если что с Вас 20 копеек за идею ;)
Берёте руну... руну берёте, не гвозди...
...отличный "паган-метал" получится, главное будет оправданно, ведь каждая руна несёт своё значение!

;)

(с уважением к исследователям отдаю линк
на память - http://www.neubauten.org/ , мне там инструменты нравятся http://www.neubauten.org/photos/images/instr13.jpg )
(Reply) (Parent) (Thread)
From: ded_flint
2006-04-26 02:07 pm (UTC)
хех, цели получать на этом деле известность у меня не было. меня интересуют лишь алгоритмы, алгоритмы и ещё раз алгоритмы.
(Reply) (Parent) (Thread)
[User Picture]From: holgert
2006-04-26 02:17 pm (UTC)
звучит, как завещание Великого Экспериментатора ;)

Наверное, правильным путём идёте, товарищ!
По крайней мере заинтересовали программой.
(Reply) (Parent) (Thread)
From: ex_kate_sys839
2006-04-26 08:31 am (UTC)
Шикарно!!!
(Reply) (Thread)
From: (Anonymous)
2006-04-26 01:14 pm (UTC)
Изврат, но весело!
(Reply) (Thread)
[User Picture]From: sonictechs
2006-04-28 07:28 pm (UTC)
В фрутилупсе вроде был синтюк, который из картинки звук получает, не помню как называется, но работает примерно также.
(Reply) (Thread)