たれぱんのびぼーろく

わたしの備忘録、生物学とプログラミングが多いかも

熱中と依存、治療の判断基準

熱中も依存も大して変わらない。 社会的に問題のある行動を起こす熱中/依存は依存症として扱われ治療対象になる。 熱中/依存具合をコントロールする術があれば安心。 物質 食事 認可/非認可 薬物 行動 ギャンブル 仕事 研究 勉強 www.mhlw.go.jp 病名は、現…

徹底解説!GANSynth

圧倒的なクオリティ・conditioningの楽曲生成を達成したGANSynthを徹底解説! 3行まとめ NSynthデータセットを用いたpitch-conditional 多楽器 音楽生成 compressionless-mel-scale log magnitude rainbowgramによるデータ表現が決め手 GeneratorはConv & up…

損失関数は機械学習の肝

結果の良さを評価する関数なので、クリティカル 入力Xから悪さYへの投射 Xの定義域、Yの値域、X-Yの対応(規則)が全て Xがタプルになっていることも多い ラベルと出力、変換前と変換後、みたいな ドメイン知識の必要性 2つの異なるデータが同じ悪さを持つ場合…

病は口から? アルツハイマー病と歯周病菌の因果関係 (Science Ads.誌 2019-01)

慢性歯周炎に関わる病原菌がアルツハイマー型認知症の原因となっており、薬によって病原菌の除去と細胞死の抑制が可能と示された。臨床試験進行中。 概要 Stephen S. Dominy, et al.. Porphyromonas gingivalis in Alzheimer’s disease brains: Evidence for…

Close to Human Quality TTS with Transformer

AI

Close to Human Quality TTS with Transformer (2018) Transformer (phoneme2spec) + WaveNet vocoder を用いたE2E Neural TTS. 2018のTTS SOTA (this system 4.39 vs human 4.44) 概要 Tacotron系のencoderとDecoder 1 をTransformerに置き換えたもの. inpu…

ウェブ等へ公開するための音声フォーマット/コーデック@2019

音声にはたくさんのコンテナフォーマット・コーデックが存在する。 自分の音楽作品や音響信号処理を人々に「聞いて」もらうには、各プラットフォームで利用可能なフォーマットが不可欠である。 本稿では、そのために必要なウェブおよびアプリケーション (SNS…

著作権法改正2018と音声合成

専門家へ質問する叩き台 著作権法の一部を改正する法律(平成30年法律第30号) 3.改正の概要 (1)デジタル化・ネットワーク化の進展に対応した柔軟な権利制限規定の整備 出典: 文化庁 権利制限規定: 著作物に表現された思想又は感情の享受を目的としない利…

隠れたVTuber発掘!を支援する色々まとめ

Twitterハッシュタグ 新人VTuber VTuberはじめました Twitterアカウント - VTuber新人発掘 このアカウントは新人発掘を皆で楽に、楽しく行うためのものです。毎週土曜日と日曜日の13時〜今週の新人発掘(前週金曜~の投稿)を行います。会場https://t.co/rgDNM…

ベクトル空間 (線形空間) の元を列挙

ベクトル空間の元は色々なものがなれる。 ベクトル空間のイメージを正確かつ具体的にするため、元を知ってる限り列挙してみた。 幾何ベクトル (方向と大きさ) 数ベクトル (数のタプル) 関数

音響信号をどう表現するか

生波形か、変換した表現か 生波形の弱み 波形の違いがperceptualな違いに直結しない. ゆえに波形の違いをlossに利用してもそれがperceptual lossの最小化に必ずしもならない (使うことはもちろんできるし、それで性能も出るときは出る) 特徴量の弱み 全変換…

WGAN入門

WGAN導入の流れ Wasserstein distance (Earth-Mover Distance) は分布学習において有用 Wasserstein distanceを直接求める計算量は現実的でない Kantorovich-Rubinstein 双対性によりWasserstein distanceを別の形式に変形できる これをWGANと名付けよう WGA…

WebAssemblyを始めよう

WebAssemblyに触れてWebの未来を感じよう WebAssemblyとは WebAssembly (WASM) とは、Webブラウザで動く機械語です。 WASMはプログラミング言語であり、その実体はバイナリ命令の集合体、つまり機械語です1。 しかし、いわゆる機械語のイメージと異なり、Web…

機械学習を育てるx個のステップ

上手く学習しない!改善したい!何しよう…? バグの検証 実装は正しくなされていますか? 既存モデルの別ドメイン流用であるなら、報告論文にあるドメインで再現が取れるか確認しましょう。 この段階でバグの不安を取り除くことが重要です。 データ数の検証 …

Windowsで圧縮した巨大zipがPythonで展開/解凍できない!

結論 それはライセンス関係で解凍できない。Pythonのzipfileで圧縮しなおせばok 現象 こんなエラーが発生した。 raise NotImplementedError("compression type %d (%s)" % (compress_type, descr)) NotImplementedError: compression type 9 (deflate64) zip…

コツとは

上手く可能性を上昇させる振る舞いのうち、あまり行われないもの。 それが当たり前かどうかとは無関係。

平等ではなく貧困対策

山をならして平等にするのではなく、貧困対策に集中する 貧困の線引き 線は存在しないから、社会が決める 線ではなくスペクトラム 対策の中身 情報・金・元気があれば選択できる これらを供給する 情報: 相談に乗り、選択肢を示す 金: 配る、あるいはクーポ…

スタートメニューやEdgeが起動しない

f**k!!!! 状況 初期化して10.0.17763.55に戻したらいきなり動かない にた状況 Reddit - Windows10TechSupport - KB4464330 (17763.55) broke my Start Menu この現象は前に大問題となった現象らしく、色々対策が出てくる。 全部ダメだ、f**k!!!!

ボイチェンは声のメイク - 声そのものの権利は認められない -

AI

ボイスチェンジは声のメイク/化粧だ。 知人そっくりのメイクをしたら、その人の顔面権侵害になるだろうか? 然るに、声のそのものの権利 - 音紋権 - は存在しない。 ボイスチェンジは声のメイク ボイスチェンジとは、機械によって声質を変換することである。…

声質変換・音声の前処理に関する知識・考察

まず生波形を見よ 全ては生波形に始まり生波形に終わる。 無音区間、音量、バックグラウンドノイズ、全てが波形に表現されている。 まずは生データ、これサイエンスの基本. 無音区間を切り出すべきか 残しまくるのは一般に良くないと思う。 無音を教師として…

AtomのFolding/Unfoldingで差をつけろ

折り重なったコードの山々を自由に飛び回りたい。さあFolding/Unfoldingの時間だ 結論 ショートカットとエディタ拡張を使え (以下、コマンドはWindows準拠) atom標準ショートカット folding: Alt + Ctl + [ unfolding: Alt + Ctl + ] fold at specific level…

VCC2016データセット

Voice Conversion Challenge 2016(VCC 2016) データセットは、音声処理に有用な、パラレル音源データセットを提供してくれる。その特性をまとめる。 基本情報 10話者のパラレル発話1162+54センテンス2を含むデータセット. S: Source T: Target M: male F: fe…

Rainbowgramsで音を可視化

レインボーグラム (Rainbowgrams) とは、音声を構成する周波数成分の強さおよび位相変化率を時間ごとに可視化した図である。正確には、音声の周波数領域時系列がもつ強度およびInstantaneous frequency (IF) を可視化した図である。 レインボーグラムは、強…

声質変換 (Voice Conversion, ボイチェン) とは

声質変換(こえしつへんかん、せいしつへんかん1)とは、声がもつ意味を変えずに質感のみを変えること。正確には、「入力音声に対して, 発話内容を保持しつつ, 他の所望の情報を意図的に変換する処理」2のこと。 英語では「Voice Conversion」や「Voice Tran…

PyTorchのnn.Moduleを読み解く

レイヤーをattributeとして設定する必要がある理由 __setattr__でフック掛けて処理をしているから フック内ではattribute valueの種類に基づいて内部登録がなされる. module.parameters()ではparamsのみではなくmodulesへも再帰的にアクセスしてparamsを拾っ…

PyTorchのLearningRate Scheduler

PyTorchではoptimizerの学習率 (Learning Rate) を動的に変更するUtilityがある。 このUtilityはSchedulerと呼ばれ、Class名では○○LRと名付けられている. Schedulerのタイプ 更新の仕方によって以下のように分類される。 LambdaLR: StepLR: x epochごとにlr…

mnet基本思想

ネットワークはネットワーク ネットワークの本質はネットワーク構造にある。 学習は別物。 同じネットワーク構造に異なる学習 (Backprop+optim vs non-BP手法) を行うことが可能。 そもそも推論だけしたい人には学習周りは不要. PyTorchそのものがネットワー…

音響特徴量と仲良くなる

Mel Cepstral Coefficients / MCEPs Hamming & Hann Windows Mel-Generalized Cepstral MGCEP Mel-Frequency Cepstrum Coefficients / MFCC メル周波数ケプストラム係数(MFCC) - 人工知能に関する断創録 Cepstral Analysis Spectrumを概形たるSpectral Env…

Pythonモジュール/パッケージの闇にのまれないために

module resolution (モジュール解決) find build-in module find from sys.path directory list sys.pathのデフォルトlistは 実行スクリプトの場所 || cd PYTHONPATH インストールごとのデフォルト (?) パッケージ / package Python用語. モジュールの詰め合…

Windows Insider Previewでの遊び方

Windows OSは開発途上のプレビュー版 (オープンベータ版) をWindows Insider Programとして公開している。 新機能がもりもりで楽しく遊ぶことができる。 ただし、安易な火遊びは怪我の元。いくつか注意事項がある。 アップデート直後なら引き返せる バージョ…

徹底解説!CycleGANで声質変換 (voice conversion, ボイチェン)

CycleGANの声質変換における利用を調べ、技術的詳細を徹底解説する。 CycleGAN-VCとは CycleGANを話者変換 (声質変換, Voice Conversion, VC) に用いたもの。 CycleGANは2つのGeneratorが2つのドメインを相互変換するモデルであり、ドメイン対でペアデータが…