たれぱんのびぼーろく

わたしの備忘録、生物学とプログラミングが多いかも

2018-01-01から1年間の記事一覧

音響信号をどう表現するか

生波形か、変換した表現か 生波形の弱み 波形の違いがperceptualな違いに直結しない. ゆえに波形の違いをlossに利用してもそれがperceptual lossの最小化に必ずしもならない (使うことはもちろんできるし、それで性能も出るときは出る) 特徴量の弱み 全変換…

WGAN入門

WGAN導入の流れ Wasserstein distance (Earth-Mover Distance) は分布学習において有用 Wasserstein distanceを直接求める計算量は現実的でない Kantorovich-Rubinstein 双対性によりWasserstein distanceを別の形式に変形できる これをWGANと名付けよう WGA…

WebAssemblyを始めよう

WebAssemblyに触れてWebの未来を感じよう WebAssemblyとは WebAssembly (WASM) とは、Webブラウザで動く機械語です。 WASMはプログラミング言語であり、その実体はバイナリ命令の集合体、つまり機械語です1。 しかし、いわゆる機械語のイメージと異なり、Web…

機械学習を育てるx個のステップ

上手く学習しない!改善したい!何しよう…? バグの検証 実装は正しくなされていますか? 既存モデルの別ドメイン流用であるなら、報告論文にあるドメインで再現が取れるか確認しましょう。 この段階でバグの不安を取り除くことが重要です。 データ数の検証 …

Windowsで圧縮した巨大zipがPythonで展開/解凍できない!

結論 それはライセンス関係で解凍できない。Pythonのzipfileで圧縮しなおせばok 現象 こんなエラーが発生した。 raise NotImplementedError("compression type %d (%s)" % (compress_type, descr)) NotImplementedError: compression type 9 (deflate64) zip…

コツとは

上手く可能性を上昇させる振る舞いのうち、あまり行われないもの。 それが当たり前かどうかとは無関係。

平等ではなく貧困対策

山をならして平等にするのではなく、貧困対策に集中する 貧困の線引き 線は存在しないから、社会が決める 線ではなくスペクトラム 対策の中身 情報・金・元気があれば選択できる これらを供給する 情報: 相談に乗り、選択肢を示す 金: 配る、あるいはクーポ…

スタートメニューやEdgeが起動しない

f**k!!!! 状況 初期化して10.0.17763.55に戻したらいきなり動かない にた状況 Reddit - Windows10TechSupport - KB4464330 (17763.55) broke my Start Menu この現象は前に大問題となった現象らしく、色々対策が出てくる。 全部ダメだ、f**k!!!!

ボイチェンは声のメイク - 声そのものの権利は認められない -

AI

ボイスチェンジは声のメイク/化粧だ。 知人そっくりのメイクをしたら、その人の顔面権侵害になるだろうか? 然るに、声のそのものの権利 - 音紋権 - は存在しない。 ボイスチェンジは声のメイク ボイスチェンジとは、機械によって声質を変換することである。…

声質変換・音声の前処理に関する知識・考察

まず生波形を見よ 全ては生波形に始まり生波形に終わる。 無音区間、音量、バックグラウンドノイズ、全てが波形に表現されている。 まずは生データ、これサイエンスの基本. 無音区間を切り出すべきか 残しまくるのは一般に良くないと思う。 無音を教師として…

AtomのFolding/Unfoldingで差をつけろ

折り重なったコードの山々を自由に飛び回りたい。さあFolding/Unfoldingの時間だ 結論 ショートカットとエディタ拡張を使え (以下、コマンドはWindows準拠) atom標準ショートカット folding: Alt + Ctl + [ unfolding: Alt + Ctl + ] fold at specific level…

VCC2016データセット

Voice Conversion Challenge 2016(VCC 2016) データセットは、音声処理に有用な、パラレル音源データセットを提供してくれる。その特性をまとめる。 基本情報 10話者のパラレル発話1162+54センテンス2を含むデータセット. S: Source T: Target M: male F: fe…

Rainbowgramsで音を可視化

レインボーグラム (Rainbowgrams) とは、音声を構成する周波数成分の強さおよび位相変化率を時間ごとに可視化した図である。正確には、音声の周波数領域時系列がもつ強度およびInstantaneous frequency (IF) を可視化した図である。 レインボーグラムは、強…

声質変換 (Voice Conversion, ボイチェン) とは

声質変換(こえしつへんかん、せいしつへんかん1)とは、声がもつ意味を変えずに質感のみを変えること。正確には、「入力音声に対して, 発話内容を保持しつつ, 他の所望の情報を意図的に変換する処理」2のこと。 英語では「Voice Conversion」や「Voice Tran…

PyTorchのnn.Moduleを読み解く

レイヤーをattributeとして設定する必要がある理由 __setattr__でフック掛けて処理をしているから フック内ではattribute valueの種類に基づいて内部登録がなされる. module.parameters()ではparamsのみではなくmodulesへも再帰的にアクセスしてparamsを拾っ…

PyTorchのLearningRate Scheduler

PyTorchではoptimizerの学習率 (Learning Rate) を動的に変更するUtilityがある。 このUtilityはSchedulerと呼ばれ、Class名では○○LRと名付けられている. Schedulerのタイプ 更新の仕方によって以下のように分類される。 LambdaLR: StepLR: x epochごとにlr…

mnet基本思想

ネットワークはネットワーク ネットワークの本質はネットワーク構造にある。 学習は別物。 同じネットワーク構造に異なる学習 (Backprop+optim vs non-BP手法) を行うことが可能。 そもそも推論だけしたい人には学習周りは不要. PyTorchそのものがネットワー…

瞬間周波数

瞬間周波数 (Instantaneous frequency) Instantaneous frequencyは位相を時間で微分したものである1。 * (Boashash, 1992) * Abe, Toshihiko, Takao Kobayashi, and Satoshi Imai. “Harmonics tracking and pitch extraction based on instantaneous frequen…

Pythonモジュール/パッケージの闇にのまれないために

module resolution (モジュール解決) find build-in module find from sys.path directory list sys.pathのデフォルトlistは 実行スクリプトの場所 || cd PYTHONPATH インストールごとのデフォルト (?) パッケージ / package Python用語. モジュールの詰め合…

Windows Insider Previewでの遊び方

Windows OSは開発途上のプレビュー版 (オープンベータ版) をWindows Insider Programとして公開している。 新機能がもりもりで楽しく遊ぶことができる。 ただし、安易な火遊びは怪我の元。いくつか注意事項がある。 アップデート直後なら引き返せる バージョ…

徹底解説!CycleGANで声質変換 (voice conversion, ボイチェン)

AI

CycleGANの声質変換における利用を調べ、技術的詳細を徹底解説する。 CycleGAN-VCとは CycleGANを話者変換 (声質変換, Voice Conversion, VC) に用いたもの。 CycleGANは2つのGeneratorが2つのドメインを相互変換するモデルであり、ドメイン対でペアデータが…

ニューラルネットワークのアーキテクチャとそれぞれが持つ意味

ニューラルネットワークには、パーセプトロンから派生した(とみることが出来る)様々なアーキテクチャが存在する。 各アーキテクチャはどのような形をしているのか。その形にはどのような (直感的・理論的) 意味があるのか。 線形変換で線形分離が可能: 単純…

目的をじっくり考えつつ、素早く手を動かす

何かを達成するためには、効率の観点から見ると、 目的とじっくり向き合うこと まず手を動かすこと の両立が重要。 目的の熟慮なき努力は絶望的な非効率を生む YouTuberデビューした。炎上ネタでバズとった。チャンネル登録者数爆増。このパターンで伸びてる…

デュエルの商標

決闘 バンナム デュエル デュエル\DUEL 同じく 書体はどれも普通. 「デュエル」「デュエル/決闘」は商標登録なし ゲームでは"闘い"が非常に一般的な概念なので、ゲーム関係商品で「デュエル 」(たんなる決闘の英語訳)「デュエル/決闘」(決闘に英訳くっ…

Atom IDEとは。何ができるのか

Atom IDEとは: Atomエディタを統合開発環境 (Integrated Development Enviroment)のように運用する、という概念 Atomプラグイン群によって実現できる IDE-like UI: atom-ide-ui Language Server support: atom-languageclient 各言語で ide-xxx (e.g. ide-ty…

ssh (secure shell) 入門

SSH (secure shell) とは、外部のコンピュータへ安全にアクセスする方法のこと。 より正確には、安全でないネットワークを介しながら、安全なリモートログインと安全なネットワークサービス (shell操作など) を実現するためのプロトコル。 SSHとは Secure Sh…

関心の分離 −利点とそれを促すアーキテクチャ−

関心の分離 / separation of concerns、SoC 依存関係逆転の原則 / Dependency Inversion Principle 依存ルール 密結合とは 関心が分離しても密結合みたいなケースはありうるか 上位と下位が頭を固くしてる気がする。ブラックボックスでいいんじゃない? inte…

小さく区切られたブラックボックスを組み合わせて大きいシステムを造る

[caller/callee・ブラックボックス・interface] 小さなブラックボックスを組み合わせて大きいシステムを造る calleeが内部でcallerを操作するな、calleeは変数を返すだけにしろ(まさに関数型) [ブラックボックス: 暗示的外部操作をしない] 暗示的に外部を操…

最小手でUnity-Node.js間WebSocket通信

Unity & Node.js使いなら、最速5分でできるよ。 概要 Unity (client) 側はwebsocket-sharpを、Node.js (server) 側はwsを使う。 Unityアプリの画面click回数をserverへ送るテストコードを書くものとする。 手順 websocket-sharpのダウンロードとビルド serve…

年金の学生納付特例手続き

全自動にしてほしい… 手続き方法 所定の申請先に、所定の書類を提出する。 提出方法 以下の申請先いずれかに、所定の書類を提出する。 住民登録をしている市区役所・町村役場の国民年金窓口 お近くの年金事務所 在学中の学校等(※在学中の学校等が学生納付特…