0%

语音语料收集

1. 使用YouTube

1.1 使用流程

不需要登陆

  1. 打开youtube,地区设置为国家(可选,不是必要条件)

  2. 使用特定的语言搜索,在过滤栏中筛选出选择字幕,筛选出有字幕的视频,打开视频后设置字幕语言

    注意 搜索到的视频标题最好是全是当前国家语言,否则音频会与字幕不是同一个语言

  3. 将其链接放到1.2 提取音频网站处下载,并且原视频提取字幕(注意有多种语言的字幕)

1.2 提取音频

方法一

方法二

阅读全文 »

从零开始搭建神经网络-ANN

github
训练好的模型参数:parameters.pkl

1.1 神经网络

​ 每层都有若干个节点,每个节点就好比一个神经元(neuron),它与上一层的每个节点都保持着连接,且它的输入是上一层每个节点输出的线性组合。每个节点的输出是其输入的函数,把这个函数叫激活函数(activation function)。人工神经网络通过“学习”不断优化那些线性组合的参数,它就越有能力完成人类希望它完成的目标。

image-20201112195759523

除了输入层(第1层)以外,第 l+1 层第i个节点的输入为:

$z^{(l+1)}i = W^{(l)}{i1}a^{(l)}{1} + W^{(l)}{i2}a^{(l)}{2}+ \dots +W^{(l)}{is_l}a^{(l)}{s_l} + b^{(l)}{i}$

其中$s_l$表示第$l$层的节点数

第$l+1$层第和i个节点的输出为

$a^{(l+1)}{i} = f(z^{(l+1)}{i}) $S

阅读全文 »

Ubuntu20 VPN 连接失败解决方案

Ubuntu20 默认的VPN工具是 pptp-linux和Open-VPN

其中pptp-linux是使用pptp协议连接的

使用命令行创建一个VPN

1
sudo pptpsetup --create my* --server xxx.xxx.xxx.xxx --username xxx --password xxxxx --encrypt --start

报错如下:

1
2
3
4
5
Using interface ppp0
Connect: ppp0 <--> /dev/pts/1
EAP: unknown authentication type 26; Naking
EAP: peer reports authentication failure
Connection terminated.

这是由于Windows不允许客户端 一个一个协议的去试,只允许MS-CHAP[v2] ,如果客户端用其他认证方式,就会断开连接。

解决方案:

打开配置文件

阅读全文 »

Ubuntu20 下安装并破解navicat

下载

先去官网下载http://www.navicat.com.cn/download/navicat-for-mysql

1
2
3
wget http://www.navicat.com.cn/download/direct-download?product=navicat15-mysql-cs.AppImage&location=1
sudo chmod +x navicat15-mysql-cs.AppImage
./navicat15-mysql-cs.AppImage

你会得到一个AppImage文件。例如 navicat15-mysql-cs.AppImage

破解

提取文件

首先把文件提取出来

1
2
3
4
5
mkdir ~/Desktop/navicat15-premium-en
sudo mount -o loop ~/Desktop/navicat15-premium-en.AppImage ~/Desktop/navicat15-premium-en
cp -r ~/Desktop/navicat15-premium-en ~/Desktop/navicat15-premium-en-patched
sudo umount ~/Desktop/navicat15-premium-en
rm -rf ~/Desktop/navicat15-premium-en
阅读全文 »

[toc]

第二章 感知机

感知机 (perceptron) 是二分类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1值。感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面,属于判别模型。感知机学习旨在求出将训练数据进行线性划分的分离超平面,为此,导入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得感知机模型

听说感知机应该属于机器学习算法中最简单的一种算法,是一种二分类算法

2.1 感知机模型

​ 类比函数,我们把模型中的自变量叫做输入空间(特征空间),因变量叫做输出空间。所以该模型也是有定义域和值域的。

​ 假设输入空间是$\chi \subseteq R^n$ 输出空间是 y$={+1,-1}$,输入$x\subseteq \chi$表示实例的特征向量,对应于输出空间(特征空间)$y \subseteq $y一个点,由输入空间到输出空间的如下函数:

​ $f(x)=sign(w\cdot x+b)$

​ 成为感知机,其中,$w,b$为感知机模型参数,$w \in R^n$叫做权值(weight)或权值向量(weight vector),$b \in R$叫做偏置(bias),$w \cdot x$表示$w$和$x$的内积,其中sign是符号函数,即:

​ $\begin{equation} sign(x)= \begin{cases} +1 & x \ge 0\ -1& \text{x<0} \end{cases} \end{equation}$

阅读全文 »

《Introduction to Algorithms》 Notes

Asymptotic notation

How we measure a Algorithms performance on computer?

  • relative speed(on same machine)
  • absolute speed(on different machine)
  1. Ignore machine dependent constants
  2. Look at growth of T(n) as $n \rightarrow \infty$

so we need introduce the asymptotic notation to understand performance of algorithm

  • $\theta $ notation is pretty easy to master because all you do is from a formula,just drop low order terms and ignore leading constants . for example , here is a formula like: $f(x)=3n^3+90n^2+6064$ well,we drop low terms and left $n^3$ ,so $\theta(f(x))=\theta(n^3)$
  • O notation
  • $\Omega$ notation

Sorting Algorithm

We have sequence $a_1$ ,$a_2$ up to $a_n$ of numbers as input, and our output is a permutation of those numbers.

such that $a_1 \leq a_2 \leq a_3 \leq … \leq a_n$

阅读全文 »

[toc]

统计学习

1.1 统计学习

​ 统计学习(statistical learning)是关于计算机数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科的一门学科,统计学习也成为统计机器学习(statistical machine learning)

1. 统计学习的特点:

  • 建立在计算机及网络上
  • 以数据为研究对象,是数据驱动的学科
  • 目的是对数据进行预测与分析
  • 以方法为中心统计学习方法构建模型并应用模型进行预测与分析
  • 统计学习是概率论,统计学,信息论,计算理论,最优化理论级计算机科学等多个领域的交叉学科,并在发展中逐步形成度独自的理论体系与方法论

    2. 统计学习的方法

    ​ 统计学习基于数据构建概率统计模型从而对数据进行预测和分析.
    ​ 统计学习由 监督学习(superevised learning),无监督学习(unsupervised learning),和加强学习(reinforcement learning)等组成.
    ​ 统计学习方法包括模型的假设空间,模型选择的准则以及模型学习的算法.
    ​ 统称为统计学习方法三要素,简称模型(model),策略(strategy),算法(algorithm)

1.2 统计学习方法分类

1.2.1 基本分类

​ 统计学习方法一般包括监督学习,无监督学习,强化学习.有时候包括半监督学习,
主动学习

1.监督学习

阅读全文 »

豆瓣接口

1.豆瓣接口_sig签名算法

豆瓣签名使用HMAC-SHA1的签名算法
HMAC-SHA1(key,data)包含两个参数
key为密钥,data为加密信息
豆瓣接口的key值可以通过抓豆瓣登录的数据包,获得client_secret的值

1
https://$host$url?os_rom=android&apikey=0dad那个你懂得&channel=Douban&_sig=$sig&_ts=$ts"

分为登录状态和非登录状态

非登录状态

非登录状态下的data="GET&" + URLEncoder.encode(url) + "&" + ts

ts为当前时间戳,url按照上面提示的格式截取

1
GET frodo.douban.com/api/v2/subject_collection/movie_hot_gaia/items?start=0&count=20&udid=a4684a67c5db66436da276d582163766f927d703&apikey=0dad551ec0f84ed02907ff5c42e8ec70&channel=Douban

其中data = GET&%2Fapi%2Fv2%2Fskynet%2Fnew_playlists&1585718766

阅读全文 »

TZVideo

追剧小助手微信小程序

tita 逆向分析(源码半成品失败)

tita搜索很聪明,阻止了网络代理和vpn代理,无法抓包,在模拟器中安装会闪退,安全措施极好.
安装包使用360加固加壳,传统脱壳方式已经无效,这里使用frida

FRIDA

Dynamic instrumentation toolkit for developers, reverse-engineers, and security researchers.

Frida是一个跨平台的注入工具
根据cpu下载对应版本
使用adb工具,安卓手机打开开发者模式,push到的/data/lcoal/tmp 目录下

1
adb push frida-server /data/local/tmp/
1
2
adb forward tcp:27042 tcp:27042
adb forward tcp:27043 tcp:27043

遇到的一些错误

阅读全文 »

如何将家里的旧手机改造成Linux服务器

准备一部旧手机

在家无意发现一部变砖的旧安卓手机,便想将其利用起来.智能手机在今天性能过剩的时代下,即使是五六年前的手机仍然比起现今相当多的单片机性能要强.并且一部手机上有丰富的传感器,不利用可惜了.经过双清,刷机,ROOT后,手机焕然一新.
我的手机配置如下

1
2
3
4
device : Coolpad 8297  (酷派大神F1)
Android : 4.4.2
Architecture : armv71
Memory : 1969MB

手机安装linuxdeploy

This application is open source software for quick and easy installation of the operating system (OS) GNU/Linux on your Android device.

linuxdeploy的github主页

由于安卓版本太低,最新版的linuxdeploy会闪退
请到这里下载之前的版本 本人使用的是2.3.1-247
安装好之后随意安装linux发行版本,非常容易,安装完后请打开ssh选项以便远程登录.本人选择安装了Ubuntu 18 LTS
linuxdeploy

局域网连接ssh

打开xshell,输入局域网IP,使用账号密码登录
mark
登录成功
mark

阅读全文 »