rambo

内积——描述相似性的工具

两点的相似程度

这个内积表达的是两个数据点间的相似关系。考察中R^{n}两个点的相似程度,可以采用\lVert x\rVert\lVert x_{i} \rVert\lVert x-x_{i}\rVert及其夹角\beta

\lVert x\rVert=\sqrt{(x\cdot x)}\lVert x_{i}\rVert=\sqrt{(x_{i}\cdot x_{i})}

\lVert x-x_{i}\rVert=\sqrt{(x-x_{i})\cdot (x-x_{i})}

cos\beta=\frac{(x\cdot x_{i})} {\lVert x\rVert \cdot \lVert x_{i}\rVert}=\frac{(x\cdot x_{i})}{\sqrt{({x\cdot x})({x_{i}\cdot x_{i})}}}

一个三点相似问题

R^{n}中有三个点x_{+},x_{-},x。考虑如下分类问题:设已知模式x_{+}属于正类,x_{-}属于负类,自然的想法就是如果\lVert x-x_{+}\rVert<\lVert x-x_{-}\rVert,则认为xx_{+}更相似,因而判定x属于正类。容易证明,我们让w=(x_{+}-x_{-})m=(x_{+}+x_{-})/2,则\lVert x-x_{+}\rVert<\lVert x-x_{-}\rVert等价于wx-m呈锐角。这样我们也就得到了决策函数:

y=sgn((x-w) \cdot w)

QQ截图20150613144233

 

注意: ((x-w) \cdot w)=((x-x_{+}/2-x_{-}/2) \cdot (x_{+}-x_{-})=(x\cdot x_{+})-\frac{1}{2}(x_{+}\cdot x_{+})-\frac{1}{2}(x_{-}\cdot x_{+})-(x\cdot x_{-})+\frac{1}{2}(x_{+}\cdot x_{-})+\frac{1}{2}(x_{-}\cdot x_{-})

说明决策函数仅依赖于x_{+},x_{-},x之间的内积。也就是内积决定了他们的相似程度。

SVM中的相似与内积

一个二维空间上的线形分类问题:给定一组训练样本,对于一个新来的病人,已知年龄[x]_{1}和胆固醇水平[x]_{2},推断他是否有心脏病,即求对应的y是1还是-1。

QQ截图20150613150324

一般地考虑n维空间上的分类问题,定义如下