数学之美

读后感：万事万物都是有相似之处的，还有它的合理之处

简单性格模块化市软件工程的基石，分布式和容错性是互联网的生命
信息的冗余是信息安全的保障
语言的数据
罗马人的解码规则是加减法
中国人的解码规则是乘法
任何一种语言都是一种编码方式，而语言的语法规则是解编码的算法。
人工智能靠的是统计
计算机高级程序语言都可以概括成上下文无关的文法
自然语言中产生了词义和上下文相关的特性
程序语言人为设计、便于计算机编码的上下文无关文法
大数定力只要统计量足够，相对频率就等于概率
假定任意一个词出现的频率只同它前面的词有关，马尔可夫假设
公式对应的统计模型是二元统计模型
利用专业的语料库，只要数据w, w-1这对词在统计的文本中前后相邻出现了多少次，以及w-1本身在同样的文本中出现了多少次，然后利用两个书分别除以语料库的大小#，即可得到这些词或者二元组的相对频率。
古德-图灵估计解决小概率或零概率问题
马尔可夫链
隐含马尔可夫链：任一时刻t的状态st是不可见的。
维特比算法
p(s1,s2,s3,s4 | o1,o2,o.3)
p(st|st-1) st-1进入当前状态st的概率P(st | st-1) 也被称为转移概率
每个状态St产生相应输出符号
P(ot | st) = p(ot, st)/ p(st)
一条信息的信息量与其不确定醒有着直接的关系。
一比特是一位二进制
一字节就是8比特
log32 =5
信息熵 h = -(p1 logp1 + p2 logp2 + p3* logp3)
互信息两个随机事件“相关性”的量化度量

i(x; y)

解决词义的二义性就是互信息找出相关的上下文

人工分词对其影响超过了机器

基本词表和复合词表做分词切分

分词的准确性可以分成两类 1. 错误 2. 颗粒度不一致

错误又分为两类1. 越界行错误 2. 覆盖型错误

颗粒度错误人工分词的不一致性

语言模型需要知道模型中所有的条件概率，我们称之为模型的参数

通过对预料的统计，得到这些参数的过程成为模型的训练

信息熵正是对不确定性的衡量

一个人要想在自己的领域做到世界一流，它的周围必须有非常多的一流人物。

BCJR算法维特比算法

技术分两种道术

具体做事方法是术

做事的原理和原则是道

从独门绝技到普及在到落伍

追求术的人一辈子工作很辛苦只有掌握了本质和精髓才能永远游刃有余

搜索下载、索引和排序

10^100 古高尔

在网络爬虫中，人们使用一张离散表（哈希表）

区分深度与广度看是不是一条路走到黑还是向四周发散

词频停止词(的，中，地等)

如果一个查询包含n个关键词w1,w2,w3，。。。他们在一个特定网页中的词频分别是tf1,tf2,tf3,tf4。。。

tf1idf1+tf2idf2+tf12*idf2

有限状态机

伪随机数产生器算法

视频的匹配：关键帧的提取和特征的提取

1.一个正确的数学模型应当在形式上是简单的

2.一个正确的模型一开始kneeing还不如一个精确习作过的错误模型来的准确，但是，我们认为大方向是正确的，就应该坚持下去

3.大量准确的数据对研发很重要

4，正确的模型也可能受噪音干扰，显得不准确；这时不应该用一种凑合的修正方法加以弥补，而是要找到噪音的根源

最大熵原理指出，对一个随机事件的概率分布进行预测时，我们的预测应当满足全部已知条件，而对为止的情况不要做任何主观假设

这一代输入法的问题在于减少了每个汉字几件的次数，而忽视了找到每个键的事件。

帮助思维和记忆

对汉字的编码分为两部分：对拼音的编码和消除歧义性的编码

香农第一定理指出：对于一个信息，任何编码的长度都不应小于它的信息熵

spam 垃圾邮件

切比雪夫不等式

数据成为决定搜索引擎好坏的第一要素，而算法倒在其次

网页点击的数据用户的数据

算法的复杂度看0（）里面的函数变量的部分。

哈希算法常熟复杂度

有序数组二分查找法 0log(N) 对数复杂度

图遍历节点数n的线性复杂度

最后更新于8个月前

这有帮助吗？