centos安装redis及php扩展redis安装

redis简介

redis是一款很不错的高性能的key-value数据库;它的出现在很大程度上弥补了很多像memcached这类的keyvalue存储的不足,它的特点有:支持持久化.半持久化数据保存,支持主从同步,value值支持多种类型等等;更多具体知识内容可以参照:http://redisbook.readthedocs.org/en/latest/ http://blog.jobbole.com/44476/这两篇,写的还是很不错的!!!!!

redis安装

  1. 下载Redis
pwd
wget http://download.redis.io/releases/redis-2.8.7.tar.gz

2编译安装Redis

tar xf redis-2.8.7.tar.gz
cd redis-2.8.7
make
make install

3创建redis的配置文件

mkdir /etc/redis
cp redis.conf /etc/redis/redis.conf
  1. 调整下内存分配使用方式并使其生效
echo "vm.overcommit_memory=1">>/etc/sysctl.conf
#此参数可用的值为0,1,2
  #0表示当用户空间请求更多的内存时,内核尝试估算出可用的内存
  #1表示内核允许超量使用内存直到内存用完为止
  #2表示整个内存地址空间不能超过swap+(vm.overcommit_ratio)%的RAM值
sysctl-p
  1. 修改redis配置文件(只列出大多数需要修改的项)
vim /etc/redis/redis.conf 
daemonize   yes          #redis以守护进程的方式运行,no表示不以守护进程的方式运行(会占用一个终端)
timeout 300              #客户端闲置多长时间后断开连接,默认为0关闭此功能
loglevel  verbose        #设置redis日志级别
logfile stdout           #设置日志文件的输出方式,如果以守护进程的方式运行redis并且日志输出设置为stdout,那么日志信息就输出到/dev/null里面去了
  1. 启动redis并且制定redis的配置文件
redis-server /etc/redis/redis.conf
netstat -nltp
tcp        0      0 0.0.0.0:6379                0.0.0.0:*                   LISTEN      325/redis-server *  
  1. 登陆redis测试是否可用
cd redis-2.8.13/src
redis-cli
    set name run
    get name   
  1. 拷贝执行程序
cp redis-benchmark redis-cli redis-check-dump redis-server redis-sentinel redis-check-aof  /webserver/redis
  1. 关闭redis服务
 redis-cli shutdown

redis服务关闭后,缓存数据会自动dump到硬盘上,硬盘地址为redis.conf中的配置项dbfilename dump.rdb所设定
强制备份数据到磁盘,使用如下命令

redis-cli save 或者 redis-cli -p 6380 save(指定端口)

PHPredis扩展安装

  1. 下载扩展包
wget https://github.com/nicolasff/phpredis/archive/master.zip

2 解压安装redis扩展

unzip master.zip
cd phpredis-master
/webserver/php/bin/phpize 
 ./configure -with-php-config=/webserver/php/bin/php-config
make && make install

提示有 /webserver/php/lib/php/extensions/no-debug-non-zts-20121212/说明成功
redis.so编译在这

  1. 配置PHP的配置文件,添加redis扩展
vim /webserver/php/etc/php.ini
extension="redis.so"

4重启httpd服务让扩展生效

/etc/init.d/php-fpm restart

5查看是否成功

php -i | grep redis

redis配置文件主要参数解析参考

daemonize yes  #---默认值no,该参数用于定制redis服务是否以守护模式运行。---
pidfile /usr/local/webserver/redis/run/redis.pid  #默认值/var/run/redis.pid,指定redis服务的进程号文件路径,以守护模式运行时需要配置本参数;
port 6379   #默认值6379,指定redis服务的端口
# bind 127.0.0.1  #绑定ip,默认是本机所有网络设备;
timeout 0   #客户端空闲n秒后断开连接;默认是 0 表示不断开。
loglevel notice  ###设置服务端的日志级别,有下列几种选择:
    debug:记录详细信息,用于开发或调试;
    verbose:提供很多有用的信息,但是又不像debug那么详尽,默认就是这一选项;
    notice:适度提醒,多用于产品环境;
    warning:仅显示重要的警告信息;
logfile stdout   ##指定日志的输出路径,默认值stdout,表示输出到屏幕,守护模式时则输出到/dev/null;
如果要输出日志到syslog中,可以启动syslog-enabled yes,默认该选项值为no。
# syslog-enabled no
databases 16   ###指定数据库的数量,默认为16个,默认使用的数据库是DB 0。
----以下为快照相关的设置:------
#   save <seconds> <changes>  ##指定多长时间刷新快照至磁盘,这个选项有两个属性值,只有当两个属性值均满足时才会触发;可以设置多种级别,例如默认的参数文件中就设置了:
save 900 1:每900秒(15分钟)至少一次键值变更时被触发;
save 300 10:每300秒(5分钟)至少10次键值变更时被触发;
save 60 10000:每60秒至少10000次键值变更时被触发;
save 900 1
save 300 10
save 60 10000
rdbcompression yes  ##默认值yes,当dump数据库时使用LZF压缩字符串对象,如果CPU资源比较紧张,可以设置为no,选择不压缩;
rdbchecksum yes
# The filename where to dump the DB  数据库文件名
dbfilename dump.rdb  ##默认值dump.rdb,dump到文件系统中的文件名
dir /usr/local/webserver/redis/db  ##默认值./,即当前目录,dump出的数据文件的存储路径;
----以下为复制相关的设置,复制默认是不启用的,因此在默认的参数文件下列表参数均被注释----
# slaveof <masterip> <masterport>  ##指定主端ip和端口,用于创建一个镜像服务
# masterauth <master-password>  ##如果master配置了密码的话,此处也需做设置;
slave-serve-stale-data yes  ##默认值yes。当slave丢失与master端的连接,或者复制仍在处理,那么slave会有下列两种表现:
当本参数值为yes时,slave为继续响应客户端请求,尽管数据已不同步甚至没有数据(出现在初次同步的情况下);
当本参数值为no时,slave会返回"SYNC with master in progreee"的错误信息;
slave-read-only yes  ##默认从Redis是只读模式
# repl-ping-slave-period 10  ###默认值10,指定slave定期ping master的周期;
# repl-timeout 60  ##默认值60,指定超时时间。注意本参数包括批量传输数据和ping响应的时间。
------以下为安全相关的设置------
# requirepass foobared  ###指定一个密码,客户端连接时也需要通过密码才能成功连接;
# rename-command CONFIG b840fc02d524045429941cc15f59e41cb7be6c52  ###重定义命令,例如将CONFIG命令更名为一个很复杂的名字:
# rename-command CONFIG ""  取消这个命令;
-----以下为资源限制方面的设置------
# maxclients 10000  ##指定客户端的最大并发连接数,默认是没有限制,直到redis无法创建新的进程为止,设置该参数值为0也表示不限制,如果该参数指定了值,当并发连接达到指定值时,redis会关闭所有新连接,并返回'max number of clients reached'的错误信息;
# maxmemory <bytes>  ###设置redis最大可使用内存。当达到最大内存后,redis会尝试按照设置的回收策略删除键值。如果无法删除键值,或者保留策略设置为不清除,那么redis就会向发出内存的请求返回错误信息。当把redis做为一级LRU的缓存时本参数较为有用。
# maxmemory-policy volatile-lru  ###默认值volatile-lru,指定清除策略,有下列几种方法:
volatile-lru -> remove the key with an expire set using an LRU algorithm
allkeys-lru -> remove any key accordingly to the LRU algorithm
volatile-random -> remove a random key with an expire set
allkeys->random -> remove a random key, any key
volatile-ttl -> remove the key with the nearest expire time (minor TTL)
noeviction -> don't expire at all, just return an error on write operations
# maxmemory-samples 3    ###默认值3,LRU和最小TTL策略并非严谨的策略,而是大约估算的方式,因此可以选择取样值以便检查。
-----以下为APPEND的配置----
ONLY模式的设置,默认情况下redis采用异步方式dump数据到磁盘上,极端情况下这可能会导致丢失部分数据(比如服务器突然宕机),如果数据比较重要,不希望丢失,可以启用直写的模式,这种模式下redis会将所有接收到的写操作同步到appendonly.aof文件中,该文件会在redis服务启动时在内存中重建所有数据。注意这种模式对性能影响非常之大。
appendonly no  ##默认值no,指定是否启用直写模式;
# appendfilename appendonly.aof  ###直写模式的默认文件名appendonly.aof
appendfsync:调用fsync()方式让操作系统写数据到磁盘上,数据同步方式,有下列几种模式:
    always:每次都调用,比如安全,但速度最慢;
    everysec:每秒同步,这也是默认方式;
    no:不调用fsync,由操作系统决定何时同步,比如快的模式;
    no-appendfsync-on-rewrite:默认值no。当AOF fsync策略设置为always或everysec,后台保存进程会执行大量的I/O操作。某些linux配置下redis可能会阻塞过多的fsync()调用。
    auto-aof-rewrite-percentage:默认值100
    auto-aof-rewrite-min-size:默认值64mb
# appendfsync always
appendfsync everysec
# appendfsync no
-----以下为高级配置相关的设置----
hash-max-zipmap-entries:默认值512,当某个map的元素个数达到最大值,但是其中最大元素的长度没有达到设定阀值时,其HASH的编码采用一种特殊的方式(更有效利用内存)。本参数与下面的参数组合使用来设置这两项阀值。设置元素个数;
hash-max-zipmap-value:默认值64,设置map中元素的值的最大长度;这两个
list-max-ziplist-entries:默认值512,与hash类似,满足条件的list数组也会采用特殊的方式以节省空间。
list-max-ziplist-value:默认值64
set-max-intset-entries:默认值512,当set类型中的数据都是数值类型,并且set中整型元素的数量不超过指定值时,使用特殊的编码方式。
zset-max-ziplist-entries:默认值128,与hash和list类似。
zset-max-ziplist-value:默认值64
activerehashing:默认值yes,用来控制是否自动重建hash。Active rehashing每100微秒使用1微秒cpu时间排序,以重组Redis的hash表。重建是通过一种lazy方式,写入hash表的操作越多,需要执行rehashing的步骤也越多,如果服务器当前空闲,那么rehashing操作会一直执行。如果对实时性要求较高,难以接受redis时不时出现的2微秒的延迟,则可以设置activerehashing为no,否则建议设置为yes,以节省内存空间。

每一个程序员都应当了解的11句话

英文原文:11 Rules All Programmers Should Live By

1. 技术只是解决问题的选择,而不是解决问题的根本

  我们可以因为掌握了最新的 JavaScript 框架 ahem、Angular 的 IoC 容器技术或者某些编程语言甚至操作系统而欢欣雀跃,但是这些东西并不是作为程序员的我们用来解决问题的根本——它们只是用于帮助我们解决问题的简单工具。

  我们必须非常谨慎,不要对某项正好喜欢或者正好很火的特定技术走火入魔。否则,我们将进入这样的思维怪圈:把掌握的那项技术比做是锤子,在思考问题时,会自然的把所有的问题都想象成是锤子可以解决的钉子。

2. 聪明是代码清晰的敌人

  当编写代码时,我们应当努力做到代码清晰易理解。

  虽然这句话并不总是正确的,但在一般情况下,聪明确实是代码清晰的敌人。

  事实证明,当我们写一段自认为非常了不起的代码的时候,这些代码在别人眼里可能会是一头雾水。

  所以当你在编写某段聪明高效的代码的时候牢牢记住这个原则是很有必要的。

  如果你对如何编写整洁清晰的代码很感兴趣的话,我强烈推荐你看罗伯特·C·马丁的书《The Clean Coder: A Code of Conduct for Professional Programmers》。

3. 写尽可能少的代码

  这句话看起来有一些矛盾。程序员的工作不就是编写代码么?

  嗯,是的但也不是。

  我们的工作需要我们编写代码,但是我们在尝试解决问题的时候应当做到尽量编写更少的代码。

  这并不意味着我们需要尽量把代码写得更紧凑或者把所有的变量都使用单个字母。它的意思是我们应当尝试用更精简的算法来实现所需要实现的功能。

  通常情况下,我们在代码中所添加的各种很酷的特性是非常诱人的,这还能让我们的代码看起来更“健壮”和“灵活”,能够处理各种不同类型的情况。但是,在更多的时候,我们尝试更多可能有用的特性或者预防可能在未来存在的问题的做法是错误的。这些额外的代码可能不具备任何的价值,但是却可能造成更多的伤害。因为代码越多,出现未知错误的机会就越多,代码的维护也更加的麻烦。

  优秀的软件工程师写尽可能少的代码。

  伟大的软件工程师删除尽可能多的代码。

4. 注释是代码表述的最后选择

  鲍勃·马丁曾经说过:“当你在为一段代码写注释的时候,你应当对自己糟糕的表达能力而反思。”

  这并不意味着我们以后就不要写注释了。但在大多数情况下这种情况是可以避免的,你可以选择用更好的命名方式来取代它。

  只有在使用命名都无法表述清楚某个方法或者变量的目的时,注释才是最后的选择。事实上,表达无法轻易在代码表达的东西才是注释的真正作用。

  举个例子,注释可以告诉你在代码中的那些奇怪的操作命令并不是一个错误,而是故意的,那是因为在底层操作系统存在着某个 bug。

  虽然在一般情况下,许多注释还是非常有用的,但是却存在着误导的风险。

  在其它代码更新后,与某些更新前代码相关的注释常常会得不到同样的更新,这就导致了某些注释会变得非常的危险,它们很可能会把你引导到一个错误的方向。

  你检查过与代码密切相关的每一段注释么?是否确保代码都是在按照注释所说的那样做?如果你都照着这样做了,那么注释的意义又何在呢?如果你没有这样做,你又怎么知道注释说的都是真的?

  所以,注释的作用并不象所宣扬的那么好,这种东西切勿滥用。

5. 在编写代码之前你应当清楚你的代码要做什么

  这看起来是理所当然的,但实际情况却不是。

  现实工作中你有多少次是在没有经过充分了解到你的代码要干些什么就开始着手编程的?反正对于我来说,是不计其数了,所以我把这条记录下来用来随时提醒我。

  测试驱动开发(TDD)的实践在这里可以帮助你,因为你需要在编写代码之前了解这些代码将要用于什么地方,虽然这仍然不能阻止你创建错误的东西,但是它仍然非常重要。所以当你完完全全了解需要构建的需求和功能时,再动手编程。

6. 提交完成代码之前先自行测试

  不要在完成编程工作后,就把代码扔给 QA,然后就坐等消息了。这样会浪费每一个参加处理不必要 Bug 和问题的人的时间。你应当在报告编程工作完成之前,花费几分钟时间运行测试场景进行自我检测。当然,在你把代码提交给 QA 之前不一定会发现每一个 Bug,但至少你可以杜绝一些我们每个人都可能犯下的愚蠢低级错误。

  很多的软件开发人员认为测试代码只是 QA 人员的工作。这是不对的。保持质量是我们每个人的责任。

7. 每天都要学一些新东西

  有句名言“刀不磨要生锈,人不学要落后。”这句话是很有道理的,因为无论是否获取到新的知识,你每天都会遗忘掉一些以前的东西。

  每天学些一些新东西并不会花费掉你很多的时间。试着每天用 15 分钟时间去读书,然后你就会发现每天你都会有一点点的进步,在未来的某个时候,你会发现这种进步是巨大的。因此,为了在今后获得丰厚回报你必须从现在开始就进行投资。另外,今天的技术发展日新月异,如果你不改善自己的技巧,学习新的东西,你很快就会被甩开。

8. 写代码应该成为一种乐趣

  这是非常正确的。或许,你进入这个行业仅仅是因为它的薪水可观。选择一份报酬丰厚的工作这并没有错,但是还有更好的选择,比如医生或者律师。事实上很多人选择做软件开发还有一个原因,那就是他们喜欢写代码。在你被工作压力所累的时候,不要忘了你选择这份职业的初衷。

  编写代码可以带来很大的乐趣。多年的时间里,很多人可能都已经遗忘了这一点,那么从现在起,重新唤回以前的那份热情吧,从身边的项目开始,把你的观念和意识转换到以前你开始学习编程的那个时刻。

9. 你不需要无所不知

  在你学到了很多知识的时候,你仍然有很多东西不知道。

  意识到这点很重要,因为它可以驱使你去了解更多更多的东西。

  不知道问题的所有答案没有关系,不了解某个东西说出来并寻求帮助也无关紧要。在很多情况下,你可以选择现学现用——相信我,我就是这么走过来的。

  我的观点是,不要企图去学习所有的知识,因为这是一个不可能完成的任务。你需要关注和掌握的是能够帮助你快速学习的技巧。

10. 最佳的实践视环境而定

  测试驱动开发最好的方法是先编写测试代码?

  我们应该保持结对编程的习惯?

  如果不使用 IoC 容器是否会低人一等?

  所有这些问题的答案是“看情况。”这取决于所处的实际环境。

  人们试图把最佳的实践通过喉咙等方式传输给你,他们会告诉你,他们平时都是这样应用的。所以,你也应该这样做——这其实并不正确。

  在写代码的时候,我也借鉴过不少别人的成功经验。但是,这些借鉴都是有条件的。

  知识是死的,人是活的。最好的实践需要视环境而定。

11. 努力做到化繁为简

  所有的的问题都可以进行分解。而最优雅的解决方案通常都非常简单。但是,要变得简单并不容易,这需要许多的工作。

  比如,这篇文章的目的是从复杂的软件开发工作和日常生活中提取经验,通过归纳,以较简洁的方式呈现给大家,而这并不是一件容易的事情。

  在解决问题时,可以先找到一个较为复杂的笨方法。在此基础上进行努力改进和提炼,使它在正确的基础上变得简单。这需要花费很多时间和努力,而人类不正是因为这个过程才慢慢变得聪明么?

python抓取 豆瓣电影标签列表

[原创]

#!/usr/bin/env python
# -*- coding:utf-8 -*-


import urllib
import urllib2
import re
import thread
import time
import MySQLdb
import os

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

constDebug = False


keyword = sys.argv[1]
if not keyword:
    print 'keyword is empty'
    exit()



keywordquote = urllib.quote_plus(keyword)
perage = 20
url = 'http://movie.douban.com/tag/'+str(keywordquote) #&start=0

#print url

#解码
#print urllib.unquote_plus('%E7%A7%91%E5%B9%BB')

#加码
#print urllib.quote_plus('科幻')

#测试模式
if constDebug:
    file = os.path.abspath('.') + '/tag_list.txt'
    with open(file) as f:
        html = f.read()

    unicodehtml = html.decode("utf-8")



def url_get_html(url):
    '''
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'
    }
    '''

    opener = urllib2.build_opener(urllib2.ProxyHandler({'http':'121.41.84.140:80'}), urllib2.HTTPHandler(debuglevel=1))
    urllib2.install_opener(opener)

    headers = {
               "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2327.5 Safari/537.36",
               "Connection":'keep-alive',
               "Cache-Control":"max-age=0",
               "Referer": 'http://www.baidu.com'
             }

    #request = urllib2.Request(url)
    request = urllib2.Request(
        url = url,
        headers = headers
    )

    print url

    response = urllib2.urlopen(request)
    html = response.read()
    #return  html.decode("utf-8")
    return  html

#非测试模式
if not constDebug:
    # 获取总的页数
    unicodehtml = url_get_html(url)


#print unicodehtml
#exit()

#获取总页数
totalr = re.compile(r'data-total-page="(.*?)"', re.S)
matchs = totalr.findall(unicodehtml)

total = 0
if matchs:
    total = int(matchs[0])


def match_content(htmls):
    #内容匹配,  匹配 详细页,标题,缩略图,简介,评分,评价人数,

    movies = []

    #先匹配整个一部电影
    patternstr = '<tr\s*class="item">\s*'
    #缩略图
    patternstr += '<td\s*width="100"\s*valign="top">\s*<a.*?>\s*<img\s*src="(.*?)".*?/>\s*</a>\s*</td>\s*'

    #详细页,标题 标题还要替换一次
    patternstr += '<td\s*valign="top">\s*<div class="pl2">\s*<a\s*href="(.*?)".*?>[\s|\r\n]*(.*?)[\s|\r\n]*</a>[\s|\r\n|\n]*'

    #简介
    patternstr += '(.*?)'
    '''
    #评分
    patternstr += '\s*<span\s*class="rating_nums">(.*?)</span>'

    #评价人数
    patternstr += '\s*<span\s*class="pl">\((.*?)\)</span>\s*</div>\s*</div>'
    '''
    patternstr += '</td>\s*'
    patternstr += '</tr>'
    all = re.compile(r''+ patternstr +'', re.S)
    allm = all.findall(htmls)
    #print allm
    #exit()
    for item in allm:
        #print item[0] #缩略图地址
        #print item[1] #详细页

        # 标题
        titletmp = re.sub(re.compile(r'[\r\n|\n|\s*]'), '', item[2])
        titletmp = re.sub(re.compile(r'<.*?>'), '', titletmp)
        #print titletmp

        # 内容
        introm = re.compile(r'<p\s*class="pl">(.*?)</p>', re.S)
        introarr = introm.findall(item[3])
        introstr = introarr[0]

        # 评分
        score = '0'
        scorem = re.compile(r'<span\s*class="rating_nums">(.*?)</span>', re.S)
        scorearr = scorem.findall(item[3])
        if scorearr:
            score = scorearr[0]

        # 评分人数
        score_num = '0'
        scorenumm= re.compile('<span\s*class="pl">\((.*?)\)</span>', re.S)
        scorenumarr = scorenumm.findall(item[3])
        if scorenumarr:
            score_num = re.sub( re.compile(u'[\u4e00-\u9fa5]+'), '', scorenumarr[0] )

        #print score_num
        #exit()

        # 评分
        #print item[4]

        # 评价人数
        # score_num = re.sub( re.compile(u'[\u4e00-\u9fa5]+'), '',item[5] )
        #print reviewnum

        movies.append([titletmp, item[0], item[1], introstr, score, score_num])
        #exit()
    return movies


# 连接数据库
dbconn = MySQLdb.connect(host="localhost", user="root", passwd="", db="scrapy",charset="utf8")
cursor = dbconn.cursor()

#取tagid
ksql = "SELECT * FROM douban_tag WHERE tag_name='%s'" % (keyword)
#print ksql
tagid = 0
try:
    cursor.execute(ksql)
    data = cursor.fetchone()
    tagid = data[0]
except:
    print "Error: unable to fecth data"

file = os.path.abspath('.') + '/tag_list_sql.txt'

def insert_data( ms , start = 0):
    global dbconn,cursor,tagid, tag_name
    for m in ms:
        #for i in range(0, 6):
        #    print m[i]
        #m[4] if m[4] is not None  else 0
        #m[5] if m[5] is not None  else 0

        for i in range(0, 6):
            if not m[i]:
                m[i] = 0

        '''
        if not m[4]:
            m[4] = 0
        if not m[5]:
            m[5] = 0
        '''

        sql = "INSERT INTO douban_movie( tag_id, tag_name, title, thumb_url, detail_url, intro, score, score_num, start) "
        sql += " VALUES ('%d', '%s', '%s', '%s', '%s', '%s', '%s', '%s', '%d')" % ( tagid, keyword, m[0], m[1], m[2], m[3], m[4], m[5], start)

        try:
            cursor.execute(sql)
            dbconn.commit()
        except Exception, e:
            dbconn.rollback()

            #写入日志
            file_object = open(file, 'a+')
            file_object.write(sql+'\r\n')
            file_object.close()

            print "MySQL Error %s: %s" % (e.args[0], e.args[1])



#提取单页内容数组
ms = match_content(unicodehtml)

#加入数据库
insert_data( ms )


if constDebug:
    msnext = match_content(unicodehtml)
    insert_data(msnext)
    exit()


if not constDebug:
    print total
    #入口 循环页面匹配
    for i in range(334, total):
        start = i*20
        tmpurl = url + '?start=' + str(start)
        #print url
        #break
        htmlconent = url_get_html(tmpurl)
        msnext = match_content(htmlconent)
        insert_data(msnext, start)
        print i,start,tmpurl

cursor.close()
#关闭数据库连接
dbconn.close()



#print movies
'''
#标题, start
title = re.compile(r'<div class="pl2">.*?<a href="(.*?)".*?>(.*?)</a>', re.S)
titlematch = title.findall(htmls)

for item in titlematch:
    #处理\r\n及html字符
    titletmp = re.sub(re.compile(r'[\r\n|\n|\s*]'), '', item[1])
    titletmp = re.sub(re.compile(r'<.*?>'), '', titletmp)

    movies.append([item[0],titletmp])

#缩略图 start
thumb = re.compile(r'', re.S)
'''

shell编写git commit -am ''

git修改文件多的,需要git commit -m '' -a

突然想起shell也可以,不过还要优化

#!/bin/bash

argc=$#

lines=$(git status | awk -F ':'  '/\.[php|css|js|jpg|jpeg|html|htm|png|swf|gif]/{print $2}')
#echo $lines
for line in $lines
>---do  echo $lines;git add $line;
done

if [$argc > 0]; then
>---git commit -m $1
fi
git status

tomcat的solr安装配置,支持中文分词IK Analyzer,支持MYSQL数据库索引

环境 java,tomcat,solr,mysql

一java安装

yum install java
java -version

二tomcat安装配置

下载地址 http://tomcat.apache.org/download-70.cgi
解压缩

tar -C /usr/local -zxf /usr/local/src/apache-tomcat-7.*.tar.gz
mv /usr/local/apache-tomcat-7* /usr/local/tomcat
sudo sed -i s/8080/8983/g /usr/local/tomcat/conf/server.xml

添加用户

useradd -Mb /usr/local tomcat
chown -R tomcat:tomcat /usr/local/tomcat
sudo -u tomcat /usr/local/tomcat/bin/startup.sh

启动关闭

/usr/local/tomcat/bin/startup.sh
/usr/local/tomcat/bin/shutdown.sh

三 solr安装

最新版下载地址 http://apache.arvixe.com/lucene/solr/5.0.0/

tar -zxf solr-5.0.0.tgz
cp solr-5.0.0/dist/solrj-lib/* /usr/local/tomcat/lib/
cp solr-5.0.0/example/resources/log4j.properties /usr/local/tomcat/conf/
cp solr-5.0.0/dist/solr-.war /usr/local/tomcat/webapps/solr.war/dist/solr-5.0.0.war /usr/local/tomcat/webapps/solr.war
cp /usr/local/src/solr-5.0.0/example/lib/ext/* /usr/local/tomcat/webapps/solr/WEB-INF/lib/

虚拟主机配置文件
创建/usr/local/tomcat/conf/Catalina/localhost/solr.xml  

<Context docBase="/usr/local/tomcat/webapps/solr.war" debug="0" crossContext="true">
  <Environment name="solr/home" type="java.lang.String" value="/usr/local/tomcat/solr" override="true" />
</Context>

创建solr索引目录,solr所有的数据在这个目录(相当于应用程序目录)
把官方的测试数据collection1拷贝过来看下

mkdir -p /usr/local/tomcat/solr
cp -r solr-5.0.0/example/solr/collection1/conf /usr/local/tomcat/solr/

重新启动tomcat,测试http://ip:port/solr看下
solr1.png

看到如图表示成功

四solr中文分词 IK Analyzer配置

还有个分词库 mmseg4j分词
源下载地址

解压缩

unzip IK Analyzer 2012FF_hf1.zip -d /tmp

拷贝需要的文件到tomcat的solr虚拟应用程序目录

cp IKAnalyzer2012FF_u1.jar /usr/local/tomcat/webapps/solr/WEB-INF/lib
cp IKAnalyzer.cfg.xml /usr/local/tomcat/webapps/solr/WEB-INF/classes
cp stopword.dic /usr/local/tomcat/webapps/solr/WEB-INF/classes

修改应用程序solr的配置文件 /usr/local/tomcat/solr/conf/schema.xml文件使它支持中文分词

<fieldType name="text_ik" class="solr.TextField">
<analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>

看下solr2.png

五 solr支持数据源mysql,及生成索引库

默认是xml的数据源

1.solr官方是提供一个工具的—Data Import Handler
找到源码包的
${SOLR_SRC}\dist\solr-dataimporthandler-4.9.0.jar
${SOLR_SRC}\dist\solr-dataimporthandler-extras-4.9.0.jar
将这两个jar包添加进web-inf/lib中
cp ${SOLR_SRC}\dist\solr-dataimporthandler-4.9.0.jar /usr/local/tomcat/webapps/solr/WEB-INF/lib

2.solr安装mysql驱动
http://www.oracle.com/官方下载 mysql-connector-java-5.1.25-bin.jar
cp mysql-connector-java-5.1.25-bin.jar /usr/local/tomcat/webapps/solr/WEB-INF/lib

3.配置mysql源
修改solrconfig.xml导入mysql的jar包

<lib dir="../contrib/dataimporthandler/lib" regex=".*\.jar" />
<lib dir="../dist/" regex="solr-dataimporthandler-\d.*\.jar" />

配置dataimporthandler

<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
    <lst name="defaults">
        <str name="config">data-config.xml</str>
    </lst>
</requestHandler>

添加data-config.xml及对应数据库和表

DROP TABLE IF EXISTS `documents`; 
CREATE TABLE `documents` ( 
  `id` int(11) NOT NULL auto_increment, 
  `date_added` datetime NOT NULL, 
  `title` varchar(255) NOT NULL, 
  `content` text NOT NULL, 
  PRIMARY KEY  (`id`) 
) ENGINE=InnoDB AUTO_INCREMENT=3 DEFAULT CHARSET=utf8; 
-- ---------------------------- 
-- Records of documents 
-- ---------------------------- 
INSERT INTO `documents` VALUES ('1', '2012-01-11 23:15:59', 'world', 'test1'); 
INSERT INTO `documents` VALUES ('2', '2012-01-11 23:16:30', 'hello', 'test'); 
INSERT INTO `documents` VALUES ('3', now(), 'hello12', 'test'); 
INSERT INTO `documents` VALUES ('4', now(), ‘我们’, 'test');
<dataConfig>
   <dataSource type="JdbcDataSource"-
              driver="com.mysql.jdbc.Driver"
              url="jdbc:mysql://127.0.0.1/test"-
              user="root"-
              password=""/>
   <document>
        <entity name="documents" query="SELECT id, content, title, date_added  FROM documents" >
            <field column="id" name="id" />-
            <field column="content" name="content" />-
            <field column="title" name="hashcode" />-
            <field column="date_added" name="updatetime" />
        </entity>
   </document>
</dataConfig>

4.修改solr配置文件schema.xml支持字段

<field name="id" type="string" indexed="true" stored="true" required="true" /> 
<field name="title" type="text_general" indexed="true" stored="true" termVectors="true" termPositions="true" termOffsets="true"/> 
<field name="content" type="text_general" indexed="true" stored="true" termVectors="true" termPositions="true" termOffsets="true"/> 
<field name="date_added" type="date" indexed="false" stored="true"/> 

5.查看及测试
导入mysql索引数据
solr4.png
点击Execute
solr5.png
查看状态
solr6.png
模拟搜索
solr7.png
成功!

最终实现的计划 通过python抓取批量数据到mysql,然后solr生成实时索引,php实现前端搜索页面

博客地址 http://blog.chromev.com/archives/6/