Home

20180409巴黎马拉松

巴黎是一个一直想去的地方,今天下午刚好Chrome个性化首页Dream Afar展示了一张巴黎城的图片,瞬间忆起对巴黎城的向往了,就上官网查了报名时间,发现还没有结束,二话不说,进入注册环节。 巴黎城 报名官网,http://www.schneiderelectricparismarathon.com/en/ 具体马拉松历史就不介绍了,施耐德电气冠名的,主要喜欢的是向往已久的城市paris。 下面说一下马拉松的注册过程, 注册报名 分时段注册,今年分了3个阶段,类似early early bird price(早早鸟价), 分时段注册 接下来是个人信息填写, 个人信息 跑马经历 然后是报名时候的一些可选的附加项目。有奖牌...

Read more

Yelp: A stream processing pipeline for an online advertising platform

文章里面提到了2个问题, no state tracking do not support complex customized business logic 2个待解决问题 它们通过updateStateBykey(update_func)/mapWithState(update_func)来自定义该update过程。即, Attach expire date/time when events are first seen & state is initialized drop the state if it expires apply business logic to new events/current state Y...

Read more

Spark streaming一次调试过程

记录一下最近调试Streaming程序的过程中所发现的问题和解决方案, 背景,batch interval = 120s,10个receiver,吞吐量每秒1000条,一个batch的cache大小是1639KB,每条record大小=1639/(1201000)1024=13.99字节 batch interval storage Q1. Container … is running beyond physical memory limits Diagnostics: Container [pid=2542,containerID=container_1509019554197_2190124_01_000001] is running bey...

Read more

maven/sbt jar install

今天maven遇到问题,简单记录一下, 最好是配置repo来下载相应的jar包,这样连带其依赖包也会被下载安装 <repository> <id>MavenCentral</id> <name>Maven repository</name> <url>http://repo1.maven.org/maven2</url> </repository> <repository> <id>mvnsearch</id> <name>mvnsearch Maven Repository</name> <url&g...

Read more

elasticsearch relevance scoring 检索相关性计算

记录一下,elasticsearch/lucene关于文档与query之间相关性的计算方式, Lucene/es评分机制 https://www.elastic.co/guide/en/elasticsearch/guide/current/scoring-theory.html http://mp.weixin.qq.com/s/By340-7g5rDxVKehY1izeQ es使用Boolean model来匹配文档;使用practical scoring function(tfidf, BM25)来计算文档与query的相关性;使用vector space model来增加额外特征计算(如queryNorm,coord,norm,boost)。 注,一般query...

Read more

elasticsearch索引和检索优化与压测监控

写一下个人的es优化经历, Overview 先来看看es的整体架构图,上面有多个重要模块,今天主要写在lucene上面的index模块与search模块的优化经历,力求简要写出改变了configuration之后,会给es cluster带来什么样的影响。 es-architecture Index Optimization index process 上图展示了一个doc index/write请求过来,es为其建立倒排的过程,而index opt.的优化点就主要集中在该posting list building过程,先认识4个组件(heap buff, os cache, transLog, disk), 客户端选择一个node发送请求过去,这个...

Read more

Spark Streaming 2.1.0 Programming Guide 个人理解与翻译

简单写一下自己读了Spark Streaming 2.1.0 Programming Guide之后的体验,也可以说是自己对该编程指南的理解与翻译。 https://spark.apache.org/docs/2.1.0/streaming-programming-guide.html Overview Spark Streaming(下称streaming)是Spark core的拓展,一个易扩展、高吞吐、高容错的流式数据处理系统。 streaming-arch streaming接收输入数据(kafka等)然后根据设置的处理时长batch interval将其切割为一个个的小数据集,然后对小数据集进行spark core/sql/mllib的操作,最后...

Read more

20171104奥森100+陪跑

2017 奥森100+超级马拉松 赛事Logo 比赛路线 主将在群里说要报名今年的奥森100,五虎都非常支持,当即报出陪跑圈数,我当时报了4圈,😆。审核通过之后,告诉了大家,也让大家到时候有空就过去热闹热闹。 当天7点15,起床,看了下天气,0 ℃,aqi优😄。由于8点起跑,想着首圈陪跑,看了下时间,8点起跑,时间上有点赶,就放弃了该念头,跑第二、三圈吧。就慢悠悠起床穿上运动服戴上耳机背上书包,骑车到了奥森北园西门,到了主将帐篷下,发现没人,原来早来的都陪跑去了,我就简单热一下身,等待下一个陪跑员,然后去排空和领物,领了一个手环和一个号码布。 之后大家陆续地到来,帐篷下也热闹起来,太阳这时候也出来了,天气开始回暖。我们聊了一下,大概10点,在起点等到主将到来...

Read more

20171029唐山国际马拉松

#目的 记录个人此次参赛记录,以便后续翻看。 就以下几方面开始记录, 赛前训练 路途准备 赛道氛围 赛道风光 城市环境 个人总结 ##赛前训练 2017唐山国际马拉松 2017唐山国际马拉松logo 比赛路线 在最酷报名后,过一会收到了名额确认邮件,就开始预订_衣食住行_方面的准备。 衣方面,准备了长/短比赛服各一套,外套,雨衣,跑鞋 食方面,到了唐山再看 住方面,预订了比赛前一天28号的酒店,酒店离起/终点300米左右,但有新装修和下水道的气味 行方面,坐朋友顺风车一起往返 准备好这些之后,制定个人本次马拉松目标,之前pb是16年北马358,期间跑过大连100k越野赛,平时训练配速530。想着5分...

Read more