bigdata专题

[bigdata-037]apache hue 用SQL获取数据以及可视化

1. hue官网 https://github.com/cloudera/hue http://gethue.com/ 2. hue的功能有py2+django开发，提供Hive, Impala, MySQL, Oracle, PostgreSQL, Spark SQL, Solr SQL, Phoenix...等SQL数据获取和页面展示 3. 用docker 安装hue

[bigdata-036] mit-scheme试用

1. 安装Mit-scheme apt-get install mit-scheme 2. 写一个hello wold代码， hi.scm (begin(display "Hello, World!")(newline)) 3. 在命令行执行 scheme，进入交互界面，然后输入命令 (load 'hi.scm') 将执行这个文件，然后输出 "Hello, World

[bigdata-035]用js dtree展示一个树形结构 py3+dtree+jquery

1. dtree的下载 http://destroydrop.com/javascripts/tree/default.htm 2. 目录结构 . ├── static │ ├── css │ │ └── dtree.css │ ├── img │ │ ├── base.gif │ │ ├── cd.gif │ │ ├── diffDoc.gif

[bigdata-34] pyenv和anaconda 4.2 和 python3.5和 ubuntu 16.04 安装

1. pyenv 官网 https://github.com/yyuu/pyenv 2. 安装 git clone https://github.com/yyuu/pyenv.git ~/.pyenv echo 'export PYENV_ROOT="$HOME/.pyenv"' >> ~/.bashrc echo 'export PATH="$PYENV_ROOT/bin:$PAT

[bigdata-033] 互联网金融-大数据架构平台和业务流程

一张图,excited!

[bigdata-032] 把json文件导入到mongodb

用mongoimport命令 mongoimport -d db1 -c colle1 --type json --file cc.json --host 114.55.66.77 --upsert -u user1 -p passwd1 这个命令，如果同id的记录在，就更新，如果记录id不重复，就插入。因为upsert，所以会比较慢。 mongoimport -d db1 -c colle

[bigdata-031] python3+selenium 做抓取

1. 安装 1.1 pip3 install -U selenium 1.2 下载 https://github.com/mozilla/geckodriver/releases/download/v0.13.0/geckodriver-v0.13.0-linux64.tar.gz 解压缩，然后放到/usr/bin目录 2. 抓取豆瓣 #!/usr/bin/env python3

[bigdata-030] cdh 5.9的impyla操作hiveserver2

参考文献：http://www.aichengxu.com/view/11094184 1. cdh 5.9 2. 开发机已经安装了impyla pip install thrift_sasl pip install sasl 3. 在cdh集群的一个节点启动hiveserver2 3.1 修改/etc/hive/conf.cloudera.hive/hive-sit

[bigdata-029] 在centos 7上安装maria

centos 7以上版本支持mysql的另一个分支maria 安装方式如下正确安装mariadb http://blog.csdn.net/default7/article/details/39138139 http://blog.csdn.net/default7/article/details/41973887 yum install mariadb* service m

[bigdata-028]apache nifi 从mysql导出数据到hbase

0.在hbase节点，启动thrift服务 hbase-daemon.sh start thrift 1. 在本机启动nif ./bin/nifi.sh start 2. 在浏览器输入http://localhost:8080/nifi，看到nifi的界面 3. 拖一个processor ExecuteSQL到界面 3.1 在processor上点击右键

[bigdata-095] IoC 控制反转的本质

Java通常用来做企业级项目。代码量非常大。所以如果修改，也会很麻烦。比如说，根据面向对象的角度，假如你加了一些新功能，创建一些新类新对象，就会面临一个重新编译和部署的过程，这是很繁琐的。能不能不重新编译部署呢？如果不重新编译部署，就意味着java源码不可以修改。既然源码不可以修改，那么就只能改配置文件。既然只修改配置文件，那么就要有一套能从配置文件里获取对象的机制。从配置文件里获取了

[bigdata-094] drools+eclipse+maven开发一个drools的应用

1. 此例子跟前述例子相似，但不需要在eclipse安装drools插件 2. 目录结构 ├── pom.xml ├── src │ ├── main │ │ ├── java │ │ │ └── com │ │ │ └── ttz │ │ │ └── demo │ │ │ └──

[bigdata-092] 一个基于eclipse的drools插件的java的drools应用

1. 文档来源从drools官方demo改编而来 2. eclipse要先安装drools的第三方开发工具 3. 用eclipse-->new-->project..->drools--> drools project创建一个新的空项目 3. 源码目录结构 ├── pom.xml ├── src │ └── main │ ├── java │

[bigdata-091] 规则引擎 easyrules 开发

1. easyrules轻量级规则引擎 java开发的。 2. 官网 http://www.easyrules.org/index.html 很快要关闭切换到github https://github.com/j-easy/easy-rules/wiki 3. 一个最简单的例子 3.1 目录结构 ├── pom.xml ├── src │ ├──

[bigdata-090] golang的两种将数据转化成json然后再从json转成数据

1. 文档来源来自多个地方，不一一列举。 2.代码 package mainimport "fmt"import "encoding/json"type Server struct {ServerName stringServerIP string}type Serverslice struct {Servers []Server}func main() {var s

[bigdata-089]go 以http get从server端读取json然后转化成json格式打印输出

1. 文档参考各种文档，不一一列举 2. 代码 package mainimport "fmt"import "io/ioutil"import "net/http"import "encoding/json"func main() {//http getresp, err := http.Get("http://127.0.0.1:8080/v1/shorten/?lon

[bigdata-088] go+ubuntu 一个最简单的api返回json格式数据的web app

1. 参考代码 https://github.com/beego/samples/tree/master/shorturl 2. 目录结构 ├── conf │ └── app.conf ├── controllers │ └── object.go ├── main.go └── models └── model.go 3. main.go内容如下：

[bigdata-087] ubuntu 16.04+linux+go 安装编译开发 beego+fasthttp web框架

1. 官网 https://golang.org 2. 下载go安装包 https://storage.googleapis.com/golang/go1.8.3.linux-amd64.tar.gz 3. 安装 3.1 sudo tar -C /usr/local -xzf go1.8.3.linux-amd64.tar.gz

[bigdata-086] python3+neo4j 从mysql数据库读取记录然后创建节点和关系写入到neo4j

1. 测试 1.1web界面 http://tz211:7474/browser/ 在这里执行 MATCH (n) RETURN n，能看到节点和相互关系一共是3个节点，6个相互关系 1.2 在211执行cypher-shell ./cypher-shell -u neo4j -p 123456 1.3 执行convert-test.py 上

[bigdata-085] centos 上用screen

yum install screen_x86_64 开启一个新窗口 screen -S neo4j 在窗口里运行程序离开窗口 ctrl+a+d 再次返回到窗口 screen -r neo4j

[bigdata-121] python科学计算

python科学计算，目前用的比较多的库，列一下。用的人多，也就意味着坑少，该踩的坑都被踩完了 1. 数值计算 1.1 numpy http://www.numpy.org/ 1.2 scipy https://www.scipy.org/ 1.3 pandas http://pandas.pydata.org/ 2. 符号计算 sympy

[bigdata-120] ubuntu 16.04 安装latex

执行如下命令： apt-get install texlive-full apt-get install texmaker apt-get install latex-cjk-all 然后在命令行启动texmake即可。编辑器也可以用gummi代替。示例文档 \documentclass{article}\usepackage{CJKutf8}\begin{document}

bigdata

BigData－基于代价优化

转：http://hbasefly.com/2017/05/04/bigdata%EF%BC%8Dcbo/ 还记得笔者在上篇文章无意中挖的一个坑么？如若不知，强烈建议看官先行阅读前面两文－《SparkSQL – 有必要坐下来聊聊Join》和《BigData – Join中竟然也有谓词下推!?》。第一篇文章主要分析了大数据领域Join的三种基础算法以及各自的适用场景，第二篇文章在第一篇的基础上进一

nosql bigdata 原创牛人追梦

http://blog.csdn.net/u010168160/

2024.2.21- HCIA -bigdata模拟考试题

1、鲲鹏生态系统中，OpenEuler操作系统是华为社区开源版。 2、Elasticsearch底层基于Redis开源软件开发的。 3、ES中用于集群监控、查询、配置的插件去Head。 4、Hive支持MapReduce、Tez、Spark等执行引擎。 5、Hbase的特点是一个分布式，基于列示存储的数据库；适合存储半结构化和非结构化的数据；主从架构，Hmaster为主节点，Hregion