Cài đặt cụm elasticsearch cluster 3 node

Môi trường cài đặt:
– node1: 10.144.39.21
– node2: 10.144.39.22
– node3: 10.144.39.21

OS 3 máy: ubuntu 20.04
ES cài đặt: bản mới nhất trên trang chủ: https://www.elastic.co/downloads/elasticsearch

Khai báo hostname của cả 3 máy vào file hosts, để 3 máy ping hostname của nhau được.

cat > /etc/hosts << EOF
127.0.0.1 localhost

# The following lines are desirable for IPv6 capable hosts
::1     ip6-localhost ip6-loopback
fe00::0 ip6-localnet
ff00::0 ip6-mcastprefix
ff02::1 ip6-allnodes
ff02::2 ip6-allrouters

10.144.39.21 es01
10.144.39.22 es02
10.144.39.23 es03
EOF

Cài đặt Elasticsearch service trên cả 3 máy
Download file cài đặt

wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-8.11.3-amd64.deb
dpkg -i elasticsearch-8.11.3-amd64.deb


systemctl enable elasticsearch.service

 

Thao tác trên máy es01, đứng tại thư mục /usr/share/elasticsearch/bin

Gen cert CA, chúng ta sẽ sử dụng CA này để sinh cert cho cluster, http cert cho các bước sau

root@es01:/usr/share/elasticsearch/bin# ./elasticsearch-certutil ca
This tool assists you in the generation of X.509 certificates and certificate
signing requests for use with SSL/TLS in the Elastic stack.

The 'ca' mode generates a new 'certificate authority'
This will create a new X.509 certificate and private key that can be used
to sign certificate when running in 'cert' mode.

Use the 'ca-dn' option if you wish to configure the 'distinguished name'
of the certificate authority

By default the 'ca' mode produces a single PKCS#12 output file which holds:
    * The CA certificate
    * The CA's private key

If you elect to generate PEM format certificates (the -pem option), then the output will
be a zip file containing individual files for the CA certificate and private key

Please enter the desired output file [elastic-stack-ca.p12]:       
Enter password for elastic-stack-ca.p12 : 
root@es01:/usr/share/elasticsearch/bin# 
root@es01:/usr/share/elasticsearch/bin# ls /usr/share/elasticsearch/elastic-stack-ca.p12
/usr/share/elasticsearch/elastic-stack-ca.p12

Lưu ý lưu password lại để sử dụng sau này. Chúng ta thu được file elastic-stack-ca.p12, mở file này phải có password.

Tiếp theo chúng ta sẽ sinh tiếp certificate, được ký bởi cái CA vừa sinh ở trên. Command như sau:

root@es01:/usr/share/elasticsearch/bin# ./elasticsearch-certutil cert --ca elastic-stack-ca.p12

Output như sau:

root@es01:/usr/share/elasticsearch/bin# ./elasticsearch-certutil cert --ca elastic-stack-ca.p12
This tool assists you in the generation of X.509 certificates and certificate
signing requests for use with SSL/TLS in the Elastic stack.

The 'cert' mode generates X.509 certificate and private keys.
    * By default, this generates a single certificate and key for use
       on a single instance.
    * The '-multiple' option will prompt you to enter details for multiple
       instances and will generate a certificate and key for each one
    * The '-in' option allows for the certificate generation to be automated by describing
       the details of each instance in a YAML file

    * An instance is any piece of the Elastic Stack that requires an SSL certificate.
      Depending on your configuration, Elasticsearch, Logstash, Kibana, and Beats
      may all require a certificate and private key.
    * The minimum required value for each instance is a name. This can simply be the
      hostname, which will be used as the Common Name of the certificate. A full
      distinguished name may also be used.
    * A filename value may be required for each instance. This is necessary when the
      name would result in an invalid file or directory name. The name provided here
      is used as the directory name (within the zip) and the prefix for the key and
      certificate files. The filename is required if you are prompted and the name
      is not displayed in the prompt.
    * IP addresses and DNS names are optional. Multiple values can be specified as a
      comma separated string. If no IP addresses or DNS names are provided, you may
      disable hostname verification in your SSL configuration.


    * All certificates generated by this tool will be signed by a certificate authority (CA)
      unless the --self-signed command line option is specified.
      The tool can automatically generate a new CA for you, or you can provide your own with
      the --ca or --ca-cert command line options.


By default the 'cert' mode produces a single PKCS#12 output file which holds:
    * The instance certificate
    * The private key for the instance certificate
    * The CA certificate

If you specify any of the following options:
    * -pem (PEM formatted output)
    * -multiple (generate multiple certificates)
    * -in (generate certificates from an input file)
then the output will be be a zip file containing individual certificate/key files

Enter password for CA (elastic-stack-ca.p12) : 
Please enter the desired output file [elastic-certificates.p12]: 
Enter password for elastic-certificates.p12 : 

Certificates written to /usr/share/elasticsearch/elastic-certificates.p12

This file should be properly secured as it contains the private key for 
your instance.
This file is a self contained file and can be copied and used 'as is'
For each Elastic product that you wish to configure, you should copy
this '.p12' file to the relevant configuration directory
and then follow the SSL configuration instructions in the product guide.

For client applications, you may only need to copy the CA certificate and
configure the client to trust this certificate.
root@es01:/usr/share/elasticsearch/bin# 

Bước này sẽ hỏi:
– password cho CA: nhập password của CA ở bước trên.
– password cho cái cert sẽ tạo: nhập password tuỳ ý, lưu lại sử dụng cho bước tiếp theo.
Chúng ta thu được file elastic-certificates.p12, tại đường dẫn /usr/share/elasticsearch/elastic-certificates.p12

Tiếp theo, generate cert sử dụng cho interface http. Cert này sẽ sử dụng để enable https cho port 9200 (mặc định) của elasticsearch.

./elasticsearch-certutil http
root@es01:/usr/share/elasticsearch/bin# ./elasticsearch-certutil http

## Elasticsearch HTTP Certificate Utility

The 'http' command guides you through the process of generating certificates
for use on the HTTP (Rest) interface for Elasticsearch.

This tool will ask you a number of questions in order to generate the right
set of files for your needs.

## Do you wish to generate a Certificate Signing Request (CSR)?

A CSR is used when you want your certificate to be created by an existing
Certificate Authority (CA) that you do not control (that is, you don't have
access to the keys for that CA). 

If you are in a corporate environment with a central security team, then you
may have an existing Corporate CA that can generate your certificate for you.
Infrastructure within your organisation may already be configured to trust this
CA, so it may be easier for clients to connect to Elasticsearch if you use a
CSR and send that request to the team that controls your CA.

If you choose not to generate a CSR, this tool will generate a new certificate
for you. That certificate will be signed by a CA under your control. This is a
quick and easy way to secure your cluster with TLS, but you will need to
configure all your clients to trust that custom CA.

Generate a CSR? [y/N]N

## Do you have an existing Certificate Authority (CA) key-pair that you wish to use to sign your certificate?

If you have an existing CA certificate and key, then you can use that CA to
sign your new http certificate. This allows you to use the same CA across
multiple Elasticsearch clusters which can make it easier to configure clients,
and may be easier for you to manage.

If you do not have an existing CA, one will be generated for you.

Use an existing CA? [y/N]y

## What is the path to your CA?

Please enter the full pathname to the Certificate Authority that you wish to
use for signing your new http certificate. This can be in PKCS#12 (.p12), JKS
(.jks) or PEM (.crt, .key, .pem) format.
CA Path: /usr/share/elasticsearch/elastic-stack-ca.p12
Reading a PKCS12 keystore requires a password.
It is possible for the keystore's password to be blank,
in which case you can simply press <ENTER> at the prompt
Password for elastic-stack-ca.p12:

## How long should your certificates be valid?

Every certificate has an expiry date. When the expiry date is reached clients
will stop trusting your certificate and TLS connections will fail.

Best practice suggests that you should either:
(a) set this to a short duration (90 - 120 days) and have automatic processes
to generate a new certificate before the old one expires, or
(b) set it to a longer duration (3 - 5 years) and then perform a manual update
a few months before it expires.

You may enter the validity period in years (e.g. 3Y), months (e.g. 18M), or days (e.g. 90D)

For how long should your certificate be valid? [5y] 20y

## Do you wish to generate one certificate per node?

If you have multiple nodes in your cluster, then you may choose to generate a
separate certificate for each of these nodes. Each certificate will have its
own private key, and will be issued for a specific hostname or IP address.

Alternatively, you may wish to generate a single certificate that is valid
across all the hostnames or addresses in your cluster.

If all of your nodes will be accessed through a single domain
(e.g. node01.es.example.com, node02.es.example.com, etc) then you may find it
simpler to generate one certificate with a wildcard hostname (*.es.example.com)
and use that across all of your nodes.

However, if you do not have a common domain name, and you expect to add
additional nodes to your cluster in the future, then you should generate a
certificate per node so that you can more easily generate new certificates when
you provision new nodes.

Generate a certificate per node? [y/N]N

## Which hostnames will be used to connect to your nodes?

These hostnames will be added as "DNS" names in the "Subject Alternative Name"
(SAN) field in your certificate.

You should list every hostname and variant that people will use to connect to
your cluster over http.
Do not list IP addresses here, you will be asked to enter them later.

If you wish to use a wildcard certificate (for example *.es.example.com) you
can enter that here.

Enter all the hostnames that you need, one per line.
When you are done, press <ENTER> once more to move on to the next step.

es01
es02
es03
es04
es05
es06
es07
es08
es09
es10

You entered the following hostnames.

 - es1
 - es2
 - es3
 - es4
 - es5
 - es6
 - es7
 - es8
 - es9
 - es10

Is this correct [Y/n]Y

## Which IP addresses will be used to connect to your nodes?

If your clients will ever connect to your nodes by numeric IP address, then you
can list these as valid IP "Subject Alternative Name" (SAN) fields in your
certificate.

If you do not have fixed IP addresses, or not wish to support direct IP access
to your cluster then you can just press <ENTER> to skip this step.

Enter all the IP addresses that you need, one per line.
When you are done, press <ENTER> once more to move on to the next step.

10.144.39.*
Error: 10.144.39.* is not a valid IP address
10.144.39.21
10.144.39.22
10.144.39.23
10.144.39.24
10.144.39.25
10.144.39.26
10.144.39.27
10.144.39.28
10.144.39.29
10.144.39.30
10.144.39.20

You entered the following IP addresses.

 - 10.144.39.21
 - 10.144.39.22
 - 10.144.39.23
 - 10.144.39.24
 - 10.144.39.25
 - 10.144.39.26
 - 10.144.39.27
 - 10.144.39.28
 - 10.144.39.29
 - 10.144.39.30
 - 10.144.39.20

Is this correct [Y/n]Y

## Other certificate options

The generated certificate will have the following additional configuration
values. These values have been selected based on a combination of the
information you have provided above and secure defaults. You should not need to
change these values unless you have specific requirements.

Key Name: es1
Subject DN: CN=es1
Key Size: 2048

Do you wish to change any of these options? [y/N]N

## What password do you want for your private key(s)?

Your private key(s) will be stored in a PKCS#12 keystore file named "http.p12".
This type of keystore is always password protected, but it is possible to use a
blank password.

If you wish to use a blank password, simply press <enter> at the prompt below.
Provide a password for the "http.p12" file:  [<ENTER> for none]
Repeat password to confirm: 

## Where should we save the generated files?

A number of files will be generated including your private key(s),
public certificate(s), and sample configuration options for Elastic Stack products.

These files will be included in a single zip archive.

What filename should be used for the output zip file? [/usr/share/elasticsearch/elasticsearch-ssl-http.zip] 

Zip file written to /usr/share/elasticsearch/elasticsearch-ssl-http.zip
root@es01:/usr/share/elasticsearch/bin#

Các lưu ý về cấu hình khi chạy lệnh trên như sau:
– Generate a CSR? [y/N]N    => Cái này nếu các bạn cần CSR để ký với 1 CA khác, ví dụ cert đi mua bên ngoài của globalsign, Let’s Encrypt hay Digicert thì lựa chọn Y. Ở đây tôi tự sinh CA, tự ký nên tôi chọn N
– Use an existing CA? [y/N]y : chọn y để sử dụng chính cái CA đã sinh ở bước trên. y xong thì điền đường dẫn file elastic-stack-ca.p12 và password.
– For how long should your certificate be valid? [5y] 20y ====> tự ký nên sinh dài hẳn ra cho thoải mái, ở đây tôi sinh 20 năm.
– Generate a certificate per node? [y/N]N   ===> chọn Y thì cluster Elasticsearch có bao nhiêu node thì sẽ sinh bấy nhiêu file cert, cái này nếu không có yêu cầu gì bảo mật quá thì ko cần, cứ chọn N để sinh 1 certificate duy nhất sử dụng cho tất cả các node.
– ## Which hostnames will be used to connect to your nodes?  ==> liệt kê các domain sẽ sử dụng để truy cập tới elasticsearch, ở đây tôi điền hostname của máy chủ. Nếu các bạn public elasticsearch cho các đối tượng khác truy cập qua domain, hostname thì điền vào đây, ví dụ elasticsearch.tochuc.com, nếu ko thì cái http certificate sinh ra sẽ không có thông tin của domain elasticsearch.tochuc.com. Client thấy https cert ko match sẽ báo lỗi. Chỗ này các bạn điền nhiều bao nhiêu cũng được, thừa còn hơn thiếu, chấp nhận cả wildcard domain như *.tochuc.vn
– ## Which IP addresses will be used to connect to your nodes? ==> tương tự với hostname nhưng là cho IP, dự kiến cluster sẽ sử dụng những IP nào để đưa cho client kết nối thì điền hết vào, kể cả IP của các lớp Loadbalancer đằng trước.
– ## What password do you want for your private key(s)? ==> nhập password mong muốn vào.
Chúng ta sẽ thu được file /usr/share/elasticsearch/elasticsearch-ssl-http.zip, giải nén file này thu được file http.p12

elasticsearch
├── http.p12
├── README.txt
└── sample-elasticsearch.yml

trên cả 3 máy, tạo thư mục: /etc/elasticsearch/cert_custom
Copy cả 3 file elastic-certificates.p12, elastic-stack-ca.p12, http.p12 vào /etc/elasticsearch/cert_custom và cấp quyền cho user elasticsearch

# ls /etc/elasticsearch/cert_custom
elastic-certificates.p12  elastic-stack-ca.p12  http.p12

# chown -R elasticsearch:elasticsearch /etc/elasticsearch/cert_custom/

Khai báo password cho hệ thống elasticsearch để sử dụng:

  • Bước 1: xoá password mặc định có khi cài đặt (có thể không có, tuỳ phiên bản, nhưng cứ xoá đi cho chắc). Chạy 3 lệnh sau:
/usr/share/elasticsearch/bin/elasticsearch-keystore remove xpack.security.transport.ssl.truststore.secure_password
/usr/share/elasticsearch/bin/elasticsearch-keystore remove xpack.security.transport.ssl.keystore.secure_password
/usr/share/elasticsearch/bin/elasticsearch-keystore remove xpack.security.http.ssl.keystore.secure_password
  • Bước 2: Thêm password
    /usr/share/elasticsearch/bin/elasticsearch-keystore add xpack.security.transport.ssl.keystore.secure_password
    /usr/share/elasticsearch/bin/elasticsearch-keystore add xpack.security.transport.ssl.truststore.secure_password
    /usr/share/elasticsearch/bin/elasticsearch-keystore add xpack.security.http.ssl.keystore.secure_password

    Trong đó:

    • xpack.security.transport.ssl.keystore.secure_password  ==> Nhập password của cert elastic-certificates.p12
    • xpack.security.transport.ssl.truststore.secure_password   ==> Nhập password của cert elastic-certificates.p12
    • xpack.security.http.ssl.keystore.secure_password     ====> Nhập password của http.p12
  • Bước 3: Xác nhận lại password vừa nhập
    /usr/share/elasticsearch/bin/elasticsearch-keystore show xpack.security.transport.ssl.keystore.secure_password
    /usr/share/elasticsearch/bin/elasticsearch-keystore show xpack.security.transport.ssl.truststore.secure_password
    /usr/share/elasticsearch/bin/elasticsearch-keystore show xpack.security.http.ssl.keystore.secure_password

     

Tiếp theo cấu hình /etc/elasticsearch/elasticsearch.yml trên từng máy. Nội dung file từng máy có điểm khác nhau, nhưng đại khái nội dung file này như sau:

# ======================== Elasticsearch Configuration =========================
#
# NOTE: Elasticsearch comes with reasonable defaults for most settings.
#       Before you set out to tweak and tune the configuration, make sure you
#       understand what are you trying to accomplish and the consequences.
#
# The primary way of configuring a node is via this file. This template lists
# the most important settings you may want to configure for a production cluster.
#
# Please consult the documentation for further information on configuration options:
# https://www.elastic.co/guide/en/elasticsearch/reference/index.html
#
# ---------------------------------- Cluster -----------------------------------
#
# Use a descriptive name for your cluster:
#
cluster.name: democluster
#
# ------------------------------------ Node ------------------------------------
#
# Use a descriptive name for the node:
#
node.name: es01
#
# Add custom attributes to the node:
#
#node.attr.rack: r1
#
# ----------------------------------- Paths ------------------------------------
#
# Path to directory where to store the data (separate multiple locations by comma):
#
path.data: /var/lib/elasticsearch
#
# Path to log files:
#
path.logs: /var/log/elasticsearch
#
# ----------------------------------- Memory -----------------------------------
#
# Lock the memory on startup:
#
#bootstrap.memory_lock: true
#
# Make sure that the heap size is set to about half the memory available
# on the system and that the owner of the process is allowed to use this
# limit.
#
# Elasticsearch performs poorly when the system is swapping the memory.
#
# ---------------------------------- Network -----------------------------------
#
# By default Elasticsearch is only accessible on localhost. Set a different
# address here to expose this node on the network:
#
network.host: 10.144.39.21
#
# By default Elasticsearch listens for HTTP traffic on the first free port it
# finds starting at 9200. Set a specific HTTP port here:
#
http.port: 9200
#
# For more information, consult the network module documentation.
#
# --------------------------------- Discovery ----------------------------------
#
# Pass an initial list of hosts to perform discovery when this node is started:
# The default list of hosts is ["127.0.0.1", "[::1]"]
#
discovery.seed_hosts: ["es01", "es02", "es03"]
#
# Bootstrap the cluster using an initial set of master-eligible nodes:
#
cluster.initial_master_nodes: ["es01", "es02", "es03"]
#
# For more information, consult the discovery and cluster formation module documentation.
#
# ---------------------------------- Various -----------------------------------
#
# Allow wildcard deletion of indices:
#
#action.destructive_requires_name: false

#----------------------- BEGIN SECURITY AUTO CONFIGURATION -----------------------
#
# The following settings, TLS certificates, and keys have been automatically      
# generated to configure Elasticsearch security features on 01-01-2024 10:29:11
#
# --------------------------------------------------------------------------------

# Enable security features
xpack.security.enabled: true

xpack.security.enrollment.enabled: true

# Enable encryption for HTTP API client connections, such as Kibana, Logstash, and Agents
xpack.security.http.ssl:
  enabled: true
  keystore.path: cert_custom/http.p12

# Enable encryption and mutual authentication between cluster nodes
xpack.security.transport.ssl:
  enabled: true
  verification_mode: certificate
  client_authentication: required
  keystore.path: cert_custom/elastic-certificates.p12
  truststore.path: cert_custom/elastic-certificates.p12
# Create a new cluster with the current node only
# Additional nodes can still join the cluster later
# cluster.initial_master_nodes: ["es01"]

# Allow HTTP API connections from anywhere
# Connections are encrypted and require user authentication
http.host: 0.0.0.0

# Allow other nodes to join the cluster from anywhere
# Connections are encrypted and mutually authenticated
#transport.host: 0.0.0.0

#----------------------- END SECURITY AUTO CONFIGURATION -------------------------

Các điểm cần lưu ý cấu hình như sau:
cluster.name: democluster   =>   mục này cần 1 cái tên thống nhất cho tất cả các máy tham gia vào cluster.
node.name: es01        =>   tên riêng của từng máy tham gia vào cluster, tên này cần duy nhất, mặc định nó là hostname (tham khảo https://www.elastic.co/guide/en/elasticsearch/reference/current/important-settings.html#node-name)
network.host: 10.144.39.21   => điền IP của máy vào
cluster.initial_master_nodes: [“es01”, “es02”, “es03”]   ==> tham khảo https://www.elastic.co/guide/en/elasticsearch/reference/current/important-settings.html#initial_master_nodes
Cấu hình xpack =>

xpack.security.enabled: true

xpack.security.enrollment.enabled: true

# Enable encryption for HTTP API client connections, such as Kibana, Logstash, and Agents
xpack.security.http.ssl:
  enabled: true
  keystore.path: cert_custom/http.p12

# Enable encryption and mutual authentication between cluster nodes
xpack.security.transport.ssl:
  enabled: true
  verification_mode: certificate
  client_authentication: required
  keystore.path: cert_custom/elastic-certificates.p12
  truststore.path: cert_custom/elastic-certificates.p12

Tới đây thì đã có thể khởi động elasticsearch trên tất cả các máy

systemctl restart elasticsearch.service

Tiếp theo cần reset user quản trị cao nhất của Elasticsearch:

root@es01:/usr/share/elasticsearch# ./bin/elasticsearch-reset-password -u elastic

Thu được password

root@es01:/usr/share/elasticsearch# ./bin/elasticsearch-reset-password -u elastic
This tool will reset the password of the [elastic] user to an autogenerated value.
The password will be printed in the console.
Please confirm that you would like to continue [y/N]y


Password for the [elastic] user successfully reset.
New value: M3RPyfOtQAARylj13oYi

Thử kết nối tới cluster, thấy thành công

root@es01:/usr/share/elasticsearch# curl -k -u elastic:M3RPyfOtQAARylj13oYi https://10.144.39.21:9200/_cluster/health
{
   "cluster_name":"democluster",
   "status":"green",
   "timed_out":false,
   "number_of_nodes":3,
   "number_of_data_nodes":3,
   "active_primary_shards":1,
   "active_shards":2,
   "relocating_shards":0,
   "initializing_shards":0,
   "unassigned_shards":0,
   "delayed_unassigned_shards":0,
   "number_of_pending_tasks":0,
   "number_of_in_flight_fetch":0,
   "task_max_waiting_in_queue_millis":0,
   "active_shards_percent_as_number":100.0
}

 

 

 

[Zabbix] Trải ngiệm dựng và tối ưu zabbix 5.4 với database postgres

Trước khi đi vào phần chính, xin phép chia sẻ quá trình triển khai từ đầu con zabbix này. Hiện con cũ đang xài 5.0, được upgrade nhiều lần từ bản 3.2 lên. Tuy nhiên do nhiều vấn đề xảy ra nên team quyết lên 5.4 thì đập đi xây lại, cuối cùng dừng chân với postgresql
Việc thay đổi database backend cũng chỉ là thử nghiệm chút thôi, trước đây cũng chưa từng dùng postgres hồi nào. Nhưng quá khứ đã từng sử dụng:
+ Mysql inodb: đúng theo sách giáo khoa, tối ưu các thứ như tách mỗi bảng thành 1 file, mọi thứ vẫn ổn cho tới khi dữ liệu lên tầm 100GB thì bắt đầu có những case lỗi xảy ra, đôi khi mysql hoạt động full CPU, dù đã tối ưu rất nhiều nhưng slow query vẫn thường xuất hiện. Mysql thì vốn đã phân mảnh, do có 2 nhánh phát triển do oracle  cầm đầu và nhánh mariadb cầm đầu, vì thế các con số để tunning tương ứng mất rất nhiều công sức tìm hiểu của anh em, mà tốn công với DB thế thì AE bỏ nghề làm DBA lương cao hơn devops vs SA nhiều 😀 Trong team bắt đầu manh nha ý nghĩ đổi sang database backend khác.
+ Oracle database: team có 2 ông DBA oracle nên nghĩ rằng đổi sang orac thì sẽ ngon hơn. Tuy nhiên khi triển khai đã gặp các vấn đề:
– Zabbix không có bản build sẵn chạy với oracle: OK cái này k sao, down source về rồi tự build là xong, cái này dễ.
– Các table có dung lượng lớn của zabbix: history*, trend* tầm 7 bảng chứa dữ liệu chính và rất nặng. Với mysql bên mình thấy zabbix select where clock xxx nên trường clock của mỗi bảng được đánh partition theo ngày, cứ mỗi ngày bên mình đánh thành 1 partition khác nhau ==> import data từ source zabbix vào sau đó drop hết các bảng mặc định đi rồi sửa lại là xong. cái này vẫn dễ.
– Ban đầu thiết kế DB zabbix sẽ nằm chung phần cứng với cụm database RAC 5 node hiện có, tuy nhiên phát hiện ra ông zabbix xài charset khác với mặc định của đám oracle, cái này thường các ông DBA, hay dev cũng chả sửa

    Incorrect parameter "NLS_NCHAR_CHARACTERSET" value: "AL16UTF16" instead "AL32UTF8, UTF8".

Vậy là dựng riêg con oracle khác. Sau 1 tuần vận hành, add thêm 50 con máy vào thì thường xuyên queue > 10m. không có slow query tuy nhiên thỉnh thoảng zabbix server báo lỗi ko select được. do kiểu dữ liệu trả về k khớp. ví dụ bảng alert trường message kiểu dữ liệu là nvarchar, nhưng select zabbix server báo lỗi 😐 phải drop cả bảng đi để sửa lại cái trường đó sang varchar.
– perfomance Chậm hơn mysql rất nhiều. Mở web lên vào zabbix, bấm sang mục host phải 5s mới có kết quả, show debug lên thấy mỗi click chuột, zabbix chạy có lúc lên tới 6k câu SQL vào database. con số này còn tăng lên nữa theo số lượng host mới đc add vào.

==> mệt mỏi quá, anh em quyết quay về zabbix native, lựa chọn ở đây mà mysql hay postgres, cả 2 thằng đều đc zabbix hỗ trợ native. Tuy nhiên do đã chịu đựng quá đủ với mysql nên đổi qua postgres.
Môi trường: Ubuntu 20
DB: postgres 12

Quá trình cài đặt thì thực hiện theo trang chủ zabbix, tới phần import DB vào postgres thì đánh partition cho trường clock của bảng:

'TRENDS', 'TRENDS_UINT', 'HISTORY', 'HISTORY_LOG', 'HISTORY_STR', 'HISTORY_TEXT', 'HISTORY_UINT','ALERTS'

Đây là script cấu trúc bảng history, các bảng khác tươg tự

-- Table: public.history

-- DROP TABLE public.history;

CREATE TABLE IF NOT EXISTS public.history
(
    itemid bigint NOT NULL,
    clock integer NOT NULL DEFAULT 0,
    value double precision NOT NULL DEFAULT '0'::double precision,
    ns integer NOT NULL DEFAULT 0
) PARTITION BY RANGE (clock);

ALTER TABLE public.history
    OWNER to zabbix;
-- Index: history_1

-- DROP INDEX public.history_1;

CREATE INDEX history_1
    ON public.history USING btree
    (itemid ASC NULLS LAST, clock ASC NULLS LAST)
;

-- Partitions SQL

CREATE TABLE IF NOT EXISTS public.history_p_2021_06_01 PARTITION OF public.history
    FOR VALUES FROM (0) TO (1622566800);

ALTER TABLE public.history_p_2021_06_01
    OWNER to zabbix;
CREATE TABLE IF NOT EXISTS public.history_p_2021_06_01 PARTITION OF public.history
    FOR VALUES FROM (0) TO (1622566800);

...

ALTER TABLE public.history_p_p_2021_07_31
    OWNER to zabbix;

Như các bạn thấy, mỗi ngày 1 partition theo range của clock. (clock là epoch time)
Tiếp theo, tunning các con số cấu hình cho postgres, các bạn có thể lên trang này để generate các con số config theo điều kiện của mình:
https://pgtune.leopard.in.ua/#/

Sau khi đánh partition xong, cho zabbix đẩy data vào, select thử history theo clock

explain (format json) select from history where clock >= 1623762000
and clock <= 1623804210

Wtf, câu select trên vẫn fullscan table, nó đi tìm data lần lượt trên tất cả partition hiện có rồi mới trả về 😐
Qua tìm hiểu thì hoá ra thiếu config trong /etc/postgresql/12/main/postgresql.conf

constraint_exclusion = partition        # on, off, or partition

Lọ mọ cấu hình vào restart, select thử lại theo câu lệnh trên xem nó scan những partition nào

explain (format json) select from history where clock >= 1623762000
and clock <= 1623804210

Như vậy là đã OK, chỉ scan trong 2 partition liên quan theo range của clock.
Tạm thời yên tâm về mặt truy vấn.
tiếp theo là đánh partition tự động, do nếu insert vào 1 row có clock nằm ngoài range của partition thì sẽ bị lỗi, do DB ko biết phải cho nó vào đâu. Viết 1 script bằng python đánh tự động partition cho các bảng này. Nguyên tắc tháng T thì đánh partition cho T+1
Script, các bạn thay IP, user, password vào để sử dụng. viết bằng python3, cần cài thêm psycopg2 để kết nối postgres yum install -y python3-psycopg2.x86_64
Cho chạy cái này vào đầu tháng

import datetime
import time
from calendar import monthrange

import psycopg2



import logging
logging.basicConfig(
    format='%(asctime)s %(levelname)-8s %(message)s',
    level=logging.INFO,
    datefmt='%Y-%m-%d %H:%M:%S')
# dsnStr="(DESCRIPTION=(ADDRESS=(PROTOCOL=TCP)(HOST=172.16.28.70)(PORT=1521))(CONNECT_DATA=(SERVER=DEDICATED)(SERVICE_NAME=PDBZBX)))"
# useridOra = 'ZABBIX'
# passwdOra = 'ZBXfintech2021'
# logging.info('Khoi tao ket noi toi database: {}'.format(dsnStr))
conn = psycopg2.connect(
    host="postgres-IP",
    database="zabbix",
    user="zabbix",
    password="password")
curs = conn.cursor()
logging.info('Khoi tao ket noi toi database thanh cong')

LISTABLES = ['TRENDS', 'TRENDS_UINT', 'HISTORY', 'HISTORY_LOG', 'HISTORY_STR', 'HISTORY_TEXT', 'HISTORY_UINT','ALERTS']

def gen_sql(table):
    logging.info('generate sql cho table: {}'.format(table))
    dateformat = 'P_%Y_%m_%d'
    TODAY = datetime.date.today()
    THIS_MONTH = TODAY.month
    NEXT_MONTH = THIS_MONTH+1 if THIS_MONTH < 12 else 1
    BASEDAY = datetime.date.today().replace(month=NEXT_MONTH)
    DAYS_OF_MONTH = monthrange(BASEDAY.year,BASEDAY.month)[1]
    # sql = """ALTER TABLE {} MODIFY
    # PARTITION BY RANGE (CLOCK) (""".format(table)
    bodysql = []
    for i in range(0,DAYS_OF_MONTH,1):
        basedate = datetime.date(year=BASEDAY.year,month=BASEDAY.month,day=1+i)
        basedate_for_epoch = basedate + datetime.timedelta(1)

        partitionname = datetime.datetime.strftime(basedate,dateformat)

        epoch_date = datetime.datetime.strftime(basedate_for_epoch,dateformat)
        epochtime = int(time.mktime(time.strptime(epoch_date, dateformat)))

        epoch_date_from = datetime.datetime.strftime(basedate,dateformat)
        epochtime_from = int(time.mktime(time.strptime(epoch_date_from, dateformat)))
        # bodysql.append("PARTITION {} VALUES LESS THAN ({})".format(partitionname,epochtime))
        # sql = "ALTER TABLE {} ADD PARTITION {} VALUES LESS THAN ({})".format(table,partitionname,epochtime)
        sql = "CREATE TABLE public.{0}_P_{1} PARTITION OF public.{0} FOR VALUES FROM ({3}) TO ({2})".format(table,partitionname,epochtime,epochtime_from)
        logging.info(sql)
        curs.execute(sql)
        conn.commit()
        logging.info('SQL executed')
    # sql+=",".join(bodysql)
    # sql+=""") ONLINE"""
    
    # logging.info('SQL : {}'.format(sql))
    # return sql


for table in LISTABLES:
    gen_sql(table)
    # sql_string = gen_sql(table)
    # logging.info('execute sql on {}'.format(table))
    
    # logging.info('executed')

 

ARCHIVE-LOG và NO-ARCHIVE-LOG mode của Oracle là gì? Ưu nhược điểm?

ARCHIVELOG mode: Khi database được hoạt động ở chế độ này, database sẽ tạo backup cho toàn bộ các transaction đã thực hiện, vì vậy chúng ta có thể khôi phục lại database lại bất cứ thời điểm nào nếu muốn.
Ưu điểm: có thể thực hiện hot backup,ngay cả khi database đang online. Với file backup, archive log, hoàn toàn có thể khôi phục lại database nguyên trạng về bất cứ thời điểm nào khi cần thiết.
Nhược điểm: Tốn ổ cứng để lưu file archivelog, tuy nhiên, có các option để tối ưu lại file log sau khi đã backup thành công.

NOARCHIVELOG: Ngược lại với ARCHIVELOG, chế độ này ko backup cái gì cả, và cũng vì lẽ đó mà hiệu năng của database ở chế độ này là cao nhất.
Ưu điểm: Không tốn ổ cứng lưu file archivelog, ko tốn hiệu năng cho việc backup,database đc hoạt động vơi công suất cao nhất.
Nhược điểm: muốn khôi phục lại data là không thể nào. Chỉ khôi phục lại bản backup gần nhất thôi.

 

Cài đặt cụm hadoop cluster 3 node – How to Install and Set Up a 3-Node Hadoop Cluster

I- Chuẩn bị
3 máy centos 7: <hostname>:<IP>
– node-master: 192.168.151.171
– node1: 192.168.151.172
– node2: 192.168.151.173
Phần môi trường cần cài đặt trên 3 máy:

java jdk 1.8 trở lên
yum install -y epel-release vim curl wget telnet
disable firewall hoặc mở sẵn port
service iptables stop
chkconfig iptables off

II- Kiến trúc hadoop cluster
Kiến trúc hadoop cluster gồm 2 loại node chính:
o Master node: lưu giữ thông tin về hệ thống file phân tán, tương đương với bảng inode của ext3, ngoài ra còn có nhiệm vụ lên kế hoạch phân bổ tài nguyên. Trong guide này, node master có 2 nhiệm vụ chính:
o Name node: quản lý hệ thống file phân tán, nắm thông tin block dữ liệu nào nằm ở đâu trong cluster.
o ResourceManager: quản lý các job của YARN và quản lý các job được xếp lịch chạy trên các node slave.
o Slave node: lưu dữ liệu thực và cung cấp sức mạnh phần cứng để chạy các job, trong lab này là node1 và node2:
o Datanode quản lý các block dữ liệu về mặt vật lý.
o Nodemanager, quản lý thực hiện các task trên node.

III- Cấu hình hệ thống.
1. Tạo file host trên mỗi node

192.168.150.171 node-master
192.168.150.172 node1
192.168.150.173 node2

2. Tạo keypair xác thực cho hadoop user
Master node sẽ sử dụng ssh để kết nối tới các node khác và quản lý cluster. Thực hiện:
Log in vào node-master với user hadoop , tạo 1 ssh-key gán cho user hadoop. Sau đó thử ssh bằng user hadoop vào từng node 1, nếu k hỏi password tức là thành công

ssh hadoop@node-master
ssh-keygen -b 4096
ssh-copy-id -i $HOME/.ssh/id_rsa.pub hadoop@node-master
ssh-copy-id -i $HOME/.ssh/id_rsa.pub hadoop@node1
ssh-copy-id -i $HOME/.ssh/id_rsa.pub hadoop@node2

3. Download và giải nén bộ cài hadoop
Đăng nhập vào node-master với user hadoop, download bộ cài hadoop từ trang chủ

cd
wget http://mirrors.viethosting.com/apache/hadoop/common/hadoop-2.8.4/hadoop-2.8.4.tar.gz
tar zxvf hadoop-2.8.4.tar.gz
mv hadoop-2.8.4 hadoop

4. Thiết lập biến môi trường.
Thêm folder hadoop vừa giải nén vào biến môi trường PATH

vim /home/hadoop/.bash_profile
Thêm dòng sau:
PATH=/home/hadoop/hadoop/bin:/home/hadoop/hadoop/sbin:$PATH

IV- Cấu hình Master Node
1. Thiết lập JAVA_HOME
Tìm vị trí cài đặt java, mặc định ở /usr/java/jdk1.8.0_171-amd64
Có thể tìm bằng cách:

update-alternatives --display java

Thêm các dòng sau vào /home/hadoop/.bash_profile

export JAVA_HOME=/usr/java/jdk1.8.0_171-amd64

Đường dẫn JAVA_HOME thay đổi tuỳ từng lúc nhé. ở đây mình làm ra thế.
2. Đặt đường dẫn Namenode
Trên mỗi node đều cần thiết đặt file core-site.xml, ở đây ở địa chỉ:
~/hadoop/etc/hadoop/core-site.xml
Trong đó ~/hadoop/etc/hadoop/ là thư mục chứa file cấu hình của hệ thống hdfs, nhớ đường dẫn này, sẽ sử dụng ở các bước sau:
Nội dung file:

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
    <configuration>
        <property>
            <name>fs.default.name</name>
            <value>hdfs://node-master:9000</value>
        </property>
    </configuration>

Chỉnh sửa file hdfs-site.conf

<configuration>
    <property>
            <name>dfs.namenode.name.dir</name>
            <value>/home/hadoop/data/nameNode</value>
    </property>

    <property>
            <name>dfs.datanode.data.dir</name>
            <value>/home/hadoop/data/dataNode</value>
    </property>

    <property>
            <name>dfs.replication</name>
            <value>1</value>
    </property>
</configuration>

Lưu ý thuộc tính dfs.replication, thuộc tính này là số lần dữ liệu được nhân bản (nhằm mục đích dự phòng, node này chết thì còn bản sao ở node khác). ở đây mình có 2 node  có thể set mục này tối đa bằng 2 để dữ liệu được nhân bản trên cả 2 node (tốn tài nguyên). Không được đặt con số này nhiều hơn số datanode mà chúng ta có.
3. Thiết lập Yarn làm Job Scheduler
Đổi tên file mapred-site.xml.template thành mapred-site.xml. Nội dung:

<configuration>
    <property>
            <name>mapreduce.framework.name</name>
            <value>yarn</value>
    </property>
</configuration>

Lưu ý giá trị là yarn, tốt nhất tìm vị trí khoá như trên rồi sửa lại.
Sửa file yarn-site.xml

<configuration>
    <property>
            <name>yarn.acl.enable</name>
            <value>0</value>
    </property>

    <property>
            <name>yarn.resourcemanager.hostname</name>
            <value>node-master</value>
    </property>

    <property>
            <name>yarn.nodemanager.aux-services</name>
            <value>mapreduce_shuffle</value>
    </property>
</configuration>

4. Cấu hình Slave
Khai báo danh sách các datanode mà ta có với namenode, sửa file ~/hadoop/etc/hadoop/slaves
Điền mỗi namenode 1 dòng

node1
node2

5. Cấu hình phân bổ RAM
Việc phân bổ ram có thể làm để những node có ram yếu có thể chạy được. các giá trị mặc định được thiết kế cho các máy 8GB ram trở lên. Dưới đây là những tuỳ chỉnh cho những node 2GB Ram.
6. Các thuộc tính phân bổ RAM
Một Yarn job được chạy với 2 loại:
– Một application manager: chịu trách nhiệm giám sát ứng dụng và phối hợp để phân phối excecutor trong cluster (phân phối xem node nào sẽ thực hiện job).
– Một số executor được tạo bởi application manager chạy các job. Đối với các mapredure job, chúng thực hiện các tiến trình map và redure song song.
Cả 2 app trên chạy trên slave node. Mỗi slave node chạy một NodeManager dạng deamon, chịu trách nhiệm đối với việc tạo container trên mỗi node. Toàn bộ cluster chịu sự quản lý của ResourceManager, lên kế hoạch phân bổ các container trên toàn bộ slavenode, dựa trên nhu cầu cần thiết cho mỗi action hiện tại.
Bốn hình thức cấp phát tài nguyên được cấu hình chuẩn để cluster có thể làm việc:
– Số bộ nhớ RAM có thể cung cấp cho Yarn container trên mỗi node. Giới hạn này nên để cao, nếu không việc cung cấp tài nguyên cho container sẽ bị reject, ứng dụng sẽ fail. Tuy nhiên, không được cấp toàn bộ số RAM trên node. Giá trị này được cấu hình trên file yarn-site.xml với key = yarn.nodemanager.resource.memory-mb
– Lượng bộ nhớ mà 1 node đơn có thể chiếm và số bộ nhớ cấp phát nhỏ nhất được cho phép. Được cấu hình tại yarn-site.xml với key = yarn.scheduler.minimum-allocation-mb
– Lượng RAM được cấp cho mỗi tiến trình map hoặc redure. Nên nhỏ hơn số bộ nhớ tối đa. Được cấu hình tại file mapred-site.xml với key = mapreduce.map.memory.mb và mapreduce.reduce.memory.mb
– Lượng RAM sẽ được cấp cho ApplicationMaster.
Hình minh hoạ cho các cấu hình này:

Ví dụ về cấu hình cho node 2GB RAM

Property                                   Value
yarn.nodemanager.resource.memory-mb        1536
yarn.scheduler.maximum-allocation-mb       1536
yarn.scheduler.minimum-allocation-mb       128
yarn.app.mapreduce.am.resource.mb          512
mapreduce.map.memory.mb                    256
mapreduce.reduce.memory.mb                 256

Sửa file /home/hadoop/hadoop/etc/hadoop/yarn-site.xml và thêm các dòng sau:

<property>
        <name>yarn.nodemanager.resource.memory-mb</name>
        <value>1536</value>
</property>

<property>
        <name>yarn.scheduler.maximum-allocation-mb</name>
        <value>1536</value>
</property>

<property>
        <name>yarn.scheduler.minimum-allocation-mb</name>
        <value>128</value>
</property>

<property>
        <name>yarn.nodemanager.vmem-check-enabled</name>
        <value>false</value>
</property>

Sửa file /home/hadoop/hadoop/etc/hadoop/mapred-site.xml và thêm các dòng sau:

<property>
        <name>yarn.app.mapreduce.am.resource.mb</name>
        <value>512</value>
</property>

<property>
        <name>mapreduce.map.memory.mb</name>
        <value>256</value>
</property>

<property>
        <name>mapreduce.reduce.memory.mb</name>
        <value>256</value>
</property>

V- Nhân bản cấu hình vừa thiết lập tới các slave node
1- Copy hadoop sang slave node:

cd /home/hadoop/
scp hadoop-*.tar.gz node1:/home/hadoop
scp hadoop-*.tar.gz node2:/home/hadoop

Kết nối tới node1, node2 qua SSH, giải nén 2 gói vừa copy sang

tar -xzf hadoop-2.8.1.tar.gz
mv hadoop-2.8.1 hadoop
exit

Quay lại node-master, copy config sang

for node in node1 node2; do
    scp ~/hadoop/etc/hadoop/* $node:/home/hadoop/hadoop/etc/hadoop/;
done

2- Format HDFS
HDFS sau khi tạo cũng cần phải được format trước khi sử dụng, tương tự như đối với bất kỳ file system truyền thống nào khác.
Trên node master chúng ta gõ lệnh

hdfs namenode -format

Đến đây thì việc cài đặt HDFS đã hoàn tất và sẵn sàng để chạy
VI- Chạy và monitỏ HDFS
1- Start và Stop HDFS
Mọi thao tác được thực hiện trên node-master

start-dfs.sh
stop-dfs.sh

Sau khi chạy lệnh start, master sẽ tự động SSH sang node1+node2 (qua key đã tạo ở trên) để tiến hành bật datanode. Kiểm tra các tiến trình đã được khởi động trên mỗi node bằng lệnh jps , kết quả như bên dưới, bao gồm PID và process name

21922 Jps
21603 NameNode
21787 SecondaryNameNode
19728 DataNode
19819 Jps

2- Monitor HDFS cluster.
Lấy thông tin về cluster đang chạy bằng lệnh:

hdfs dfsadmin -report

Lấy các thông tin về các lệnh được hỗ trợ bằng lệnh help

hdfs dfsadmin -help

Ngoài ra còn có thể truy cập trang web quản trị:
http://node-master-IP:50070

3- Test đẩy dữ liệu lên HDFS
Sử dụng lệnh hdfs dfs để thao tác với dữ liệu trên hdfs. Đầu tiên, ta tạo một thư mục mặc định, tất cả các lệnh khác sẽ sử dụng đường dẫn quan hệ tới thư mục home mặc định này.

hdfs dfs -mkdir -p /user/hadoop

Tạo thêm thư mục books bên trong hdfs

hdfs dfs -mkdir books

 

 

Thay đổi config trong postgres – Reload postgres configuration without restart

PostgreSQL có 2 file cấu hìnhL pg_hba.conf và postgresql.conf. Cả 2 file này đều nằm trong thư mục data của pg_home, hoặc đường dẫn: $PGDATA, hoặc /var/lib/pgsql/data
pg_hba.conf: chứa thông tin xác thực tới postgres, như quyết định user nào, được kết nối tới postgres theo hình thức nào.
postgresql.conf chứa các thông tin cấu hình về hệ thống như log, archive, etc

Thao tác reload cấu hình:
thực hiện như sau:

su - postgres
#make change
vi /var/lib/pgsql/data/pg_hba.conf
pg_ctl reload -D /var/lib/pgsql/data/

pg_ctl reload sẽ gửi SIGHUP tới tiến trình postgres để reload lại file cấu hình
Toàn bộ các thay đổi của pg_hba.conf có thể được reload theo cách này. trong khi đó, một số tham số trong postgresql.conf chỉ có thể được reload sau khi restart

Hướng dẫn cài đặt mapr cluster 3 node – How to install cluster mapr 3 nodes

Thông tin hệ thống:
Gồm 3 node:
c2s-mapr-01 10.0.0.117
c2s-mapr-02 10.0.0.118
c2s-mapr-03 10.0.0.119
OS: centos 6
mapr version: 5.0

Hướng dẫn phân vùng ổ đĩa để thực hiện việc cài đặt:
Trên mỗi máy centos, thực hiện phân vùng ổ đĩa như hình dưới, phần dung lượng không được mount vào đâu cả trong lvm sẽ được sử dụng bởi mapr trong quá trình cài đặt.
Lưu ý: Volume Group Name phải đặt tên giống nhau trên cả 3 máy.

Đi vào cài đặt:
Thao tác trên máy c2s-mapr-01.
1. Tạo /etc/hosts hoặc đăng ký DNS

vi /etc/hosts
10.0.0.117 c2s-mapr-01
10.0.0.118 c2s-mapr-02
10.0.0.119 c2s-mapr-03
127.0.0.1 localhost localhost.localdomain

2.Cấu hình kết nối bằng SSH key
#Chạy lần lượt từng lệnh dưới đây , nếu được hỏi password thì điền password

ssh-keygen
ssh-copy-id c2s-mapr-01
ssh-copy-id c2s-mapr-02
ssh-copy-id c2s-mapr-03

3. Cài clustershell để đồng thời chạy command trên tất cả các máy
#chỉ chạy trên con mapr1

yum install -y epel-release && yum install -y clustershell
echo 'all: c2s-mapr-0[1-3]' > /etc/clustershell/groups

4. Đồng bộ file host tới toàn bộ các máy

clush -a --copy /etc/hosts

5. Cài đặt service đồng bộ thời gian với timeserver

clush -a yum install -y chrony
clush -a service chronyd start
clush -a chkconfig chronyd on

6. Tắt tường lửa

clush -a service iptables stop
clush -a chkconfig iptables off

7. Tạo thư mục làm việc và người dùng cho mapr

clush -a mkdir /root/work
clush -a groupadd -g 1003 mapr
clush -a useradd -u 1003 -g mapr mapr
clush -a 'echo mapr:mapr | chpasswd'
clush -a useradd -u 1004 -g mapr mruser
clush -a 'echo mruser:mruser | chpasswd'

8.Đặt SSH key cho người quản lý mapr

su - mapr
ssh-keygen
ssh-copy-id c2s-mapr-01
ssh-copy-id c2s-mapr-02
ssh-copy-id c2s-mapr-03
exit

9. Cài đặt jdk cho tất cả các máy

http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
Download file jdk linux x64.rpm
Sau khi download xong copy lên máy 01, chạy lệnh cài đặt bên dưới, đường dẫn, tên file tự thay đổi lại cho phù hợp
clush -a --copy /root/work/jdk-8u102-linux-x64.rpm
clush -a rpm -ivh /root/work/jdk-8u102-linux-x64.rpm

10. Cài repo MapR 5.0

#Run on c2s-mapr-01

vi /etc/yum.repos.d/mapr.repo
[maprtech]
name=MapR Technologies
baseurl=http://package.mapr.com/releases/v5.0.0/redhat/
enabled=1
gpgcheck=1
protect=1

[maprecosystem]
name=MapR Technologies
baseurl=http://package.mapr.com/releases/ecosystem-all/redhat
enabled=1
gpgcheck=1
protect=1
clush -a --copy /etc/yum.repos.d/mapr.repo
clush -a rpm --import http://package.mapr.com/releases/pub/maprgpg.key

11. Cài các gói MapR

clush -a yum install -y mapr-fileserver mapr-zookeeper mapr-webserver mapr-resourcemanager mapr-nodemanager mapr-gateway
clush -w c2s-mapr-02 yum install -y mapr-cldb mapr-nfs
clush -w c2s-mapr-03 yum install -y mapr-historyserver

12. Cấu hình cluster ban đầu

clush -a /opt/mapr/server/configure.sh -N c2s-MapR -C c2s-mapr-02 -Z c2s-mapr-01,c2s-mapr-02,c2s-mapr-03 -RM c2s-mapr-01,c2s-mapr-02,c2s-mapr-03 -HS c2s-mapr-03

13. Định dạng đĩa

clush -a lvdisplay
clush -a lsblk
clush -a lvcreate -L 349G -n MaprVol vg_c2smapr
clush -a lsblk
echo /dev/vg_c2smapr/MaprVol > /root/work/disks.txt
clush -a --copy /root/work/disks.txt
clush -a /opt/mapr/server/disksetup -W 4 -F /root/work/disks.txt

dòng vg_c2smapr giống như dòng VG Name khi chạy lệnh “lvdisplay” trên từng máy
clush -a lvcreate -L 136G -n MaprVol vg_c2smapr –> số 349GB là số dung lượng trống còn lại của ổ đĩa, Con số 349GB ở trên thay đổi lại theo tình hình thực tế.

14. Thiết lập các biến môi trường
Thêm 2 dòng sau vào file /opt/mapr/conf/env.sh

export JAVA_HOME=/usr/java/latest
export MAPR_SUBNETS=10.0.0.0/23

Thay đổi lại subnet cho đúng, sau đó đồng bộ file vừa sửa sang 2 máy còn lại

clush -a --copy /opt/mapr/conf/env.sh

15. Thiết lập mapr fstab
Mounting NFS to MapR-FS on a Cluster Node
Để tự động mount NFS vào MapR-FS trên cluster

echo "localhost:/mapr /mapr hard,intr,nolock,actimeo=1,noatime" >> /opt/mapr/conf/mapr_fstab
clush -a --copy /opt/mapr/conf/mapr_fstab
clush -a mkdir /mapr

16. Bật dịch vụ trên các máy, kiểm tra dịch vụ CLDB

clush -a service mapr-zookeeper start
clush -a service mapr-zookeeper qstatus
clush -a service mapr-warden start
clush -a "jps | grep CLDB"
maprcli node cldbmaster
maprcli license showid -cluster c2s-MapR

Bước “clush -a “jps | grep CLDB”” có thể mất 1 lúc CLDB mới có thể khởi động, chịu khó đợi 1 chút.
Sau khi chạy showid, sẽ có ID hiện ra, ghi lại thông tin này, để đăng ký license

17. Đăng ký license
Truy cập: https://www.mapr.com/user
Đăng ký tài khoản, nhập ID ở bước 16, ghi lại nội dung license được cấp vào file license.txt
Tiến hành add vào cluster

maprcli license add -cluster c2s-MapR -license /root/work/license.txt -is_file true
clush -a service mapr-warden restart

18. Tạo phân vùng hadoop

hadoop fs -mkdir /user/mapr
hadoop fs -chown mapr:mapr /user/mapr
hadoop fs -mkdir /user/mruser
hadoop fs -chown mruser:mapr /user/mruser

19.

su - mapr
$ hadoop fs -mkdir -p /user/hive/warehouse
$ hadoop fs -chmod 1777 /user/hive/warehouse
$ hadoop fs -mkdir /apps/spark
$ hadoop fs -chmod 777 /apps/spark
$ exit

20.

clush -a service mapr-warden stop
clush -a service mapr-zookeeper stop

21. Cài ứng dụng Spark

clush -a rpm -ivh http://archive.mapr.com/releases/ecosystem-all/redhat/mapr-hbase-0.98.12.201507081709-1.noarch.rpm
clush -a rpm -ivh http://archive.mapr.com/releases/ecosystem-all/redhat/mapr-hive-0.13.201511180922-1.noarch.rpm
clush -a rpm -ivh http://archive.mapr.com/releases/ecosystem-all/redhat/mapr-spark-1.4.1.201509021818-1.noarch.rpm

22.

clush -w c2s-mapr-01 rpm -ivh http://archive.mapr.com/releases/ecosystem-all/redhat/mapr-hivemetastore-0.13.201511180922-1.noarch.rpm
clush -w c2s-mapr-01 rpm -ivh http://archive.mapr.com/releases/ecosystem-all/redhat/mapr-hiveserver2-0.13.201511180922-1.noarch.rpm

23.

clush -w c2s-mapr-03 yum install -y http://archive.mapr.com/releases/ecosystem-all/redhat/mapr-spark-historyserver-1.4.1.201509021818-1.noarch.rpm
clush -a /opt/mapr/server/configure.sh -N c2s-MapR -C c2s-mapr-02 -Z c2s-mapr-01,c2s-mapr-02,c2s-mapr-03 -RM c2s-mapr-01,c2s-mapr-02,c2s-mapr-03 -HS c2s-mapr-03 -R

24. Cài MySQL cho Hive.

vi /etc/yum.repos.d/mysql-community.repo
# Enable to use MySQL 5.6
[mysql56-community]
name=MySQL 5.6 Community Server
baseurl=http://repo.mysql.com/yum/mysql-5.6-community/el/6/$basearch/
enabled=1
gpgcheck=0
gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-mysql

[mysql57-community]
name=MySQL 5.7 Community Server
baseurl=http://repo.mysql.com/yum/mysql-5.7-community/el/6/$basearch/
enabled=0
gpgcheck=1
gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-mysql
clush -a --copy /etc/yum.repos.d/mysql-community.repo
yum install -y mysql-community-server-5.6.25 mysql-community-common-5.6.25 mysql-community-client-5.6.25 mysql-community-libs-5.6.25 mysql-community-libs-compat-5.6.25
vim /etc/my.cnf
# add "user=mysql" after line 'socket=/var/lib/mysql/mysql.sock'
service mysqld start
chkconfig mysqld on
mysql_secure_installation
mysql -u root -p
Enter password:*******
mysql> CREATE USER hivemetastore IDENTIFIED BY 'c2shive';
mysql> CREATE DATABASE hive DEFAULT CHARACTER SET 'latin1';
mysql> GRANT ALL PRIVILEGES ON *.* TO 'hivemetastore'@'%' IDENTIFIED BY 'c2shive';
mysql> GRANT ALL PRIVILEGES ON *.* TO 'hivemetastore'@'localhost' IDENTIFIED BY 'c2shive';
mysql> show grants for 'hivemetastore'@'%';
mysql> show grants for 'hivemetastore'@'localhost';
mysql> exit

23.

ln -s /opt/mapr/lib/mysql-connector-java-5.1.25-bin.jar /opt/mapr/hive/hive-0.13/lib/mysql-connector-java-5.1.25-bin.jar

Thêm cấu hình sau cho /opt/mapr/hive/hive-0.13/conf/hive-site.xml

# vim /opt/mapr/hive/hive-0.13/conf/hive-site.xml
<!--## <configure></configure>内に Sheet19-2 の内容を追記する ##-->
<property>
  <name>javax.jdo.option.ConnectionURL</name>
  <value>jdbc:mysql://c2s-mapr-01:3306/hive?createDatabaseIfNotExist=true</value>
  <description>JDBC connect string for a JDBC metastore</description>
</property>
<property>
  <name>javax.jdo.option.ConnectionDriverName</name>
  <value>com.mysql.jdbc.Driver</value>
  <description>Driver class name for a JDBC metastore</description>
</property>
<property>
  <name>javax.jdo.option.ConnectionUserName</name>
  <value>hivemetastore</value>
  <description>username to use against metastore database</description>
</property>
<property>
  <name>javax.jdo.option.ConnectionPassword</name>
  <value>c2shive</value>
  <description>password to use against metastore database</description>
</property>
<property>
  <name>hive.metastore.uris</name>
  <value>thrift://c2s-mapr-01:9083</value>
</property>
<property>
  <name>hive.server2.enable.doAs</name>
  <value>true</value>
</property>
<property>
  <name>hive.metastore.execute.setugi</name>
  <value>true</value>
</property>
<property>
  <name>hive.server2.authentication</name>
  <value>NOSASL</value>
</property>

<!-- Hive - MapR-DB Integration -->
<property>
  <name>hive.aux.jars.path</name>
  <value>file:///opt/mapr/hive/hive-0.13/lib/hive-hbase-handler-0.13.0-mapr-1510.jar,file:///opt/mapr/hbase/hbase-0.98.12/lib/hbase-common-0.98.12-mapr-1506.jar,file:///opt/mapr/hbase/hbase-0.98.12/lib/zookeeper-3.4.5-mapr-1406.jar</value>
  <description>A comma separated list (with no spaces) of the jar files required for Hive-HBase integration</description>
</property>

<property>
  <name>hbase.zookeeper.quorum</name>
  <value>c2s-mapr-01,c2s-mapr-02,c2s-mapr-03</value>
  <description>A comma separated list (with no spaces) of the IP addresses of all ZooKeeper servers in the cluster.</description>
</property>

<property>
  <name>hbase.zookeeper.property.clientPort</name>
  <value>5181</value>
  <description>The Zookeeper client port. The MapR default clientPort is 5181.</description>
</property>

Đồng bộ sang các máy khác:

clush -a --copy /opt/mapr/hive/hive-0.13/conf/hive-site.xml

25. Làm tương tự đối với /opt/mapr/hadoop/hadoop-2.7.0/etc/hadoop/core-site.xml

# vim /opt/mapr/hadoop/hadoop-2.7.0/etc/hadoop/core-site.xml
<!--## <configure></configure>内に以下を追記する ##-->
<property>
  <name>hadoop.proxyuser.mapr.hosts</name>
  <value>*</value>
  <description>The superuser can connect from any host to impersonate a user</description>
</property>

<property>
  <name>hadoop.proxyuser.mapr.groups</name>
  <value>*</value>
  <description>Allow the superuser mapr to impersonate any member of any group</description>
</property>
# clush -a --copy /opt/mapr/hadoop/hadoop-2.7.0/etc/hadoop/core-site.xml
# clush -a touch /opt/mapr/conf/proxy/mruser

26.

# echo "spark.serializer        org.apache.spark.serializer.KryoSerializer" >> /opt/mapr/spark/spark-1.4.1/conf/spark-defaults.conf
# clush -a --copy /opt/mapr/spark/spark-1.4.1/conf/spark-defaults.conf

27.

# cp /opt/mapr/hive/hive-0.13/conf/hive-site.xml /opt/mapr/spark/spark-1.4.1/conf/
# clush -a --copy /opt/mapr/spark/spark-1.4.1/conf/hive-site.xml

29. Thay đổi thông tin /opt/mapr/spark/spark-1.4.1/mapr-util/compatibility.version

hive_versions=0.13.1
hbase_versions=0.98.12
clush -a --copy /opt/mapr/spark/spark-1.4.1/mapr-util/compatibility.version

30.

# vim /opt/mapr/hadoop/hadoop-2.7.0/etc/hadoop/yarn-site.xml
<!--## <configure></configure>内に以下を追記する ##-->
<property>
  <name>yarn.resourcemanager.connect.retry-interval.ms</name>
  <value>1000</value>
</property>
<property>
  <name>yarn.resourcemanager.am.max-attempts</name>
  <value>3</value>
</property>
<property>
  <name>yarn.log-aggregation-enable</name>
  <value>true</value>
</property>

31.

# clush -a --copy /opt/mapr/hadoop/hadoop-2.7.0/etc/hadoop/yarn-site.xml
# clush -a --copy /opt/mapr/hadoop/hadoop-2.7.0/etc/hadoop/yarn-site.xml
# clush -a yum install -y rpcbind
# clush -a chkconfig rpcbind on
# clush -a service rpcbind start

32. Cài patch

clush -a yum install -y http://archive.mapr.com/patches/archives/v5.0.0/redhat/mapr-patch-5.0.0.32987.GA-39045.x86_64.rpm

33. Bật mọi thứ lên:

# clush -a service mapr-zookeeper start
# clush -a service mapr-warden start

34. Đã xong, trang quản trị mapr:
https://10.0.0.117:8443
user/pass = mapr/mapr

Hướng dẫn cài đặt oracle client trên redhat 7 – How to install oracle client 12 on redhat

Chuẩn bị:
– Redhat enterprise 7, có thể cài thêm repo: https://devopsvn.xyz/cai-dat-centos-repo-cho-redhat-rhel-7/

– Bộ cài Oracle client 12: https://www.oracle.com/technetwork/database/enterprise-edition/downloads/oracle12c-linux-12201-3608234.html

Trên máy chủ linux, cài đặt các gói: unzip, gcc

yum install -y gcc unzip

Download bộ cài client: linuxx64_12201_client.zip

Giải nén bộ cài, ta được thư mục client

[root@testora opt]# tree -L 3
.
├── client
│   ├── install
│   │   └── ***********
│   ├── response
│   │   ├── client_install.rsp  #File response, cấu hình cho quá trình cài đặt
│   │   └── netca.rsp
│   ├── runInstaller # File cài đặt
│   ├── stage
│   │   ├── **********
│   └── welcome.html
└── linuxx64_12201_client.zip

Mở file response/client_install.rsp và thiết lập các thông số như sau:

UNIX_GROUP_NAME=oracle
INVENTORY_LOCATION=/u01/oracle/ora_inventory
ORACLE_HOME=/u01/oracle/client_v12.2_base/home
ORACLE_BASE=/u01/oracle/client_v12.2_base
oracle.install.client.installType=Administrator

Một số lưu ý:
INVENTORY_LOCATION : đường dẫn thư mục này phải khác với đường dẫn cho ORACLE_HOME và ORACLE_BASE

đường dẫn ORACLE_HOME nên nằm bên trong ORACLE_BASE

oracle.install.client.installType nên để Administrator, sau này sẽ có nhiều tùy chỉnh hơn.

UNIX_GROUP_NAME: Oracle client không cài được dưới user root, nên phải tạo user khác cho nó, group tương ứng với user đó là gì thì điền vào đây, Group này phải có quyền đọc ghi , exec tất cả các đường dẫn đã khai báo trên. (dùng đường dẫn nào thì vào chown cho nó)

Sau khi khai báo, đứng ở thư mục chứa file runInstaller ở trên, chạy:

./runInstaller -silent -responseFile /opt/client/response/client_install.rsp</span>

Nhớ thay đường dẫn đúng vào file client_install.rsp ở trên.

Sau khi chạy, sẽ hiển thị dạng:

[oracle@testora client]$ ./runInstaller -silent -responseFile /opt/client/response/client_install.rsp
Starting Oracle Universal Installer...

Checking Temp space: must be greater than 415 MB.   Actual 32130 MB    Passed
Checking swap space: must be greater than 150 MB.   Actual 3967 MB    Passed
Preparing to launch Oracle Universal Installer from /tmp/OraInstall2019-06-22_01-52-44PM. Please wait ...
[oracle@testora client]$
[oracle@testora client]$
[oracle@testora client]$ [WARNING] [INS-13014] Target environment does not meet some optional requirements.
   CAUSE: Some of the optional prerequisites are not met. See logs for details. installActions2019-06-22_01-52-44PM.log
   ACTION: Identify the list of failed prerequisite checks from the log: installActions2019-06-22_01-52-44PM.log. Then either from the log file or from installation manual find the appropriate configuration to meet the prerequisites and fix it manually.
You can find the log of this install session at:
 /u01/oracle/ora_inventory/logs/installActions2019-06-22_01-52-44PM.log
The installation of Oracle Client 12c was successful.
Please check '/u01/oracle/ora_inventory/logs/silentInstall2019-06-22_01-52-44PM.log' for more details.

As a root user, execute the following script(s):
        1. /u01/oracle/ora_inventory/orainstRoot.sh



Successfully Setup Software.

[oracle@testora client]$

Làm theo hướng dẫn, chuyển qua user root, chạy /u01/oracle/ora_inventory/orainstRoot.sh là xong.

 

 

Note cài đặt postgresql trên centos 7

Cài đặt PostgreSQL trên centos 7
Tính tới thời điểm hiện tại 2019-06, version khi cài đặt PostgreSQL qua yum trên centos 7 là 9.2.24
[root@posgres-2 etc]# yum info postgresql-server
Loaded plugins: fastestmirror, langpacks
Loading mirror speeds from cached hostfile
* base: centos-hn.viettelidc.com.vn
* epel: mirror.horizon.vn
* extras: centos-hn.viettelidc.com.vn
* updates: centos-hn.viettelidc.com.vn
Installed Packages
Name : postgresql-server
Arch : x86_64
Version : 9.2.24
Release : 1.el7_5
Size : 16 M
Repo : installed
From repo : base
Summary : The programs needed to create and run a PostgreSQL server
URL : http://www.postgresql.org/
License : PostgreSQL
Description : PostgreSQL is an advanced Object-Relational database management system (DBMS).
: The postgresql-server package contains the programs needed to create
: and run a PostgreSQL server, which will in turn allow you to create
: and maintain PostgreSQL databases.

Chúng ta sẽ cài version này, trước hết update toàn bộ lên cho chắc cú
yum update -y
Tiến hành cài đặt:
yum install postgresql-server postgresql-contrib -y
Thiết định ban đầu:
postgresql-setup initdb
systemctl enable postgresql
systemctl start postgresql

Kiểm tra service nó đã listen chưa:
[root@posgres-2 etc]# netstat -napl | grep post
tcp 0 127.0.0.1:5432 0.0.0.0:* LISTEN 3209/postgres
udp6 0 0 ::1:39788 ::1:39788 ESTABLISHED 3209/postgres
unix 2 [ ACC ] STREAM LISTENING 41137 3209/postgres /tmp/.s.PGSQL.5432
unix 2 [ ACC ] STREAM LISTENING 41135 3209/postgres /var/run/postgresql/.s.PGSQL.5432
unix 3 [ ] STREAM CONNECTED 41116 3210/postgres: logg

Thấy rõ, mặc định thằng này listen trên localhost, thế này thì từ bên ngoài làm sao kết nối tới được. Chúng ta enable nó lên cho listen trên tất cả interface. Mở file cấu hình của thằng này:
vim /var/lib/pgsql/data/postgresql.conf
Sửa lại các dòng có key tương ứng như sau:
listen_addresses = '*'
restart lại service:
systemctl restart postgresql
Đã xong phần cài đặt service, tiếp theo sẽ là tạo database, user, etc
PostgreSQL sau khi cài đặt, tự động nó sẽ thêm vào cho hệ điều hành 1 user = postgres
Mọi thao tác với PostGreSQL phải switch sang user này để thực hiện:
[root@posgres-2 ~]# su - postgres
-bash-4.2$

Tạo database:
psql -c createdb <tên database>
Kết nối vào database đã có:
psql
Ví dụ:
psql chip1stop
psql (9.2.15)
Type "help" for help.

chip1stop=#
Xem danh sách các database, từ PostgreSQL shell: \l
Xoá database: dropdb
Xem danh sách table: \dt

Những gì bạn cần biết về monitoring elasticsearch

Elasticsearch là gì

 


Elasticsearch chắc hẳn là nhiều người đã biết, nhưng để bài viết trơn tru, cứ phải có cái introduction cho nó dài. Elasticsearch là cơ sở dữ liệu (database) (từng) dành để lưu trữ text (document) là chính, dựa trên một engine nổi tiếng là lucene. Nói là “từng” vì hiện tại elasticsearch được dùng cho cả những ứng dụng thời thượng như là time series data (lưu dữ liệu là các “point” thay vì document) chứ không chỉ dừng lại cho text nữa.

Trong Elasticsearch thì dữ liệu được biểu diễn dưới dạng JSON và có thể dễ dàng truy vấn thông qua REST API cũng như native API (thông qua thư viện). Điểm thú vị của elasticsearch nằm ở chỗ Distributed: Dữ liệu của elasticsearch được phân tán đều trên các node (primary shard / replica shard) và được tự động phân chia lại khi thêm/xoá node đã có. Việc này khiến cho Elasticsearch rất dễ dàng để scale up/down.

Mô hình dữ liệu của ES:

 


Về cơ bản thì sẽ có 2 loại node chính trong ES:

  • Master node: Node này có nhiệm vụ đứng mũi chịu sào, chịu trách nhiệm điều hành anh em làm việc (coordinate), cũng như nhận một số trọng trách quan trọng như thêm, xoá index… Khi master node chết thì anh em còn lại sẽ họp lại và tìm ra thằng mới dựa trên một thuật toán gọi là Paxos.
  • Data node: Thằng này là culi, chuyên bốc vác dữ liệu, ai bảo gì làm nấy, có trách nhiệm lưu trữ là chính.

Tuy nhiên distributed cũng khiến cho việc vận hành trở nên painful hơn, nhiều khi do bug của việc cooperate giữa các node, hay là do các hoàn cảnh không dự đoán trước được như server gặp mưa, server gặp bão, cá mập cắn cáp… Ngoài ra một số design của elasticsearch (hay cũng như nhiều database khác) khiến cho nó có thể chết không dự đoán trước được do hết memory hay gặp phải query nặng hơn nó có thể chịu được.

Để vận hành đỡ painful thì việc quan trọng nhất chính là monitoring, tức là nắm được elasticsearch cluster của bạn đang hoạt động thế nào mà không cần phải nhìn log hay là các kiến thức cao siêu mà không phải ai cũng biết. Và cuối cùng chúng ta cũng đén được phần chính của bài viết: chúng ta cần monitoring “cái gì” để biết về sức khoẻ của elasticsearch cluster?

Những metrics cần xem khi monitoring ES

Search performance

Đây là một trong những chỉ số quan trọng nhất khi mà chức năng chính của ES là .. tìm kiếm. Những chỉ số có thể lấy được từ ES liên quan đến search performance gồm có

Total number of queries indices.search.query_total Throughput
Total time spent on queries indices.search.query_time_in_millis Performance
Number of queries currently in progress indices.search.query_current Throughput
Total number of fetches indices.search.fetch_total Throughput
Total time spent on fetches indices.search.fetch_time_in_millis Performance
Number of fetches currently in progress indices.search.fetch_current Throughput

Để hiểu hơn những chỉ số trên thì chúng ta cần hiểu trước về việc: Elasticsearch thực hiện việc “tìm kiếm” thế nào? Khi có một request về tìm kiếm thì đầu tiên request sẽ được gửi đến một data node bất kì chữa data của một index nào đó. Sau đó thì node này sẽ gửi request đến tất cả các node xung quanh mà chứa shard của index đang tìm, và nhận kết quả từ các node xung quanh, việc này được gọi là Fetching.
Theo như bảng ở trên thì chúng ta sẽ cần theo dõi các yếu tố chính dưới đây:

  • Query Load : dựa vào “số lượng” query hiện tại đang được thực hiện, qua đó xem cluster có bị quá tải không

 

  • Query Latency : dựa vào query time, chúng ta có thể biết cluster mất bao nhiều lâu để trả về một request
  • Fetch Latency : nếu fetch tốn quá lâu, thì khả năng cao sẽ là do disk hay network có vấn đề

Index performance

Nếu coi tìm kiếm là thao tác “read” thì index chính là thao tác “write”. Để có performance tốt nhất thì các database thường tiết kiệm việc phải ghi dữ liệu vào disk (fsync) thông qua buffer, tức là lưu tạm ở memory trước, đợi nhiều nhiều rồi ghi vào disk cả thể. Elasticsearch cũng vậy, việc này thể hiện ở diagram dưới đây:

 


 


Nhìn vào 2 diagram ở trên chúng ta cần chú ý đến 2 thao tác là Refresh và Flush. 2 thao tác này dựa trên một đơn vị gọi là “Segment”. Bạn nào từng làm việc với các hệ thống database (Postgres, cassandra, influxdb) thì sẽ hiểu rằng có các đơn vị dữ liệu không thay đổi được (immutable) là rất quan trọng trong việc tạo ra một database với high write throughput. Việc này dựa trên idea chính là, cứ write đã, đúng sai tính sau (việc đúng sai tính sau thể hiện bằng thao tác “merge” được thực hiện ở background). Ở đây thì “Segment” chính là đơn vị dữ liệu không thay đổi (immutable data) của elastic search.
Một segment được tạo mới thông qua Refresh và được ghi vào đĩa + merge thông qua Flush. Flush sẽ được trigger khi memory đến giới hạn, hoặc sau một khoảng cách thời gian nào đó (khoảng sau mỗi 30 phút).

Để theo dõi các thông số liên quan đến index thì có các chỉ số dưới đây

Total number of documents indexed indices.indexing.index_total Throughput
Total time spent indexing documents indices.indexing.index_time_in_millis Performance
Number of documents currently being indexed indices.indexing.index_current Throughput
Total number of index refreshes indices.refresh.total Throughput
Total time spent refreshing indices indices.refresh.total_time_in_millis Performance
Total number of index flushes to disk indices.flush.total Throughput
Total time spent on flushing indices to disk indices.flush.total_time_in_millis Performance

Từ những con số trên các bạn có thể hiểu ra được

  • Index latency: thông qua index_total và index_time_in_millis thì bạn có thể thấy ES tốn bao nhiêu thời gian cho việc indexing , và đang phải chịu tải là bao nhiêu request.

 

  • Flush latency : thông qua flush.total_time_in_millis thì bạn có thể thấy được latency của thao tác Flush. Nếu latency quá cao, thì có khả năng bạn đang gặp phải vấn đề về disk, hoặc là flush size quá lớn.

JVM metrics

Elasticsearch được build trên java. Vận hành một hệ thống java mà không hiểu về JVM thì coi như bạn toi chắc rồi. Để monitoring JVM system thì việc kiểm soát Memory và GC là 2 cái quan trọng nhất. Đặc biệt memory là cái tối quan trọng khi mà một query nặng có thể dẫn đến memory vượt quá kiểm soát và JVM sẽ lăn ra chết, hay là trở nên unresponsive. Khi nhìn vào heap thì quan trọng nhất là xem heap percent, tức là trong XXGB memory đã được cấp phát cho JVM, thì bao nhiêu % đã và đang được sử dụng.

Bên cạnh đó thì việc nhìn vào GC (mặc dù có nhìn thì cũng không làm được gì vì GC nằm ngoài tầm kiểm soát của bạn) cũng khá có ích để phán đoán việc khi ES cluster của bạn trở nên chậm chạp thì liệu có phải do ES bug không :v. ES team cũng khuyến cáo người dùng đừng có cố thay đổi GC option default: https://www.elastic.co/guide/en/elasticsearch/guide/current/_don_8217_t_touch_these_settings.html

Host metrics

Host metrics là những metrics thể hiện sự khoẻ mạnh của machine nói chung. Nó bao gồm những thông số như diskSpace, CPU usage , IO utilization. Như đã nói ở trên thì việc disk chậm, CPU bị starve cũng đều ảnh hưởng đến chức năng tìm kiếm rất lớn (tất nhiên rồi :v), vậy nên việc theo dõi những thông số này một cách chặt chẽ cũng giúp ích rất nhiều trong việc trouble shooting cũng như dự đoán trước về performance downgrade của ES.

Cluster health

Những thông số tôi đã nói ở trên hầu hết thể hiện sự khoẻ mạnh của một node trong toàn thể cluster. Vậy làm thế nào để biết được sự khoẻ mạnh “tổng thể” của toàn bộ cluster?

Cluster status (green, yellow, red) cluster.health.status Other
Number of nodes cluster.health.number_of_nodes Availability
Number of initializing shards cluster.health.initializing_shards Availability
Number of unassigned shards cluster.health.unassigned_shards Availability

Quan trọng nhất, và cũng dễ hiểu nhất chính là “Cluster status”.

  • Green: khoẻ mạnh, không vấn đề gì

 

  • Yellow: Một hoặc một vài replica shard đột nhiên biến mất, và nếu nó tiếp tục biến mất nữa, bạn sẽ mất dữ liệu khi tìm kiếm (có thể hiểu yellow là threshold trước khi dữ liệu tìm kiếm không còn toàn vẹn nữa )
  • Red: Một hoặc một vài primary shard biến mất, điều này có nghĩa là chắc chắn kết quả search của bạn sẽ không toàn vẹn, sẽ thiếu data.

Bên cạnh cluster status thì Initializing and unassigned shards cũng khá quan trọng, nó thể hiện các shard mà đang được khởi động , hoặc chưa được assigned cho master, nếu con số này không về 0 không một nhanh chóng, chứng tỏ rằng cluster của bạn đang ở trạng thái rất thiếu ổn định.

Làm thế nào để monitoring?

Như vậy là chúng ta đã nắm được là : cần phải xem gì, nhưng chúng ta vẫn chưa đề cập đến việc: làm thế nào để xem các thông số đó. Elasticsearch cung cấp cho chúng ta tất cả các thông số ở trên thông qua HTTP GET một cách rất dễ dàng, dựa vào endpoint /_nodes/_local/stats

Đây là ví dụ khi tôi vào một node bất kì với url : node-name/_nodes/_local/stats

 


Để lưu dữ liệu lại và xem dưới dạng graph, bạn có thể sử dụng những service hiện có như datadog, hay là sử dụng solution có sẵn như prometheus + elasticsearch_exporter

Kết luận

Việc tìm hiểu xem một hệ thống middleware xem cần monitoring những gì và hiểu rõ về từng metrics phải monitoring sẽ giúp chúng ta có thêm nhiều kiến thức rât bổ ích về internal của middleware đó. Trong bài tiếp theo tôi sẽ nói về monitoring metrics của mysql, đợi năm sau nhé :P.

Reference