列ストアインデックス

列ベースのクエリ処理を使用して、データの格納および管理します。

列指向DB

列指向データベースあるいはカラム型データベースは列方向にデータを保存しており、列方向に読み込んで処理するデータベースです。ある列のデータだけを抜き出してみることができるため、素早くデータをみることができます。
列方向にデータを見ていくと、データ型が揃っていたり値が似ていたり、同じ値が繰り返し表れることがよくあります。そのために列方向のデータは非常に圧縮効率が高いのです。
データの集計や分析が中心となる場合、このカラム型データベースの方が向いています。
(下図参照)

ネガポジ判定

アルゴリズムを使って人の文章や発言が前向き(ポジティブ)か後ろ向き(ネガティブ)を判断することです。

シミュレーション

コンピュータやシステムによって模擬を行うことです。

時系列解析

時間軸に沿って変化する物を解析する事です。

最適化

特定の制約条件の中で、目標の値を最大化/最小化することです。

クラスタリング

データの集合を、共通部分を持つように部分集合(クラスタ)に分ける分析手法です。データをまとめる事によって見やすくなる一方で、必要な情報が落ちてしまう事があります。階層的手法や非階層的手法が存在します。

形態素解析

文章を辞書からの単語情報に基づき、形態素(単語)毎に分割することです。

行指向DB

行指向データベースは項目が列ごとに並んでおり、中身のデータが行ごとに並んでいます。通常のリレーショナルデータベース、例えばMySQLやOracleやDB2やSQL Serverなどは「行指向」のデータベースです。
行指向のデータベースでは、1つ1つの行をひとかたまりのデータとして扱います。一般的な行指向のデータベースは、追加、更新、削除のようなオンライントランザクション処理が得意です。(下図参照)

業務系DB

業務で利用するデータベースです。主に、経理、売上管理、顧客管理、在庫管理などのデータベースが考えられます。

機械学習

既知の分かっているデータから、機械的にアルゴリズムを作成しそれ以外のデータにおいて、モデルを評価する仕組みの事になります。応用分野は幅広く自然言語処理、物体認識、金融工学、バイオ等に応用されています。

回帰分析

モデルy=f(x)を作成し、関係を当てはめる事です。Xの変数が1つならば単回帰、Xの変数が2つ以上ならば重回帰分析といいます。線形回帰、ロジステック回帰、一般線形回帰、一般混合モデル等非常に多くの種類があります。

オンライン学習

データを1件ずつ、処理し更新します。一気に読み込まないので、高速かつメモリを節約した分析になります。例えばレコメンド分析があげられます。分析として、以前のサンプル全てが必須になるようなものの場合はできません。

オフライン学習

モデルを1回作成すれば、更新はされない学習方法です。追加で学習されないため長期間で使うケースにおいては、向いていません。

AI (人工知能)

2つの意味があります。1つは、人間の知能をもつ機械を作ろうとする事を指します。もう1つは人間が知能を用いてする事を機械にさせる仕組みの事です。近年は2つ目の研究及び応用が盛んです。

ETL

Extract, Transform, Loadの略称でありそれぞれの頭文字を表しています。企業内に存在するシステムからデータを抽出し、抽出したデータを変換/加工した上でデータウェアハウス等へ渡す処理、およびそれを支援するソフトウェアのことです。 それぞれは以下の意味になります。
======================
Extract – データを抽出
Transform – 目的に応じてデータを変換・加工
Load – 変換・加工済みのデータを外部アプリケーションに読み込み