2019-03-21

JavaScriptから縦持ちのCSVデータを読み取ってPlotly.jsで可視化した

注：方向性が偏っている事をご容赦下さい ちょっとTwitterの発言を集計してcsvファイルにして、それをPlotly.jsを使って、チャートとして表示するプログラムを組みました。

f:id:showyou:20200328134653p:plain

元データ f:id:showyou:20200328134632p:plain

ちょっとチャートの表示時刻と元データで時間がずれてます。

プログラムは、動く実物はこちらにございます。

プログラム：https://github.com/showyou/vote_shadow_scfes/blob/master/plot.js
実物：https://vote-shadow-scfes.netlify.com/chart.html

何をしたか

参考1に沿ってLine+markersのチャートを作るのと、参考2を参考にcsvからチャートに行う物の、両方を行いました。

まずcsv2Arrayでcsvデータを配列にしています。これは参考2と一緒です。

function csv2Array(str) {
  var csvData = [];
  var lines = str.split("\n");
  for (var i = 0; i < lines.length; ++i) {
    var cells = lines[i].split(",");
    csvData.push(cells);
  }
  return csvData;
}

次に名前が与えられた時に、それが何番目かを返す関数を作っています。これは、恐らくplotするときのデータに連想配列が使えないからです。今さらだけどforループしなくてもhoge['名前'] = 要素番号にしておけばもっと効率いいことに気づきました。でももっとマシな方法はあるはずです。

// n をidに変換する
function getId(name, n){
    for ( i = 0; i < 9; i++){
        //console.log(i)
        //console.log(name[i]);
        //console.log(n);
        if( name[i] == n ){
            return i
        }
    }
    return -1
}

最後にチャートを描画する部分です。これも参考2をベースにしてますが、

データが縦持ちである
Plotlyを使っている

辺りでアレンジをしています。

今回種別が9種類と決まっているので、forループで9回と固定してます。通常は連想配列の大きさを見たほうがいいかもしれません。 names, colorsはほぼ定数なので関数の外に出してます。

あとちなみに普段はPython使ってるのでJavaScriptは詳しくありません。Pythonならdefaultdictとか使えるんだけどなぁ。

function drawLineChart(data, div) {
    var output = {}; // データを入れるところ    
    var x = [], y = [];
    var i;

    //配列の配列の、初期化
    for ( i = 0; i < 9; i++){
        x[i] = [];
        y[i] = [];
    }
    
    // データ1行毎に、xyに値を格納
    for (var row in data){
        id = getId(names, data[row][1]);
        //console.log(id)
        if(id >= 0){
            x[id].push(data[row][0]);
            y[id].push(data[row][2]);
        }
    }
    
    var output = [];
    for ( i = 0; i < 9; i++){
        output[i] = {
          name: names[i],
          x: x[i],
          y: y[i],
          line: {
              color: color[i]
          },
          mode: 'lines+markers'
        }
    }

    var layout = {};

    Plotly.newPlot(div, output, layout, {showSendToCloud: true});
}

補足

Q:サイトへのアクセスありますか？ f:id:showyou:20200328134613j:plain

また、集計自体は(Twitter上で公開されてるデータとはいえ)非公式で行ってます。なので公式から怒られたら消します。

集計部分についてのロジックは要望があれば後ほど載せます。

参考

Line Charts in Plotly.js https://plot.ly/javascript/line-charts/
CSVデータをchart.jsでグラフ化する！ https://qiita.com/tabetomo/items/f1fa423bf826a1d2efb8

2019-03-15

Hadoop / Spark Conference 2019 感想とログ #hcj2019

イベント情報：

https://www.eventbrite.com/e/hadoop-spark-conference-japan-2019-tickets-56807065462

日時：2019/03/14 10:00~19:00(含む懇親会)
場所：きゅりあん(大井町)
ハッシュタグ: #hcj2019

所感

Hadoop, YARNに関しては新しい情報はあまり無かった気がします。Hadoopは周辺のテクニックとかの話が多かったと思います。

HDFSに関してはOzoneというS3のような新ストレージが紹介されていました。

一方でSparkSQLのチューニングに関しては3連続でセッションが続いてました。内容とはしては

EXPLAINしてボトルネック見つけろ
とにかくMerge Joinはshuffle挟むんで遅いから、EXPLAIN ANALYZEしてBroadcast hash joinに持ち込め(HiveにおけるMap side joinみたいなもの？)

といった感じでした。

あと自分は観ていないですがKafkaのセッションが大人気だったようです。~~Spring XD・・~~ それとk8s(Kubernates)の勢いは驚異に感じてるようでしたね。Sparkも新しいバージョンでk8sサポートしてるようです。

PrestoとSparkSQLのどちらが早いかに関しては、懇親会で「メモリに乗り切るならPrestoの方が早い」とお聞きしました(あくまで伝聞なので注意)。

ただ現状Hadoop クラスタ用意出来るのって(AWSのEMRとかもあるものの)大抵オンプレミスでマシンを用意できるところに限られていて、小規模なとこはBigQueryに集約しちゃうんじゃ？って感じもします。流石にタブーなのか、会の中で一言もBigQueryって単語は出てこなかったですが。DPCTでリクルートテクノロジーズの方はHadoopからBigQueryに移ったようなことおっしゃってましたし。あと個人的にはBigQueryは完全ベンダーロックインなのも気がかりです。

さらに、Tensorflow/Pytorch on k8sとon Spark(+ on k8sもあるかもしれませんが)の棲み分けどうすんだって気もしました。

ログ(メモ)

基調講演

hamakenさん

Hadoopは終わりつつあるのでは？

-> MapReduceは終息
-> HDFSは健在

Apache Hadoopの現在と未来

Ajs_kaさん@Yahoo Japan

事前アンケートの結果

Hadoopのバージョン：写真
Hadoop動かしてるクラウド：写真
クラスタ台数：10台までが大半
データ量：バラバラ

Hadoopの現在と未来

様々なデータストアに対応
クラスタを束ねることでマスタの負荷を軽減
オブジェクトストレージ機能の開発(Ozone)
HDFS Erasure Codingによるディスクの節約
Submarine: YARNの最新機能をつかって、TensorFlow, PyTorch等をHadoop上で分散実行させる
現在の課題
- 機械学習などの対応
- k8sが急激に流行っているけど、Hadoopはどうか？
今後の野望
- Java 11への対応
- リリースサイクルの加速化

The Ozone Object Store

Arpitさん@cloudera

HDFSの限界
- 小さいファイルが非効率
- 3億ファイルが限界
New opportunities
- Streaming
- Cloud-like
- S3 to ingest data
以下を満たすデータストアが必要　- 既存のアプリケーションがそのまま動く　- 既存のHDFSからそのまま移行できる

What is Ozone

A spiritual successor to HDFS
Roadmap: support k8s
最初は100億オブジェクトをサポート
ネイティブメモリを使ってJava GCを回避

Ozoneのユースケース

オンプレのS3

What makes Apache Spark

猿田さん

バージョン2の途中でSparkの性能が10倍に上がった?
Spark 3.0 AI関連 Project Hydrogenがリリース
Structured Streaming
Pythonからの活用、Pandas UDF
AI/Deep Learning関連
Sparkの使われ方
- バッチ、ETL、データ分析は多い　AIはこれから
- k8s: Spark 2.3からサポート
現時点ではYARNの利用が圧倒的
Spark 3.0での予定：GPU, FPGAの活用等

What's Next for Apache Spark 3.0

Xiao Liさん@Databrics

Spark 2.4のMajor Features

Spark on K8s, Avro Support, Image source
Unified AnanyticsがAI成功の鍵
Unifying data science & engineering

Project Hydrogen:

gang scheduling DLのジョブをSparkのstageとして埋め込む
GPU Aware scheduling
Mlflow
Graphライブラリの課題：GraphXがあまり活発に開発されてない
Cypher: グラフライブラリの新版?

Data Source API v2

Streaming support, columnar scan, statics and data partitioning, Transactional CTAS, RTAS
クエリ実行時の再最適化
Navive Spark Apps on k8s Spark3.0のfeature:Hadoop 3.0 support

Cloud-Nativeなデータ分析基盤でのPrestoの活用

廣瀬智史さん@SmartNews https://speakerdeck.com/satoshihirose/cloud-native-data-infrastructure-with-presto

2014年当時：S3 -> MR(pythonのMR job) + MongoDB
Presto導入後：S3+ Presto + Hive
今：Hive/Spark + EMR + S3, 広告配信と？でHive Metastoreが分かれている
Prestoでデータ統合をしている
PrestoはEMR使わずにEC2上にクラスタを構築している
課題：バージョンアップ追従仕組み　監視強化　RCFile->ORCへの移行 Streaming Processingの拡充
Presto Software Foundation： Facebookじゃない団体で設立 PrestodbからPrestosqlへ分岐

OASIS: SPARK

Yoshida Keijiさん@LINE https://speakerdeck.com/line_developers/oasis-lines-data-analysis-tool-using-apache-spark

BI Dashboard
Security: Rangerでファイルへのアクセスを管理
マルチテナントのクエリ安定性を求めるためにSpark採用
ZEPPELINE使っていたが
- スケジューラで実行するときに、別ユーザで実行できてしまう
- yarn-clusterモードが使えず、1台に1Sparkアプリケーションを入れる必要がある OASIS
1 notebook sessionに付き1 spark appricationとしてyarnに割り当てられる
HDFSへはノートブックのユーザでアクセスされる
サービスごとにSPACEを作り、SPACE内でnotebookは共有される
スケジューリング
DAU 200人ほど
Hadoop Cluster: 500 Datanode, 30PB, 150 hive database 1,500 hive tables
Data Engineering Meetup https://dem.connpass.com/event/120994/

C会場 LT

Flink SQL Client

Kimura Sotaroさん@dot Data https://www.slideshare.net/SotaroKimura/flinksqlclient-136105751 YAML, コードでデータの投入管理

(昼食とってた為メモなし)

Sonnet の Impala

菅沼嘉一さん@So-net Media Networks https://www.slideshare.net/suganoo1/2impalahadoop

Total 2PB, 8TB/day
CDH 5.15
Data Node 20台: 8TB
メタデータ: AWS RDB
Impala: hiveから1時間毎にImpalaクエリ実行
データ容量が90%近くなると性能落ちる
DBパーティション数は20万/ Clouderaの推奨は3~5万
バージョンアップはどこかでミスがあるとインストールできなくなる(戻るは押さない)
Active-Stanbyを取っている。データコピーはdistcp

Sparkを使うためのApache Livy

@Yahoo Japan

Apache Livy: SparkをRestfulに使うAPIサーバ
Spark jobがLivy経由でされるようになった
Jupyter ZeppelinからSparkを利用できるようになった
HA対応まだしてない

Introduction to Apache Hivemall v0.5.2 and v0.6

myuiさん@Treasure Data

HivemallはHive, Spark(Dataframe, SQL, steram), Pig上で動く

0.5.2: Birckhouse UDF, Field-aware Factorization Machines, Okapi BM
0.6: Adam HD, Gradient Boostring, XGBoost, Sparse Vector, Support Spark 2.4
0.7: Word2Vec, Multi-cass LogiReg, Grid search, Yarn SQL on hadoopは何がいいか？ -> Tez+Yarnがいい。Sparkはリソース食いつぶす

1日100個以上のHadoop クラスターを使い捨てる方法 & Spark Streamingで全世界の混雑状況を20分ごとに集計

ソフトバンク株式会社中里浩之さん濱田佑さん https://speakerdeck.com/nakazax/how-to-throw-away-100-hadoop-clusters-a-day

2016: ETL EC2 + Jenkins on EC2 -> Redshift スケールできない
Spark on EMR、1時間分のETLを1クラスターが担当
1日48個(多い日は200個くらい)くらいEMRインスタンスが立っている
EMR:ステップ機能が使える
Lambda(Python)でRunJobFlowをコール、パラメータが非常に多い。HOCONを利用時刻をプレースホルダにしてjenkinsから起動
Glue Data Catalog フルマネージドHiveメタストア SPOF回避、同時接続数制限なし

Deep Dive into Spark SQL with Advanced Performance Tuning

上新卓也さん（Databricks）

https://www.slideshare.net/ueshin/deep-dive-into-spark-sql-with-advanced-performance-tuning

Databrick Platform: AzureとAWSで使用可能
Sparkアプリケーション、ライブラリもSparkSQLをベースにしている
- MLlib, GraphFrameなど
Spark SQL : queries から RDDsへのコンパイラ
Run EXPLAIN Plan
Interpret Plan
Tune Plan

Delarative APIs:

　何をしたいのか　を定義　　SQL/ Hive QL, Dataset(コンパイル時に型情報が必要なのでJava, Scalaのみ)/DataFrame APIs 　　DataFrame APIはuntypedなフレーム処理、Datasetはtypeなフレーム処理

Metadata Catalog:

Hive metastore
temporary view manager
global temporary view manager

funtion registry(セッション毎に登録しなおす必要がある)

- PySpark Python UDF / Pandas UDF
- JavaによるNative UDAF インタフェース
- Hive UDF/UDAF
- Higher UDF

Partition metadata取得のコスト - Hive metastoreのアップグレード - Cardinalityの高いパーティションカラムを避ける - Partition pruning predicates

Cache Manager - プランが一致したときにキャッシュデータと置き換える - Cross session

Cache 多すぎるとディスクに書き出されることがあり、遅くなることがある。不必要にキャッシュしないことが大事

Optimizer

Planner

Logical PlanをPhysical Planへコストに基づいて最適なPhysical Planを選択
Broadcast Joinが使えればMarge sort joinではなくこちらを使う(片方のテーブルがメモリに乗れば)
- autoBroadcastJoinThreshold
- 統計情報がたまにおかしくなるので、EXPLAIN ANALYZEを実行してを最新に保つ
Broadcast joinヒントを使って強制的にさせる
Equal joinを使う
- =をjoin keyに含めたjoin
- =があるとO(n),ないとO(n²)

Query Exection

Memory Manager
- Spark.executor.memoryとspark.memory.fractionを、監視外メモリのため、余裕をもって設定する。Netty buffer とparquetwriter bufferはSparkが監視できない
- Off-heapを有効化
Code Generator
- バイトコードのサイズが8kバイトを超える大きなメソッドはJIT コンパイラがコンパイルできない

Data Sources

computationとstorageの分離
Scan Vetorization(Parquet, ORC)を使う
- JVMがSIMDを利用しやすくなって高速化, Parquet 10倍早くなった事例も
Partitioning and Bucketing使う

An Insider’s Guide to Maximizing Spark SQL Performance

Xiao Liさん（Databricks）

https://www.slideshare.net/ueshin/an-insiders-guide-to-maximizing-spark-sql-performance

(注：資料公開されないと運営から言われていましたが、公開されました。感謝！)

Engineering manager

Focus: Catalyst Optimization & Tungsten Execution

Read Plan
Interpret Plan
Tune Plan
[]? (わからず)
これまでのSparkはSQLのPlanが表示できなかった？？ Spark 3.0で改善
なんで!=0(0.0でなし)　で0.35のデータが弾かれるんだろう・・ -> Explainするとintにcastしてることが分かる
hiveでテーブルを作った場合、Hive serde readerはSpark native readerより遅いので、spark.sql.hige.convertMetastoreOrc = Trueを使う (注：hive-serde tableとnative tableの違いわからず) (注：Pushed downってなんだ？)
ORC(Spark navite table)使うと、自動でcastされることがある nestedPluneSchema, trueを使え
1回別のセッションでクエリをキャッシュすると、別のセッションでも同じクエリならキャッシュが使われる
Job Tab in Spark UI
- Jobs
- Stages ○ ステージごとのタスク所要時間が分かる
- Tasks
Executors Tab
- メモリ使用量やデータ転送量が分かる
- Thread dumpで詳細が分かる
Storage Tab
(Linkedinがqueueシステムを作ってる？)

Spark SQL の性能改善の取り組み

Yoshida Keijiさん@LINE https://speakerdeck.com/line_developers/improving-spark-sql-performance

Cbo.enable = False ルールベース使う
ユーザのクエリを変えずに性能を向上させる
1. 統計情報を使う
  - 例：sort merge join -> broadcast hash join
  - autoBroadcastHashJoinThrethord = 10MB 設定
  - OASISで作るとき、自動的に統計情報を取る？
2. 独自最適化ルールを加える
  - hiveで作られたデータ、sqoopからロードされたデータはLOAD DATAが呼ばれ、統計情報が取られない
  - extraOptimization使って自前の最適化ルールを作る。今回の場合はデータ量見てbroadcast hintを加える
3. CBOを使う
  - Spark 2.2.0~使用可能、ただしdefaultではcost baseはoff(DatabricsはCBO on)
  - join順番を最適化できる
  - CBO on で速度10倍
  - Cost=weight * numOfRows + (1.0 -weight) * dataSize weightはデフォルトで0.7。いかにカラムの統計情報を、最小限、自動的に取るかは課題
Q: 独自ルールを加えた時、テストをどう行っている？難しいと思うんだけど
A: テストは行っていない

マルチテナント Hadoop クラスタのためのモニタリング Best Practice

平野智巌さん（楽天株式会社）

楽天市場で使っているHadoop
サービスの例：CustomerDNA, Rakuten Airis(注：AIというかレコメンド？)
420 Slaves, 30PB, 70000-80000jobs, 80teams, MR, Hive Tez, Spark, Spark ML, Sqoop, Hbase, Slider 4 clusters(Japan, oversea)
600+ account, 70000+jobs
細かなチェックできない、申請したら使ってもらう
Small Hadoop Admin Team: 2.5人+マネージャで回している
グラフの作り方 Graphite + Grafana
最重要ダッシュボード
マルチテナント特有のダッシュボード
中間ファイル格納用にSSDを追加することで、処理速度を改善
7億ファイルあって限界が来ている
Q: Hiveでテーブル作るとHDFSがHiveユーザで作られる気がするが？ A: 弊環境ではHiveテーブル作ると各ユーザで作られる
(注：しきい値設けてアラートをメールかチャットに飛ばせばいいのでは？と思いました)

おまけ

観てないので紹介だけ。

DataFrameとDatasetの内部をのぞいてみる

石崎一明さん@日本IBM 東京基礎研

https://www.slideshare.net/ishizaki/hscj2019ishizakipublic

Hive/Spark/HBase on S3 & NFS -- HDFSを運用しない気軽Hadoop/Spark

Yifeng Jiang‏さん

https://www.slideshare.net/uprush/hive-sparks3acommitterhbasenfs

Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ

関山宣孝さん@AWS

https://www.slideshare.net/ssuserca76a5/hcj2019-hadoop-sparks3/ssuserca76a5/hcj2019-hadoop-sparks3

スキーマレスカラムナフォーマット「Yosegi」で実現するスキーマの柔軟性と処理性能を両立したログ収集システム

井島洸二さん@Yahoo Japan

https://www.slideshare.net/techblogyahoo/hadoop-spark-conference-japan-2019-yosegi-135810726

(2019/03/15 10:00追記)

HDFSにおけるサポータビリティ(保守性)の改善について

Kobayashi Daisukeさん@Cloudera

https://www.slideshare.net/Cloudera_jp/hdfs-supportaiblity-improvements

Arrow_FDW ~PostgreSQLで大量のログデータを処理するためのハードウェア最適化アプローチ

KaiGai Koheiさん@HeteroDB

https://www.slideshare.net/kaigai/20190314-pgstrom-arrowfdw

2019-03-09

AtCoder Beginner Contest 121(ABC121)に参加しました

今回はCが楽でしたね。Dも気づけば楽に解けることを後で知りました・・(タイムオーバー)

早く緑になりたいけど、その為には毎回Cが解けるようにならないとなぁ・・

A:

(W-w) * (H-h)

https://atcoder.jp/contests/abc121/submissions/4515073

B:

1行ずつ足して0超えるか判定する

https://atcoder.jp/contests/abc121/submissions/4515073

C:

コストの小さい方から順に取っていけばOK。A_iはコストの小さい順にソートする。

https://atcoder.jp/contests/abc121/submissions/4520740

D:

愚直にxor取ったら当然の如くTLEだった。なんか周期性があるんじゃないかと思っていろいろ探っていたけど時間切れ。

解説を読んだところ、

f(A, B) = f(0, A-1) ^ f(0, B)
偶数xがあるとき、x ^ (x + 1) = 1。よってf(0, y)は奇数の時(y+1)/2を更に2で割った余り、偶数のときはy/2を更に2で割って、それとyでxor

の二点を使ったところ、すげー簡単に解くことができた。残念。

https://atcoder.jp/contests/abc121/submissions/4529836

2019-02-28

gitでファイルを消す方法~真っ先にgit rmを勧める奴は地獄の業火に焼かれろ~

Git ポエム

(この記事は以前Qiitaに掲載していたものの転載になります)

はじめに

git rmだと過去の履歴は消えません。git filter-branchを使いましょう。

https://qiita.com/go_astrayer/items/6e39d3ab16ae8094496c

はじめに

例えばパスワードファイルなんかを間違ってcommit & pushしたときに、リポジトリから完全に消したいといった事があるかと思います。その時に「git ファイル消す方法」などでググると先頭の方に

git rm --cache

とか解説している記事が見つかります。しかし、コレだとダメです。

どうダメなのか

gitの用語に詳しくないので解説が曖昧になります。

git rmだと、"ファイルを消した"という記録を追記します。なので最新のcommitからは見えなくなります。一方で過去の履歴には相変わらず残っています。githubならcommitというとこを見ていけば直ぐに見つかります。

その為、上のURLにある通りの形で実行して行く必要があります。

間違ってコミットしないようにするには

.gitignoreというファイルに、ファイル名を書き込むことで回避できます。詳しくはgitignoreで検索してみてください。

余談

本件、"git ファイル完全に消す方法"とかで検索すれば先頭に上の記事が出てくるのですが、git rmを勧めるTechAc◯ademyとかいうとこの記事も出てくるんですよね。それに初心者だと検索方法もわからないでしょうし、"git ファイル消す方法"とかで検索して安易にgit rmだけ実行して後で大惨事になりそうです。

とりあえず"git rm"と書いてあるメディアは信用しないほうが良いと思います。

2019-02-21

会社による本の購入に対するお気持ち

お手伝いしている会社が
「本は管理が大変なので、会社で本はあまり買わないんですよね」

って言うので、

馬鹿かお前らは、本は安いんだから管理するな。犯人探ししている時間があったらもう一冊買え。いい本だから無くなる、もう一冊あっても誰も困らん。会社本棚を充実させろ

とコメントした
— ところてん (@tokoroten) February 19, 2019

雑多*1な情報が入り混じっているネットに対して、本はある程度チェックが入っているため有用。ただし悪書も当然ある
本は福利厚生。むしろ必要経費？大した額でもないし

福利厚生制度が充実している企業まとめ・成長編 | 就活サイトJobweb

電子版と紙版のどちらが良いかは一長一短。人と共有して読むならDRMとか無いし紙の方がいい
知的労働者に対して知識は資産、投資をケチるな
まず業務に直接結びつく本は会社で購入、直接でなくても有用な本も購入。悪書を避けるために、購入申請時に同僚のチェックはあっても良いかもしれない。しかし出来るだけ早めに申請は通すように

*1:というか最近はやってみた系が多いよね

2019-02-16

AtCoder Beginner Contest 118(ABC118)に参加しました

A,BだけAC.Cももうちょっと考えればできたんだけどなぁ。。。

A

if B % A == 0:
print(A+B)
else:
print(B-A)

https://atcoder.jp/contests/abc118/submissions/4279404

B

個数を正直に数える

https://atcoder.jp/contests/abc118/submissions/4282452

C

恐らく約数だろうと思って四苦八苦して、出してみたもののWA.

終わってからreduce(fractions.gcd, A)の1行で済むことに気づいたorz *1

https://atcoder.jp/contests/abc118/submissions/4287847 WA

https://atcoder.jp/contests/abc118/submissions/4292284 AC, 時間外

D

なんかdfsでNを使い切る個数にして、大きい順に取れればいいかなと考えたが、時間内に解けず。

dp・・dpなのか。あとで見直そう。

https://img.atcoder.jp/abc118/editorial.pdf

*1:当然importは必要。atcoderのpythonは3.4なのでimport fractionsになる

2019-02-15

Sトレイン豊洲行きに乗った

もう無くなるので記念に乗ってみる pic.twitter.com/4rGJdiixzo
— しょうゆ@3/1前夜祭 (@shsub) February 13, 2019

3/16のダイヤ改正で、所沢発豊洲行きのSトレインが廃止されるので、記念に乗ってみました。(https://www.seiburailway.jp/news/news-release/2018/2019daiyakaisei.pdf)

所沢17:20発 - 飯田橋18:04着

・・えっと、前後の車両見ても、自分しか乗っていなかったです。途中で保谷からおじいさんが乗ってきましたが、なぜか後者できないはずの石神井公園で降りていきました。恐らく豊洲への送り込みの為に走らせてるんでしょうけども、完全に空気輸送です。

しかも早いかというとそうでもなく、

石神井公園で特急に抜かれる
練馬と小竹向原で運転停車する
有楽町線内は先行列車を抜きようがない

等の理由で遅いです。こりゃ廃止されるわ。

恐らく夕方下りのSトレインはまだ需要があると思うので、今後は上りは回送か普通列車として送るのでしょうか？

何をしたか

補足

参考

所感

ログ(メモ)

基調講演

Apache Hadoopの現在と未来

Hadoopの現在と未来

The Ozone Object Store

What makes Apache Spark

What's Next for Apache Spark 3.0

Cloud-Nativeなデータ分析基盤でのPrestoの活用

OASIS: SPARK

C会場 LT

Flink SQL Client

Sonnet の Impala

Sparkを使うためのApache Livy

Introduction to Apache Hivemall v0.5.2 and v0.6

1日100個以上のHadoopクラスターを使い捨てる方法 & Spark Streamingで全世界の混雑状況を20分ごとに集計

Deep Dive into Spark SQL with Advanced Performance Tuning

An Insider’s Guide to Maximizing Spark SQL Performance

Spark SQL の性能改善の取り組み

マルチテナント Hadoop クラスタのためのモニタリング Best Practice

おまけ

DataFrameとDatasetの内部をのぞいてみる

Hive/Spark/HBase on S3 & NFS -- HDFSを運用しない気軽Hadoop/Spark

Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ

スキーマレスカラムナフォーマット「Yosegi」で実現する スキーマの柔軟性と処理性能を両立したログ収集システム

HDFSにおけるサポータビリティ(保守性)の改善について

Arrow_FDW ~PostgreSQLで大量のログデータを処理するためのハードウェア最適化アプローチ

A:

B:

C:

D:

はじめに

はじめに

どうダメなのか

間違ってコミットしないようにするには

余談

A

B

C

D

1日100個以上のHadoop クラスターを使い捨てる方法 & Spark Streamingで全世界の混雑状況を20分ごとに集計

スキーマレスカラムナフォーマット「Yosegi」で実現するスキーマの柔軟性と処理性能を両立したログ収集システム