본문 바로가기

빅데이터 & 시스템5

Apache Spark에서 JDBC로 DB 연결 Apache Spark에서 JDBC를 사용하여 Oracle 데이터베이스에 접속하여 데이터를 조회하는 방법은 다음과 같습니다. 먼저, Oracle JDBC 드라이버를 다운로드해야 합니다. 공식 Oracle 웹사이트에서 다운로드 할 수 있습니다. 주소는 다음과 같습니다: https://www.oracle.com/database/technologies/appdev/jdbc-downloads.html 다운로드 받은 JAR 파일을 Spark 애플리케이션의 classpath에 추가해야 합니다. 다음은 코드 예제입니다. from pyspark.sql import SparkSession # Spark session 생성 spark = SparkSession.builder \ .appName("Oracle JDBC Ex.. 2023. 7. 19.
apache zeppelin 의 REST API 사용 파이썬을 활용해서 zeppelin 서버에 로그인하고 특정 노트북을 실행하려면 다음과 같은 코드를 작성할 수 있습니다. import requests import json def login_to_zeppelin(username, password, zeppelin_url): url = zeppelin_url + "/api/login" credentials = { "userName": username, "password": password } response = requests.post(url, data=json.dumps(credentials)) return response.cookies def run_notebook(note_id, zeppelin_url, cookies): url = zeppelin_url.. 2023. 7. 14.
regexp_extract 함수를 사용 방법 Apache Spark 나 Apache Hive에서 `regexp_extract` 함수를 사용하려면 다음과 같은 형식을 사용하세요 regexp_extract(column, 'regular_expression', group_index) 여기서: `column`은 정규식을 적용하려는 컬럼입니다. `regular_expression`은 적용할 정규식 패턴입니다. 주의해야 할 점은 문자열이므로 작은따옴표(')로 감싸줘야합니다. `group_index`는 정규식에서 추출하려는 그룹의 인덱스를 나타내며, 0부터 시작합니다. 예를 들어, 명령어로 시작하고 나열된 숫자 네 자리를 추출하려면 다음 쿼리를 사용할 수 있습니다. SELECT regexp_extract(example_column, '^[A-Za-z]([0-9.. 2023. 7. 10.
Apach Kudu의 제약 조건 Kudu 테이블의 Primary Key는 최대 3개까지만 지정 가능합니다. Primary Key는 반드시 하나 이상의 칼럼으로 구성되어야 합니다. Kudu 테이블의 하나의 칼럼은 1MB 이하로 저장될 수 있습니다. 칼럼 이름에는 "-" 및 "." 이외의 모든 특수 문자를 사용할 수 있습니다. Kudu 데이터형은 Boolean, Int8, Int16, Int32, Int64, Float, Double, String, Timestamp, Decimal, Binary 및 UNIXTIME_MICROS입니다. Kudu에는 Alter Table이 지원됩니다. 테이블에 새 칼럼 추가, 기존 칼럼 수정, 삭제 및 리네임이 가능합니다. 하지만 기존 칼럼의 데이터 형을 수정하는 것은 지원되지 않습니다. 추가적으로 Kudu.. 2023. 7. 7.